HoloLens與微軟認(rèn)知服務(wù)結(jié)合的場(chǎng)景設(shè)想及解析

接下來從場(chǎng)景出發(fā),探討HoloLens結(jié)合認(rèn)知服務(wù)可以如何在業(yè)務(wù)場(chǎng)景中發(fā)揮優(yōu)勢(shì),并給出實(shí)現(xiàn)難度評(píng)級(jí),然后提出予力眾生的設(shè)想和思路。

場(chǎng)景一:借助HoloLens提升客艙服務(wù)質(zhì)量

新聞報(bào)道:

“近日某航空公司宣布,他們正在討論嘗試將HoloLens用于機(jī)上服務(wù)。在該航空公司描述的系統(tǒng)中,佩戴著HoloLens的空乘人員將能通過人臉識(shí)別技術(shù)識(shí)別出乘客,檢索出他們的國籍、目的地、身體情況、過敏史,甚至他們最后一次要飲品的時(shí)間間隔。除此之外,該項(xiàng)目還希望通過視覺和音頻線索探測(cè)出乘客的情緒。空乘人員可以看到乘客的情緒由平靜變得焦慮,繼而恢復(fù)平靜。從長(zhǎng)期來看,對(duì)于那些在來回走動(dòng)而且雙手不空閑的空中服務(wù)人員來說,增強(qiáng)現(xiàn)實(shí)頭顯是他們查看信息的一個(gè)好的工具?!?/p>

客艙服務(wù)的挑戰(zhàn):

個(gè)性化,飛行中往往需要服務(wù)乘客的各種個(gè)性化需求,需要準(zhǔn)確及時(shí)查詢客戶的信息

特殊情況,不可避免,需要及時(shí)了解乘客的情緒波動(dòng),預(yù)警可能發(fā)生的特殊情況

MR+AI解決方案:

1. 通過HoloLens結(jié)合圖像識(shí)別技術(shù)識(shí)別乘客的身份(人臉API)

2. 識(shí)別乘客的情緒(情緒API)

3. 為乘客提供更優(yōu)質(zhì)服務(wù)的同時(shí)解放雙手(Heads up, hands free特性)

可落地難度總體評(píng)估:

第2和3點(diǎn)易于實(shí)現(xiàn),難度較低;第1點(diǎn)需要預(yù)先訓(xùn)練再使用面部識(shí)別,難度適中。

擴(kuò)展方案思路:

A. 結(jié)合HoloLens的空間記錄存儲(chǔ)乘客對(duì)應(yīng)位置信息(Spatial awareness特性)

B. 結(jié)合認(rèn)知服務(wù)提供多種語音翻譯(翻譯工具語音API)方便與乘客交流

C. 通過語音指令(必應(yīng)語音API、語言理解智能服務(wù)LUIS、知識(shí)探索服務(wù)API)搜索特定的信息

D. 預(yù)測(cè)客戶需求并給出智能的推薦和決策(自定義決策服務(wù))

該場(chǎng)景可落地難度總體評(píng)估:

A. 需要將身份信息與空間信息對(duì)應(yīng),難度適中;B. 實(shí)現(xiàn)難度較低,但提高翻譯準(zhǔn)確度難度較大;C. 易于實(shí)現(xiàn),難度較低;D. 需要足夠的上下文數(shù)據(jù),難度適中。

場(chǎng)景二:為所有人設(shè)計(jì)的MR體驗(yàn)

予力眾生:

我們需要思考讓混合現(xiàn)實(shí)為所有人帶來便利,通過將HoloLens與AI結(jié)合,可以有很大可能更好地解決不同的人在使用HoloLens時(shí)的難點(diǎn)。

MR+AI解決方案:

1. 對(duì)于不便于用手勢(shì)、不方便看的人,可以結(jié)合語音和語言服務(wù)利用語音和HoloLens交互(必應(yīng)語音API、語言理解智能服務(wù)LUIS)

2. 對(duì)于不方便聽和說的人,可以結(jié)合語言服務(wù)(語言理解智能服務(wù)LUIS)準(zhǔn)確識(shí)別出意圖后利用視覺圖像反饋與之進(jìn)行交互

可落地難度總體評(píng)估:

第1點(diǎn)易于實(shí)現(xiàn),難度較低;第2點(diǎn)需要考慮如何快速進(jìn)行文字輸入,需要視覺反饋準(zhǔn)確反映意圖,總體難度適中。

HoloLens與微軟認(rèn)知服務(wù)結(jié)合的實(shí)戰(zhàn)示例

實(shí)戰(zhàn)一:Intelligent Bot in HoloLens

目標(biāo)

使用認(rèn)知服務(wù)的Bing語音API, 語言理解智能服務(wù)LUIS以及Bot Framework實(shí)現(xiàn)在HoloLens應(yīng)用內(nèi)的中文語音交互問答。

關(guān)鍵技術(shù)包括:

  • 語音處理:使用Bing語音API的語音到文本轉(zhuǎn)換、文本到語音轉(zhuǎn)換功能
  • Bot框架:使用Direct Line通道傳輸問答數(shù)據(jù)
  • 語言理解:使用語言理解智能服務(wù)自定義語言模型(包括構(gòu)造目的/實(shí)體)

應(yīng)用架構(gòu)如下:

遇到的問題和挑戰(zhàn):

錄音的啟動(dòng)停止是重要的環(huán)節(jié),處理不好將會(huì)影響體驗(yàn),最簡(jiǎn)單的方式是手動(dòng)點(diǎn)擊開始,點(diǎn)擊停止,但在HoloLens上做頻繁的Air tap操作會(huì)增加操作的復(fù)雜度,我們后來改成了設(shè)定固定時(shí)長(zhǎng),但是這樣會(huì)有兩個(gè)問題,一是有可能還沒說完就停止采集,二是在問話簡(jiǎn)短的時(shí)候仍會(huì)增加需要傳輸?shù)腤av文件的大小,增加傳輸延遲。

解決方法:

在采集時(shí)判斷是否有顯著的幅度升高,即為錄音開始,在達(dá)到一定的低閾值條件后,即判斷為靜音,結(jié)束錄制。

實(shí)戰(zhàn)二:Custom Vision in HoloLens

目標(biāo):

使用HoloLens拍攝照片后調(diào)用認(rèn)知服務(wù)的自定義影像服務(wù)Custom Vision API實(shí)現(xiàn)畫作識(shí)別,判斷出是哪位畫家的作品,并結(jié)合Bing Search實(shí)現(xiàn)相關(guān)作品搜索功能。

關(guān)鍵技術(shù)包括:

  • 圖片訓(xùn)練:在自定義影像服務(wù)中進(jìn)行圖片標(biāo)記、訓(xùn)練、迭代和訓(xùn)練集預(yù)測(cè)
  • 獲取圖片:使用HoloLens內(nèi)置Camera拍照
  • 搜索信息:使用必應(yīng)圖片搜索API獲得更多相關(guān)信息

應(yīng)用架構(gòu)如下:

Custom Vision in HoloLens

遇到的問題和挑戰(zhàn):

在自定義影像服務(wù)中訓(xùn)練模型比較容易,但最終畫作的識(shí)別率依賴于HoloLens拍攝的照片質(zhì)量,尤其是其中要識(shí)別的目標(biāo)物體在整張照片中的比例,盡管我們可以在拍照時(shí)貼近畫作使其在圖片中占比較大,但是HoloLens仍會(huì)將多余的場(chǎng)景攝入。

解決方法:

我們加入了裁剪功能,可以在拍攝完成后根據(jù)實(shí)際情況使用拖拽手勢(shì)進(jìn)行關(guān)鍵部分裁剪,并將處理后的圖片用作識(shí)別,識(shí)別準(zhǔn)確率大大提升。