還記得今年2月份(MWC2019)上微軟發(fā)布新品HoloLens2時(shí)展示的虛擬彈鋼琴的功能嗎,該項(xiàng)技術(shù)實(shí)現(xiàn)了單手關(guān)節(jié)25個(gè)立體坐標(biāo)精準(zhǔn)識(shí)別,在技術(shù)圈轟動(dòng)一時(shí)。
互動(dòng)2.gif)
8月20日谷歌也發(fā)布全新的手勢(shì)識(shí)別技術(shù),該技術(shù)集成于開源跨平臺(tái)框架MediaPipe(可為多種類型的感知數(shù)據(jù)構(gòu)建處理流程),特點(diǎn)是采用機(jī)器學(xué)習(xí)技術(shù),支持高準(zhǔn)確性手勢(shì)和五指追蹤,可根據(jù)一幀圖像推斷出單手的21個(gè)立體節(jié)點(diǎn)。與目前市面上較先進(jìn)的手勢(shì)識(shí)別技術(shù)相比,不需要依賴臺(tái)式機(jī)來計(jì)算,而是在手機(jī)上就能進(jìn)行實(shí)時(shí)追蹤,并且還能同時(shí)追蹤多只手,可識(shí)別遮擋。
布全新手勢(shì)識(shí)別技術(shù).png)
據(jù)稱,該手勢(shì)識(shí)別技術(shù)可形成對(duì)基礎(chǔ)手語的理解,以及對(duì)手勢(shì)操控的支持,還可用于AR。而為了訓(xùn)練識(shí)別手勢(shì)的機(jī)器學(xué)習(xí)算法,谷歌采用了一個(gè)由3個(gè)模型組成的框架,包括:手掌識(shí)別模型BlazePalm(用于識(shí)別手的整體框架和方向)、Landmark模型(識(shí)別立體手部節(jié)點(diǎn))、手勢(shì)識(shí)別模型(將識(shí)別到的節(jié)點(diǎn)分類成一系列手勢(shì))。其中BlazePalm可為L(zhǎng)andmark模型提供準(zhǔn)確建材的手掌圖像,這大大降低了對(duì)旋轉(zhuǎn)、轉(zhuǎn)化和縮放等數(shù)據(jù)增強(qiáng)方式的依賴,讓算法將更多計(jì)算能力用在提高預(yù)測(cè)準(zhǔn)確性上。
BlazePalm:這是一個(gè)可識(shí)別單幀圖像的模型,主要用于識(shí)別手掌初始位置,與用于識(shí)別面部的BlazeFace模型相似,都對(duì)移動(dòng)端的實(shí)時(shí)識(shí)別進(jìn)行了優(yōu)化。BlazePalm可識(shí)別多種不同手掌大小,具備較大的縮放范圍(~20倍),還能識(shí)別手部遮擋,并且能通過對(duì)手臂、軀干或個(gè)人特征等的識(shí)別來準(zhǔn)確定位手部,彌補(bǔ)手部對(duì)于高對(duì)比度紋理特征的缺失。在經(jīng)過訓(xùn)練后,BlazePalm對(duì)于手掌識(shí)別的準(zhǔn)確率可達(dá)95.7%。
別.gif)
Landmark模型:這一模型根據(jù)回歸的方式,在BlazePalm識(shí)別到的手掌范圍內(nèi)可識(shí)別到21個(gè)立體節(jié)點(diǎn)坐標(biāo),它的識(shí)別效果足夠好,甚至可以識(shí)別部分可見或自我遮擋的手部。為了訓(xùn)練Landmark模型,谷歌還在真實(shí)數(shù)據(jù)中混合額外的人工合成手掌模型數(shù)據(jù)。在經(jīng)過訓(xùn)練后,算法的平均回歸誤差可降低到13.4%。
手勢(shì)識(shí)別模型:該算法模型可根據(jù)關(guān)節(jié)的的角度識(shí)別每根手指的狀態(tài),如:彎曲或伸直。接著,它會(huì)將每根手指的狀態(tài)映射到的預(yù)定義的手勢(shì)上,并通過這種方法來預(yù)測(cè)基礎(chǔ)的靜態(tài)手勢(shì)。據(jù)悉,谷歌現(xiàn)有的預(yù)定義手勢(shì)包括美國(guó)、歐洲和中國(guó)三個(gè)國(guó)家的不同數(shù)數(shù)手勢(shì),以及豎大拇指、握拳、OK、“蜘蛛俠”等手勢(shì)。
目前,谷歌的這款全新手勢(shì)識(shí)別算法將通過MediaPipe框架進(jìn)行開源,并希望通過這種方法讓研究人員和開發(fā)者創(chuàng)作出有創(chuàng)意的應(yīng)用場(chǎng)景和研究途徑。而接下來,谷歌將繼續(xù)提高這項(xiàng)手勢(shì)識(shí)別技術(shù),增加可識(shí)別的手勢(shì),并將增加對(duì)動(dòng)態(tài)手勢(shì)的識(shí)別。