在過去多年里,碼農們花了大量的精力用預先架構的精妙算法來節(jié)省計算資源。而機器學習在一定程度上把這事攬了過去。通過機器學習,現在我們可以將大量的數據丟給電腦讓它自行計算,同時只占用很低的CPU和GPU。當然,真正做起來比這復雜很多,并且做好了不容易。但其結果將適用于一大類的識別——包括體感。
在開始機器學習之前,你首先要做的是收集大量的高質量數據。放在Kinect的例子就是數GB的深度標記的視頻,視頻中會有多名測試人員做出各種各樣的手勢、動作。然后這些視頻片段需要進行人工標記來說明哪個節(jié)點上測試人員做了什么動作,這個過程其實類似傳統的科研數據收集過程。最后這些人肉標記的數據被稱為“底層事實”——也就是識別過程所依照的標準。
同時你還要注意的一個問題是明確方向。微軟的團隊過去在做抓握動作識別時采用的是判斷手掌的形狀是開放的還是閉合的,但很長時間沒有什么進展;而Sol的團隊采用的方式是直接判斷抓握和松手的動作——這才是他們改善抓握動作界面的關鍵。

一旦你有了足夠多的標記數據,那下一步該是決定用數據的那些屬性(或者特性)來判斷一個手勢。這點做起來不僅是技術,而且是藝術——確實不容易把握。你用來做判斷的這些特性還要易于計算,比如Windows的Kinect團隊只有2毫秒的時間用于識別抓握的動作。
在這個動作的識別上,團隊最先采用的是計算距離掌心的像素數量(由骨架檢測子系統采集)作為機器學習算法的主要特性。但后來他們發(fā)現了比較麻煩的一點,手的位置不夠穩(wěn)定所以這一特性很難準確地捕捉到。為此他們不得不為此開發(fā)了輔助算法——考慮了多種手的位置以及識別過程中的位移??上н@個方法收效平平。
最后,Sol改用深度標志數據中,抓握或松手時圖像幀與幀之間的像素差異來判斷這一動作,也就是每個像素點較前一幀的變化都會參與共同決定動作的發(fā)生。>>>3D試衣鏡引領高科技時尚潮流



