環(huán)球企業(yè)家:微笑有術(shù)

2011-01-26 12:05:04      徐冠群

  微笑有術(shù)

  10年前,索尼的機器數(shù)碼狗能辨認出主人?,F(xiàn)在,它的數(shù)碼相機能自動捕捉笑容。10年后呢?

  文 《環(huán)球企業(yè)家》記者 徐冠群

  想在人群擁擠的大型商場或車站渾水摸魚的人小心了:不久后,公共場所的監(jiān)控攝像頭將能自動識別并鎖定行為可疑者。開車的人則可更放心,車載識別系統(tǒng)能迅速發(fā)現(xiàn)出沒在行車路線前方的人,并采取措施避免相撞。馬虎的人也能生活得更容易,鑰匙和門卡將成為歷史,面孔就是最好的通行證。

  這些看似簡單卻尚未實現(xiàn)的未來,不屬于科幻電影,而屬于索尼研究院。它們的共同特征是涉及對人的面部和姿態(tài)的識別。索尼研究院的大型計算機通過統(tǒng)計、分析收集到的海量人臉數(shù)據(jù),從數(shù)以千萬計的樣本中找到人臉的共通特點。再將面部信息分解成各種特征元素集,構(gòu)建機器可識別的人臉特征量,通過大量數(shù)據(jù)演算以確定這是不是人臉。

  至少現(xiàn)在,索尼智能寵物AIBO機器狗已能從眾多面孔中識別出主人,像真正的寵物一樣只對他做出親密表示。從2007年開始,“人臉識別”和“微笑快門”成為索尼Cyber-shot數(shù)碼相機的新功能。

  當用戶用這種數(shù)碼相機取景時,相機自帶的人臉識別算法會以從左上角到右下角的順序?qū)φ麄€畫面進行全面掃描,并根據(jù)相機中存儲的標準人臉模板信息尋找與之匹配的圖形信息。這兩種功能不僅能識別出鏡頭中有幾張人臉、他們是否在笑,還能自動捕捉下笑容最燦爛時的畫面。此外,用戶還可以自行設(shè)置不同的歡笑程度,以及優(yōu)先捕捉大人還是孩子的笑容等。在已高度同質(zhì)化的數(shù)碼相機中,這些功能為Cyber-shot贏得很多好評。

  僅此而已還不足夠激動人心,畢竟由人來完成這樣的判斷只須瞥一眼,但這只是起點。索尼希望機器對人的識別能像人眼觀察一樣精準,這意味著機器能閱讀出你的喜怒哀樂和各種動作語言。再加上機器遠勝于人腦的信息存儲和運算能力—同時分辨數(shù)千人的表情和姿態(tài)時機器的效率和準確性遠勝于人,真正的革命才剛剛開始。

  實驗室進階

  索尼對機器識別人類的興趣可追溯至1999年,當時它推出機器狗“AIBO”。這個同時滿足了人們對機器人和寵物雙重愛好的產(chǎn)品能識別并追逐粉紅色的球體,但這顯然不夠。“我們希望AIBO至少能認出主人的臉,根據(jù)主人的行動有所反應(yīng),這樣才有更多更好的感情交流。”從事索尼人機交互技術(shù)開發(fā)的智能系統(tǒng)研究室高級研究員大久保厚志對《環(huán)球企業(yè)家》說。因此,從1999年開始,大久保和一個不到10人的團隊便為AIBO開發(fā)人臉識別技術(shù)。這一決定的更深層原因是,當時索尼研發(fā)的負責人相信未來會是機器人時代,屆時機器辨認人是一切創(chuàng)造的基礎(chǔ),索尼必須盡早開始累積相關(guān)技術(shù)。

  通常實驗室研究都始于不存在的理想環(huán)境,然后漸漸加入更多真實環(huán)境中的變量,由簡入難。但AIBO活動于非常復(fù)雜的家庭環(huán)境,需要識別的人臉不是以做電影特效時常用的藍幕或綠幕做背景,而是混雜于各種家具和物品中,同時還有逆光和背光的問題。而且,機器狗看人的角度是從下往上,這比平視的正面掃描識別更難。

  所以,從一開始,大久保及其同事就面臨諸多意想不到的難點。他們在實驗室中專門辟出一大塊空間,建了一個從燈光、裝修、布置等各種條件都和普通家庭一樣的模擬環(huán)境。這個仿真空間被稱為“驚訝小屋”,大久保們在其中做了大量實驗和數(shù)據(jù)采集工作。直到2003年,索尼的人臉檢測技術(shù)才真正在AIBO上取得比較完整的成功,它已經(jīng)能從許多不同面孔中識別出主人的樣貌。

  2006年索尼重組中為削減成本解散了AIBO團隊,但因它開發(fā)的人臉識別技術(shù)卻在研究院中延續(xù)下來。盡管初期研發(fā)非常困難,一旦成功,索尼就能輕易將這一技術(shù)用于手機和照相機等各種消費類數(shù)碼產(chǎn)品,因為最復(fù)雜的背景辨識問題一開始就已解決。在識別人臉的技術(shù)基礎(chǔ)上,索尼推出笑臉識別技術(shù)。目前,其Cyber-Shot數(shù)碼相機、PlayStation游戲主機和PSP手持游戲機等產(chǎn)品線上都有基于人臉識別技術(shù)的功能。比如,PlayStation 3上存放的照片可以自動按照嬰幼兒、年輕人、老年人等分類,也可按照有笑容、沒笑容等分類。

  一個技術(shù)成熟后,進階到下一步研發(fā)是最自然的選擇。2005年,索尼就開始思考,除了讓機器知道“這是人臉”,還要在遠處讓它們知道“這里有人”,并把人體識別從面部擴展到整個人的姿態(tài)。這一步中,索尼中國研究院扮演了重要角色。

  姿態(tài)識別的原理和人臉識別相同,都是在海量樣本基礎(chǔ)上以統(tǒng)計學分析和大型計算機運算建立標準,再將目標拆解成數(shù)據(jù)與標準核對。復(fù)雜之處在于,人的表情無論怎么變化,五官形狀和位置都相對固定,但整個人體不僅胖瘦、高矮等變量更多,單個人姿勢變化角度也更大。而且,在人流量大的公共場合等地,經(jīng)常出現(xiàn)人物彼此重疊的情況。當人的身體被遮擋,機器和算法就很難判斷這是不是人。

  更復(fù)雜的情況意味著索尼中國研究院需要采用更多技術(shù),開發(fā)出描述能力更強的模型。負責這一研究的索尼中國研究院研發(fā)部副總監(jiān)吳偉國博士對《環(huán)球企業(yè)家》表示,姿態(tài)識別中采用了描述能力更強的特征對人體進行檢測,即使是被遮擋的人體目標一旦出現(xiàn),就能被抓取出來,同時可以配合人臉識別技術(shù),對其進行全程追蹤和識別。

  辨別“人”與“非人”的索尼姿態(tài)識別技術(shù)最早于2009年在面向游戲開發(fā)者的大會CEDEC上發(fā)布。除了游戲,索尼還試圖將其用于安全防護領(lǐng)域。

  成為商品

  從人臉識別技術(shù)的研發(fā)不難看出,索尼研究院的應(yīng)用項目與其相關(guān)產(chǎn)品結(jié)合緊密。如果微軟的研究院樂于為某項技術(shù)發(fā)表一系列論文,索尼更愿意將這項技術(shù)用于它的數(shù)碼相機等消費電子產(chǎn)品上。

  即便如此,大久保仍然認為人臉識別中最困難的不是技術(shù)問題,而是說服產(chǎn)品部門接受他們的技術(shù)。2003年在AIBO上取得全面成功后,他們就希望將這一技術(shù)推廣到索尼其他產(chǎn)品,但到2005年索尼DVD錄像機首次采用人臉識別,已是兩年之后。

  大久保對《環(huán)球企業(yè)家》回憶道,其他部門也承認他們的技術(shù)很酷,卻不知道應(yīng)該怎么用到自己的產(chǎn)品里。雙方認知的落差之一在于,產(chǎn)品事業(yè)部對于識別技術(shù)最自然的聯(lián)想是應(yīng)該達到相當高的精度,而不只是機器狗辨認出主人而已。“但當時技術(shù)做不到太高精度,更多考慮是如何識別出目標。不用太高精度就可以為消費者提供更有趣的娛樂方式,這有一定的容錯率。”大久保說道。

  事實證明這種意見的正確。在將人臉識別技術(shù)運用于PlayStation 3時,因為未達100%精確度,索尼擔心消費者負面反饋而沒有在宣傳和介紹時提及這一技術(shù),只將其作為智能幻燈片的功能之一,比如可將某個人的照片自動識別出來集中播放。但出乎意料的是,消費者認為這一功能識別非常準確,甚至有人把識別的照片做成短片放在YouTube上。

  此外,技術(shù)應(yīng)用于產(chǎn)品時,追求的不是單純的性能優(yōu)越,必須同時考慮實現(xiàn)性能所需的各種“成本”,比如需要消耗的內(nèi)存容量、計算能力、電量和新增的生產(chǎn)成本等。DVD錄像機和數(shù)碼相機這樣的小型數(shù)碼產(chǎn)品的存儲和運算條件遠不如實驗室里的超級計算機。如果只是為了增加一項有趣的笑臉識別功能而使Cyber-shot數(shù)碼相機變得反應(yīng)遲緩、耗電量增加,當然得不償失。

  因此,大久保等人需要從大量的識別特征量中挑選出既能準確識別,又不會占用過多資源的那些。其中最大的挑戰(zhàn)是2007年人臉識別應(yīng)用于索尼愛立信手機上時。受限于體積、手機的運算能力和電池容量都比其他電子產(chǎn)品更小,只要裝載過大的應(yīng)用程序,就可能運行緩慢。為此,索尼研發(fā)團隊放棄了能帶來更好識別精確度卻很消耗運算能力的浮點運算,盡可能以整數(shù)運算建立算法模型。

  在經(jīng)歷種種波折后,現(xiàn)在人臉識別技術(shù)已經(jīng)成為索尼眾多產(chǎn)品必備功能之一。頗為明顯的轉(zhuǎn)變是,2003年索尼剛開始“推銷”人臉識別技術(shù)時,大久保等需要不斷與各個產(chǎn)品事業(yè)部反復(fù)溝通,講述使用這個技術(shù)的好處?,F(xiàn)在,他們已擺脫推銷員的身份,越來越多的產(chǎn)品在一開始的醞釀和設(shè)計時,就會主動考慮怎么樣將人臉識別功能融合進來,并且做得更有趣。

相關(guān)閱讀