研究人員稱,人類近期在語音識別和人工智能領域取得的突破將很快會大幅提升設備的理解能力。谷歌著名工程師約翰·沙爾克維克(Johan Schalkwyk)表示,只需一到兩年,這種性能強大的新型設備就會問世。它不僅能夠聽懂人們說話的意思,還明白上下文的關聯與細微差別。

技術突破

與數字語音助手聊天產生的樂趣大概就像你努力與一個頑固的孩子講道理一樣。如果你曾經對着你的Xbox大吼,或者咒罵Siri,那說明你可能已經對語音識別失望了。

沙爾克維克正在谷歌從事一項野心勃勃的研究項目,開發能夠整合公司海量數據的語音系統。他表示,目前正在實驗室測試的一個項目能夠使計算機聽懂並在本質上「思考」人們向谷歌設備輸入的語音。

語音和機器學習領域近期的創新應該會大幅提升語音識別的能力,緩解人們的不滿情緒。Siri開發團隊中有人表示,工程師們都在狂熱地開發語音識別技術,令其足夠智能,以實現設備與用戶真正地對話。「語音識別技術對所有地區口語的理解能力已取得長足的進步,」Siri底層礎技術的開發公司SRI International(後被蘋果收購)副總裁威廉·馬克(William Mark)稱,「這種對話式互動現在成為了一種前沿技術。」

蒂姆·圖特勒(Tim Tuttle)對語音識別技術的飛躍等待已久。他在1997年取得了麻省理工學院的博士學位,並在該校人工智能實驗室任職。過去10年,他先後在多家矽谷公司工作,並最終在2010年創建了自己的公司Expect Labs。圖特勒的公司去年開始從事一個系統研發,將複雜的語音指令加入到移動應用中。這款應用能夠允許用戶進入一家商店後向手機詢問要買的掃帚在哪一條貨架走道。

「一年前,我們做了一次基準測試,得出的結論是難以實現這一功能。但是現在,一切都已經發生了改變。我們公司對語音識別進行了加倍投資,主要得益於我們所看到的這些技術進步,」圖特勒表示,「你將發現,那些在準確率上與人相當、或比人更高的語音識別系統實現商業化。」

舊技術獲重生

先來迅速回顧一條歷史教訓:兩年半前,谷歌和多倫多大學的研究人員發表了一篇頗有影響力的論文,內容關於使用「深度神經網絡」在電腦中模擬語音。幾個月後,微軟和IBM合作發表了另外一篇論文。谷歌工程師傑夫·迪恩(Jeff Dean)將這兩篇論文稱之為「語音研究領域20年來取得的最大的一次進步」。

新發現讓一項問世數十年的數字神經網絡技術創新獲得了重生。該技術在上世紀80年代在預測和分析大數據方面表現優異,但發展受制於當時過慢的計算機速度。神經網絡在近期才成為一個可行的選擇,這要歸功於計算機處理速度的大幅提升和新軟件技術的發展。

谷歌的實驗室項目就是基於神經網絡研究。6個月前,谷歌團隊放棄了一種名為前饋神經網絡的舊方法,轉而使用遞歸神經網絡。這一轉換使得系統能夠存儲更多信息,處理更長、更複雜的序列。谷歌的創新成果在於對底層代碼的簡化,允許軟件在相同系統中存儲更多觀點和概念,使之易於問出複雜的問題和得出合理答案。「系統構建得複雜會損害其長期發展,」沙爾克維克說。

谷歌系統現在使用上下文、物理定位及其它了解到的說話者信息對談話的場所和真正含義進行預測,就像人在談話時大腦所做的一樣。谷歌的新網絡技術應該會更高效,從而能夠處理比以往更多的數據,回答更為複雜的請求。

為了解釋未來語音識別技術的工作原理,沙爾克維克使用了距離谷歌加州山景城總部幾英里之外的高級越南餐館作為例子。這家餐館名為Xanh Restaurant。沙爾克維克稱,對於典型的語音識別系統來說,識別出這個餐館名字的發音是個挑戰,因為Xanh的發音為「zahn」,識別起來十分困難。「如果我能使用地圖,然後說『這是一家餐館,它位於加州』,那麼可供參考的餐館數量就會立刻減少很多,」他說,「使用這種語義知識,我們能夠大幅改善語音識別的質量。」

這聽起來簡單,但對於計算機來說,聽到一個詞彙,從句子中識別上下文,然後根據地理位置分析信息是一件極為困難和耗費時間的事情。如今,谷歌語音搜索能夠正確識別餐館,也許就是因為其開發者是餐館老顧客的原因。沙爾克維克稱,未來谷歌將能處理其他同樣存在語音模糊不清的眾多問題。

沙爾克維克表示,在谷歌內部,語音識別取得了「數量空前多」的技術進步。儘管谷歌取得的重大進步還需要一到兩年時間才能在手機上體現出來,該項目已經催生出了可用於谷歌其他業務的技術。「你開發一些技術準備登月,與此同時,你也開發出了另外100項有用的技術,」沙爾克維克說。

沙爾克維克稱,三年前,谷歌語音識別技術或許僅能識別3/4的單詞。而如今,圖特勒稱,得益於創新速度的加快,谷歌手機語音識別應用能夠準確猜中12/13的單詞。「未來,我們將會生活在一個設備沒有鍵盤的世界里,」圖特勒說。

 


 消滅鍵盤:谷歌語音新設備兩年內面世