本文原載Medium,作者Steven Levy,由機器之心翻譯,微信公眾號:機器之心(Almosthuman2014)。

 

Geoffrey Hiton說:「我需要了解一下你的背景,你有理科學位嗎?」

Hiton站在位於加利福尼亞山景城谷歌園區辦公室的一塊白板前,2013年他以傑出研究者身份加入這家公司。Hiton也許是全世界研究神經網絡系統最早的專家,在上世紀80年代中期,他就是人工智能技術的先驅(他提到在16歲時就開始思考神經網絡)。自那時起,以模擬人腦為原理的神經網絡被認為是一種在處理計算機視覺和自然語言等棘手問題方面很有前途的方法。但漸漸有人失去了等待的耐心,人們開始質疑是否應該繼續下去。

Geoff Hinton. Photo: Michelle Siu/Backchannel

 

大約十年前,在多倫多大學Hinton的實驗室,他和其他研究者取得了一項突破性進展,突然使神經網絡成為人工智能領域最熱門的話題。不僅是谷歌,還有一些其他公司,比如Facebook、Microsoft和IBM都開始瘋狂追求這個領域中為數不多的科學家,他們精通於建立多層模擬神經元結構以使整個系統能夠被訓練,或者進行自我訓練,然後來預測隨機輸入值的相關性。

這更像是一個嬰兒,他學着對那些湧入到其初始感官的數據進行組織。這種新的、有效的處理方式被稱作深度學習,一些長期計算難題(比如說計算機「觀看」和「聽到」的能力等)得以解決。我們翹首期盼的擁有智能的計算機系統突然出現在我們面前,此後谷歌搜索將會變得更加好用。

深度學習的突破對谷歌搜索的下一次跨越式發展極其關鍵:理解真實世界,在為用戶提供準確答案和信息方面向前邁出一大步。為保持搜索的活力,谷歌必須變得更加聰明。

這正中谷歌下懷。在公司早些年,創始人就認定谷歌是一家人工智能公司。它不僅將人工智能用於搜索——儘管它的搜索引擎與人工智能正相關——還用於廣告系統、自動駕駛汽車,以及將納米顆粒注入人體血管來進行早期疾病監測的計劃中。正如Larry Page在2002年告訴我的:

「我們不總是生產人們想要的東西,這才是我們工作的難點所在。要實現這個目標,你必須足夠聰明,你要了解世界萬物,你必須懂得去質疑。我們正在嘗試的就是人工智能——最終搜索引擎會很聰明,因此,我們正在努力接近這個目標。」

當Geoffrey Hiton實現這個突破時,谷歌已經做好準備走上這條道路。多年以來,公司一直通過使用機器學習這種更傳統的方式來使搜索引擎變得更加強大,而且在這方面遙遙領先。

曾經有幾年,公司雇傭了一群人工智能工程師和科學家,他們使搜索引擎像synonyms一樣學習。當數百萬用戶用到一個可以進行替換的詞語(比如,dog和puppy)時,谷歌能迅速利用知識來更好的理解問題。當谷歌承擔網站翻譯工作時,它的科學家們會將儲備的大量翻譯過的文檔和來源放入系統。這樣,谷歌搜索引擎就「學會」了如何將一種語言匹配到另一種。

 

深度學習被視為能夠超越那些更加直接的機器學習的關鍵一步

深度學習的追隨者聲稱它基於人腦結構,之前基於計算機特性實現智能幾乎是不可能的——至少非常難,但深度學習為其提供了可能,這就是為什麼Hinton的突破會對谷歌如此重要,對於其他有搜索或類似業務的公司也是如此。過去幾年,谷歌一直努力將搜索引擎塑造成吸引討論的話題。但真正使計算機獲得初級的、人類般的智能還是需要對人工智能的前沿研究進行擴展,深度學習就是這樣一個能夠完成這項任務的當下最流行的工具。

神經網絡是對生物上大腦學習方式進行建模。當你嘗試進行一個新任務時,一系列特定的神經元集合會被激活。你觀察到結果,接下來利用反饋來調整哪些神經元應該被激活,以此來訓練大腦。多次之後,一些神經元之間的聯繫將變強而另外一些則變弱,這就形成了記憶的基礎。

模擬神經網絡以編碼方式在本質上複製了這一過程。但比起複制人腦複雜的神經元結構,模擬神經網絡更小,神經元也是整齊的分層排列。第一層(或者最初基層)是特徵探測,一種人類感官的計算形態。當計算機將數據輸入到神經網絡——比如說圖像、語言或文本文件的數據庫——系統通過檢測其中的特徵值來進行學習。例如,如果任務是識別垃圾郵件,神經網絡研究者可能會將許多信息輸入到系統,同時貼上「垃圾郵件」及「非垃圾郵件」標籤。神經網絡將自動察覺到一些單詞的複雜特徵、模式,以及能夠確定該郵件是否為垃圾郵件的標題信息。

在早期神經網絡實驗中,計算機不能自己設計特徵,因此這些特徵需要人工添加。Hinton的開創性貢獻是開發了一種被稱作「Back Propagation(反向傳播算法)」的技術,這是一種反饋機制,它允許系統更加有效的從錯誤中學習以及自己定義特徵。「追溯到1986年,我們首次開發出Back Propagation算法,我們因其能學習到多層的特徵探測而感到興奮,我們認為我們解決了這個問題。」 Hinton說,「但在解決實際問題中卻沒有出現大的突破,這非常令人失望,我們完全猜錯了需要的計算資源和標記案例數量。」

但是,即使多年來許多研究員不再信仰神經網絡,但Hinton依然強烈感覺到它們會有實用價值。1995年,他和他的學生嘗試着放棄手動添加標籤,至少是學習過程的早期階段,這項技術被稱作「unsupervised pre-training」,是指該系統可以計算出如何自行組織輸入值。但Hinton說完成這項工作的核心是數學技巧,一種節約計算時間的近似法,當信息通過各層神經元時將會引發更多次迭代來改善網絡。如經常遇到的,速度能夠變化,這使得之前神經網絡無法完成的「學習」行為成為可能。就像是一個人突然冷靜下來說,我能用10分鐘完成5個小時的滑雪練習。

伴隨着無監控學習的出現,人類專家只需要在更加後面的階段對機器進行干預,他們是為更想要的結果添加標籤併為成功的結果提供獎勵。Hinton說:「想象一下小孩子,當他們學着辨認牛時,並不需要去看幾百萬張媽媽們標記上『牛』的圖片,他們僅僅是學習牛的樣子,然後問到:『這是什麼?』 媽媽會說:『這是一頭牛』,他們就學會了。深度學習就類似於這樣。

等到Hinton團隊對這一模型進行測試時,他們恰好受益於神經網絡初創時尚不具備的條件——超高速圖形處理器(GPU)。儘管這些芯片設計之初是用於推導高級圖像的計算公式,但它們也非常適用於神經網絡的計算需求。Hinton為實驗室購置了一堆圖形處理器,讓兩個學生來操作該系統。他們進行了一項測試來觀察是否能讓神經網絡識別講話中的音素。這自然是許多科技公司——當然,也包括谷歌——試圖掌握的技術。因為語音會成為即將到來的移動時代的輸入方式,電腦必須學會更好地傾聽。

Geoff Hinton. Photo: Michelle Siu/Backchannel

 

系統表現如何呢?

「他們取得了令人激動的結果,」 辛頓表示,「最初結果幾乎和當時技術一樣出色,而後者已經調試發展了近30年,很顯然,如果在最開始嘗試中我們取得那麼好的結果,我們最終的結果會更好。」 在接下來幾年中,Hinton團隊進行了更多嚴肅的嘗試。等到結果發布時,Hinton稱系統已經能與現存商用模型的最佳表現比肩。「關鍵是,這是實驗室兩個學生做出來的。」他說。

 

深度學習就此誕生

2007年,項目進行過程中,Hinton在山景城進行了關於深度學習的谷歌技術演講,極客們踴躍出席,這一演講在YouTube上也大受歡迎。這有助於傳播這樣的理念,即神經網絡將成為一個強大工具。這還掀起了一波爭先恐後雇傭該領域技術專家的浪潮。Hinton的學生去了IBM、微軟,當然還有谷歌。這可是攻堅該領域的四大公司中的三家(還有一家是Nuance,它是蘋果的技術供應商)。

所有人都能自由使用Hinton實驗室的成果用以完善各自系統。「我們基本上對此毫無保留,因為我們着眼于證明我們技術的優勢。」 Hinton表示,「有趣的是,微軟研究院和IBM先於谷歌得到這項技術,但是在將技術轉變成產品方面谷歌卻比任何人都迅速。」

Hinton的加入只是谷歌那一季一系列重大聘任之一。就在幾個月前,人工智能的樂觀主義哲學家Ray Kurzweil剛剛加入包括Peter Norvig(編寫了人工智能課程的標準教科書)、Sebastian Thrun (自動駕駛汽車的主要發明者)等人工智能傳奇人物在內的團隊。

當下谷歌醉心於深度學習,顯然是認為這將引發下一代搜索的重大突破。移動計算的出現已經迫使谷歌改變搜索引擎的本質特徵。為了更進一步,它必須採取和人類認知世界相一致的方式——當然另一方面也要執行知曉世間一切並且在不到半秒鐘找到這些的非凡任務。所以, Jeff Dean參與進來是遲早的事情。

 

建立「谷歌大腦」

Dean是谷歌的傳奇人物。早在1999年加入谷歌時,他在計算機科學圈子裡就已經聲名遠揚,聘任Dean是谷歌的一個裡程碑,彼時谷歌還是個員工只有兩位數相對默默無聞的互聯網公司。在接下來的幾年裡,Dean成為構建谷歌軟件基礎構架的領軍人物。在這一過程中,Dean粉們組建了一個極客團體,他們用惡搞來表達對Dean耀眼才華的崇敬,叫「關於 Jeff Dean的真相」。其中大多數都涉及超級極客的編碼奧秘,但也有些相對容易理解的,比如:

Jeff Dean能在四子連珠中打敗你。只需要三步。

某天 Jeff Dean出門時誤將Etch-a-Sketch(一種畫板,使用者通過控制兩個旋鈕來控制畫筆在畫板上的移動)當做筆記本電腦了。在他回家取筆記本電腦的路上,他對畫板進行了編程用其來玩俄羅斯方塊。

Jeff Dean仍在等待數學家們解開他藏在數字π中的笑話。

現年46歲的Dean早已知曉神經網絡,他在本科論文項目就曾應用過它。然而在隨後的幾年,他和大部分同行得出了相似的結論:神經網絡的黃金時期尚未到來。「神經網絡前途無量,但因為我們尚沒有足夠的計算能力使其一鳴驚人,神經網絡一度銷聲匿跡。" Dean說到。

不過在2011年,Jeff Dean在谷歌一間茶水間遇見了吳恩達(Andrew Ng)。吳恩達是斯坦福的人工智能教授,人工智能領域的巨擘,他每周會花上一天時間呆在這家搜索引擎公司。Dean問吳恩達在忙些什麼,吳恩達的回答令他大吃一驚——「我們在試圖訓練神經網絡」。吳恩達告訴Dean,風頭已變,伴隨着深度學習領域的突破,神經網絡表現頗佳,如果谷歌能掌握訓練大型網絡的技巧,會發生奇跡。

Jeff Dean. Photo: Talia Herman/Backchannel

Dean認為這聽上去很有意思,在「涉足」六個月后開始相信,建立一個龐大神經網絡系統能夠很快取得實質性成果。因此他和吳恩達將其變成了一個獨立項目。(吳恩達已經離開谷歌,就在最近加入了百度,以發展中國搜索引擎領導者——百度自己的人工智能項目。)

大約用了一年時間,該項目俗稱為「谷歌大腦」,立項于Google X——谷歌公司高瞻遠矚的研究部門。「這是我們內部開玩笑的叫法,我們盡量不這麼對外宣稱,畢竟聽起來有點奇怪」,Dean說。2012年,研究積累了一定成果后,項目組走出了純試驗部門——Google X ,轉移到搜索部門。項目組也開始避免使用「大腦」一詞。在對外宣傳中,他們更青睞「谷歌深度學習項目」這個名字,雖然這個名稱聽起來沒有「大腦」有深意,但這也不太可能導致有人在Googleplex(谷歌總部)門前示威抗議。

Dean表示,項目組最開始嘗試的是無監督學習(unsupervised learning),因為「這個世界上監控外的數據遠多於監控下的數據」。這反映在Dean項目組的第一篇論文中,在這項實驗中谷歌大腦(覆蓋了1.6萬多個微處理器,創建了一個有數十億連接的神經網絡)觀看了千萬數量級的YouTube圖像,以試圖觀察該系統能否學會將其所見到的定義出來。沒有發生意外,有賴於YouTube的內容,該系統自發辨識出了貓,並且相當擅長於許多普通用戶通常會做的事情——搜索貓科動物明星的視頻。「在訓練中,我們從未告訴它(谷歌大腦)『這是一隻貓』」,Dean告訴《紐約時報》,「基本上可以說,它發明了貓這個概念。」

而這隻是觀察系統能做些什麼的測試之一。很快,深度學習項目組建了一個更加強大的神經網絡,並且開始承擔類似語音識別的任務。「我們的研究項目集合相當棒,在一些中短期項目中,系統對事物的超凡理解能力能迅速提升產品性能。還有一些中長期目標,對此我們腦海里沒有一個具體的產品,但是我們知道這些將會非常有用。」

在我訪談Dean后不久,一個例子就出現了,4位谷歌深度學習科學家發表了一篇名為《展示與講述》的論文。這不僅標志著一個科學突破,更催生了谷歌搜索旗下的一個應用。這篇論文介紹了「神經圖片標題生成器」(neural image caption generator,NIC ),旨在沒有人類介入的情況下為圖片列示標題。可以說這個系統充當了報紙的圖片編輯。這是一項包含視覺和語言的大型實驗。這個系統的非凡之處在於,它將可視化圖片的學習系統建立在能夠用自然語言造句的神經網絡基礎之上。

沒有人會說這個系統已經擁有了優於人類的照片分類能力。事實上,如果雇一個基於該神經網絡的人為照片寫標題的話,這個網絡新手可能都堅持不到午餐時間。可是這個系統在機器上卻運行的出奇出色。其中一些無比準確的例子包括:一群正在玩飛盤遊戲的年輕人;一個正在泥濘路上騎着摩托的人;一群正穿過乾旱草地的大象。系統可以對飛盤、馬路和一群大象生成自己的概念,這足以令人印象深刻。所以,當這個系統錯把極限運動的單車騎士當成滑板者;或者錯把淡黃色的跑車認成了校車,也是無可厚非的。畢竟這個系統還處於認識繁雜世界的萌芽期。

這隻是「谷歌大腦」的起始階段,Dean不打算對外宣稱說谷歌已經擁有了世界上最大的神經網絡系統,但是他承認,這是他所知道的這個領域裡面的領先者。

 

遊戲、神經科學和圖靈機

Hinton的被雇傭以及Dean的聰明才智是公司推進深度學習的重要舉措之一,而其中最重要的非2013年穀歌花費4億美元收購Deepmind莫屬,這是一家倫敦的人工智能公司。基於對大腦的深度研究,這家公司對於深度學習有着自己的獨到見解。谷歌擊敗了它的主要競爭對手完成此次收購。正如谷歌當年花17億美元買下YouTube,和曾經花5000萬美元買下羽翼未豐的開源移動操作系統安卓,我們有充分理由相信Deepmind是谷歌撿的另一個大便宜。

CEO和創始人之一的Demis Hassabis是一個滿頭黑髮,矮小結實的38歲男人。思路敏捷,語速之快就像播客以兩倍速快進播放。「我整個事業都是在為人工智能做準備和鋪墊,」他在倫敦市中心高聳的總部大樓里休息時說到,總部大樓坐落在St Pancras火車站旁。Deepmind剛剛從Bloomsbury的一幢不起眼的寫字樓入駐這棟新大樓。這棟大樓之不尋常是因為它挨着一家老醫院的副樓而建,有點時空穿越的不和諧感。大樓里的會議廳都是以一些著名哲學家、作家和畫家命名,因為這些他們代表着是人類智慧的巨大飛躍,比如達芬奇、哥德爾、瑪麗 雪萊。

這個團隊最近開始接手兩家由Deepmind收購的以牛津大學作為實驗基地的公司。一個是Dark Blue Labs,運用深度學習來解決自然語言理解問題;另一家是Vision Factory,開發物體識別技術。

Hassabis 在14歲時就是個狂熱的電腦遊戲程序設計者,同時也是象棋天才,師從遊戲大師Peter Molyneux,在《黑與白》和《主題公園》里程碑作品中起到了重要作用。隨後在二十幾歲時開始運營自己的遊戲公司,有大約60名員工。但是他說遊戲是一種達到目的的方式,而這個目的是一個擁有通用智能的人工智能機器的發展。直到2004年,他覺得他已經把遊戲智能做到極致了,可是建立人工智能公司還是有些操之過急,因為他所需要的計算能力既不充足,也不划算。所以他在英國倫敦大學學院修了一個認知神經科學的博士學位。

2007年,有一篇關於記憶神經基礎的論文被《Science》評為年度十大突破之一,他是作者之一。他成為倫敦大學學院Gatsby Computational Neuroscience Unit的一員,並與UCL,MIT和Harvard展開合作。但在2010年,他覺得是時候成立一個做高級人工智能的公司了,他和蓋茨比計算神經科學組的同事Shane Legg以及19歲就從劍橋輟學的連續創業家Mustafa Suleyman一起着手創立。投資者還包括Peter Theil的Founders Fund和Elon Musk(他對後來對人工智能的不足表示過擔憂),Geoffrey Hinton也是顧問之一。

DeepMind一直秘密運行,在谷歌收購之前只有一次公開的結果發布。這足以引發一場炒作狂潮,同時也伴隨着一些無知的嘲笑。論文表述了DeepMind在通過被動訓練神經網絡來玩Atari遊戲方面的成功。神經網絡系統通過自身深度學習來學習遊戲規則——系統直接嘗試百萬遍Pong, Space Invaders, Beam Rider和其他經典遊戲,通過自學達到甚至超越了一個精通遊戲的青少年。更有趣的是,它許多成功的策略都是人類無法想象的。「這就是此類技術的一個特殊潛能,」 Hassabis說,「我們灌輸給它一種能力使它像人類一樣從經驗中自我學習,因此,它就能自行處理那些我們都不知道該如何編程的事情。看到它想出了程序之外的Atari遊戲的新策略,這非常令人激動。」

這朝着Hassabis的偉大目標又前進了一小步,他想象中的模擬大腦不僅知道大量事實,還知道接下來該怎麼做。

DeepMind絕不滿足於開發一種只能應用在有限領域的工具,就像Atari遊戲、通勤或者處理約會。他們想創造一種通行的人工智能機器,可以隨時隨地處理信息,並將每件事情都完成的非常漂亮。「我們現在所研究的通行人工智能是指將非結構化信息轉化成有用的、可行動的知識,」 他說,「我們有模板——人類大腦。我們會系鞋帶、騎單車、會處理建築的物理學問題。所以我們知道這是可能的,並且我們研究項目的理念正在慢慢的拓寬現有的應用領域。」

這聽起來是否令人害怕?Hassabis正在展望一種超級人工大腦,它能夠吸收全世界的信息並將其構造成它能理解的形式,然後採取行動?至少他承認,他們團隊所引領的這項先進技術可能會導致一個問題——人工智能脫離人類控制,或至少會變得足夠強大,以至於它的某些功能會被限制。這就是為什麼在谷歌收購DeepMind之後,Hassabis和其他創始人要求谷歌設立一個外部咨詢委員會來監控公司在人工智能方面的進步。DeepMind早已決定永遠不會將自己的技術授權給軍方和間諜組織,他們也讓谷歌同意了這一點。

遺憾的是Hassabis並沒有透露委員會的組成人員,他只提到「由計算機、神經科學和機器學習領域的頂級教授組成。」 因為DeepMind的工作依然處於早期——離所謂的「奇點」還早——他告訴我們現在沒有必要把委員會成員公布出來。他說:「當前不存在的議題有可能會在未來5年或者10年出現。因此,事實上,遊戲剛剛開始。」

但遊戲進展飛快。去年秋天,DeepMind公布的另一篇論文描述了他們的一個新項目,通過綜合一些神經科學里的記憶理論來構建一個配備圖靈機性能的神經網絡,就像是通用計算設備。這意味着該系統在足夠的時間和內存下能夠計算任何事情。論文重點關注實際應用:記錄信息並隨後提取的能力——就像是對人類大腦「工作記憶」的人工模擬——「神經網絡圖靈機」比此前的神經網絡有更快的學習能力,能夠處理更加複雜的任務,更重要是是「擁有在訓練制度之外的良好的概括能力」。這不經讓我們感到,向著Hassabis那個夢想中的通用人工智能工具又邁出了關鍵一步。

事實上,到目前為止,谷歌深度學習的成果都還未在搜索及其他產品上大展拳腳。但這一點即將改變。

自從Jeff Dean深度學習項目的研究方向從Google X轉移到Knowledge部門(包括搜索)之後,他的小組就一直和一些相關的搜索團隊進行着密切合作,包括語言和圖像識別。谷歌大腦已經成為該公司的一個人工智能工具。Dean說道,這就像一個內部服務,如果小組的人對某個特定問題感興趣,他們會通過它找到正確的解決方法。他接著說到,谷歌現在有35到40個小組在使用它,除了搜索和語言,這項技術在廣告、街景和自動駕駛方面都有應用。

 

Jeff Dean. Photo: Talia Herman/Backchannel

 

至於遠期項目,Dean談到他們正嘗試做一個更好的實時翻譯軟件,這是近段時間的熱點,除了當前谷歌獲得高度關注的系統外,微軟的Skype同樣使觀察者印象深刻,這一系統通過遠程聲音完成翻譯。但是Dean還是為自己團隊通過努力推動項目向前發展感到興奮。他說,這是一個僅通過神經網絡就可以實現首尾相連語言翻譯的模型,你可以訓練一對用兩種語言表達但意義一致的句子。拿英語和法語來說,你一個詞一個詞的輸入英語句子,然後通過一個「英語結束」的標記,這個模型會馬上將其翻譯成法語。

Dean在神經模型和谷歌現有系統之間進行了深入比較,結果表明他的新的深度學習系統在識別語音細節方面更勝一籌,而這被認為是語義表達的關鍵。Dean表示:「如果對這項技術進行擴展,未來可以做更震撼的事情。」

DeepMind同樣為產品化做好了準備。Hassabis說大概需要六個月左右的時間,他們的技術就可以找到和谷歌產品實現對接的途徑。他的組織被分成了幾部門,其中一個和谷歌緊密合作,致力於人工智能的實際應用,該部門由它的聯合創始人Mustafa Suleyman負責。

Hassabis希望DeepMind的技術能幫助人們提高生活水平。他相信一個更具積極主動性的搜索引擎——不只為人們提供答案,更能幫人們做決定——可能成為價值的提供者,它將為人們提供最為寶貴和稀缺的商品——時間。Hassabis舉例說世界上可能找到的有趣的書與人有限的一生中能夠讀完的書相比要多很多,既然如此,為什麼每次在一個漫長的飛行途中或在某地的難得度假當中都要去想該讀哪本書?這將永遠不會發生,因為很多類似的事情將更好的實現自動化。

沿着這個思路,Hassabis設想DeepMind能夠通過自己的方式涉足谷歌更多有開創性意義的項目,比如自動駕駛汽車,甚至Calico,一個致力於延長人類壽命的公司。

最終,Deepmind、谷歌大腦連同Hinton的深度學習小組將共同組成谷歌搜索,這才是最重要的。許多年前,Larry Page 和Sergey Brin曾經半開玩笑的說,語音將被植入我們的大腦,然而現在已經沒人再討論植入了。谷歌並不是通過開發人類大腦來讓搜索變的更好,他們是在建造一個只屬於它自身的、獨一無二的大腦。

From 機器之心


 Google深度學習項目:超級人工大腦能幫我們做決定嗎?