虎嗅注:想必各位周末的朋友圈已經被小冰的讀心術刷屏了,15個問題,就能猜到你心裡想的那個人是誰,是不是特別神奇,其實我在周末也玩了好幾遍,公允的說,除非你想的是特別生僻的人,一般情況下都會猜對,包括明星和歷史人物,比如端妃,比如容嬤嬤啥的,都能猜對,原理其實也蠻簡單,就是類似二分法不斷排除逼近,但如何把這樣一個嚴肅枯燥的科研學術項目轉換成大家喜聞樂見,樂意調戲和對話的讀心術?我們來看看亞洲互聯網工程院小冰項目資深研發總監周力是怎麼說的,文章來自極客公園,虎嗅進行了節選。

極客公園:你們是怎麼想到要做讀心術這個項目的?

周力:一方面是微軟亞洲互聯網工程院和微軟亞洲研究院一直在搜索數據上有一些積累,在全球,必應有一個項目叫「知識圖譜」,積累了每一個出名的人從最基本的性別、出生日期到一些職業、著作等信息。這一點為微軟去做讀心術這樣的項目降低了門檻。

另外一方面,我們也一直希望通過一些可以在 H5 中進行的遊戲去讓更多人了解小冰。一方面這個遊戲要有可玩性和可傳播性,另一方面它和小冰原有的比較核心的、它跟人可以持續對話的這種交互方式吻合。

遊戲可能很多,但讀心術比較符合小冰作為一個「人工智能」的定位,同時,它也是需要雙人對話的形式,與小冰原有的交互形式吻合。當然,讀心術是我們現實中比較無聊時候會玩的一種遊戲。

極客公園:從知識圖譜中挑選數據到讀心術數據庫中的標準是什麼?

周力:在微軟的知識圖譜中,總共有幾百億個實體,但這不等同於讀心術中用到的人。這個數據是非常大的量級。有些「邊角」的人物,都沒有選擇到讀心術的數據庫里。國際上的人物,我們也只是挑選了中國用戶比較熟知的,好萊塢影星、NBA 球星等等。

極客公園:讀心術這個項目中最關鍵的是什麼?

周力:關於數據的積累和嘗試微軟內部很早就開始了,讀心術這個項目是 1 月 20 日上線的,其實當晚用戶參與度就很高了。一直到現在,基本處於小冰(讀心術)每秒鐘能收到幾千次的對話的程度。從對話的角度統計的話,讀心術的互動已經有幾千萬條(不包括網絡延遲造成的未統計部分)。微信 H5 傳播的這種方式不太適合統計用戶的數量,按 15 個問題的比例估算的話,參與的用戶可能已經上千萬。

但其實因為前期的數據積累已經很成熟,所以這個項目從設計到完成技術,前後也就一個多月時間。關於問題的設置,花了一定的時間。我們希望讓這個交互的過程不只是乾巴巴的對話,而是能夠讓問題多樣一些。

真正從問問題的角度來講,應該說問性別男女這樣的問題是最容易開始的,有些問題必然是最容易分清一撥人和另一撥人的。但是如果你每次的問題都是這樣的,用戶玩多了可能會厭煩。考慮到這一點,我們問題的設置中,可能是會隨機的出一些比較有效的問題,而不是固定所有的問題都是最優化的。

從猜測的準確性來講,遊戲最開始的版本是設置二十個問題。但我們不想把它作為一個科學的測試,想讓大家覺得更好玩。二十個問題的準確率會高很多,但是經過一些調試,用戶可能會沒有這個耐心。我們最後把最大的輪數調到了十五,另外這不是個固定的數字,小冰也可能第八、九輪就猜出來了。這樣一來,用戶能更快體驗到遊戲的樂趣,雖然可能稍微犧牲掉了一些準確性。但大家覺得好玩,比最終的準確更重要。這是我們做出的一個取捨。

極客公園:小冰好像經常猜錯,用戶的吐槽有很多,你們聽到了嗎?

周力:對,我們都看到了(笑)。但猜不準其實有很多原因。

你在給出一個問題答案的時候,包括真人,也不可能百分百客觀或者正確。一個例子是陳妍希。她出名在演過電影和電視劇,就算她的粉絲可能也不太知道她也出過專輯。比如,小冰問,她是不是唱歌的?可能很多人的回答可能就是沒有唱過,但是大數據擁有的可搜索數據太多,就找到陳妍希的音樂。從它的角度來說,陳妍希其實是出過專輯的。類似的細節大數據的判斷跟大眾的印象就不一樣。

再比如,小冰問這個人帥不帥?類似問題是比較主觀的。還有人在回答問題的過程中會說很多次不知道。這些因素導致最終這個查找過程並不是一個完全對等匹配的。發布前我們就在做相關的優化,允許回答問題的人在出現一些不知道答案的情況下,去更好設置問題的邏輯。當然這樣造成了計算相對更加複雜,也會讓小冰回答問題更慢一些。這是我們的另一個取捨,如果為了小冰的答案更準確,讓它一分鐘回答你一次而不是一秒鐘,這樣的話用戶的時間成本也很高。

極客公園:這麼說,其實小冰給人帶來的情感互動是你們放在第一位的?

周力:可以這麼說。小冰之前推出過一個成語接龍的遊戲,只要有一個足夠的成語庫,小冰知道每一個字的讀音,在這個遊戲里,理論上來說,人工智能是完全無敵的,人是不可能贏過它的。我們在玩的時候發現了這一點,就專門設置了用戶在玩的過程中,小冰會故意輸掉。這樣可能會讓用戶有繼續玩下去的動力。

我們的出發點就是希望讓小冰跟用戶更好地互動,而不只是展示它有多聰明。


 火遍朋友圈的小冰讀心術是怎麼煉成的?