近期,摯金資本聯合狗尾草智能科技,承辦了「人工智能 x 知識圖譜」專項論壇。在本文中,深圳狗尾草智能科技公司CTO王昊奮對國內外聊天機械人的發展及背後的技術進行了梳理,也給出了自己對於未來聊天機械人發展趨勢的理解。以下是演講全文:

今天我們不是要講寬泛的機械人,而是聚焦到更具體的聊天機械人。聊天機械人有些是偏軟件的,也有些是軟硬結合的。在這裡,我們梳理一下聊天機械人技術的發展以及我們的思考。基於這些思考,我們又是如何應用在產品中,並怎樣發現一些新的挑戰和應對時的一些心得。

 

1、業界幾種不同聊天機械人技術比較

這是在時間軸上鋪開列出我們想要介紹的聊天機械人,除了最上面兩款公子小白和holoera之外,我並沒有介紹其它國內的,因為披露的資料很少,為了避免片面性,所以這裡列出了都是國外的聊天機械人,因為公開的資料相對比較豐富。

2010年蘋果在iPhone 4S上推出了SIRI,現在看來SIRI很多時候成為我們戲弄的小玩具,但當時出來的時候大家對它的期望很高,並且它承載着一個想法就是個人助理;

2011年的時候IBM推出了Watson,在Jeopardy!(危險邊緣,一個類似於國內的一站到底或開心辭典問答比賽)中戰勝了常勝冠軍,當時也比較轟動;

2014年微軟推出了小冰,大家應該都玩過小冰吧;之後大家發現出現了越來越多的聊天機械人或者聊天機械人平台,在之前的Facebook F8的開發大會上,Facebook提出了新的Messenger M平台,谷歌在開發者大會上提出了全新的語音助手Allo,會承載新一代的個人助理。

我們在今年年初推出了公子小白,而7月8號發布會則揭開了全新AI+VR+遊戲+IP的holoera。

SIRI處理過程中是實體驅動或本體驅動的NLU,而NLU稱為自然語言理解,也屬於自然語言處理的範疇。其實SIRI能做什麼大家都清楚,例如可以幫我訂餐,也能幫我做日程的管理,也能幫我播放本地的音樂。當然SIRI也有很多問題解決不了,此時會調用搜索引擎來兜底。

雖然我之前也調侃過SIRI,不過最近很多人反映說SIRI變聰明了。為什麼會變得更聰明呢?因為SIRI從大家的交互中進行了總結,並通過學習算法優化了其智能。另一方面,最近SIRI的核心人員又獨立做了一個進階版的SIRI叫Viv,它的作用更加明確,就是拒絕去做閑聊,而充當一個真正的個人助理。

那麼個人助理到底做什麼呢?其實就是幫我解決各種各樣的問題。當然大家可以理解類似於是一個超級APP的概念,其實是集成了各種各樣的應用包括各種各樣的服務,類似於早期Web服務裡面的Web服務的整合和執行的調度。

比如說我可能訂餐,我需要了解到用戶的偏好,以及吃飯的對象、人員數量以及是你本身所在的位置和吃飯的時間等,以及可能像這裡面集成類似大眾點評這樣的點評,來綜合考慮這樣的信息。Viv在個基礎上實現了不需要下載第三方APP,通過Restful協議來調用這些應用。

小冰跟剛剛的Viv正好相反,它就是希望你去閑聊,是面向口語化的一些對話,這裡面其實是支持上下文,它需要支持的並非是單輪對話,而是多人對話,也是利用到了知識庫、網絡搜索和社交網絡平台來搜索答案。與傳統的搜索相比,你並不是得到一些網頁的信息,而是在搜索結果基礎上通過整合和後處理得到更精確的回答。

總的來說它的閑聊水平比較強,但是它的知識問答功能會比較弱化一點。當然小冰也在刻意追求這樣一個事情,會不斷上線一些新的功能讓大家嘗試。

與之對應的,微軟本部做了一個Tay系統,沒有像小冰這麼著名,但是大家也都知道,Tay是模仿19歲美國女性的,它在Twitter上面跟大家交互,很多網民把它教壞了,所以有一些色情暴力包括種族歧視,上線沒多久就被迫下架,我們也從這裡面吸取經驗教訓。

再就是IBM的Watson,上圖是它的基本框架,有問題的分析、分解,有假設生成,基於各種證據對假設進行不同方面的評分,最後綜合這些評分,來決定到底選取哪一個答案作為正確答案。本質來說Watson是一個問答系統,並不支持閑聊,因為它也不需要包含閑聊。

第二,它其實沒有一個稱之為拒識,就是拒絕識別,對於人工智能來說很重要的是你不僅需要知道你會什麼,更重要的是你不會什麼,不會什麼比會什麼更開放,當你不清楚你會什麼的時候,很多時候你就會亂回答,胡亂回答用戶體驗就會不好,拒識是很重要的。

IBM的Watson相比於AlphaGo或之前下象棋的深藍,它本身的商業價值更大,因此之後形成了Watson事業部,配合IBM的智慧地球及最近認知方面的策略。目前它做了兩塊應用,一塊在醫療,用於癌症的輔助診斷;另一塊,基於Watson技術出了一個Ross的機械人,是作為律師的輔助。

之後是Facebook的Messenger M,它2014年收購了Wit.ai,這家公司是傳統做聊天的公司,它看中了這家公司在聊天對話場景和聊天策略方面的經驗,與此同時,Facebook也有研究院,他們近期推出了DeepText的框架,基於深度學習不斷地學習到聊天內容中包括主題在內的語義知識。前者作為冷啟動,而後者則基於大數據更好的學習深層語義信息。

這裡我想要強調的是任何全自動的方法,如果你要保證很強的精準度的話,現在是沒有辦法做到的。所以Facebook雇傭了很多人,谷歌也如此,其實有很多是基於機器反饋的答案做後糾正,這些後糾正是類似於像客服人員做審核。這些校對和糾正能幫助機器更好的了解什麼時候更容易犯錯,通過增強學習來調整策略和回答模型使得後面的回答更傾向於避免這樣的錯誤。

之後還有谷歌新一代語音助手Allo,之前谷歌做了一個自動回復郵件的系統,和做Allo的是一批人,Allo對我們有意義的地方在於考慮到用戶的偏好和用戶的畫像,特別是在問題的分類、場景的分析以及在回答的一致性方面。

其實這裡面有很多問題,很多時候聊天機械人在多輪迴答的時候一致性是不能得到保證的。此外,不同的人希望得到不同的回答,特別是當我了解它更深的時候希望得到的信息更加個性化。

我們又根據深度學習和知識圖譜兩個維度來組織上述聊天機械人,SIRI和Watson在知識圖譜上的探索更多,而小冰和MessengerM等在深度學習上探索的更多,相對來說Allo最為平衡。

我們採用的技術比如語義理解,不僅包括詞級別,還有句話級別、篇章段落級別,包括實體識別、句法分析、關係抽取,也會考慮情感計算。知識表示包括文法規則,還有自我認知,包括機械人的價值觀和各種屬性的設定等。QA技術包括在基於Web的問答,基於社交網站的社區問答CQA,以及基於知識庫的KB-QA,還有智能對話這個方面。

基於這幾個緯度對系統重新進行打分,形成雷達圖,可以很清晰看到Allo在語義理解、用戶建模是比較高的,Watson在QA和知識表示方面是相對比較突出。

 

2、聊天機械人新的技術挑戰

在這種情況下我們發現新的挑戰,這些挑戰有一些是單純技術的,而有一些是我們稱之為更有幸福感的技術;單純的技術包括語音識別、人臉識別等屬於感知智能範疇的,更有幸福感的技術則包括情感分析、用戶建模,這些從聊天機械人的用戶體驗感的提升來說很重要,也包括記憶推理。

具體來說,我們希望用戶和機械人之間建立強關聯,雖然大家都玩過小冰,但是對用戶的強社交性的支持並不是很好,我們希望建立用戶和機械人的親密感。

二是多模態的輸入和輸出,還有記憶和推理,既然給用戶更好的建模,同時希望用戶形成更好的認知系統,跟用戶交流什麼東西、他跟你說了什麼東西,你應該有一定的辨別和判斷,並且有一定的歸納和整理。

第三,說到某些話題的時候可能有些觸類旁通或者有一些關聯的事情,這稱之為記憶和聯想。

 

3、情商更高的機械人

單純靠深度學習是不夠的,知識圖譜本身是知識的組織,兩者是互補的。知識圖譜為深度學習的訓練提供先驗知識,而基於知識圖譜設計的用戶畫像和個性設定,則能保證虛擬人物交互信息的一致性。

類比人類智慧的形成依賴知識和經驗,機器依靠知識圖譜和大數據,通過人工智能來類比人類。這裡抽象知識積累所形成的經驗可以通過知識規則或深度學習的模型來刻畫,而深度學習訓練需要的大數據可通過知識圖譜的數據增強來實現。

具體來說,一個通用的結合了知識圖譜和深度學習的框架,依賴知識圖譜對輸入的文字進行實體和關係等語義理解,通過深度學習包括各種序列到序列學習的框架得到候選輸出,通過推理來做最後回答的排序和過濾來實現最後的輸出。

這裡想強調一下推理的作用,採用了知識圖譜特別是邏輯推理可以使得機械人具有記憶能力,同時使得會話更加自然流暢。下面展示了兩種常用推理:

下面我們又展現了在社交模式特別是情侶模式下,如何通過場景推理結合情感評論非常有趣的交互:

 

4、AI+新一代的人工智能

上面是人工智能全新跨界的嘗試holoera(全球首款人工智能3D投射虛擬增強遊戲主機),生活在裡面的首個羽泉簽約的(虛擬)藝人琥珀。

摯金資本注:holoera是全球第一台人工智能全息3D主機,由Gowild賦予了人工智能的來自異次元的魔法美少女「琥珀·虛顏」居住其中。你可以近距離、全方位觀看二次元明顯「琥珀·虛顏」的日常,360度感受這款橫跨娛樂、文學、遊戲三界的超級IP所帶來的新奇體驗。

為了實現這個產品,我們額外需要做的是基於視覺信息的用戶身份識別,第二是做不良交互內容的檢測與識別,第三是時間軸生活場景,大家希望欣賞這樣一個美少女在生活的24小時內所做的方方面面,她可能在睡覺、可能在表演等等,我們對於知識圖譜進行動態時間軸上的擴展。同時建立用戶親密度和友好度,最後我們為了更好的提高語音識別的畫像,我們還做了口形識別,動作合成這一塊跟多模態輸出是有關係的。

大家每天24小時先起床,有學習、午餐、下午茶等等,通過不同的交互和不同時間點發生的事件,特別是今天大家覺得很熱,可能今天下午大家心情不好,航班延誤了你心情不好,可能你吃了一個很好吃的冰激凌就會心情很好,我們會自適應的調整琥珀的參數。

人的交流不僅僅局限於語音與文字,表情、語氣等多模態輸出是必要。還會有表情、指紋、光感、語氣和動作。

多模態輸出,包括語氣也會有表情、動作,對於琥珀來說動作交互更豐富一點。它的身份是虛擬藝人,它是簽約在羽泉的藝人公司下面的,會發布自己的唱片,也會跟大家進行交互,說穿了它就是具有人工智能的初音。

機械人需要更多的才藝,這裡面我們更多的整合了很多深度學習的技術,比如說這是梵高的星空,當然也可以畫素描,下面可以做詩,也可以做微小說,還有一些作曲。

智能聊天系統對輸入和輸出當中的黑盒來說,其實應該包括各種各樣的識別,包括語音識別、情緒識別、手勢識別、人臉識別、身份識別,也包括各種各樣的對話管理、用戶畫像管理,特別是對於美少女來說更需要去做這樣一些對話內容的檢測,還有生活的時間軸、用戶管理和記憶推理、情緒合成、動作合成、語音合成等等一系列很複雜的工程加上技術實現。

作者:王昊奮,深圳狗尾草智能科技公司CTO,作為技術負責人,他帶領團隊構建的語義搜索系統在十億三元組挑戰賽(Billion Triple Challenge)中獲得全球第2名;在著名的本體匹配競賽OAEI的實體匹配任務中獲得全球第1名。他帶領團隊構建了第一份中文語義互聯知識庫zhishi.me。

本文分享自摯金資本官方訂閱號(ID:zhijincapital)。摯金資本是智金匯旗下的一家新銳投資機構,專注於機械人、人工智能領域。


 Siri、IBM Watson、微軟小冰、Messenger M、Google Allo……聊天機械人這麼紅,背後的技術你都知道嗎?