虎嗅注:11月25日,數千位百度工程師齊聚中關村軟件園國際會議服務中心,用一整天的時間聽李彥宏、王勁、吳恩達等高管講技術如何成就了今天的百度,展望百度打算在未來如何推動技術的進步。在座的工程師均通過內網報名加「搖號」獲得席位,連過道都擺滿了小馬扎,場面十分熱烈。百度眾高管與工程師以同學相稱,李彥宏稱他們是百度的「核心資產」,自己是大家的粉絲。會議並不對媒體開放,虎嗅君以「愛好者」身份進入會場,摘錄部分內容以饗讀者。

 

李彥宏講話摘要:技術是一種信仰、移動是一種思維

 

各位同學,歡迎大家來到百度首屆技術節,這是我們第一次辦技術節,但是對於百度來說對於技術的重視可以說可以說是源遠流長。從百度成立第一天起我們就非常重視技術,百度招的前五名員工全部都是技術出身,從劉建國到雷鳴到崔姍姍到郭耽再到王嘯,都是學計算機出身。

 

早期我們對技術的重視讓很多其他公司不是很理解,比如在2000年左右剛剛開始做的時候,我跟我的工程師都講,我們的搜索引擎必須在一秒內響應,在一秒內出結果。那個時候大家覺得很奇怪,等三秒不是一樣OK嗎?因為其他的門戶使用搜索引擎都是三秒鐘出結果。我還跟他們講,穩定性必須要有99.9%甚至更高,大家也覺得不理解,十次有一次不出結果也OK吧,那時候大家是這樣的想法。後來隨着我們不斷的執着的去強調必須一秒內出結果,必須99.9甚至99.99%,不僅業內理解了,我們的工程師理解了,在外界的普通用戶當中他們也理解了。後來他們就說裝一台電腦聯網的時候要先上百度看看,上去了說明網通了,上不去就說明網不通,這就是技術的力量、技術的影響力。

 

實際上,現在比以往任何一個時候技術都更能夠對人們普通的生活產生巨大的影響。最近幾年比如像人工智能這個技術發展非常快,我們越來越多的看到無論是計算機視覺也好、圖像識別、聲音的識別,各個方面因為人工智能、因為深度學習各個方面技術的提升,它的效率、它的準確率、它的可用性都在不斷的提升。

 

最近一個月前,Facebook的扎克伯格來的時候,我們又談起了深度學習。他說兩年前因為你跟我說深度學習對於百度各方面業務都有明顯的提升,所以我才開始重視深度學習,才把紐約大學的Yann Lecun招到Facebook成立了IA Lab。可見,百度的技術影響力不僅在業內,不僅在中國,在世界上也是非常有影響力的。

 

我們這批人對技術有一個信仰,我們不僅僅把它當做一個工具,我們更相信技術可以改變中國,技術可以改變世界,而百度可以改變技術。所以我來到這裡很想表達一個意思,就是我是你們大家的粉絲,你們的每一次的技術創新,你們每一次把自己新的技術應用到產品上,我都非常的願意去試用,去體驗,去給你們提改進的意見,去給你們提更好的要求。

 

百度高級副總裁王勁講話摘要:劍指未來

 

 

如果說移動互聯網的關鍵是連接一切,那麼在大數據時代的關鍵就是智能化一切。在移動的時代我們說連接一切,百度在做什麼?百度在做人與服務的連接,騰訊在做人與人的連接,阿里在做人與商品的連接,很多新興的物聯網公司他們在做物與物的連接。這些公司的人們共同的努力將會把越來越多的設備連接上網。有人預測,在2020年連接上網的設備將達到260億,我認為這個數字被遠遠低估了。還有人預測到2020年人均的上市設備會達到1000個,這個數字非常可觀。但從過去歷史來看,互聯網的發展速度總是習慣性地被低估。

 

我們今天談到的人工智能是基於大數據的人工智能,我們今天談到的人工智能不僅僅是在數據中心裡用很多高性能的GPU、CPU搭出來的DNN模型。這裡所說的人工智能還包括了那些分散在每個終端的,智能終端,由每個智能的神經源共同組成了一個龐大的智能的系統、智能的網絡,這代表了互聯網發展的方向,這帶給我們全新的機會。

 

百度和谷歌都在做無人駕駛汽車,無人駕駛汽車需要什麼樣的技術呢?它需要視、聽、說、感知和控制,視是圖象識別、聽是語音識別,說是語音合成,感知有非常多,GPS感知,汽車的平衡等等;汽車還需要有操控能力,無人駕駛汽車需要一個非常優秀的大腦。今天這些技術都已經存在,並且可用,然而為什麼實際道路環境下,無人駕駛汽車仍然非常罕見呢?這是因為這些技術存在的時間還不夠長,還不夠成熟。雖然谷歌的無人駕駛汽車在低速情況下行駛超過1萬小時,但這仍遠遠不足。在人命關天的事情上,大家都做得更穩健一點,但這個潮流是不可陰擋的。

 

在展望可穿戴設備、智能家居和智能機械人之後,王勁說:「人工智能將大大的改變我們的生活,改變我們的互聯網。在未來的十年裡,在即將到來的大數據時代,互聯網將成為最重要的推動力量。」

 

這些年裡,信仰技術的百度做了什麼?

 

王勁說道:

 

四年半前加入百度前夕,我問李彥宏:百度在技術上的投入占比是多少?當時他非常驕傲的告訴我是11%點幾,那個時候互聯網整個行業的技術投入占比平均值是7%,當時我聽了非常高興,百度是一個重視技術的公司。今天我尤其高興,經過這些年的努力,在營收大大提高的基礎上,百度的技術投入占比達到了一個新的高度,占14%。財報顯示,今年上半年百度是技術投入占比最高中國的公司。下面,我們與世界級公司比比看,亞馬遜是非常重視技術投入的公司,其技術投入占比是10.8%;微軟是13.4%;四年半前谷歌的這個數字是13%多一點,之後一直保持在13%到14%之間。現在,我們已經超過了谷歌。

 

百度的技術模塊

 

王勁將百度的技術概括為五個模塊並將其比喻為一柄「寶劍」:

 

中間的是Core Technologies,即基礎架構、NLP、運維、數據中心,以及定位和地圖技術。這些核心技術的大多數最終用戶無法直接感知的,但它們實實在在地影響或決定了我們的核心競爭力。

 

兩邊是兩個Cutting Edge Technologies。未來五年內,這兩個技術將更深刻地影響人機交互方式,因為超過50%的需求將使用這兩項技術,即語音和圖像來表達。

 

劍鋒上是四個Leading Technologies。入選leading technologies的標準,是在這個技術方向上要做到中國第一、全球領先。

 

劍格上的是四個平台級技術,即安全、質量保證、信息化和平台化技術。這些技術對整個技術平台和百度的業務起到了支撐和保護作用。

 

當「大寶劍」的全貌以動畫幻燈的形式展現在大屏幕時,在場的工程師們掌聲不斷。

 

 

其後,王勁進行了一系列技術層面的細節描述:

在人工智能方面建成了世界最大規模的深度學習的集群,這個NDD網絡集群有萬億的參數,支持千億的樣本和千億特徵訓練;

 

大數據方面,去年12月百度成立了大數據部,在將近一年的時間里做了很多工作。到今天,百度能夠存儲和管理的數據量已經達到1000PB,今天處理量也達到100PB,單次異構查詢就達到100TB,這些都是非常高的指標。我們還建成全球第一個通用的推薦引擎,我們也把我們的大數據預測平台開放給中國的合作夥伴們。

 

搜索引擎是百度的看家本領,在中國市場佔有絕對領先的份額。我們的變現能力在業界首屈一指,在CPM上我們遠遠領先於國內的競爭對手。人工智能對搜索技術和變現能力的提升起到決定作用。不僅如此,依托公司移動互聯網戰略,我們在移動變現的能力上遙遙領先國內外競爭對手,這個成績很好地支撐了公司股價。百度是世界上最早大規模使用深度學習技術來提升變現能力的,最主要的是應用於CTR預估系統。在這些技術上面,我們有很多值得驕傲的創新。

 

語音和圖像,這兩個代表未來的技術我們到底做的怎麼樣?今天,百度已經擁有了中國領先的語言識別技術:在靜態環境中,普通話識別率從92%提高到為95%。大家知道,人類的正常交流,是在有一定噪音的情況下,達到98%的準確率。今天,機器語音識別的準確率還沒有達到人類正常交流的水平,但是我們正在努力,通過DNN等技術一步一步的逼近這個臨界點。

 

我們建立了統一的資源集群管理系統,系統的CPU利用率達55%,在整個業界處於非常領先的水平。很多國內外的競爭對手,其CPU利用率大部分在30%左右,而我們55%的CPU利用率是業界的標桿。我們還擁有全球最大的Hadoop集群,單集群規模達到1.3萬台服務器。在中文領域,百度的NLP技術一直獨步全球。在機器翻譯方面,我們在28個方向超越了主要的競爭對手Google。

 

王勁說:

 

「數據中心技術是互聯網公司的核心技術。今年6月底,百度在山西陽泉建成了一座美倫美奐的數據中心,這是中國最先進的數據中心,也是迄今為止規模最大的。數據中心擁有非常複雜的技術。我們把很多創新型的技術用在這裡。 評估數據中心的先進性有很多指標,其中最、重要最客觀指標之一就是PUE,也就是用電的效率。陽泉數據中心的PUE是中國最好的。數據中心裡的GPU服務器,用來做深度學習訓練,和普通CPU服務器相比,提升效率34倍。」

 

最後百度首席科學家吳恩達也發表了講話,其中他分享到百度在深度學習領域的最新進展——機器讀圖。目前百度深度學習技術已成功地實現讓機器將圖像內容生成自然語言的描述性句子或段落,這可以說是人工智能領域的一次技術飛躍。吳恩達還透露百度將啟動「AI(人工智能)人才計劃」,每年會挑選多位AI研究員,赴美在百度硅谷實驗室工作並學習6個月,期間可以深入了解人工智能和深度學習,參與開發前沿的人工智能技術,和美國團隊交流中國團隊的工作成果。

 

吳恩達還透露,加盟百度正是看中了百度系統的基礎架構技術體系、及百度正在做和將要做的事,這讓他對技術的未來感到更有信心。

 

尾注:其實百度在這個學堂里還透露了某些正在研發的技術產品,但囿於規則,虎嗅也不能對外講了……能說的是:真的還蠻DIAO的……#這麼吊人胃口的虎嗅君真是夠了#

From 虎嗅


 百度的技術投入 引領未來