DTDigital Technology)一詞,翻譯過來即數據科技,可以說,這並不是一個新詞,但它真正引起我注意的是阿裡研究院最近寫的一本書《互聯網+:從ITDT》,阿裡作為國內IT技術的引領者,其技術定論不可輕視

我們先撇開DT不說,我們先來看一看IT

1936年圖靈機的發明,到1945年馮.諾依曼機的出現,這些都是計算機發展的基石,甚至於往後各種大型、小型計算機的誕生,嚴格意義上來說,這都不是IT。真正IT技術的開始應該是萬維網的發明,這標志著信息進入了互聯的時代

國內互聯網技術的發展比國外稍微的晚了那麼幾年,但其發展勢頭遠非其他國家能比。1997年,中國只有60萬網民,而現在已經超過了6億,其增長速度可見一斑。可以說,如今互聯網已經影響到了人們衣食住行的方方面面

這是一個IT時代,對於這個定論,或許大部分人都不會反對。但是有一天,有人突然對你說:人類正在從IT時代步入到DT時代(數據科技時代),我們一隻腳已經踏入了數據科技時代

為何這麼突然

這並不突然,這一切的一切都是那麼有預見性

DT時代來臨:變革在悄然發

數據科學家一詞,最早是在2009年被提出來的。當然,它的提出並不是一個轟動性的事件,甚至還有很多人並不贊成突然出現這一科學分支

然而就在幾個月前,有人在騰訊科技上發表了一篇文章《數據科學家可能成為2015年最熱門職業》,我們暫且不去評論這篇文章的觀點是否正確,但是它已經給出了一個資訊:數據,已經引起了人們的「警惕」

如今,在各大招聘網站,我們可以隨意搜索一下「數據挖掘」,各大公司針對於這個崗位的需求如同雨後春筍般的出現。同樣,通過各個招聘網站平臺等,我們可以發現不斷有新的職位名稱被創新出來,如數據工程師、數據分析工程師、Hadoop工程師等等

數據挖掘工程師這個崗位元或許早就有了,那麼大數據挖掘工程師呢?一字之差,蘊含的意義卻相隔千里。或許有人會說,這些都是從程式猿、攻城獅的角度看到的,這並不能代表宇宙大眾的意思。好吧,我們換個思路來思考這個問題。不過咱還是接著說招聘,我曾寫過一篇關於大數據時代招聘模式的文章,分析了一下招聘網站到底「懂不懂」我們(求職者)需要什麼

其實答案是顯而易見的,我們打開了一個招聘網站,呈現在我們面前的是一個個我們想要投遞的職位;我們打開一個電影,側欄顯示的是一個個相關的電影,要麼恰巧是同類型的,要麼恰巧是同一個演員的電影;我們在網上購物,底欄顯示的恰巧是你需要的東西。好吧,不止如此,我們看文章、搜索問題、網上預約旅行甚至是看新聞,總是會在一些不經意的角落裡發現我們剛好需要的資訊。好巧

這並不是巧合,個性化定製已經體現在我們生活中的方方面面。我們暫且不去考慮這個個性到底有多個性,不可否認的是,與傳統的資訊展現來對比,它的確是起作用了

是的,我們猛然發現:人,作為一個在互聯網上主動尋求信息的主體,已經開始變得「被動」起來了。曾幾何時,資訊已經開始變得如此「主動」,但是,這一切讓我們感到又是那麼自然。究其所因,其背後的數據是「罪魁禍首」。是的,數據把我們「出賣」了

我突然想到了前一段時間發生的一個事,出於某種原因,我需要一批小企業、小公司的聯繫方式。按照我們傳統的做法,肯定是找相關領域的人,依賴其關係脈絡,拿到這一批聯繫方式。但是我突然發現,我們在相關領域並沒有熟識的朋友,或者說即使有,也不可能拿到足夠的聯繫資訊

我以智聯招聘為源頭,使用爬蟲、網頁資訊提取、數據分析挖掘等相關技術拿到了一批數據——3000多個企業郵箱。風過留痕,雁過留聲,如今是一個互聯網「橫行」的時代,只要是個行為實體,總是會在互聯網上留下足跡的

這次的事讓我再一次感嘆互聯網信息量的浩瀚、偉大。資訊技術「滄海桑田」般的快速變遷,十幾年積累的底蘊,互聯網上蘊含資訊就如同一座巨大的金山。「卑微」如斯的人都能從中「竊取」一份小小的財富,那麼浩瀚地球中的其他萬千大眾呢?數據竟然已經變得如此有用,數據的影響力竟然強大如斯!這一切的變化是那麼的順其自然,是那麼的悄無聲息

或許,真如馬雲所言:人類正從IT時代走向DT時代

DT時代的骨骼:大數據處理平臺的衍

在數據處理需求急劇上升的今天,是什麼在支撐著數據的變現?是的,正是數據處理平臺,或者換種說法:一套完整的數據處理流程

從數據的採集、清洗、流式實時計算、數據落地。在大多數時候,這一套完整的流程過後(或許會沒有流式實時計算),這才真正進入數據的價值挖掘階段,包括了數據的離線計算,通過一系列的建模挖掘其隱含的商業價值

當然,在大數據遍地的今天,數據的收集也好、處理也好、挖掘也好,我們想必也要加一個「大」字了。那麼,在DT時代來臨的今天,能夠支撐這一流程得以流通的正是數據平臺,或者說是大數據處理平臺,它將是支撐DT時代來臨的骨骼

當然,大數據處理平臺也不是一開始存在的,它是在經歷過一系列的衍變之後,才形成今天我們看到的,或這或那的數據平臺形式

就在不久前,我曾在storm-分佈式-IT技術群中發起了一次近千人的話題討論(當然,實際參與討論的人遠沒有這麼多,很大一部分人還是喜歡靜靜的圍觀的),其核心就是當前互聯網公司中大數據平臺發展的現狀

當時的討論過程很劇烈,匯聚了各個企業公司的大牛小牛、程式猿、設計獅、產品狗,總之各種「動物」都有,眾說紛紜,各有各的觀點看法,但總體來說就目前幾種大數據平臺的形態,大家還是有比較一致的看法的

1、大數據處理平臺的終極形態:深度挖

數據已經完美流通,包括了完整的大規模數據採集系統、數據預處理清洗系統、數據流式實時計算系統、大規模數據存儲系統、大規模離線計算系統;擁有全面的數據監控調度系統,能夠方便地低成本地進行數據流程監控、調度,實時掌握數據的動態變化;擁有完善符合自身業務需求的機器學習演算法庫,數據挖掘層面,已經進入了數據深層挖掘階段

其中以BAT為代表。在國內,BAT一向是技術的引領者,因此他們在數據價值挖掘這一方面,也確實做到了領先地步

2、其次是大數據平臺完善,處於數據淺層挖掘狀

同樣,這種形態的企業公司,數據平臺的數據已經完全打通,他們已經在開始嘗試挖掘數據的潛在價值,意圖達成數據的變現

當然,或許是由於技術積累的問題,或許是人力物力的原因,他們並沒有能力做深一層的探索、挖掘,但是他們卻一直在努力。他們缺少是一套完善的,適合自己的,又能夠方便使用的數據挖掘庫

處於這種形態的公司也不少,諸如CSDN、去哪兒、藝龍等等,他們在個性化的道路上孜孜不倦地探索著

3、數據流通,處於數據統計分析階

這種形態的數據中心,大規模數據處理平臺已經基本搭建,數據已經能夠流通,處於大規模數據的統計分析階段

這種類型的公司,他們更多傾向於對數據倉庫的建立,對大批量數據進行存儲、統計並且分析數據的走勢以及變化。所以,就Hadoop生態來說,他們可能更傾向於使用Hive之類的技術或者工具

處於這種形態的公司是占大多數的,典型如剛組建大數據部門的短短一年時間的360,當然還有很多很多類似的公司,數不勝數。他們希望摸清楚自己到底掌握了什麼樣的數據,這些數據到底是怎麼變化的,通過對這些數據的瞭解以及掌控,他們才能更好做出更合理的商業決策

在不久的將來,在他們已經充分掌握了數據的規律,他們也必然會向數據潛在價值挖掘方向努力

4、數據整合,平臺搭建階

這種形態下,數據尚未流通,整個體系尚未搭建起來

或者說,很多企業公司,在以往的情況下,各個部門產品,其數據都是分開維護的。需要維護多份數據,成本高;數據的利用率低,數據不連通

他們意圖將數據進行整合,有一套完整的收集、清洗以及落地的流程,因此,他們尤其缺少懂得數據收集、數據清晰以及數據大規模落地的人才。或者,換個更通俗的說法,他們缺少懂得Hadoop生態平臺的人

這種公司也不少,諸如金山的西山居,智能手機界的黑馬小米等

5、數據量不夠,但然仍意圖搭建一個大數據處理平

這一部分公司大部分都是小公司,在數據量層面上,他們並沒有很急切的需求,去搭建起一套完善的數據處理平臺

或許是受大數據潮流影響,但是,從長遠的角度來看,隨著數據量的增長,這也必然是一個趨勢。所以,他們往往也會花費少量的人力物力,在這一方面上進行技術預研,或者搭建起一個簡單的小規模數據處理平臺

其實,簡單來看,這是大數據處理平臺的五種不同形態,但這又何嘗不是大數據處理平臺的一個衍變過程呢?!在DT時代來臨的今天,你是否清楚自己處於一個什麼的位置,將來又會向何處發展變遷

只有將骨骼搭建起來了,我們才能、才有資格去談論如何挖掘數據的潛在價值。我們不止需要骨骼來支撐DT這一體系,更需要源源不斷的血液來激發它的活力

DT時代的血液:數據從何而

如果說大數據處理平臺是支撐DT的骨骼,那麼數據就是DT的血液,如何造血就是大家需要關注的問題了

1、企業的業務數

數據最直接來源就是各個企業公司自己產生的業務數據,或許是某些公司擁有很強的預見性,多年前就已經開始收集自己的數據,也或許是他的無意之舉,但不管怎麼樣,他把自己的歷史數據給保留了下來。當然,有部分公司,本身產生數據的速度就足夠快,數據量也足夠多,他們就不必擔心這個問題了

2、互聯網的隱藏數

前不久,有一個朋友在群裡問了一個比較複雜問題,是關於數據抓取解析方面的。可能是他問的問題太深奧,也可能是恰巧群裡大牛都不在,總之就是沒有人解決

有人就問了

哥們,你研究這個這麼深幹嘛

他回答了一句

抓取數據啊,難道你們研究處理的數據不是從網上抓取的嗎

這句話讓我猛然驚醒:有人已經開始向互聯網這座公共金山動手了。十幾年的底蘊,隱藏了多少數據財富?在DT時代來臨的今天,必定會越來越多的人去挖掘它的價值,只不過這需要一定的技術、一定手段而已

3、移動互聯網數據的暴

相對於互聯網,移動互聯網的發展歷史並不長,但他的發展可謂是日新月異。如今,隨著智能手機的普及,3G4G網絡的推廣,移動互聯網產生的數據正在處於爆炸似得增長,這是一座新的數據金山,需要我們去開採它

4、傳統以及線下數據的接入整

隨著總理的一句「互聯網+」,傳統行業開始紛紛與互聯網結合,這帶來的最直接影響是:線下數據的接入與整合

或許有人會說:傳統行業能有多少數據。可千萬不能小看傳統行業的數據,畢竟他們有著近乎數十年,遠超於互聯網的歷史,其累計的數據量亦不可小看

隨著「互聯網+」的進一步發展,線下接入的數據也將是DT時代的血液之一

5、網連萬物:萬物都可以產生數

說到物聯網,其實很多年前就有人說它一定會火起來,但是之前卻一直沒有火起來。究其因,不在乎兩個:一是移動網絡成本過高;二是終端感應技術尚未發展到這個階段

但如今不一樣了,隨著3G4G網絡的普及,移動網絡成本大幅度下降;智慧終端感應技術的快速發展也讓物聯網這一技術方向不再是概念。我們可以看到,眾多互聯網公司已經開始紛紛佈局智慧領域了,包括智慧家居、智慧交通、智慧城市、智慧辦公等等

DT時代,感應終端也將是一個巨大的數據產生源,一個DT時代造血的源頭

DT時代即將來臨的今天,不止是數據處理以及數據獲取這兩個方面值得我們反思,還有其他的方方面面需要我們去思考。通過不斷的反思,不斷的改進,我們做好最充分的準備,迎接DT時代的到來

歡迎關注博客蟲公眾微信號(博客蟲,ID:blogchong),關注最前沿的IT技術,關注最熱的IT時訊,分享最蛋碎的工作吐槽!

From blogchong


 DT時代變革的反思:為何這麼突然?