Plexxi是一家SDN的公司,提供控制器、交換器等企業網絡解決方法。作為Plexxi的產品管理高級總監
Marten Terpstra最近在他的博客中詳細講述了Big Data為企業帶來什麼改革,以及企業的應對方法。我們對這篇文章進行了整理,希望能夠對您有所啟發。
在Big Data時代,人們很少談論跟網絡相關的話題,彷彿網絡與Big Data沒有關係。事實上,網絡不僅跟Big Data應用息息相關,而且還發揮了非常重要的作用。但對於很多網絡工程師來說,他們並沒有認清這一點。
如今在一個典型的Data Center架構中,包含了大量應用程式和存放裝置。一個基於Web的應用實際上是由很多元素組成的,如Workload、Web伺服器前端、應用後端,而且都有相應的Data Center作為資料存儲。這些資料庫會有本地或者集中化或分散式物理存放裝置,存儲又有複製和備份的組件。所有的Data Center內部的流量都需要將正確的資料傳送給應用使用者。這裡的用戶可以是一個人,也可以是另外的一個應用。
上述這種較傳統的分散式應用,它的傳輸方式是相對直接的。通過基礎的測量和分析工具,你就可以完整地瞭解到一個應用的各個元素之間的運轉方式,它們之間是如何交互的以及它們需要什麼樣的網絡環境等等。在部署應用之前,開發人員幾乎不用為網絡工程師提供具體的需求和指導。而在這個應用走完至少一性能調整週期之後,基本就會形成一個固定的模式並保持下去。對於網絡工程師來說,他們要做的就是確保能夠為這一模式提供合理的網絡連接。
然而針對Big Data應用,它給我們提出了新的課題。Big Data應用往往是以高度平衡的方式運行,它們部署在一個分散式系統當中,這需要在基礎設施當中進行大量資料的“大轉移”。Big Data應用在設計的時候,會假定資料都是持續分散式,並且在一個Big Data當中複製到各個節點。許多應用都要應對多種不同的資料分析任務。而資料集以及資料產生的方式更是多種多樣,因此它們對於網絡的要求也會有所不同。正基於這一點,我們就需要一個更加動態的網絡環境來滿足Big Data應用的需求。
我們看到,如今有很多Big Data應用是部署在1GB網絡上的。很多企業認為,這根本不是問題,Big Data只不過是一個計算密集型的項目。這其實是最基本的錯誤理解。事實上,許多Big Data應用都是在處理半即時的資料,每個資料集只需要一個相對較小的計算資源。而這些資料需要新型的連接方式,是我們以前所沒有遇到過的。
上周我跟一個Ad Tech的工程師討論,這是一家發展速度非常快的企業,提供市場行銷與廣告相關的技術解決方案。他目前管理了一個Big Data,其中有200台伺服器,使用了市場中最高速的網絡交換器。在開放一半的可用埠之前,網絡堵塞問題就已經非常嚴重了。這個群組中,機架間需要每秒鐘傳輸700GB甚至1TB的流量。說實話,市面上很少有網絡設備能夠應對這樣的需求。
有人會說,多Bandwidth不是可以解決嗎?而Ad Tech公司的這個案例,正好印證了我們所說的,企業在處理這樣的應用需求時需要重新思考他們的網絡架構。傳統的思路已經不能跟支持新的應用和新的需求了。應用在發生變化,伺服器、存儲以及它們的工作方式也在發生變化,網絡工程師需要積極習慣這種變化。
不管你喜不喜歡,該來的總歸要來。網絡工程師要盡最大努力理解它們的需求,擺脫傳統思維的束縛,然後思考什麼樣的網絡能夠解決這些問題。因為網絡在其中起到了非常重要的作用,它對Big Data應用的性能會產生巨大影響。
Network Engineer 又要學新 Big Data 技術!
https://www.facebook.com/hkitblog