談海量數據:大數據下的 Data pipeline 應如何制定(1)? 3. 需要留意擴展性

面對這樣大量的數據,我們除了要留意選擇一些能切合公司資金預算的相關儲存方案及工具之外,有一點更為重要的就是要留意一下方案本身是否具備足夠的擴展性,事關現今數據量的增長速度驚人,隨時需要就數據量而擴展儲存方案是十分常見的。

4. 數據來源更廣、出錯機會更大、更需要信任

最後一點我們想到的就是終端用戶對 IT 部門的信任問題。要處理大量數據,加上這些數據的類型都不會一樣,因此出錯的機會亦會大增。而作為 IT 管理員,應部署一些方案用以進行監測,除此之外亦應該主動讓終端用戶了解到你們在處理大量數據時所遇到的問題以及與舊有模式的不相同之處,以免當出現問題時令全公司都會質疑 IT 部門的能力,造成信心危機。

考慮進行外判?

其實大家都會知道,要自建一個專業的 data pipeline 一點也不簡單,如果大家仍然沒有很多意念的話,再加上公司擁有充裕的資金,不妨考慮將之外判,以便將這些複雜的設計留給專家協助處理,讓自己有更多時間專心處理其他 IT 問題。

其他公司的 Data pipeline 案例

而如果大家想進一步了解來自其他公司的案例,可參考以下例子。

The Netflix 案例

以下引用 Wikipedia 的 Netflix 簡介。
網址:https://zh.wikipedia.org/wiki/Netflix

Netflix,是一間在世界多國提供網路隨選串流影片的公司,並同時在美國經營單一費率郵寄 DVD 出租服務。該服務是使用回郵信封寄送 DVD 和 Blu-ray 出租光碟片至消費者指定的收件位址。公司成立於 1997 年,總部位於加利福尼亞州洛斯蓋圖,1999 年開始推出訂閱制的服務。到了 2009 年,Netflix 已可提供超過 10 萬部電影 DVD,訂閱者數超過 1000 萬人。

要應付串流影片以及來自會員等所產生的大量數據,The Netflix 的 Data pipeline 設計上絕對是十分精彩且有相當的參考價值。與傳統建基於數據中心的 Hadoop 不一樣,Netflix 採用了基於雲端的資料倉儲;當中更提到了內部使用的 Hadoop Platform as a Service (PaaS) 名為 Genie 以及當中提供 REST-ful APIs 處理執行動作及管理等等… 相當精彩的文章,萬勿錯過。

Spotify 案例

以下引用 Wikipedia 的 Spotify 簡介
網址:https://zh.wikipedia.org/wiki/Spotify

Spotify 是一個起源於瑞典的音樂串流服務,是全球最大的串流音樂服務商,提供包括 Sony、EMI、Warner Music Group 和 Universal 四大唱片公司和眾多獨立廠牌在內的、由數位版權管理保護的音樂,使用用戶達到在 2016 年 6 月已經達到 1 億以上。

待續……

相關文章:

淺談:數據大量產生的管理哲學(1)
談海量數據:大數據下的 Data pipeline 應如何制定?
談海量數據:大數據下的 Data pipeline 應如何制定(1)?


 談海量數據:大數據下的 Data pipeline 應如何制定(1)?

 https://www.facebook.com/hkitblog