回到外判計劃之上,如果大家決定找外援設計你的 Data pipeline 的話,在此之前你亦應該先擬定相關計劃。首先你要做的就是整合數據源。究竟那些數據是最優先?數據來源有那些?那些數據會帶來即時回報等,這一切你都必先要考慮清楚,事關數據源、優先次序會對整個設計帶來一定的影響。

接著你需要考慮到相關存儲的方案是否能滿足你的要求,例如有關方案是否可擴展?是否提供審計功能?安全性如何?是否提供重複數據刪除功能或像是前面提到過的 CDC 功能?等等,稍後我們將會有部份篇幅介紹一下現今的儲存方案及資料倉庫相關簡介。

再來的下一步是甚麼?

再來的下一步就是建立自己的資料倉庫 (Data Warehouse)。資料倉庫會將所有企業之中的數據規律地儲存在內,從而讓決策者能通過不同的工具隨時隨地進行分析並洞悉數據的價值。

甚麼是 Data Warehouse?

節錄維基百科的解釋:資料倉儲是一種資訊系統的資料儲存理論,此理論強調利用某些特殊資料儲存方式,讓所包含的資料,特別有利於分析處理,以產生有價值的資訊並依此作決策。

利用資料倉儲方式所存放的資料,具有一旦存入,便不隨時間而更動的特性,同時存入的資料必定包含時間屬性,通常一個資料倉儲皆會含有大量的歷史性資料,並利用特定分析方式,自其中發掘出特定資訊。

參考 QRCODE

有關如何建立資料倉庫部份是一個十分專業的範疇,我們篇幅所限加上本文並非以教學為主,因此並不會涉及其中,如有興趣了解更多,可到以下 QRCODE 網站之中參考。

簡單來說,要建立一個優良的資料倉庫,離不開效能、可擴展性、兼容性。提到效能,於大數據的分析之中,大型企業都正在使用分析型數據庫 (Analytic databases) 技術,通過此技術從而提供極之快速的效能。(比一般事務型資料庫[Transactional databases] 快 100 倍)。

現時於市面上主要可分為 5 個不同類別的分析型數據庫,包括為列式資料庫 (Columnar database)、數據倉庫一體機 (Data Warehouse Appliance)、內存資料庫(In-memory database)、巨量平行處理數據庫 (Massively parallel processing (MPP) databases) 以及是線上分析處理(Online analytical processing)。

這些分析型數據庫比較知名的供應商便是被 HPE 收購了的 Vertica Systems,還有就是 Oracle,這些廠商提供的方案,大型公司購買都要相當審慎,因為不便宜!

待續……

相關文章:

淺談:數據大量產生的管理哲學(1)
談海量數據:大數據下的 Data pipeline 應如何制定?
談海量數據:大數據下的 Data pipeline 應如何制定(1)?
談海量數據:淺談外判 Data pipeline 要注意的事項


 談海量數據:淺談外判 Data pipeline 要注意的事項

 https://www.facebook.com/hkitblog