2012年8月5日 星期日

企業資料的全貌:三種結構、三種溫度


Big Data 素養 1


~ 素養,是個人與外界作合理而有效的溝通或互動所需具備的條件 


「我知道資料有結構,但是...... 資料也有溫度喔?」別急,且聽小弟一件一件說來。

一. 企業資料的三種結構

企業的資料管理範疇,應該包含以下全部:

  • 結構化資料:放在 RDB (SQL DB) 或 Data Warehouse (DW) 中。
  • 半結構化資料:如各種 Log 檔、XML 檔、CSV 檔;一般可統稱為 Machine Data。
  • 非結構化資料:如圖檔、語音檔、影像檔、PDF 檔、Office 檔案、電子郵件、網頁等。

這些不同結構的資料,一般在企業中會搭配各種應用系統來使用,如 ERP、CRM、SCM、Reporting 之於結構化資料;Logging 日誌管理系統之於半結構化資料;E-Mail、Web 之於非結構化資料。

有一個調查顯示,結構化資料,只佔企業內全部資料的 15%,其餘的 85%,則為半結構化與非結構化資料。

圖 1. 企業的三種結構資料



二. 企業資料的三種溫度

因為應用系統的反應時間要求不同,我們可以進一步將企業資料區分成三種溫度:Hot Data、Warm Data、Cold Data。

圖 2. 企業的三種資料溫度


分別說明如下:

Hot Data

這類資料存在的目的。是要提供即時 (Real-time) 的在線查詢 (OLTP) 或分析 (OLAP)。

講白話就是要能馬上呈現結果,如 OLTP 的即時性要求一般是幾秒到毫秒,而 OLAP 的時間過長,也會影響報表產出、商業決策的時效性,所以運算能力是重中之重。

Hot Data 常見的載體,軟體是 RDB、DW、MPP DB,所以為結構化資料,適用的運算資料量級一般小於 TB,但 MPP DB 可以處理 TB 以上的資料量;搭配的儲存硬體則是 SAN、NAS、DAS、Cloud Storage 都有可能。

Warm Data

這類資料存在的目的,是要提供及時 (In-time) 的在線查詢 (Online Query) 或分析 (Online Analytics)。

講白話就是 Warm Data 應用查詢的頻率不若 Hot Data 那麼高,但通常為規模量很大,累積三個月、半年、一年的半結構化或非結構化資料,它甚至可能是從結構化的 RDB 或 DW 卸載 (Off-load) 轉換過來的半結構化資料。隨著應用場景的不同,通常是要求做到幾十分鐘、幾個小時、甚至是一天一次的及時性即可。Warm Data 處理以運算與儲存並重的分散式架構最適合。

Warm Data 主流軟體技術即是 Hadoop、NoSQL DB、SQL-like DW,適用的資料量級一般為 TB ~ PB。比如小弟公司的產品 Etu Appliance ,即是專門用來處理 Warm Data 的 Hadoop 軟、硬合一最佳化平台。

Cold Data

這類資料存在的目的,是要離線 (Off-line) 備查。

講白話就是過期要做備份 (Backup)、封存 (Archive) 的資料。原則上,Cold Data 已經來到企業資料生命週期的最後,不再有存在 Hot Data 或 Warm Data 載體的需要,也就是線上查詢不到,線上資料分析也用不到,剩餘價值很低,僅供留底備查。

Cold Data 可以是結構化、半結構化、或是非結構化資料,主要的硬體載體為 NAS、SAN、Cloud Storage、Tape,適用的資料量級一般為 TB 以上。

透過以上的說明,我們瞭解到企業以往偏重 Hot Data 與 Cold Data 的運用與管理,在 Big Data 風潮興起之後,半結構化與非結構化的 Warm Data 在線價值應用,將引爆更大的商機。

另外值得注意的是,資料應該要可以在 Hot Data、Warm Data、與 Cold Data 載體間流動。例如,在 Etu Appliance 中過期的 Warm Data,可以移往 Cold Data Storage 進行備份;或是經過 Etu Appliance 預處理過的資料量變小,轉存至 RDB 或 DW,可供既有的 OLTP 或 OLAP 應用系統取用,擴展企業的數據視野。

而一些新的 Cold Data 儲存產品,也設計加入 Hadoop 的分散式儲存檔案系統 HDFS,可以讓 Hadoop 的運算單元來進行資料的存取。當然,這樣分離使用所帶來的運作效能問題,需要特別注意。


沒有留言:

張貼留言