2016年5月18日 星期三

Big Data Product 四面剖析

長期收看本部落格的朋友,相信已經對 Big Data、Data Product、Data Science,都有了基本的認識。用這三個 Keyword 對本部落格做搜尋,應該會找到許多相關的文章。

最近為了準備一場演講,特別整理出剖析 Big Data Product 的四個面向。

圖 1. 剖析 Big Data Product 的四個面向

它們是:應用類型、技術類型、終點類型、使用者類型,以下分別說明。

1. 應用類型

這個類型是許多決策者、部門主管最關切的。可橫跨不同行業的主流 Big Data 應用舉例如下:
  • 資料倉儲分流卸載 (DW Offload)
    整合傳統的資料倉儲與新的 Big Data 平台,以協助增進分析效能
  • 360° 單一顧客圖譜 (Single Customer View)
    多通路、線上線下客戶資料整合分析,以協助精準行銷
  • 安全/風控 (Cyber Security/Risk Management)
    及時安防偵測、反詐欺、以協助降低風險
  • Big Data 探索 (Big Data Discovery)
    巨量資料挖掘、視覺化,以協助更好的決策
  • 營運分析 (Operation Analysis)
    多重 Machine Data 整合分析,以改善商務、生產、或管理效能

2. 技術類型

這個類型可說是大部分人認識 Big Data 的起點 ── 當 Big Data Product 所用的資料具備 3 V (Variety、Velocity、Volume) 中的一或多個特性,我們就可以從新的技術架構切入來討論:
  • 多結構化 (Variety: Multi-structured / Various Format)
    將各種格式的原始資料,處理、辨識、轉型成具結構化或萃取為特徵值的資料,以供後續分析運用。
  • 及時性 (Velocity: Batch、Near Real-time、Real-time)
    可以細分為資料處理前流進來的速度,以及結構化入庫好後,取用的速度。比如精準推薦演算法所使用的資料,是隨時都會進到系統的 Clickstream Log,但商務需求可能只需要 2~3 個小時,甚或一天執行一次運算,而運算完的結果 (個人化商品推薦清單),又可能被隨時查詢。所以要討論一個 Big Data Product 的及時性,就看要從哪個環節切入,才不會標的錯誤。
  • 巨量 (Volume)
    一般人對 Big Data 認知的起源,大概就是資料量很大 (High Volume),大到傳統方式無法處理或分析。但資料量大小所引發的問題是相對,而非絕對的,我們還必須把上面另兩個 V 給放進來一起看,像這樣:資料量大,又想要及時性高,就要耗用更多的儲存與計算資源;原始資料格式複雜 (如多媒體檔案),想要結構化它,自然也得多耗用計算資源,處理的及時性自然比格式簡單 (如 CSV 檔案) 的資料要來得低。所以到底是資料儲存量大,還是資料計算量大,這是可以再進一步細究的。

3. 終點類型

此種類型,比較少有人陳述,但卻能夠充分表達一個 Big Data Product 最終交付的標的,以及該資料產品的使用對象:
  • 終於處理
    終於處理產品的交付標的是結構化好、可供查詢的分散式資料庫或分散式數據倉儲,它的使用者可能是應用程式設計師或資料分析師。
    Etu Data Lake 是終於處理的典型代表。它的存在,就是希望透過一個 Big Data 平台,加上一個標準化的資料盤點、儲存、處理、入庫流程,來讓資料準備 (Data Preparation) 這件事,做到正確、有效、自動化,讓商業洞察的美夢具備成真的基礎。
  • 終於分析
    終於分析產品的交付標的可能是視覺圖表、報表、分群清單、預測結果、或是簡單的結論,它的使用者可能是各種職務的管理人員、行銷人員、商務人員等。
    Etu Insight 是終於分析的典型代表。它透過收集企業各種的第一方自有資料,如來自官網或 App 的線上行為資料、企業 CRM 系統的線下交易與會員身分資料,進行各種分析模型的分群運算。另外有些強調視覺化的 BI 工具,也是終於分析的例子。
  • 終於行動
    終於分析,可以產生洞見,但這還是僅止於「朕知道了」,直到有人或自動化系統採取行動,才可能把資料的價值變現回來。
    終於行動產品的交付標的,其實就是行動本身,如商品推薦、電子報發送、簡訊發送、廣告投放等均是,它最常見的使用者是行銷人員或是經營人員。
    Etu Recommender 是終於行動的典型代表。它把客戶行為分析後的結果,直接化為個人化的精準推薦行動,讓消費者看越多、買越多。使用第二方 DMP 來做廣告投放對象 (TA) 的篩選,這也是終於行動產品的一個例子。

4. 使用者類型

這個類型,是以 Big Data Product 的直接使用者來區分需求,常見的有:
  • CxO
    這群企業最高主管,他們關切的是 Big Data Product 的產出,可以怎樣協助檢視或是發展新策略。簡明的圖表、發掘論點、可行動的洞察分析,是他們最需要的。
  • Business User ─ Marketing
    行銷人員,尤其是 B2C 行業的行銷人員,要的其實就是從第一方、第二方、第三方資料的彙整運用中,對會員經營、潛在客戶經營、品牌經營、活動經營、轉化率經營有實質的提升。
  • Business User ─ Operation
    經營人員,如電商館長或實體門市的店長,他們不只是看銷售端的績效,也要賺管理財,所以分析需求涵蓋的範圍會向上擴大到供應商、存貨、配銷、人員等。
  • Data Team ─ Data Analyst
    資料分析人員,他們需要的是能更自主取用資料的權利與工具,讓他們可以抓取更多來源的資料、看更長的資料區間、做更多維的關聯,至於是自己寫程式做分析、預測,還是使用套裝軟體來做,各有需求。
  • Data Team ─ Data Engineer
    資料處理人員,他們需要的是一個容易進行各類應用程式開發與執行的 Big Data 平台,以便他們可以自行建構或自動化整串的 Data Lake 流程。
  • IT ─  Infrastructure Administrator
    IT 系統管理人員,他們要的是一個容易部署、擴充、管理、具備 HA (高可用度) 的 Big Data 平台。

總的來說,關於 Big Data Product 的四面剖析,可以讓我們在看待一個產品時,擁有更多元的視野,也更能貼近需求來評估一個 Big Data Product 的適用度。






沒有留言:

張貼留言