2015.1.16 筆者隨 Open Data 聯盟、g0v 等民間開放資料社群代表,一起拜會行政院張善政副院長,與蔡玉玲政委、工業局、國發會、科技會報等 Open Data 議題相關官員進行了一場主題性的座談交流。相關資料見此:
在座談會中,筆者發言主要著墨在 Open Data vs. Big Data 的議題,限於時間,當場來不及充分討論的,藉此部落文,一併彙整如下:
Open Data 與 Big Data 發展的異同
張善政副院長當天提到,Open Data 與 Big Data 是兩個圓圈,中間有交集。這個看法不能說錯,但對於這兩項議題發展的異與同,其實我們可以描繪得更立體一點,如上圖 1. 所示。
我們保留交集的部份,成為以 Data 出發的三層同心圓。另外將不同的部份展開為兩個維度,因為在這裡,Open Data 與 Big Data 將分流討論。前者發展的關鍵是使用上的自由 (Openness),而後者則是強調善用新的技術架構來解決「傳統方法無法解決的 3V 問題:Volume、Velocity、Variety。
Open Data 與 Big Data 發展的交集:從 Data 出發的三層同心圓
Open Data 與 Big Data 發展交集的部份,從價值發揮的高低,可以畫分為三層:
Open Data 與 Big Data 發展的分流差異:開放 vs. 技術變革
我們可以分別依主體性與變革重點來討論 Open Data 與 Big Data 的不同之處。
主體性
Open Data 與 Big Data 的發展會產生分流,其最大原因是主體的不同:
變革重點
由主體性的差異出發,在圖 1. 的水平軸上,我們確認 Open Data 要變革的是 Data Owner 的心態與做法:
台灣政府各單位身為 Data Owner,在 Open Data 這個議題下,目前並沒有實質的硬性遊戲規則 (法案或法規) 存在,只有國發會的軟性建議 (規範,如「以開放為原則;以收費為例外......」),亦即各 Data Owner 不遵循、沒做到也不會怎樣。
在圖 1. 的垂直軸上,是因運算架構變革而驅動的 Big Data 技術發展,賜予 Data User 一個機會,讓「很多的非/半結構化資料,要在一定的時間內處理完,而且成本不能太高」這件事成為可能。此架構即是分散式運算 (Distributed Computing),其中最具代表性的軟體平台,即是開放原始碼的 Apache Hadoop。它使用多台的平價 X86 電腦串起可以水平擴充 (Scale-out) 的平行運算框架 (MapReduce) 與分散式儲存 (HDFS),打破以往必須仰賴昂貴超級電腦才能完成任務的桎梏。
政府單位的資訊長 (CIO) 就是資料長 (CDO) 嗎?
座談當天曾經出現一個討論:各政府單位的資訊長是否就該是資料長?
綜合以上,這個答案已經呼之欲出。
資訊長關注的是各單位的資訊應用系統,要如何規劃、導入、與進行效益評估,他/她是「應用之長」;而政府單位資料長的角色任務,則是在盤點該單位所擁有的資料後,制定開放使用的五大要素遊戲規則,並督導執行的正確性,他/她是「資料之長」。
若有一個人具有超強的能力,可以同時扮演好兩種角色 ── 資訊長兼資料長,那當然我們無話可說。重點是有沒有把這兩種角色的職掌明確區隔開來,組織不同的工作團隊、給予不同的 KPI。
Open Data 與 Big Data 應該合流發展
最後,我們還是要呼籲,政府的 Big Data 應用不應該鎖在科技部與補助的學研。即使是因為目前有法令上的限制 (據稱主要是個資法),也應該要努力突破,使政府認定的 Big Data 也能成為 Open Data 中的資料集,讓民間一起來提高與累積資料的應用價值。分而治之,實非社稷之福。
- 座談全程錄影:行政院開麥啦 YouTube
- 會議記錄:Hackpad
- 會前民間討論共筆:Hackpad
- 民間討論共筆議題彙整 (5 大項、17 點):SlideShare (p.4&5)
- 會議中網友線上討論記錄:Hackpad
在座談會中,筆者發言主要著墨在 Open Data vs. Big Data 的議題,限於時間,當場來不及充分討論的,藉此部落文,一併彙整如下:
圖 1. Open Data 與 Big Data 發展的異同
Open Data 與 Big Data 發展的異同
張善政副院長當天提到,Open Data 與 Big Data 是兩個圓圈,中間有交集。這個看法不能說錯,但對於這兩項議題發展的異與同,其實我們可以描繪得更立體一點,如上圖 1. 所示。
我們保留交集的部份,成為以 Data 出發的三層同心圓。另外將不同的部份展開為兩個維度,因為在這裡,Open Data 與 Big Data 將分流討論。前者發展的關鍵是使用上的自由 (Openness),而後者則是強調善用新的技術架構來解決「傳統方法無法解決的 3V 問題:Volume、Velocity、Variety。
Open Data 與 Big Data 發展的交集:從 Data 出發的三層同心圓
Open Data 與 Big Data 發展交集的部份,從價值發揮的高低,可以畫分為三層:
- Data (資料)
- Data Science (資料科學)
- Data Product (資料產品或應用)
Open Data 與 Big Data 發展的分流差異:開放 vs. 技術變革
我們可以分別依主體性與變革重點來討論 Open Data 與 Big Data 的不同之處。
主體性
Open Data 與 Big Data 的發展會產生分流,其最大原因是主體的不同:
- Open Data 的主體是 Data Owner
利益相關者 (最常見的是資料使用者) 希望 Data Owner 可以就資料開放使用的五個要素,主要為授權模式、資料格式 (如 CSV、JSON、XML、API、或其他檔案格式)、取得成本,兼及資料品質、更新頻率。 - Big Data 的主體是 Data User
對於 Data Owner 來說,若他只是擁有資料,並不去使用,其實是不會確切理解在一個特定 Use Case 上,他的資料在被應用時,於 3V (數量級、及時性、多結構性) 個別會產生什麼狀況、發生什麼問題?那誰會知道?自然是 Data User,一般即是使用各種所需資料集來打造 Data Product 的應用開發者。
變革重點
由主體性的差異出發,在圖 1. 的水平軸上,我們確認 Open Data 要變革的是 Data Owner 的心態與做法:
- 心態上,首先要願意將擁有的資料拿出來;
- 做法上,必須明訂資料開放使用的遊戲規則。
台灣政府各單位身為 Data Owner,在 Open Data 這個議題下,目前並沒有實質的硬性遊戲規則 (法案或法規) 存在,只有國發會的軟性建議 (規範,如「以開放為原則;以收費為例外......」),亦即各 Data Owner 不遵循、沒做到也不會怎樣。
在圖 1. 的垂直軸上,是因運算架構變革而驅動的 Big Data 技術發展,賜予 Data User 一個機會,讓「很多的非/半結構化資料,要在一定的時間內處理完,而且成本不能太高」這件事成為可能。此架構即是分散式運算 (Distributed Computing),其中最具代表性的軟體平台,即是開放原始碼的 Apache Hadoop。它使用多台的平價 X86 電腦串起可以水平擴充 (Scale-out) 的平行運算框架 (MapReduce) 與分散式儲存 (HDFS),打破以往必須仰賴昂貴超級電腦才能完成任務的桎梏。
政府單位的資訊長 (CIO) 就是資料長 (CDO) 嗎?
座談當天曾經出現一個討論:各政府單位的資訊長是否就該是資料長?
綜合以上,這個答案已經呼之欲出。
資訊長關注的是各單位的資訊應用系統,要如何規劃、導入、與進行效益評估,他/她是「應用之長」;而政府單位資料長的角色任務,則是在盤點該單位所擁有的資料後,制定開放使用的五大要素遊戲規則,並督導執行的正確性,他/她是「資料之長」。
若有一個人具有超強的能力,可以同時扮演好兩種角色 ── 資訊長兼資料長,那當然我們無話可說。重點是有沒有把這兩種角色的職掌明確區隔開來,組織不同的工作團隊、給予不同的 KPI。
Open Data 與 Big Data 應該合流發展
最後,我們還是要呼籲,政府的 Big Data 應用不應該鎖在科技部與補助的學研。即使是因為目前有法令上的限制 (據稱主要是個資法),也應該要努力突破,使政府認定的 Big Data 也能成為 Open Data 中的資料集,讓民間一起來提高與累積資料的應用價值。分而治之,實非社稷之福。
您好,對於文章的內容我有些問題,請問能否在此提問呢?
回覆刪除可以的,歡迎。
回覆刪除