當人們在比特幣的背景下談論區塊鏈時,與大數據的聯繫似乎有些牽強。如果不是比特幣,區塊鏈是金融交易的分類賬,還是商業合同,抑或股票交易?金融行業正在認真研究區塊鏈技術,區塊鏈技術可以將交易處理時間從幾天縮短到幾分鐘。
金融服務行業採用區塊鏈技術勢在必行。想象一下這個數量級的區塊鏈,其龐大的數據湖包含了所有金融交易的歷史記錄,且全部可供分析。區塊鏈提供了分類賬的完整性,但不能用於分析,這就是大數據和相關分析工具發揮作用的地方。
(一)大數據與區塊鏈的共同點
進入大數據時代,雲計算成為大數據基礎設施,也使得大數據的核心思想和雲計算一脈相承。大數據和區塊鏈之間有個共同的關鍵詞:分布式,代表了從技術權威壟斷到去中心化的轉變。
1.分布式的儲存
大數據儲存無法在一定時間範圍內用常規工具捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。大數據需要應對海量化和快增長的存儲,這要求硬體架構和文件系統在性價比上要高于傳統技術,能夠彈性擴張存儲容量。
區塊鏈是比特幣的底層技術架構,本質上是去中心化的分布式賬本。區塊鏈技術作為持續增長的、按序整理成區塊的鏈式數據結構,通過網路中多個節點共同參與數據的計算和記錄,並且互相驗證其資訊的有效性。從這一點來說,區塊鏈技術也是特定的數據庫技術。由於去中心化數據庫具有安全、便捷等特性,業內人士看好其發展,認為它是對現有互聯網技術的升級與補充。區塊鏈則是純粹意義上的分布式系統。
2.分布式計算
大數據的分析挖掘是數據密集型計算,需要巨大的分布式計算能力。節點管理、任務調度、容錯和高可靠性是關鍵技術。Google是這種分布式計算技術的代表,通過添加伺服器節點可線性擴展系統的總處理能力,在成本和可擴展性上都有巨大的優勢。除了批量計算,大數據還包括流計算、圖計算、實時計算、交互查詢等計算框架。
區塊鏈的共識機制,就是所有分布式節點之間怎麼達成共識,通過算法來生成和更新數據,認定一個記錄的有效性,既是認定的手段,也是防竄改的手段。區塊鏈包括四種不同的共識機制,適用於不同的應用場景,在效率和安全性之間取得平衡。以比特幣為例,採用的是工作量證明,只有在控制了全網超過51%的記賬節點的情況下,才有可能偽造出一條不存在的記錄。
(二)大數據與區塊鏈的不同
2011年,「大數據」第一次上榜,位於技術萌芽期的爬坡階段,當時還統稱為"Big Data and Extreme Information Processing and Management" (大數據和極端資訊處理和管理)。2012年更進一步,並在2013年達到了過熱期頂峰。經歷了2014年的下滑,從2015年開始,「大數據」突然從曲線中消失,可解讀為Gartner對大數據的定位已從「新興」轉為「主流」。
當前,大數據對於企業的意義已從能力要素上升為戰略核心。相對來說,「區塊鏈」三個字直到2016年才出現在《技術成熟度曲線》中,並直接進入過熱期。
總的來看,大數據和區塊鏈所處的生命週期大不相同,兩者約有5年的差距。大數據通常用來描述數據集足夠大,足夠複雜,以致很難用傳統的方式處理。區塊鏈能承載的數據是有限的,離大數據標準還差得很遠。
大數據與區塊鏈的差異主要表現,如表所示。
大資料與區塊鏈的差異 | |
差異 | 說明 |
結構化vs非結 構化 | 區塊鏈是結構定義嚴謹的塊,通過指針組成的鏈,典型的結構化 資料,而大資料需要處理的更多的是非結構化資料 |
匿名vs個性 | 區塊鏈是匿名的(公開帳本、匿名擁有者,相對于傳統金融機構 的公開帳號、帳本保密),而大資料有意的是個性化 |
直接vs間接 | 區塊鏈系統本身就是一個資料庫,而大資料指的是對資料的深度 分析和挖掘,是一種間接的資料 |
數學vs資料 | 區塊鏈試圖用數學說話,區塊鏈主張”代碼即法律”,而大資料 試圖用資料說話 |
獨立vs整合 | 區塊鏈系統為保證安全性,資訊是相對獨立的,而大資料著重的 是資訊的整合分析 |