本书提出了运用区块链技术解决大数据发展中所面临问题的思想。本书分为8章。首先通过对大数据发展所面临困境的分析,引出了迅速崛起的区块链技术,比较了两者的技术沿革及异同;然后通过分析数据流通中存在的问题,揭示了区块链技术带来的改变;最后介绍了区块链技术在相关行业中的应用,并对区块链技术与大数据的结合展开了畅想。总之,本书站在科技发展的前沿,对区块链与大数据的融合发展进行了深入阐述,力求为行业发展提供可行性的指导建议。
作者:井底望天;武源文;赵国栋;刘文献 出版社:人民邮电出版社 出版时间:2017年6月
大数据价值的发挥在于多源数据的融合。目前的数据流通已经严重制约了社会整体大数据价值的发挥,数据的开放、共享、流通和隐私保护问题成为了大数据快速发展道路上最大的瓶颈。所有人都意识到,只有当不同的数据源开放共享,才能最终达成“社会化大数据”这个目标;否则,独立存在、互不共享的数据源只是形成了一个个数据孤岛而已。但是,数据开放共享所面临的阻力可能远远超过人们的想象。究其原因,现在的信息化技术——数据库、云计算、数据中心等都是基于为中心化服务的思想而设立的,这必然导致数据高度集中,形成数据垄断。因此,数据垄断扼杀数据创新的问题也将长期存在,如何在数据所有权和数据共享之间找到合适的平衡点将是大数据生态能否健康发展的核心问题之一。
正如古人所言,“阴在阳之内,不在阳之对”。中心化技术和去中心化技术是应该互补和相辅相成的,区块链技术与大数据技术必将完美融合,从而产生巨大的社会价值。
区块链加密共享、分布式账本的技术特性对解决数据开放共享和流通提供了新的解决思路,不仅能促进数据的流通,破解大数据发展的困局,而且能通过构建价值互联网络逐步推动形成社会化的大数据互联互通。同时,区块链还能促进更平等和自由的数据流动,它所产生的基于共识的数据具有更致密的价值属性。因此,区块链很可能将成为一个提升人类社会信息精度的工具。
区块链技术的革命性被拿来与互联网的上一个革命性技术——TCP/IP相并列。TCP/IP用代码协议彻底打破了信息传递过程中物理空间、中心控制、时间跨度以及成本的限制,而区块链技术解决了TCP/IP所不能解决的信息传递的真实性问题,以及在互联网上进行价值存储和传输的问题。
区块链和大数据技术是伴随人类社会一步步共生进化而来。大数据的内核仍然是统计分析,其背后的动力是人类对未来的精准预测;而区块链的底层逻辑是去中心化、自制、开放和透明,无论人们是否关注过这些深邃的底层逻辑,构筑怎样的世界观体系,现实对技术驱动力量的需求只有一个——效率!科技始终要服务于社会需要这个大原则,区块链和大数据相结合,将真正达到促进社会协同融合的目标。
大数据的概念出现得很早。1980年,托夫勒在其著作《第三次浪潮》中就热情地将大数据称颂为“第三次浪潮的华彩乐章”。但真正对大数据理念的普及起到决定性作用的是麦肯锡公司,该公司在2011年6月发布关于大数据的报告[1],对大数据的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到各行各业的关注。
维克托•迈尔-舍恩伯格和肯尼斯•库克耶在《大数据时代》一书中提出了大数据的4V特点。 (1)Volume(数据量大)。 (2)Velocity(数据输入和处理速度快)。 (3)Variety(数据多样性)。 (4)Value(数据价值密度低)。
实际上,很难界定史前时代和古典小数据时代的分界时间,或许最早的时间点可以被界定在开普勒进行数据分析这一代表性的事件前后。很有才干的天文学家第谷•布拉赫(1546——1601年,丹麦人)用持续20年的时间观察记录了750颗行星的运行数据,位置误差不超过0.67°,却没有对这些数据做深入分析。而能力相对一般的开普勒(1571——1630年,德国人)则花了16年(1596——1612年)对第谷的观测数据进行分析研究,得到了开普勒三定律。这个研究项目持续了将近40年才得到结果。
1951年,世界上第一台商品化批量生产的计算机UNIVAC-I投产,计算机从此从实验室走向社会,由单纯为军事服务走向为社会公众服务。这一年被认为是计算机时代的真正开始。在计算机时代,整个数据价值被发掘、利用的体系都越来越依赖于计算机,但是由于方法论上仍然遵循着古典小数据时代的基本逻辑,因此仍然属于小数据时代。
在小数据时代,由于绝大部分数据需要专门采集,并且整个流程都需要专业统计人员的参与,导致数据获取成本很高。因此,必须采用抽样的方式来控制样本量,以使用尽量少的样本得到对研究总体尽量好的代表性;高昂的数据采集成本会促使原始数据信息被严加保护,数据分享变得异常困难。得出分析结论越来越难;数据采集的障碍也使研究结论应用到个案上的成本很高。
近几十年来飞速发展的IT技术,特别是互联网技术,对催生大数据理念起到了至关重要的作用。长期以来,数据的采集成本始终居高不下。如今,这个障碍已随着多个自动数据来源的出现而渐渐消失。数据的第一个来源是“电脑”。这种“电脑”带来的广泛数据化,使原本被舍弃的次要信息也能保存下来。数据的第二个来源是各种传感器。数据的第三个来源是将过去已经存在的以非数字化形式存储的信息数字化。数据的第四个来源就是蓬勃发展的个性化互联网数据。还有很多传感器通过互联网实时采集来自个体的信息。例如,手机已经成为了个人信息中心,通过手机采集个体信息非常精确。
仅从网络传输速度来看,从20世纪90年代的拨号上网到现在的光纤入户,以及从有线网络到无线网络乃至于3G、4G的进一步扩展,这些技术进步无一不在拆除着数据传输分享的技术壁垒。
在小数据时代,样本只能对总体的一致特征具有代表性,而无法覆盖到各种亚群体的罕发事件(小概率事件)。随着大数据的出现,丰沛的数据量使研究者几乎可以将数据集任意细分到任何所关心的维度和深度,而仍然有充分的样本信息可被利用。这使得分析结果显然比小数据时代有了更好的代表性。
只要数据量足够完备,理论上对无限细分之后的层级也能够给出足够高精度的分析结果,这就使分析结论的代表性大大增强了。
除了对总体做尽量精确完整的描述之外,大数据还可以全方位地补齐被刻意隐藏起来的、难以直接获取的关键信息,而这类关键信息往往都存在巨大的商业价值或者其他价值(或许因此才会被刻意隐藏)。
描述和补齐缺失值只是对现状进行呈现,而大数据的最终价值在于对未来进行预测。可以说,这方面的应用场景是充满想象力的。
大数据时代,数据不再仅仅作为生产过程的记载、劳动成果的度量,其本身也成为了一种生产要素,是一种经济资产。 数据代表了对现实的量化与抽象,所以大量的数据自然就给我们带来更多、更全面的观察世界的方式,而新的观察方式可以揭示以前没有发现的特性。
“饿了么”从外卖订购平台起步,积累了大量的用户饮食信息之后,发现原来可以把菜品供应和原材料供应联系起来,于是就有了给餐厅提供食材的“有菜”平台,进而打通批发、物流、服务等一整套链条。这种做法其实就是依靠对已有客户的深度了解,利用大数据带来的高效率逐步侵占与现有服务相关的上下游产业的模式。
对于个人而言,大数据也将彻底改变其工作和生活方式。所谓工业4.0,其本质就是自动化和信息化不断融合的过程,就是大数据持续发挥价值的过程,也是用软件重新定义世界的过程。一切都在基于数据被精确地控制当中,人类的大部分体力劳动和脑力劳动都将被机器和人工智能所取代,汽车司机、售货员、检票员等工作将彻底消失,智能生产、智能服务、智能维护将贯穿于整个人类社会,不仅个体的生活将被重塑,传统的产业链也将被彻底打碎重组。
如果说之前提到的大数据应用都是基于把相对通用的数据处理方式用在不同的个体身上,那么人工智能则是基于数据的个性而把对数据的处理进一步个性化,这么做最直接的结果就是更加精准的匹配与更高的满意度。随着时间的推移,掌握一切历史和当前数据的人工智能与其服务的用户之间甚至可能会产生一种类似教练与运动员之间的默契,真正进入数据驱动一切的状态。
近些年,大数据实践中最突出的问题就是基础数据的缺失。其原因一方面是没有统一的数据标准,因此很多数据无法被直接利用,需要转化或者清洗;另一方面是数据开放、共享机制不明确,无法有效地让已有的信息流通起来,供多方使用。
大数据更多是辅助工具,而不是决定性工具。传统的数据分析方法虽然相对低效,但由于强调对因果关系的反复确认,使分析结论的准确性更高。大数据由于更强调相关性而不是因果推断,使结果为假象的可能性明显上升。
推而广之,大数据分析的内核仍然是统计分析,而统计分析的基本假设是历史数据中所蕴含的规律在未来仍然有效,因此可以基于历史数据的分析结果来预测未来。但在用户行为变化速度很快的网络世界,这条准则很可能并不成立,因此所有依赖于网站用户数据的大数据分析都存在失效风险。
制约数据资源开放共享的因素有很多。对于政府部门而言,其本身就缺乏数据开放的动力。这并不能简单地归结为政府行政垄断、故意不作为或者理念落后等原因,政府在数据开放方面的保守态度是有其合理性的,因为政府所掌握的数据信息往往有一定的敏感性。除了政府部门之外,大数据时代的另一个主要数据持有者就是各大企业。但是,正因为数据中蕴含着宝贵的商业利益,甚至可能决定自身的生死存亡,因此各大企业也不会随便开放自身拥有的有价值的数据。
破除数据资源开放共享的障碍,首先需要在数据保护和隐私保护方面构建完整的技术与制度体系,建立数据共享的基础;其次,各国应当有国家级大数据战略的宏观统筹,并在此基础上制定一系列的强制政策和法规,移除基于利益垄断需求而出现的各种障碍,以便最终能建立一个良性发展的数据共享生态系统。能否打破数据孤岛,成功形成一个开放的数据共享生态系统,可以说是未来大数据成败的关键。
大数据时代噪声数据泛滥的原因,除了全方位的多数据源所采集信息的价值含量本身就非常低(但至少还是有价值可以发掘的)之外,还有大部分是几乎完全没有任何价值含量的、纯粹扮演噪声角色的低质量数据。这些低质量数据主要有以下几种来源。信息转发与复制,垃圾邮件与营销直投,网络水军,
在大数据时代,数据素养开始成为公民的基本素养:对数据敏感,有一定的数据收集、分析和处理能力,有利用数据进行决策的能力,对数据具有批判性思维。
我们每天都要面对这样的问题:个人信息越来越多地被别人掌握,而每个人本身既不能阻止这种情况的发生,也不知道会产生怎样的后果。一方面,各种终端、传感器和记录设备无处不在地记录着我们的虚拟世界和现实生活中的应用数据和生活轨迹,通过大数据技术可以深刻地洞察我们的一切,甚至可以预测我们的行为;另一方面,作为这些数据归属权的主人,却不知道哪些数据如何被收集记录了,这些数据未来会出于什么目的、流向哪里、会被谁如何使用,这个过程对我们个人来讲就是一个神秘的黑箱。
大数据的发展必须解决个人隐私保护的问题。一方面,个人隐私不能够被无限制地滥用,每个人需要对自己的隐私使用有知情权,也有拒绝的权利。这种权利需要有可靠的手段,而不能仅仅建立在第三方信用背书和道德自律上(大量的电商和公共数据被盗事件早就证明了第三方的承诺并不可靠)。另一方面,包含部分个人隐私信息的数据又需要找到安全、可靠、高效的途径和方法来做共享,只有这样,社会化大数据才能真正发展起来。
经过近几年的狂热追捧之后,大数据的发展进入了新阶段:第一,随着新科技和新热点的不断涌现,大数据所受到的关注度逐渐下降,炒作和投资方面开始降温,行业的浮躁逐渐消散;第二,经过了初期的高歌猛进之后,能够简单、快速取得效果的大数据应用都已经有所突破,再进一步取得进展的时间周期开始拉长;第三,大数据面临的一些技术和商业逻辑上的掣肘已经开始实质性地阻挡了大数据的快速发展,亟需快速有效地搬掉这些绊脚石。
大数据发展所遇到的障碍有两类。一类是和技术相关的障碍,如基础数据采集、处理速度、存储空间、分析技术等,原有的相关技术面对持续上升的海量数据自然会力不从心。另一类实质性障碍主要是来自于商业逻辑。如何能够让共享数据的价值凸显,冲破数据孤岛的壁垒?
作为一个新兴的信息技术,区块链使用时间戳和数字密码技术,把交易记录记载在按时间序列组成的数据区块中,并使用共识机制把数据存储到分布式数据库内,从而生成了永久保存、不可逆向篡改的唯一数据记录,达到不依靠任何中心机构而实现可信交易的目的。
区块链技术具有三个明显的特性:公开性、安全性和唯一性。 公开性是指区块链中存储的信息对所有的参与者是完全公开的。这一点是由区块链的点对点网络(Peer to Peer)存储方式决定的。在区块链网络中,每一个节点都可以存储区块链的副本,而区块链的唯一性能保证这个副本在不同节点之间是完全相同的。 安全性是指区块链上的信息是通过数字加密技术保存的,只有掌握相应解密信息(私钥)的成员才能够解读信息。其他成员虽然可以看到并验证信息的完整性和唯一性,但无法获得私钥本身。 唯一性是指区块链上存储的信息是不可更改的。这既包括在空间上的唯一性,即所有节点都只有一个相同版本的信息,也包括时间上的唯一性,即历史数据不可更改。同时,区块链的唯一性还指区块链在运行过程中保持唯一一个链条的特性。因为如果出现不同的链条,区块链就形成了分叉。
互联网在发展的过程中具有几个比较重要的特征。 (1)开放性:新的节点只要接受标准协议就可以连接入网。 (2)去中心:互联网产生的初衷就是防止单点中心被摧毁而采用的多中心系统,随着后期更多的局域网和新组网技术的加入,互联网去中心的属性越来越明显。 (3)局域网(多样性)+互联网(一致性,TCP/IP):互联网展现出一定的多样性,能够包容各类技术、协议和网络。同时,互联网又具有一致性,网络之间主要的通信都可以通过标准的TCP/IP解决。 (4)协议分层:互联网兼具多样性和一致性的源头,就是协议分层的实现。无论是五层网络模型,还是七层网络模型,核心思想都是在保持底层一致的前提下根据具体的应用扩展出市场需要的多样性。 (5)从量变到质变:互联网的发展是一个从量变到质变的过程。当接入的节点数量相对较少时,网络上的应用数量和社会对网络的关注也就相对要少,整体处在技术积累的阶段。当接入的节点达到一定数量后就出现了应用的爆发,也就是所谓的互联网革命。
价值互联的核心是要实现资产的互联互通和自由交易。要把全社会的资产都搬到价值互联网上,必须先解决三个问题:完全开放的平台、资金的安全和资产的定价。
智能资产一般是指一切以区块链模型为基础的可交易的所有权类型资产。这些资产可能是物理世界中真实存在的资产,如房屋、汽车、自行车或计算机,也可能是类似于股票、储蓄或版权(如书籍、音乐、绘画以及数字艺术)这样的无形资产。任何资产都可以在区块链中注册,其所有权是被控制私钥的人所掌握。所有者能够通过转移私钥或者资产给另一方来完成出售资产的行为。
智能合约之所以能如此操作主要是有三个要素:自治、自足和去中心化。首先,自治表示合约一旦被启动就自动执行,而不需要它的发起者进行任何干预;其次,智能合约能够自足地获取资源,也就是说通过提供服务或者发行资产来获取资金,当需要的时候也会使用这些资金;最后,智能合约是去中心化的,也就是说它们并不依赖单个中心化的服务器而分布式存在,并且通过网络节点来自动运行。
在去中心化的物联网中,区块链是能够促进交易处理和交互设备之间协作的基础架构。每个区块链管理自己的行为,发挥自身的作用,这样就会形成一个“去中心化的自治物联网”。未来的经济行为可能不再局限于人与人或者组织之间,机器之间也会发生经济行为,区块链技术将开启机器经济的时代。 未来的物联网将会是大数据的一个重要来源。如何提高物联网大数据的质量,如何有效筛选、整合、处理物联网大数据,区块链有能力发挥巨大的作用。
一个怀着蜂群思维[3]的群体,相比传统的中心化组织有着可适性、可进化、弹性、无限性、新颖性等多方面的优势。这个思想在技术上的应用,使我们在通信网络等技术领域取得了巨大的进步。借助区块链技术,我们可以在真实的社会组织中实践这些思想。去中心化自治组织(Decentralized Autonomous Organization,DAO)、去中心化自治公司(Decentralized Autonomous Corporation,DAC)和去中心化自治社会(Decentralized Autonomous Society,DAS)在很大程度上可以解决相当多的实际问题。
18——20世纪,在牛顿世界观的指引下,人类开启了现代科学的所有发端,取得了令人瞩目的成就。时至今日,现代科学的普适性教育都是以牛顿世界观作为底层逻辑,几乎所有现代人都接受了牛顿世界观的科学启蒙,牛顿世界观也深深嵌入了我们的思维方式。
狭义相对论有两个基本原理:相对性原理和光速恒常性原理。广义相对论有两个基本原理:广义协变性原理和等效性原理。广义协变性是相对性原则的扩大版,讲的是物理定律在所有参照系中都是一样的,在所有参照系中相同的实验会有相同的结果,基于不同参照系进行观察,则结果是相对的。等效性原理是指加速度产生的效果与重力产生的效果没有区别,就是以相同加速度朝向地球的感觉和朝向任何方向的感觉没有任何区别。广义相对论的实质是研究时间、空间和质量之间的关系,爱因斯坦要用方程式把这个关系简单、有效地表达出来。
相对论告诉我们,世界是相对的,因为连时间和空间都是相对的,而不是绝对的;事物是与参照系相对应的,视角和参照不同,往往得出完全不同的结论。但相对论更重要的意义在于证明了我们会在常见的问题上犯错。这些常识往往被作为公识,想当然地、不假思索地用作其他推理的前提,因而必然导致许多荒谬的结果,也难以求得真知。
量子理论是研究微观物理世界规律的理论。微观领域有许多独特而深奥的特性,宏观领域的科学理论无法描述微观领域的规律。结合了牛顿经典力学的量子理论就发展成了量子力学,结合了爱因斯坦相对论的量子力学建立了量子场论。从原子物理学、量子光学等学科的建立,再从半导体、晶体学到大规模集成电路等信息产业和现代新能源新材料的应用,量子理论的发展引发了一系列科学发明和技术应用。
世界是非定域性的。包括爱因斯坦都认为,在一个地域的事件不能影响遥远地域的另一个事件,叫定域性。但是EPR实验、内尔定律和阿斯派克特实验发现,一个地方发生的事件可以瞬间影响另一个地方发生的事件,称为钟状影响,也就是事物的非定域性。
人类社会已经进化到21世纪,虽然我们都知道爱因斯坦,知道时空不是绝对的,宇宙是无限广袤的,量子理论也告诉我们世界是不连续和不确定的,但这些科技的发展远远超出人类大众的体验,主流的世界观仍停留在牛顿世界观时代。
牛顿世界观带给我们树状思维,事物的发展就像根茎叶般因果脉络有序的;量子理论带给我们块状的块茎思维,这里没有因果、没有中心、没有层级、没有确定,只有相关、只有连接、只有流动,任何点都可以也应该建立连接,相关就应该连接。
生命的最小单元是细胞,活的细胞能够从周围物质中吸取需要的成分,并生成自己所需的物质。当生长到一定程度时,细胞可以分裂成两个完全相同的细胞。细胞的分裂是从染色体开始的,染色体上最小的组成单元是基因,其决定了生命的所有特征。基因本身是具有生命的“活分子”,每个基因大概由百万个原子构成。基因具有高度稳定性,因而可以保证每个物种具有稳定的特性。人体中基因的总量大约只有不到60克,就是这微不足道的几十克物质驱动了几千倍于自身的物质,构成了极其复杂的生命体。
进化论适用于所有事物,不限于生物。如果说牛顿世界观是机械的、静止的、单向的世界观,那么进化论的世界观则是不确定的、变化的、发展的世界观。越是基础的越是稳定的,越是复杂的、高级的越是不稳定的,表现为更快速地变化。
技术进化会逐步改变人类的属性。技术会放大人类的能力:衣服放大皮肤能力,望远镜放大视觉,电话放大听觉,汽车放大行走能力,外骨骼技术放大人体机能,计算机放大思考能力,手机放大连接世界的能力,这一切就像人类器官的技术外化
人类与技术共生进化的结果:人越来越依靠技术,越来越趋向技术,越来越像技术;技术与人共生进化的结果:技术越来越依附人类,越来越趋向人类,越来越像生命。人类与技术日趋统一,传统意义上的人类或许终将不存在,代替的是更技术化的人类,更加智能。
在与人类的共生进化中,技术想要拥抱生命,就会长入生命,嵌入人类的认知与行为并无法剥离,表现出技术自身的组织活性和生命力。技术越来越生命化,但真正赋予技术以生命的或许正是区块链。
对应于DNA,哈希算法的这些特性可以保证信息的唯一性、稳定性和多样性,这也正是DNA具有的基本特性。哈希指针就是哈希值的有序组织方式,区块链可以形成一个无法篡改的记录,保障信息传递过程的稳定性。
技术进化中的自然选择是基于技术与人类的共生关系而进行的。曾经存在独立的人类进化,也存在独立的技术进化。随着技术与人类共生趋向一体化,人类的进化就是技术化,技术的进化就是生命化。所以,技术和人类越来越形成一个进化整体。之前的技术进化只是看起来好像具有生命特征,而现在的技术进化就是真正具有了生命特征。 区块链就是赋予技术生命能力的开始。人类是碳基生命,是生化算法驱动的生命,是基因生存的机器;技术是硅基生命,是电子算法驱动的生命,是区块链生存的机器。
去中心化不是不要中心,而是由节点来自由选择中心、自由决定以谁为中心。 中心化的人类社会组织能更有效地利用资源,更有效地分工协作,使人类自己在生存竞争中居于绝对优势。
国家的出现是社会发展的必然结果,也是中心化竞争优势的终极体现。在一定地域中,人们自发地建立一个共同体,这就是国家。新的社会制度取代了由血缘关系决定的氏族制度,这就是具有公共权力的国家制度。
公司是另一种中心化力量的极致体现。基于使命和愿景,公司组织凝聚起个人,具有比任何个人都强大的能力和经济动力,使血缘、地缘联系之外的陌生人共同合作成为可能,并且能扩展一个经济单位所能掌握和支配的资源,分散商业活动的高风险。
中心化,通过分工协作来延展和放大个体的力量,展现了这种模式的竞争力;通过组织来筹划资源的总体利用效率,则表现出生存能力。所以,中心化是一种生存竞争哲学,它展现了巨大的力量。而这个力量表现为巨大的竞争优势,是促使万物走向中心化的驱动力。
大数据成为加剧中心化的力量。中心化有利于信息积聚,而信息积聚会加速组合进化,加速了的进化趋向垄断。所以,世界最终会趋向有限的几个数字大脑。同时,技术开始接管人类的部分工作、部分职能,甚至部分机体。人类在与技术共生进化的过程中开始趋向技术化的超自然的“神人”。但并非所有人都自然会成为“神人”,只有那些掌握算法、掌握数据的人,能利用技术赋予的能力成为极少数的“神人”,才会成为世界中心的力量。“神人”会获得竞争中的优先权利、长寿长生的权利和资源分配的权利。
人文主义是一种世界观,是人类随着科学进步而信心高涨的产物。它肯定人性和人的价值,要求个性解放和自由平等,推崇人的感性经验和理性思维,并以个人的兴趣、价值观和尊严作为出发点,使人的自由意志得到彰显。因此,人文主义是一种去中心化的巨大力量。
人文主义开始影响到社会的方方面面,从政治经济到文化教育等,成为了基本共识和基础价值观。以开源运动为开端,以众智、众筹、共享为代表的自下而上的自制类趋势表现出强大的生命力。更多样化价值主张的社群开始空前繁荣,他们常常是以自制为动力,以去中心化为形式。
在互联网中,每个个体都是一个节点,每个节点都可能或可以建立连接,每个节点都可以参与表达,输出影响力。互联网成为一种有力的武器,个人力量借助互联网得以被放大。过去需要通过公司或组织构建力量的模式,在互联网时代已经失效。更高效协作、更低成本和更凸显个人价值的虚拟组织或微组织已经显示出过去只有大型组织才具有的力量。基于互联网,个体可以自我赋权,如自媒体,同样可以形成巨大的力量去影响和改变世界。
去中心化、自制、开放、透明正是区块链的底层逻辑,与基于不确定的量子世界观是完美匹配的,或许在未来可以更好地支撑去中心化的社会组织。作为信息基因的区块链赋予信息生命能力,搭建起有基础生命能力的信息组件,使信息组件的组合能进化产生丰富多样的应用。
中心化与否是一个复杂而交织的概念,没有绝对的中心化与去中心化,一切都是相对而言的。 后端趋向集中化,前端趋向去中心的多元化,二者相辅相成。所以,互联网是通过去中介化的方式,同时加强了中心化和去中心化的力量。
去中心化和中心化竞争的核心在于效率,尤其在于连接的效率和流动的效率。所以,去中心化不能作为区块链的优势,最多作为技术特点,这个特点可能在某些应用场景下恰好可以发挥出巨大的优势。同样,在匿名和隐私保护方面的技术特点也不能作为区块链的优势,因为在操作层面很难割裂与现实身份的关联而做到完全匿名。面对区块链热潮,如何基于效率提升来思考应用才是问题的核心。
工信部电信研究院的《大数据白皮书(2014年)》就将此部分的大数据处理系统划分为5个主要环节,包括数据准备、存储管理、计算处理、数据分析和知识展现
谷歌拥有先进的大数据管理和处理技术,能解决海量数据存储和数据处理问题,因而在搜索引擎上获得了巨大成功。谷歌将这些经验汇聚成了三篇论文:GFS、MapReduce 和 BigTable,提出了一整套基于分布式并行集群方式的基础架构技术,为之后的 Hadoop 和大数据时代奠基了基础。
如果没有开源软件Hadoop的出现,就不会有如今大数据技术和应用的飞速发展。Hadoop是一个由Apache基金会开发的分布式系统基础架构,诞生于2006年1月28日,至今已有11年。Hadoop是根据谷歌发表的关于GFS和MapReduce的论文自行实现而成。
以Cloudera、Hortonworks为代表的企业是将Hadoop产品化,为大型企业提供Hadoop的使能服务。以Acxiom、Tableau为代表的企业则是为Hadoop生态创造更多有价值的工具,使整体生态溢价。以Altiscale、Qubole为代表的HaaS服务商面向小型公司提供云端化的Hadoop解决方案,丰富了Hadoop的用户覆盖面。此外,还有更多企业会将Hadoop应用于内部实践。
进入大数据时代,云计算成为大数据基础设施,也使大数据的核心思想和云计算一脉相承。MapReduce将任务分解进行分布式计算,然后将结果合并,从而实现了信息的整合分析。
相对而言,区块链直到2016年才第一次出现在技术成熟度曲线中,并直接进入过热期。从总体来看,大数据和区块链所处生命周期的阶段大不相同,两者约有5年左右的差距。
区块链与大数据有以下几个显著差异。 结构化vs.非结构化 区块链是结构定义严谨的块,通过指针组成链,是典型的结构化数据,而大数据需要处理的更多是非结构化数据。 独立vs.整合 区块链系统为保证安全性,所承载的信息是相对独立的,而大数据着重的是信息的整合分析。 直接vs.间接 区块链系统本身就是一个数据库,而大数据是对数据的深度分析和挖掘,是一种间接的数据。 数学vs.数据 区块链试图用数学说话,主张“代码即法律”,而大数据试图用数据说话。 匿名vs.个性 区块链是匿名的,而大数据强调的是个性化。
对一个分布式系统来说,存在CAP定理(CAP theorem),又被称作布鲁尔定理(Brewer’s theorem),它指出一个分布式系统不可能同时满足以下三点。 一致性(Consistence) 分布式系统中的所有数据备份在同一时刻是否有同样的值。 可用性(Availability) 集群中的一部分节点发生故障后,集群整体是否还能响应客户端的读写请求。 分区容忍性(Partition tolerance) 当集群中的某些节点无法联系时,集群整体是否还能继续进行服务。 由于当前的网络硬件仍然会出现延迟丢包等问题,所以分区容忍性是必须要实现的。换句话说,CAP定理表明必须在一致性(C)和可用性(A)之间进行权衡。
具体到区块链和大数据来说,大数据是以牺牲一致性(C)来换取可用性(A)和分区容忍性(P),而区块链却优先保证了一致性(C)。
区块链以其可信任性、安全性和不可篡改性让更多数据被解放出来,推进了数据的海量增长。区块链的可追溯性使数据的质量获得前所未有的强信任背书。通过区块链脱敏的数据交易流通,则有利于突破信息孤岛,并逐步形成全球化的数据交易。 区块链提供的是账本的完整性,数据统计分析的能力较弱。大数据则具备海量数据存储技术和灵活高效的分析技术,极大地提升了区块链数据的价值和使用空间。
带着数字密码货币基因的区块链本就是为价值所生,有能力补上大数据价值流转这块短板。只有全面实现价值的大数据,才会真正拥有未来!
数据的流通可以带来很大的价值,这里的数据流通不仅包括数据的交易和交换,同时也包括数据的开放和共享。数据的顺畅流通将有效降低创新门槛,带动移动互联网、大数据及数据服务等新兴产业的发展,成为数据经济的引擎。在大数据上升为国家战略的背景下,数据流通的发展更是拥有了市场和政策的双重机遇。
当前技术条件下,无法清晰界定数据的所有权和控制权。行业潜规则是“谁采集,谁拥有”,企业将客户在其网站和App等载体上所生产的数据当成自己的资源,而生产数据者却无法有效控制自己生产的数据。用户每天在各种交易、社交网站和App上产生大量的数据,这些都是用户未来重要的信用资源,现在却完全无法为用户本人所控制。
目前,数据资产进入资产负债表还不太可行。对数据价值的财务量化,已有机构提出需要从数据的内在价值、业务价值、绩效价值、成本价值、市场价值以及经济价值等维度考虑,涉及数量、范围、质量、粒度、关联性、时效、来源、稀缺性、行业性质、权益性质、交易性质、预期效益等因素。通过衡量各个因素的权重配比、不同的指标量级,才能实现对数据资产的全方位、标准化评估。
从更广泛的角度看,对数据的估值应该考虑估值七律。 (1)数据可以被无限次共享而不损失价值,但多次复制会使所有权复杂化,增加成本。 (2)数据用得越多,价值越大,不像许多资产(如车、厂房和设备)在使用中会贬值。 (3)数据价值会随时间衰变,不像酒,保存得越久,价值越高。 (4)数据越精确,价值越大。 (5)多个独立数据源的融合会带来1+1>2的效果。 (6)更多的数据不一定能带来更多的价值。 (7)数据不会损耗,反而越用越多。相反,数据如果不使用,就会变成负债。
区块链技术凭借不可篡改、可追溯等特性,可以解决数据共享开放与交易交换中的若干关键问题。 (1)数据权属:区块链可以提供可追溯路径,能有效破解数据确权难题。 (2)数据质量:制定数据标准,并通过共识验证改善数据质量。(3)数据安全:以多种加密技术保障数据安全和隐私。(4)数据定价:区块链的可追溯性和不可篡改性能够明确数据的使用历史和交易历史,有助于衡量各方的贡献,从而设计出更灵活的数据定价模型。(5)数据支付:对数据的使用和流通进行快速、便捷的即付即用。
Windhover公司提出的关于数字身份、信任和数据的茶隼原则(Windhover Principles)。这是一个由公共和私营部门的利益相关者合作编写的原则性框架,其目的是保护个人身份、信任和对互联网共享公开数据的获取。 原则1:对个人身份的权利和个人数据的控制。 原则2:透明地实施与有效地治理。 原则3:确保信任与隐私。 原则4:开源协作。
区块链保障并促进了数据的流通,而流通带来了大数据困局的破解,将逐步推动形成社会化的数据流通网络。同时,区块链还能促进更平等和自由的数据流动,所产生的基于共识的数据具有更致密的价值属性。因此,区块链很可能将成为一个提升人类社会信息精度的工具。
建立不依赖第三方信任、不可操纵的去中心化的交易机制,是区块链在价值互联体系里的第一个特点。利用区块链自身的技术优势,保证整个区块链体系的匿名性,脱离身份背书来参与交易,并在网络上积累不可篡改的信用记录。这是区块链在价值互联体系里的第二个特点。互联网化的交易流程和交易撮合,让区块链业务模式和传统的汇款等银行业务模式出现了鲜明的对比,体现了巨大的优势。这是区块链在价值互联体系里的第三个特点。以客观真实的数据为基础,价值交换才有了可能。这是区块链在价值互联体系里的第四个特点。区块链的智能合约和充分的可编程扩展性为适应未来智能社会的到来做了充分的准备,这是区块链在价值互联体系里的第五个特点。
利用区块链技术脱敏后的数据交易流通,则有利于突破信息孤岛,建立数据横向流通机制,并基于区块链的价值转移网络逐步推动形成基于全球化的数据交易场景,建立真正属于全社会的大数据产业。
金融方面的区块链应用有很多,因为区块链的技术特点可以很好地解决目前存在的很多金融行业的痛点。而所有金融行业都是大数据的主要应用场景,是区块链和大数据充分结合的核心领域。
Circle公司希望利用比特币作为免费的互联网支付网络,使各国法定货币在全球范围内毫无阻碍地顺畅流转。通过与像IDG这样的跨国公司合作,Circle公司向使用各国法定货币的用户提供金融服务,如人民币和日元的兑换。 跨国汇兑是最先成熟的区块链典型应用,实际上已经无故障地运行了数年,充分验证了区块链技术的完备性。
正因为区块链的技术优势和实实在在的应用(汇兑),所有商业银行都在跟踪区块链技术的发展,并做了很多积极的尝试。虽然区块链参与商业银行业务的路线图尚不明朗,或者说有很多选项还在挑选中,但商业银行应用区块链技术将是确定性的事件。
互联网技术连接的是全世界的计算机,实现了计算机背后的人与人之间的信息交流。物联网连接的是传感器、机器设备和各种控制中心,实现的是物与物之间的信息交互和控制。其不直接依赖人,却进一步扩充了人的能力,并将帮助人类迈向智能时代。
物联网面临的两个重大挑战——有效管理几何级数增长的设备和保障用户的数据安全,传统的解决方案会存在较大的困难,而区块链以其独特的技术特点可以战胜这些困难。 区块链技术为物联网提供了点对点直接互联的数据传输方式,让整个物联网解决方案不需要引入大型数据中心进行数据同步和管理控制,而由区块链网络自行完成分布式物联网的管理控制,并高效地进行数据保存。所有物联网信息都保存在区块链中,形成了可信的物联网数据来源。
Filament是一家区块链物联网初创公司,它在比特币区块链上建立了去中心化的物联网,为每个设备建立了身份,并创建一个智能设备目录,推进物联网设备之间进行安全沟通、执行智能合约以及发送小额交易等应用。
2015年1月,IBM宣布了去中心化的P2P自动遥测系统(Autonomous Decentralized Peer-to-Peer Telemetry,ADEPT)研究项目。ADEPT平台由三个要素组成:以太坊、Telehash和BitTorrent。其中,Telehash是一款使用JSON来共享分布式信息的私人信息传递协议,终端可以是设备、浏览器或移动应用;BitTorrent是文件共享协议,用来移动数据,保证ADEPT的分散化特性。
2015年6月成立的Slock.it初步呈现了自治组织的运行状态。它是一个建立在以太坊之上的物联网新共享经济平台,为全球首个分布式自治组织架构平台,欲取代Airbnb、Uber等作为中心调度站的角色,实现交易流程的完全自动化。
物付宝Tilepay是一个去中心化的支付系统,为现有的物联网行业提供一种人到机器或者机器到机器的支付解决方案。它基于比特币的区块链,且能被下载并安装到个人电脑、笔记本、平板或者手机上,所有物联网设计都会有一个独一无二的令牌,并用来通过区块链技术接收支付。
按横向划分,知识产权产业可分为版权、商标、专利三个细分子行业。其中,版权的行业成熟度相对较高。而按纵向产业链划分,知识产权产业可分为确权、用权、维权三个环节。其中,确权是行业发展的源头,用权是行业内涵最丰富的环节,维权环节与法律制定与执行力度息息相关。
权利人只要向版权印平台上传自己的作品,并自行选择授权范围、期限、价格,便自动生成一个含有版权授权信息的短链,也就是给作品盖上了版权印。用户只要点击作品的版权印,按选择的授权条件支付费用,就会自动生成授权书,迅速获得使用授权。
在知识产权保护领域,将贵重的作品所有权登记在基于区块链技术的公共账本上,被全网络验证并记录之后将无法修改。一旦产生产权纠纷,可追溯作品交易的历史,确认作品的所有权归属。
Ascribe让艺术家们可以使用区块链技术来声明所有权,发行可编号、限量版的作品,可以针对任何类型艺术品的数字形式。它甚至还包括一个交易市场,艺术家们可以通过他们的网站进行买卖,而无需任何中介服务。Ascribe还是最早通过支持Creative Commons许可(著佐权)的区块链服务。
Colu允许使用比特币区块链在互联网上创建一种数字资产层。开发者完全不需要了解比特币的相关信息,就可以为各种用途发行或者管理数字资产,从金融领域(如股票、债券、有价证券等)、记录(证书、版权、文档)到所有权(即使是门票、优惠券、礼品卡等)。
Wave针对全球供应链,特别是在进口海运提单中出现的问题,使用区块链技术使其变得更加现代化。他们把供应链上的所有成员都放在去中心化的区块链上,允许成员之间直接交换信息和文件,解决了航运业的最大问题。Wave的应用程序可以在区块链上管理文档的所有权,消除争议、伪造和不必要的风险。
Factom维护了一个永久不可更改的、基于时间戳记录的区块链数据网络,大大减少了进行独立审计、管理真实记录、遵守政府监管条例的成本和难度。商业社会和政府部门可以利用Factom简化数据记录的管理,记录商业活动,并解决数据记录安全性和符合监管的问题。
法链是由Onchain、微软(中国)以及法大大等多个机构参与建立和运营的证据记录与保存系统,是一个多方参与的开放式区块链联盟。 通过法链上多方参与管理及运营,电子合同的签署时间、签署主体、文件哈希值等数字指纹信息会广播到法链所有成员的各自节点上,所有信息一经存储,任何一方都无法篡改,因而充分满足了电子证据司法存证的要求。
现在来看,除了金融领域,医疗保健似乎是从区块链技术中获取最大收益的行业。区块链在医疗健康行业落地应用的关键不是性能,而是保障信息数据的安全和隐私。数据的隐私问题在区块链架构上能够得到更好的解决。区块链由于高冗余、无法篡改、低成本和能进行多签名复杂权限的管理,也许是目前人类能找到的最佳数据保管方案。将病人信息以加密方式连接到区块链中,既能保证数据不被篡改,又可通过设置多把私钥来更加安全地保护病人隐私。区块链在医疗健康领域的另一项重要应用是杜绝骗保,防止内外勾结,干预合约条款以及执行。
从某种意义上讲,区块链是最有可能运用到帮助解决B端用户医疗信任的方式。 电子健康病历(EHR):以患者为中心 在医疗方面,区块链最主要的应用是对个人医疗记录的保存,可以理解为区块链上以患者为中心的电子病历。 DNA钱包:安全分享数据 基因和医疗数据能够运用区块链技术进行安全存储,并且通过使用私人密钥来获得,这将形成一个DNA钱包。 数字密码货币支付:更多隐私权利 药品防伪:审计追踪记录 产业整合:提升产业效率 产业链上下游所有参与者共同负责数据的安全性和真实性。
从技术层面来看,能源网络系统也在朝两个方向发展:一个是越来越复杂的、庞大的能源系统,例如,大电网从地市级到省级,再到区域电网、全国联网、洲际联网,最后发展到全球联网;另一个就是分布式能源系统解决就近消费的个性需求,一个个很小的能源区块链构建成了庞大能源系统的另一个属性。
区块链赋予去中心化的能源交易能力,结合区块链和通信技术可以促进数百万的参与者之间更安全地交易和支付。通过连接本地的能源生产者(如有太阳能板的邻居)与本地的消费者,区块链使分布式的实时能源交易市场成为可能。
区块链技术具有数据不可篡改的特点,用时间戳的方式证明数据的存在状态,确保数据在交易各方之间公开透明并可追溯。同时,区块链特殊的隐私安全保护机制彻底根除了供应链各个环节信息共享中的障碍。区块链重新塑造了供应链的信用体系,增加了交易各方之间的信任,同时降低交易成本,从而解决了供应链融资中的信用风险问题。 而且,区块链确保了资产贸易的真实性。区块链网络全方位、全透明地显示完整的供应链,将网络的每一个节点、每一份资产以数字化的形式在网络上展示。因此,区块链上任何节点的交易都会被全网认定,物流信息也可通过产品地理位置信息的改变在网络中体现,从而保证了数据的安全性和不可被篡改。
CargoChain结合了物流RFID技术和区块链技术,能够提供货物的实时状态查询,并增加了运营相关方之间的信任。银行和保险公司可以监控不可伪造的数据,从而提供及时的金融服务。由于有清晰的、可验证的托管链,海关可以更快地清关放行,而进口商、出口商和生产商也就可以方便地获得相应的服务。
除了在金融领域的应用之外,区块链同样可以把各种实物资产、无形资产抽象成数字资产(Digital Assets)进行管理。
京东万象利用区块链技术搭建了联盟链,通过区块链数据不可篡改的特性把数据变成受保护的虚拟资产,确保每笔交易和数据都有确权证书。在数据进行交易之前,京东万象会先对卖方数据进行确权,明确其归属并将确权证书同步到各个节点上。而未经许可,盗卖则没有确权证书,或者证书与区块链确权不匹配的数据,数据提供方就可要求法律保护。这样既消除了数据提供方的担忧,也解决了数据需求方找到合规、正版数据的需求。 京东万象还要与公安等相关部门合作,建立个人数据授权体系,使个人数据可以在互联网上合法使用,以解决个人数据的授权问题。
通过对数据的研究,发掘每一条需求和供给之间的关系连接,才是共享经济最重要的本质特征。换句话说,共享经济能不能成长起来,乃至成长起来后对社会的影响有多深远,很大程度上就取决于这种联系能编织起的网络有多大、多密、多深、多少维度。
只有供所有人使用的数据才能带来数据革命。而共享经济就是数据革命的一种形式。 具体地说,这种作为社会基础设施的数据需要具有以下特征: (1)合理的存储方式:高效的存储,便于任何人随时调用; (2)可靠的保密特性:实现高度的保密性才能保证数据被所有人使用; (3)合理的成本:低廉的价格是公共服务必须具备的特征; (4)方便的可扩展性:随着海量数据蜂拥而至,数据系统必须能便捷地适应未来的新增需求。
共享经济之所以能兴起,主要原因有以下几个方面。 高效利用资源 共享经济是调用闲置资源,不依赖新的投入。从社会发展的角度看,其起到的是“开源”的效果。通过互联网对信息的低成本传递和高效处理,待售资源和服务就能高效地和随时随地产生的市场需求相匹配。 信用系统 信用系统是应对非标准化服务的一大利器。
实际上,基于区块链技术的智能合约技术可以强制实现参与方的商业行为合乎监管标准,大大提升违规行为的难度与成本。区块链天然的分布式特性正是对抗中心化寡头的利器。原本必须依赖中心化寡头的交易撮合服务,完全可以交由基于区块链技术的公共交易系统来实现,彻底解放对专门平台的依赖。
随着人机界限被突破,人工智能不仅是一个工具,更是跨物种合作的一扇门。区块链、大数据与人工智能的结合,将使我们从生物生命体进入人类生命共同体,最终进入超生命共同体或智慧生命体。
AI的基础是大数据,但这些资源通常掌握在巨头手中。这也是为什么这个领域的头条新闻总是被微软、谷歌、IBM、苹果、亚马逊、Facebook这些公司抢去的原因。在国内,BAT、京东这样的企业同样拥有足够的用户基础,并且已经开展了应用。
无论是人类成员,还是人工智能或机器设备,区块链可以为网络上的所有参与者分配特有的身份。这个身份不仅是一个ID,还有背后的信誉,包括传统意义上的信用和非信用范畴的口碑、认知等。本质上,在区块链网络中被交易的是各个ID信誉背书的各种价值,没有信誉就没有价值。与其说区块链构筑的是一个价值互联网,不如说构筑的是价值社会的行为规则,而且是超越了人类范畴的价值社会,也包括人工智能。
区块链和大数据的共生发展,一方面,区块链为大数据突破樊篱提供了可能的解决方案;另一方面,日渐成熟的区块链技术确实也需要有大数据这样的大江大海来一显身手。
打破数据孤岛,形成一个开放的数据共享生态系统,是未来大数据成败的关键。而区块链作为一种不可篡改的、全历史记录的分布式数据库存储技术,在强调透明性、安全性的场景下自有其用武之地,可以有效解决当前大数据遇到的问题。而这会驱使相关利益方,特别是政府或者行业联盟推动打破相关利益者的数据孤岛,形成关键信息的完整、可追溯、不可篡改并多方可信任的数据历史。
将区块链保存的数据作为大数据分析的数据源,为大数据分析补充精确的关键数据,同时利用区块链的匿名特性在一定程度上保证数据隐私,可以为大数据的发展提供关键性的帮助。
将大数据视为一种智能资产,区块链可以提供包括资产注册、交易、撮合、结算等功能,从利益机制上促进数据开放和应用开发。
区块链可以为共同的价值互联网提供高质量、经过稽核和审计的数据,而区块链本身则从大数据分析的补充数据源提升为大数据生命周期的主要数据源。
区块链的使用并不会颠覆现有的生产要素构成,也无需改造现有的互联网基础结构。区块链是通过盘活存量,发掘现有条件无法直接利用的网络资源,塑造出的一种全新的社会组织形态和商业模式。
区块链和大数据两者是伴生和互补的关系,互为共生发展,也就是所说的有效去中心化。
新兴的区块链技术和大数据结合,可以完美地契合数字经济的发展趋势。 第一,“区块链+大数据”可以低成本地实现信息流、资金流和物流的三流合一,从而有效降低社会的运营成本。 第二,技术接口的简洁性、业务模型的通用性,使其具备无限广阔的使用范围和扩展性,可以方便快捷地涵盖社会发展的各个方面。 第三,数字经济的核心是数字资产定价,数字资产合法化的核心则是权利方(资金流)转移。“区块链+大数据”可以用技术保证数据互信,实现交易背书,为最终构建数字经济世界的资产交换和价值交易提供技术保障。
总之,未来大数据将成为一切信息化战略的出口。无论“互联网+”,还是物联网、智能硬件,数据都将是价值最大的领域。同时,随着各领域数据的不断开放,在数据分享、监管方式、隐私保护[1]等方面都对我们提出了更高的要求。而这些问题通过与区块链技术的深入融合,将会构建一个全新的数字信息时代。
作者:物流人杨浩峰yhf