(大鱼)区块链破解大数据交易的难题

2017-04-25 区块链大师 | 大鱼 | 如何用区块链技术破解大数据交易的难题(行业观察)
链接:https://mp.weixin.qq.com/s?__biz=MzIyNTI3MTY0MQ==&mid=2652394736&idx=1&sn=16b90fe448008bfc96052193ee484a77&chksm=f3eebec6c49937d02698732638a24df0bd61cd2f6acdce92a34531f5814d8be3c408c3ddcae5&mpshare=1&scene=1&srcid=0425m82vwaSB0EBntjJeyFAO##

谨以此篇文章献给那些奋战在大数据行业的同志们,未来人人都是数据的提供者也是数据需求者。本文探讨使用区块链部分技术在解决大数据交易时的难题。

越是产生数据的单位,越对数据的需求迫切 — Dr. Hsif gib

近些年各地均成立了大数据交易所,一时间大数据似乎会变成一种革命性的商品,可是繁华落幕后,事实并不如人意,我们看到基于传统思维的数据交易弊端,大数据交易并非如先前设想般繁荣,如何破局,如何消除数据提供方、数据需求方、监管层的多方疑虑,我认为必须解决以下三方面的问题:

  1. 数据可溯源
  2. 静态数据的隔离验证
  3. 动态数据最小可交易单元(标准)

1.数据可溯源

提供数据方均有一个疑虑,就是数据交易出去后,很可能通过其他渠道流入二级市场,随着层层转卖,数据价值成指数级递减,造成数据提供方的数据价值锐减。由于数据价值随时间线指数递减,这点在静态数据上尤为明显,比较有代表性的静态数据如:名字、创建日期、身份标示类信息

现有技术无法保证数据的可复制性和二次传播,加之传播后造成数据价值锐减,造成数据提供方不愿意将数据提供出来进行交易,数据提供方的担心主要有两点:

  1. 二次传播后的数据价值锐减;
  2. 数据购买方通过多次购买获得原始数据全集;

数据本身的量级具有马太效应,如果不能解决数据溯源问题,会造成数据购买方分次获得数据全集影响数据提供方的数据交易价值;虽然目前有商业协议保障数据不被二次转卖,但是缺乏举证手段,造成购买方违约后无法追责

罗马不是一天建成的,在无法使用技术保证不可复制性的条件下,使数据具备可溯源性,不失为一种过渡手段。在购买方违约的情况下,具备举证手段,在一定程度上消除数据提供方的疑虑。

具体的实现方法可以使用区块链常见的不对称加密技术,对需要售卖的数据进行签名,具体思路如下:

  1. 买卖双方协商签名算法,比如使用AES128
  • 买方生成自己的公钥和私钥对,pubkey prikey
  • 买方将pubkey和prikey同时提供给卖方
  • 卖方使用prikey签名数据关键字段(比如ID类型和枚举类型),数值类型保留明文,并将签名后的数据售卖给买方,卖方保留原始数据。例如以下数据: 姓名:大鱼 籍贯:重庆 身高:172。生成的可售卖数据如下:姓名:prikey(大鱼) 籍贯:prikey(重庆) 身高:172。
  • 买方购买到加密数据后,需将自己系统内的关键数据也用prikey签名转换后供数据衔接使用
  • 违约验证,如果市场上出现相关售卖数据,卖方可以通过pubkey验证数据,通过pubkey和prikey验证结果证明数据出自于哪一个买方。

虽然这个方法可以验证具体的买方,但是有一个缺陷,就是如果卖方存在恶意,同时掌握私钥和公钥对,存在恶意陷害买方的可能性,所以我也只是抛砖引玉,可能这点只能由监管机构公证了

2.静态数据隔离验证

隔离验证一词出自于比特币的隔离验证BIP,这项技术改进我认为可以引入到静态数据交易中,取其主要思想;

静态数据的交易目前非常困难,涉及到用户的隐私,买卖双方均要承担很多监管风险,目前很多数据法律上属于灰色地带,大部分有价值的静态数据大多产生于政府职能部门,如果能使用隔离验证技术,将法律上可以售卖的数据进行隔离验证处理,既可以保障数据需求方的合法用途,又可以最大限度保护用户隐私。

这方面可以使用静态数据HASH,将需要保护的用户隐私数据进行HASH,买方只有自己拥有某些数据时,才能通过HASH比对获取一条数据记录的其他字段,实现类似隔离验证的功能

3.动态数据最小可交易单元

动态数据由于有较强的时效性,在交易过程中面临的风险小于静态数据,但是也分为动态波动数据线性增长数据,比如一个区域内的客流量就是属于动态波动数据,而一个用户的累计贷款总额就是线性增长数据。

对于波动数据,由于其时效性和无规律性,目前交易难度不大,数据本身价值也随时间递减,不存在太多的交易障碍,传统的数据交易方式就可以满足这类数据的交易

对于线性增长数据,目前大多采用服务模型交易,将数据转化为应用服务,通过调用次数收费,既保证了数据安全也保证了数据的实时性

但是,由于服务模型可能丧失一部分灵活性,单纯的动态数据很难描述一个具体需求模型,例如支付宝的芝麻分,单独使用没有问题,但是这个值对于数据分析要求较高的企业不利于自己的评估模型使用,往往一个评估模型算法如下:

fx()={a,b,c,d……n}

一个fx()评估拥有多项输入值,如果只交易fx()结果很难让大多数企业满意,其实再SAS/BO这类型的分析软件中,主要工作量在于建模,建模牵涉到很多输入值,而这些输入在同一行业内的评估中大同小异,可以通过行业标准将以上fx()转化为:

fx()={sfx1(a,b,c),sfx2(c,d)…..sfxn()}

形成可以交易的子模型结果,可以交易的数据为 sfx1() sfx2() sfxn()等结果,这样即便在一个sfx()中的输入出现敏感的静态数据,交易的内容也只是sfx()计算结果,在数据隐私和灵活性上取得平衡,那么sfx即为最小可交易单元,这个定理标准的过程可能会相当复杂,需要模型厂商和行业需求方共同努力

本篇只是受到区块链某些技术的启发,并没有谈到直接使用区块链技术解决大数据交易,当然,你可以通过区块链记录大数据交易存证,这是最直接的方法,而我认为解决大数据交易的主要问题在文中的三方面,这篇文章是这几天思考的记录,非常的不成熟,我只是把想到的记录下来,便于今后完善,同时供朋友们一起探讨,欢迎拍砖留言

    原文作者:大圣2017
    原文地址: https://www.jianshu.com/p/c9ee2a0a73ab
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞