群体智慧,算法和预测市场 (上)

这是一个系列的思考,因为篇幅较长,分为上下两篇。

上篇会介绍关于如何获得群体智慧和算法的4种方法,下篇会介绍现在区块链中的4个预测市场项目。4种方法的整理来源于王烁的一篇文章,读完之后真是受益良多。 其总结与归纳理也理清楚了自己之前在这方面的一些困惑。 本来想自己写,但王烁真的已经把一个概念阐述的足够简洁,足够精确。作为财新总编,文笔真不是吹的。已经难有可再提高之处,不如就直接引用了。

把这4个方法排列下来,也加深了我对于区块链在“预测市场”这个独特方向上的思考与理解。 

《怎样用逻辑和算法,撬动群体智慧》 –王烁

如果你正确地向群体智慧借力,你能战胜所有对手。

因为,在绝大多数时候,一群人合起来都会比一个人更有智慧。问题是每个人天生都知道怎么运用自己的智慧,但群体是个人的集合,汇聚许多人的智慧,需要方法。我今天讲四种层层递进的方法, 简单平均、贝叶斯推理、动态加权、极化

第一种方法:简单平均

前一段豆瓣上出现了一部两分电影。导演很生气,说毁了他12年的心血。没人同情他。

豆瓣评分五星制,五星就是十分,一星就是两分,这位的得分99%以上是一星。

人们相信豆瓣评分,不相信导演自评。这是对的。我上次去看评分的时候,有17022人打分。你相信17022人,还是相信一个人?

评分可以不只是评分,可以大得多。可以是对已发生事件的评价,比如给电影打分;可以是对将发生事件的预测,比如民意调查;也可以是决策的扳机,比如你得分超过某个阈值就采取相应行动。

价、预测、决策,三位一体,来自群体智慧的聚合。找到正确的聚合方法,你就找到了撬群体智慧的杠杆,能一切。

回到豆瓣的评分机制,也就是我们今天要讲的第一种算法,平均聚合。

豆瓣聚合的方法,创始人阿北曾经自己解释过,原则上就是一人一票,简单平均。简单归简单,这办法很靠谱。如果投票者数量足够多,投票相对独立,那么简单平均值的准确度会系统性地超越个体判断。

类似的实验已经做过无数次。把一头牛牵到集市,让赶集的农夫目测其体重。最后下来会发现,没有哪个农夫的判断,能够超过把所有农夫的判断加总再平均。原因在于,每个人各自掌握一些信息,各有判断,哪怕只是用平均这样简单粗暴的方法聚合起来,也比单个人掌握的信息要完整,形成的判断更准确。这就是群体智慧的原意。它已经足以战胜绝大多数有专家头衔的评委。

第二种方法:贝叶斯推理

豆瓣的简单平均法简洁但远不完美。假设一部电影只有两个人打分五星,另一部电影一百万人打分平均4.9星。哪部电影更好?简单平均法识别不了。

这时候就需要另一种算法,贝叶斯推理。电影评价类网站的始祖和霸主IMDB用的就是这种算法,它能够解决极少数用户打极高分或者极低分的时候,对一部电影的评价出现不准确或不公平的问题。在这一点上,它是一个比豆瓣更优化的评价机制。

那什么是贝叶斯推理呢?贝叶斯推理是一种更新既有判断的方法,有两个要:首先你有一个既有判断;其次获得新信息,不断调整更新。这么说有点抽象,其实我们每个人在生活中都在用,我来举个例子你就知道了。

比如,我第一次跟你见面,我不了解你,对你一无所知,但是我对人类有点了解。我先入为主的看法就是好人和坏人三七开,七分好三分坏。那我跟你打交道,我就假设你也是三七开,我们在一起聊了一个小时的天,我给你多打一分,就变成二八开了;我们共事的一年,我觉得你特别棒,就变成一九开了。

这就是我们用贝叶斯推理对人进行的评价和判断。那贝叶斯推理在IMDB电影评分机制上是怎样运用的呢?贝叶斯推理总是从预先的假设开始。既然事先不知道一部电影得分会是多少,那就给它一个基准分,对应一个基准的投票数。IMDb给的基准分是网站上所有电影的平均分,比如6.5,对应基准的打分人数,比如是3000人。不管是什么电影,在获得第一个用户打分之前,默认都是得6.5分,对应着3000张投票。你看了电影,开始打分,新信息进来了。贝叶斯推理会用这些新信息修正得分,随着每个用户的打分变化。算法我就不列了。大体上是这样的情境:如果只有一个用户打分,那么电影得分无限接近于网站平均分;如果有3000真实用户打分,跟基准数一样,那么得分正好是3000名真实用户实际打分,与网站平均分两个分值之间的平均分;如果打分用户数量极大,那么得分会极度逼近这些用户的实际打分。

投票人数的问题处理好了,但问题没完。电影 A,十个人看过,全部评分均为 10 分;电影 B,十万个人看过,评分平均值为 9.8 分。   请问你愿意相信哪部电影更加优秀?贝叶斯算法的核心思想就是避免让电影 A 的最终得分超过B。  如此看来,各大平台的评分制度都有优有劣。而无论批评还是赞美、权威还是业余,电影评分始终难以绕开主观因素的影响。喜欢小清新的观众可能会给《行尸走肉》打低分,而热爱商业大片的影迷可能也无法理解《路边野餐》中的长镜头。但你能因为这些“差评”就认定这些是“烂片”吗? 

第三种方法:动态加权

一人一票足够好吗?

一人一票是平等的,但看电影这件事有许多好理由支持搞不平等:水军跟观众不应该平等,掏钱买票看的跟白看的不应该平等,高水平观众跟普通观众不应该平等。一人一票反映不出每一票中包含的独特信息,而这些信息是有价值的。怎么把信息解放出来?答案就是我们今天要讲的第三种聚合的方法:动态加权。

希弗(Nate Silver)是个年轻人,近年来在选举预测领域大火。他的选举预测网站在2008年美国总统大选及国会选举一战成名,准确率超过所有民调,然后持续保持高精度预测纪录。选举民调是对选民意见的聚合。希弗并不直接做预测,美国的选举民调已经太多了。他做的是对这些民调的聚合,等于是选民意见聚合的聚合。他根据每个民调机构准确率的历史记录和当下表现,动态调整其权重,表现好的权重高,表现差的权重低,聚合起来,生成预测。

这个预测有多准确?2012年美国总统大选改选,希弗预测对了奥巴马战胜罗姆尼,这不稀奇。稀奇的是希弗还预测对了所有50个州两人的胜负结果。全中。这种算法就是动态加权,根据民调机构不同的准确率,分别加上不同的权重,根据接下来表现随时调整权重,再重新聚合起来。类似的算法对投资也非常有用。

对冲基金管理人达里奥(Ray Dalio)也用了类似算法聚合群体智慧。他的公司桥水资本管理着1600亿美元资金,是过去十年最成功的对冲基金。达里奥用一种极端的原则管理公司,他把这套管理原则扩展成自传,变成新书《原则》,有兴趣的建议去看。

达里奥的决策方法叫作believability-weighted idea meritocracy,直译过来是“可信度加权的想法惟贤是举体制”。说起来一大串,用中文讲很简单,就是话份。人人都有话份,在决策流程中都能发言参与,在发言资格的意义上大家是平等的,但彼此的话份就有差等。有人水平高,决策效果的历史表现好,他们话份就大,反之话份就小。决策如果有意见分歧,则按“不同意见×话份”来解决分歧。 每次决策都有记录,根据决策效果反馈,随时更新每个人的话份。

达里奥决策跟希弗预测选举,方法是一模一样的。这想法谈不上多新,都是贝叶斯推理的简单运用,独特之处在于实实在在用于管理决策,为此搭建技术,重组管理,做实做到底,革命性在这里。

这里我再多加上一些补充,很多人看雷.达里奥的《原则》这本书都看到了对于自身的原则这方面。 但这本书加上之前达里奥TED上演讲,可以看出来他对于公司的管理,群体决策上面有着非常独到的见解。因为这个方法实在精彩,非常值得回味,所以我再多加上一些知乎上面陈达的分析。

关于群体性决策(变态的来了)- 知乎 陈达

大家都知道民主好,一人一票;但其实民主只是坏制度里的比较不坏的制度,就如那句虽然不是丘吉尔原创却被他发扬光大的话一样。对于很多问题,你的决策其实不能搞这种单细胞的民主。比如大英帝国决定要不要脱欧。政治正确的说法是:人人平等是普世价值,那当然应该一人一票,人人同权;但是我们如果仅仅考虑决策的正确性,为了加大决策正确的概率,一人一票、同票同权其实是不合理的。很多人哪里搞得清楚脱欧的真实意义,某个在街上卖茶叶蛋的大爷投个赞成票就能把首相卡梅伦的反对票给咔嚓掉,你只需要两个卖茶叶蛋的大爷,就能彻底淹没掉卡梅隆的意见。

但是没办法,同票同权是政治正确;不过你在经营公司的时候就没必要搞这种单细胞的民主。比如桥水用的制度是“创见上的贤人政治”(idea meritocracy)。用达叔自己的语言来组织,就是将一帮冰雪聪明、独立思考的 人拉拢起来让他们互相不同意,搞出各种创见,然后最后通过靠谱度加权( believability-weighted)的方式进行表决。追求的是“极端真相”(radical truth)和“极端透明”(radical transparency)。

我对着电脑鳖了很久要如何翻译 believability-weighted,最后想想还是翻译成“靠谱度加权”最靠谱。

靠谱度加权,简单点说就是你这个人如果靠谱,那么你说的话你的意见分量就重一点;如果你这人不靠谱,那就人飘言轻。你会说这看起来不是理所当然的事情么?但是人类历史上其实很少实践这个理念,因为要执行很困难。而最容易执行的就是每人一票的民主或者没人有票的dictatorship(这词出于某些原因我实在没法翻译)。当然,达里奥觉得这些都太粗暴。

执行困难显而易见。怎么来决定一个人的靠谱程度?这里就是桥水开始搞邪教的地方了。

1. 所有的会议录像下来,由专(机器)人进行分析,人机对打;

2. 开会的时候每个人端着个iPad ,用一个叫点点(dots)的 app 互相评分,人人对打。

讲一下点点。点点是桥水众多阶级斗争app工具里的一个典型 —— 其实不止是在开会时,在任何时候任何场合,只要你感觉来了感觉对了,你就可以通过点点对你的同事进行铁面无私的大众点评。点评的个人特质多达100项以上,比如strategic thinking(策略化思考)啊、dealing with ambiguity(对模糊化情况的处理能力)啊,不同工种所对应的特质也不同。一般是1到10分你给他/她打分,7分就是个平均水平,然后你还可以追加一点文字评语。

所有的点评,比如打分人的ID(所以是实名制的)、分数、追加的附言评语都会被永久保存。每一个点评被称为一个dot,某个人身上可能挂满了dot——比如桥水的联席CIO 身上就挂了约有11000多个点。然后这些点会和你的KPI啊、你的360度无死角表现评估啊、你的测试成绩啊等等结合起来,最终形成你的究极战力——你的“靠谱度”(believability)。玩过足球游戏FIFA的人都知道所有的球员都有各种数据评分:速度啊射门啊对抗啊种种方面;而桥水这就是等于在现实中把人给彻底数据化了。

靠谱度不是目标,而是甬道;有了靠谱度,就可以为决策过程进行加权了。开会的时候大家投票,投票结果根据靠谱度一加权,就能最终形成决策结果。靠谱的人投票的分量就要重,不靠谱的人投票就轻于鸿毛。除了决策以外,由于点点是个动态即时的打分系统,所以你就比较容易监控你的员工的近况,你可以看看数据然后跑去说:小张啊,最近你状态下垂得有点厉害啊。

我们用图解来看看整个决策过程。(所有图片与数据皆来自于达叔的TED演讲)

1. 通过一个叫Dots app,你可以看到每个人对应的特质,并为其打分。

(Dots是Bridgewater专门自己开发的一个安装在iPad上面的实时反馈工具。比如说,你在跟一群人开会,你问了个问题,有人觉得你的问题很Low,他就可以实时给你在“high-levelthinking”这一项上打个3分(满分10分),还可以附带说一句:你刚才问的问题太Low。Dots这个工具可以收集你身边所有人对你各个维度的评价然后所有人都可以看到这个评价。这个工具是为了收集所有的数据点,再合成为一个关于你的画像。)

2. 我们能看到不同人对于某个人的表现其实有很大的主观性,但是我们要接受这种主观性,并相信大数据以及crowdsourcing(众包)的力量。

3. 所有人彼此间的互评会形成一张数据网。

4.最后所有的这些数据进入算法,总结出每个人的靠谱度,形成一张计算机看到的“你的脸”。

5. 然后,通过靠谱度做决策。比如在表决“你认为对于美联储削减购债计划的预期落后于债市熊市吗?”,如果用一人一票的民主,表决结果是77%的人(13个人)说“是”,23%的人(4个人)说“否”。

6.如果用靠谱度加权,我们发现投否定票的四个人,人虽少但是言不微,因为他们的靠谱度非常高。所以如果加权后,19%的表决为“是”,81%的表决为“否”。形式发生了大逆转。

第四种方法:极化

凭借彻底运用话份逻辑聚合群体智慧,希弗和达里奥做到了他们各自那个行业的顶峰。能不能再往前走一步,做得更好?泰特罗克(Philip Tetlock)认为可以。这就是我们今天要讲的第四种聚合方法:极化。

泰特罗克是美国著名政治学者,领导预测项目“善断计划”(Good Judgement Project)。计划的资助者是直属美国全国情报总监的高级情报研究局,旨在为整个情报界提供革命性的创新能力。几年间,两万多人在善断计划网站上就美国情报界抛出来的五百个问题作持续预测,实时检验。

泰特罗克把每个预测者的每次预测都打分,汇总成个人总分,有2%的人脱颖而出,攀到最优秀一级,成为“超级预测者”。善断计划则根据每个人的得分调整其在整体预测中的权重分配,生成预测。到这一步,泰特罗克的方法与达里奥和希弗相似。下一步则是泰特罗克的创举,其实也很简单:对加权平均后形成的预测结果,再做一道加工:极化(extremize),将预测结果往100%或者0的方向推。举个例子,特朗普能否连任美国总统?如果预测者加权平均后的预测概率是70%,那就把它上调到比如85%;相反,如果预测值是30%,那就把它下调到15%。

极化的理由是这样的:假设群体中的每个人都获得了群体的全部信息,他们作预测时一定会更为自信。从群体简单平均值到加权平均的过程,事实上已经聚合了所有人的信息,但没有完全反映出与此对应的自信。极化就是要捕捉这个自信:如果是乐观预测,极化会输出一个更乐观的预测;如果是悲观预测,极化会输出一个更悲观的预测。

善断计划(The Good Judgement)的预测准确率高得惊人。参与者不过是群普通人,智商还可以但不特殊,教育背景参差不齐,也没有内幕信息,借助相当简单的算法,但他们的预测击败了全部现有的预测系统,甚至战胜了专业情报分析师。了解如何成为超级预测者,推荐读泰特罗克的书《超预测》( Superforcastering: The Art and Science of Prediction )。我把他许为当年最佳图书。

正确地聚合群体智慧,就获得了这个时代最接近于千里眼的工具。不难触类旁通:只要是测试永不停歇,参与者足够多,检验和反馈足够明确的领域,无论经济、政治、金融还是其他,都可以用“加权平均+动态调整权重+极化算法”来撬动群体智慧,应用空间极大。

我身边就有位人肉聚合群体智慧的模范。她的信息来源主要是一流媒体和人际见闻,观点则形成于交流,特点一是人数多,二是看法杂,三是水平高。在这个过程中,她会反复摇摆,形成很多前后不尽一致的看法;然后,行动力又强,每有看法必决策,每决策必行动,于是整个过程来回翻烧饼。老实说,我曾经觉得这样做事自相矛盾,空耗精力,怎么行?!慢慢的,我懂得了,观点摇摆,是因为在聚合中要渐进校正;行动摇摆,是在实施中要迅速获得反馈并相应作调整。能够做到我们这个行业的巅峰,没有幸运。她无师自通,找到了聚合并使用群体智慧的实践算法。光追求前后一致不空耗能量,美则美矣,但缺少信息忽视反馈在闭环里打转,又有什么用。掌握泰特罗克的方法,我们能比她做得更好。

以上介绍了关于获得群体智慧的4种方法, 背后都是深深的博弈论啊。

接下来的一篇,会为大家介绍Gnosis,Augur,天算Delphy,菩提Bodhi这四个利用区块链技术来做预测市场的项目。

引用:

1.《怎样用逻辑和算法,撬动群体智慧》 – 王烁 

2. 《桥水是一家什么样的公司》作者:陈达 ,知乎

3. 善断计划, The good judgement https://www.goodjudgment.com/

    原文作者:JChenjunjie
    原文地址: https://www.jianshu.com/p/09d21432d9d4
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞