机器学习可能是当今技术中最重要的基本趋势。由于机器学习的基础是数据 – 大量的数据 – 很常见的是,人们越来越担心已经拥有大量数据的公司会变得更强大。这有一定的道理,但是以相当狭窄的方式,同时ML也看到了很多能力的扩散 – 可能存在与集中化一样多的分散化。
首先,说机器学习是关于数据的意思是什么?由于ML的学术文化,几乎所有的初级科学都是在创建之后发布的 – 几乎所有新的都是一篇你可以阅读和构建的论文。但是你建造什么?那么,在过去,如果软件工程师想要创建一个系统来识别某些东西,他们就会编写逻辑步骤(“规则”)。要识别图片中的猫,你会编写规则来查找边缘,毛发,腿,眼睛,尖耳等等,并将它们全部拼接在一起并希望它能够正常工作。麻烦的是,虽然这在理论上是有效的,但在实践中它更像是试图制造机械马 – 这在理论上是可行的,但所需复杂性的法令是不切实际的。我们实际上无法描述我们用于行走或识别猫的所有逻辑步骤。通过机器学习,您可以向统计引擎提供示例(大量示例),而不是编写规则,并且该引擎会生成可以区分的模型。你给它10万张标有’cat’的照片和100,000张标有’no cat’的照片,然后机器计算出差异。 ML用自动确定的数据模式取代了手写的逻辑步骤,并且对于一个非常广泛的问题更加有效 – 简单的演示在于计算机视觉,语言和语音,但用例更广泛。您需要多少数据才是移动目标:有研究途径允许ML使用更小的数据集,但就目前而言,(更多)数据几乎总是更好。
因此,问题是:如果ML让你做新的和重要的事情,而ML会更好,你拥有的数据越多,那么这意味着那些已经很大且拥有大量数据的公司会变得更强大了多远?赢家通吃效果有多远?很容易想象良性循环强化了赢家:’更多数据=更准确的模型=更好的产品=更多的用户=更多的数据’。从这里开始,这是“Google / Facebook /亚马逊拥有所有数据”或“中国拥有所有数据”等声明的一个简单步骤 – 担心最强大的科技公司会变得更强大,人口众多的国家也会变得更加强大’对集中使用数据的态度。
好吧,有点。
首先,虽然您需要大量的机器学习数据,但您使用的数据非常特定于您尝试解决的问题。通用电气拥有大量来自燃气轮机的遥测数据,谷歌拥有大量搜索数据,而美国运通有很多信用卡欺诈数据。您不能使用涡轮机数据作为例子来发现欺诈性交易,并且您无法使用网络搜索来发现即将发生故障的燃气轮机。也就是说,ML是一种可推广的技术 – 您可以将其用于欺诈检测或人脸识别 – 但您使用它构建的应用程序并不是一般化的。你构建的每件事只能做一件事。这与之前的所有自动化浪潮大致相同:就像洗衣机只能洗衣服而不洗碗或做饭一样,国际象棋程序不能免税,机器学习翻译系统无法识别猫。您构建的应用程序和您需要的数据集都非常特定于您尝试解决的任务(尽管如此,这是一个移动目标,并且正在进行研究以尝试使学习在不同数据集之间更易于转换)。
这意味着机器学习的实现将得到非常广泛的分布。谷歌不会“拥有所有数据” – 谷歌将拥有所有谷歌数据。谷歌将拥有更多相关的搜索结果,通用电气将拥有更好的引擎遥测技术,沃达丰将更好地分析通话模式和网络规划,这些都是由不同公司构建的不同内容。谷歌更善于成为谷歌,但这并不意味着它在某种程度上擅长于其他任何事情。
接下来,人们可以争辩说,这只意味着每个行业中的大公司都会变得更强大 – 沃达丰,通用电气和美国运通各自拥有“所有数据”,无论他们做什么,因此形成了对抗竞争的护城河。但在这里,它更复杂:有各种有趣的问题,关于谁拥有数据,它的独特性以及它的独特性,以及正确的聚合和分析点。
那么:作为一家工业公司,您是否保留自己的数据并构建ML系统进行分析(或者向承包商支付费用为您做到这一点)?您是否从已经接受过其他人数据培训的供应商那里购买成品?您是将您的数据混合到那里,还是从它衍生出的培训中混合?供应商是否需要您的数据,或者他们已经拥有足够的数据?答案在您的业务的不同部分,不同的行业和不同的用例中会有所不同。
从另一端来看,如果您正在创建一家公司来部署ML来解决实际问题,那么有两个基本数据问题:如何获得第一个数据来训练模型以获得第一个客户,你实际需要多少数据?当然,第二个问题分解为很多问题:问题是通过相对少量的数据解决的,你可以很容易地获得(但许多竞争对手可以获得),或者你需要更多,难以获得数据,如果是这样,网络效应可以从中受益,那么胜利者会采取一切动态吗?产品是否会无限期地获得更多数据,或者是否存在S曲线?
这取决于。
某些数据对于业务或产品而言是独一无二的,或者具有强大的专有优势。 GE发动机遥测可能没有太多用于分析劳斯莱斯发动机,但如果是,他们将不会分享它。这可能是公司创建的机会,但也是许多内部大公司IT和承包商项目发生的地方
一些数据将适用于许多公司甚至许多行业中的用例。 “这个电话有些奇怪”可能是所有信用卡公司的常见分析 – “客户听起来很生气”可能适用于有呼叫中心的任何人。这是“混合”的问题。在这里创建了许多公司来解决许多公司或不同行业的问题,这里的数据存在网络效应。
但也有一些情况,在某一点之后,供应商甚至不需要每个增量客户的数据 – 产品已经在运行。
实际上,随着机器学习几乎扩散到所有东西,一个初创公司可能会看到其中的几个。我们的投资组合公司Everlaw生产法律发现软件:如果你起诉某人并且他们给你发了一辆装满纸的卡车,这会有所帮助。机器学习意味着他们将能够对一百万封电子邮件进行情绪分析(“向我显示焦虑的电子邮件”),而无需根据案例中的数据训练该模型,因为培训该模型的情绪示例不需要来自这一特定诉讼(或任何诉讼)。相反,他们也可以对您的数据进行聚类分析(“向我显示与此相同的电子邮件”),而不会在其他任何地方进行。另一家投资组合公司Drishti使用计算机视觉来检测和分析生产线 – 其中一些功能是根据您的数据进行培训的,有些功能根本不是针对您的业务,而是跨行业。
在极端情况下,我最近采访了一家非常大型车辆的制造商,他们正在使用机器学习来获得更精确的瘪胎检测器。这是训练有关数据(很多很多很多来自扁平轮胎和非扁平轮胎的信号的例子),显然,但是获得这些数据并不难。这是一个特征,而不是护城河。
因此,我之前说过ML启动有两个问题:如何获取数据以及您需要多少?但这些只是技术问题:你还会问你如何进入市场,你的可寻址市场是什么,你解决的问题对你的客户有多大价值,等等。也就是说,很快就会有任何“AI”创业公司 – 他们将成为工业过程分析公司,法律平台公司或销售优化公司。事实上,机器学习的传播并不意味着谷歌变得更强大,但各种各样的创业公司都可以比以前更快地用这种前沿科学建立事物。
这让我想到了我在其他地方使用过的比喻 – 我们应该将机器学习与SQL进行比较。它是一个重要的构建块,允许新的和重要的事情,并将成为一切的一部分。如果你不使用它和你的竞争对手,你会落后。有些人会用这种方式创建全新的公司 – 沃尔玛成功的一部分来自于使用数据库来更有效地管理库存和物流。但是今天,如果你创办了一家零售商并说“……我们将要使用数据库”,这不会让你与众不同或有趣 – SQL成为了一切的一部分然后消失了。机器学习也会发生同样的情况。
本文为简译,更多详情请参见原文。
文章来源: 网易云社区