为什么数据并不是新的石油,数据市场也无法成功
数据并非新的石油,数据市场不能成功
实时程序化数据交换将如何改变一切
“数据是新的石油”这个词是克莱夫·汉比在2006年提出的,并且自那以后被广泛重复。然而,这个类比只在一些方面(例如,它们的价值通常通过提炼增加)上有一定的价值,并且数据在更广泛的经济影响方面还存在局限性,除了一些少数科技和金融公司之外。但是,油和数据之间的实际差异是根本性的。
最值得注意的是,石油是一种商品。它的质量是标准化和可衡量的,这使得来自不同来源的石油可以替代(在经济术语中它是一种“均质商品”)。它无处不在,并且有着良好的固定价格。最重要的是,如果你有一桶石油,你不能简单地复制一份来生产另一份——石油是一种有限资源,必须从地下开采。
另一方面,数据是一种多样化的商品。它有无限的种类,每个出现的价值都无法客观衡量。当两个交易方交换商品时,卖方必须设定一个价格,买方必须确定他们愿意支付的价格。这在两个数据属性的复杂性下变得更加困难:
向另一个买家销售相同的数据的边际成本为零。生产数据的成本是高度可变的(对基因组进行测序的成本比量体温要高),但一旦数据存在,成本就会沉没。将其卖给另一个买家的过程只是简单地复制它,而在实际操作中,这个成本几乎可以忽略不计。
很难在“消费”数据之前确定其价值。销售线索数据库只有在实际销售中才有价值。更糟糕的是,完全相同的数据集的价值很大程度上取决于买家(或其预期用途)。在这方面,数据实际上更接近于书籍或度假等“体验商品”。
在本文中,我将论证数据是最被低估和低估的商品之一。我概述了一个实时程序化数据交换,它是我正在咨询的一家新公司的核心,并可能对数据经济产生深远影响。
“数据是最被低估和低估的商品之一。”
我们为什么要关心数据的经济学?
区分第一方数据和第三方数据
我认识的没有人会反对数据的重要性。但是尽管“数据是资产”的说法已经相当普遍,数据可能仍然是最被低估和低估的商品之一。
当大多数企业考虑数据时,他们考虑的是他们拥有的数据。这些第一方数据(1PD)通常是从网站、CRM/ERP系统、与客户的通信等收集而来的。一些第一方数据集比其他数据集更有价值:谷歌的搜索和点击历史它就是他们的第一方数据。
显而易见的是,你直接拥有的第三方数据(3PD)的数量要比你的第一方数据大几个数量级。我要提出的论点是,大多数人没有意识到第三方数据对他们的业务的价值。让我们用一个例子来说明这一点。
检测电子邮件垃圾邮件(以及为什么你仅凭第一方数据可能不如你所想的有价值)
你认为在检测电子邮件垃圾邮件中最有预测性的信号是什么?最常见的答案包括:拼写错误、语法错误或具体关键词的提及,如v1agra。一个稍微更好的答案是“发件人是否在你的联系人中”——不是因为它是真实的(你的联系人中的非垃圾邮件发送者比垃圾邮件发送者更多),而是因为它考虑了电子邮件本身之外的数据源:你的联系人。
即使仅仅是为了这个轶事的目的,让我们假设检测电子邮件垃圾邮件的最重要的信号实际上是发件人的域名年龄。一旦说出来,这似乎是合理的:垃圾邮件发送者经常注册新的域名,在短时间内被电子邮件提供商屏蔽。
为什么大多数人不考虑这个答案?因为发件人的域名年龄不是你的“第一方数据集”的一部分,该数据集仅包含发件人和收件人的电子邮件、主题和邮件正文等信息。但是,所有了解域名的人都会告诉你,这些信息不仅易于获取,而且还是免费的。获取域名并前往域名注册处,你就可以找到它的注册时间(例如,gmail.com在1995年8月13日注册)。
事实证明,如果你的拥有的数据(1PD)与他人拥有的数据(3PD)相结合,那么你拥有的数据可能更有价值。
从电子邮件垃圾邮件到量化交易(以及更多?)
从通过增加发件人域名年龄来更好地检测电子邮件垃圾邮件的想法进行推断,你可以想象可以应用相同原则的无限方式。以下是你可以从地址中找到的数据的一个简单例子(至少在美国)。
当然,这不是一个新的想法。对冲基金几十年来一直在使用“替代数据”。RenTech是最早利用卫星图像、网络抓取和其他创造性数据集来为他们提供交易优势的公司之一。瑞银使用卫星图像监控大型零售商的停车场,并将车流量与季度收入相关联,从而在发布之前更准确地预测收益。
你可能可以猜到这将发展成什么样。仅在美国就有超过30万个数据提供商,可能有数十亿个数据集。其中许多数据集可能能够让你在预测或分析任何领域中获得竞争优势。唯一的限制是你的创造力。
使用外部数据的(主观)价值
尽管对于量化交易公司来说,外部数据的价值是立竿见影且重大的,但其他行业的高管对此认识较慢。进行思维实验:考虑一些对于你的业务来说最重要的预测任务。对于亚马逊来说,可能是某个客户最有可能购买的产品。对于一家石油勘探公司来说,可能是下一个油藏的发现位置。对于一家连锁杂货店来说,可能是任何给定时间点特定产品的需求。
接下来,想象一下,如果你有一个可以调整的魔法旋钮,可以提高预测任务的性能和对你的业务的价值。杂货连锁店约有10%的食品损耗。如果他们能更好地预测需求,他们可以改善供应链并减少损耗。以大约20%的毛利率计算,每降低1%的损耗将使他们的毛利率提高0.8个百分点。因此,对于像Albertsons这样的公司,每提高1%的需求预测能力可能价值估计每年640万美元。替代数据可以帮助实现这一目标。
对于商业房地产开发商而言,同样的数据可能价值更高。然而,数据市场尚未能够通过价格歧视来提取这个价值,因为它们与实际的业务应用相去甚远。它们必须为其库存设定一个通用价格,独立于其最终用途。
然而,外部数据已成为一个估计值为50亿美元、年均增长50%的市场,而交易这些数据的市场又代表另一个10亿美元的市场。这仅仅是潜在市场规模的一小部分,至少有两个原因:(1)尽管每个公司都应该能够从3PD中获益,但只有最具分析能力的公司知道如何利用3PD来获得优势。(2)那些敢于尝试的人被落后的发现和购买3PD的过程所拖累。让我们快速进入广告购买过程,以说明这一点。
程序化广告能教给我们如何改进数据经济
广告购买流程的演变
不久前,也就是在2014年,程序化广告购买只占数字广告支出的不到一半。人们是如何购买广告的呢?他们告诉代理机构他们想要触达的受众类型。然后代理机构会查看他们合作的出版商及其“库存”(杂志页面、广告牌、电视广告时段等),并制定一个计划,确定在哪里运行一项广告活动以满足这些要求。经过一些谈判,公司和代理机构最终签订合同。广告创意将被开发、审查和批准。插入订单将被提交,最终广告活动将运行。几个月后,公司将收到代理机构对广告活动的评估报告(基于一个小样本数据集)。
接着谷歌崛起,他们(和其他公司)推动了所谓的程序化广告购买。谷歌创建了自己的广告交易所(AdX),将来自多个出版商和不同广告网络的库存连接在一起。当用户进行搜索或访问网站时,它会在实时竞拍中(是的,在加载网页所需的时间内)将所有广告主相互竞争,并选择出价最高的(实际上是第二高)来展示他们的广告。
就这样,广告购买从原本需要数月时间、涉及大量人力资源且透明度很低的过程,变成了实时交易,既确定价格(通过竞拍),同时还能即时测量展示次数(有时甚至包括转化次数)。这种速度、流动性和透明度的提升导致了在线广告市场的爆炸增长,程序化广告购买现在占据了近90%的数字广告预算。
陈旧的数据购买流程
事实证明,如今购买数据比20年前购买广告更加痛苦。
发现:首先,你需要意识到第三方数据(3PD)对你来说可能非常有价值。还记得电子邮件垃圾邮件的例子吗?接下来,你需要有创造力,想出所有可能用于增强你的第一方数据(1PD)的第三方数据。你会考虑使用卫星图像来预测零售商的收入吗?然后你必须去所有的数据提供商那里搜索你认为你需要的数据。你会发现大多数“数据市场”基本上只是对描述进行自由文本搜索。接下来,你需要查看数据的模式,看看它是否包含你寻找的内容,以及你需要的粒度(例如,有时你需要每分钟的脚流量,而不仅仅是每小时),以及正确的覆盖范围(例如,正确的日期范围或地理区域)。
采购:一旦你找到了你认为你需要的数据,你就需要弄清楚如何采购这些数据。你会惊讶地发现,这并不总是一个简单的“点击购买”的事情。你必须与数据提供商交谈,了解数据许可证(你是否可以将这些数据用于预期目的?),谈判条款,并签订合同。你要为来自不同提供商的不同第三方数据重复这个过程,而他们都有不同的合同、条款和许可证。你等待着在你的信箱中收到软盘中的数据(开个玩笑)。
整合:最后你拥有了你想要的数据。你等待几个星期,同时你的数据工程团队将其与你的第一方数据进行整合,但你才发现它实际上并没有你希望的那么有用。你花费的时间和金钱都白费了,你再也不会尝试了。或者更加令人痛苦的是,你发现第三方数据确实给你带来了有意义的改进,于是你开始将你的预测模型投入生产,结果发现你需要每小时更新新鲜数据,而你使用的其中一个数据源只每周更新一次。如果你再次尝试,你现在知道除了根据模式检查粒度之外,你还必须考虑刷新频率。
这个过程可能需要几个月甚至一年以上的时间。为了建造一匹更快的马,一些咨询公司建议解决方案是雇佣整个“数据采购团队”并与数据聚合商建立关系。
数据经济需要一个实时的程序化数据交易所
我之所以引用程序化广告购买的例子是因为我坚信数据经济可以以同样的方式发展,从而产生相当深远的经济影响。
发现和采购:考虑一个将所有数据提供者(“库存”)聚集在一起并合理化许可证的数据交换,以便能够以程序化方式促进交易。数据消费者将提供任何1PD并表达他们感兴趣的任务(例如预测需求),以及他们对每个改进单位的价值(记住,对于阿尔伯森来说,需求预测的1pp改进价值为6.4亿美元?)。数据交换将自动识别哪些3PD将为该任务提供可量化的改进,根据数据消费者的预算进行实时拍卖,并选择最佳满足他们要求的3PD子集。与实际任务(及相关价值)的接近将解决现有数据市场的发现和价值提取问题,这些市场必须将数据视为商品而不是体验良好的产品。
持续集成和改进:由于大多数有价值的预测任务在本质上是持续性的(例如,您需要定期预测需求而不仅仅是一次性),交换将成为重复交易的中心,随着新的数据提供者和消费者进入生态系统,提供更多价值。每次执行预测任务时运行拍卖(而不仅仅是在决定购买哪些数据时运行一次)将确保新的数据提供者立即达到分发,并且数据消费者将从最新的数据库存和价格发现中受益。数据交易将像广告购买一样从离线和手动演变为实时、程序化,最重要的是可衡量。
这种“实时程序化数据交换”将为市场中的所有参与者提供经济激励:
- 数据提供者和消费者都将受益于改进的可发现性。数据市场存在长尾问题:存在大量和各种各样的数据,使用现有方法几乎不可能发现任何特定任务/应用程序的最相关数据。
- 标准化条款和许可证,以便交易可以以程序化方式进行,将改善数据经济的速度和流动性,消除购买过程中的摩擦,并向更广泛的受众开放。结果,整体市场将大幅扩大。
- 通过基于每个数据消费者的主观价值在拍卖中设定价格,如果存在多个具有可比较数据的数据提供者,消费者将获得更好的交易,而提供者可以在对同一类型的数据有不同价值的消费者之间实施价格歧视。
- 在一个平台上汇总来自数据消费者的需求将为数据提供者提供宝贵的见解。例如,根据需求方的所有任务和支付意愿,数据交换可以推断出提供方缺少哪些数据,从而帮助确定数据获取和创建的优先级。请注意,合成数据提供者!
需要解决的难题
除了解决数据的可发现性和定价问题,就像谷歌为广告所做的那样,这种程序化数据交换还需要解决许可和交付问题,就像Spotify为音乐所做的那样。但是,如果没有一些需要解决的难题,这个事业就不会如此有趣和有意义。
商业
- 数据许可证相对较新。据我所知,数据许可证方面没有太多的标准化。每个数据提供者都有自己特殊的许可证类型,与其他许可证不兼容。为了促进交换,许可证需要简化。
- 数据市场可能担心被绕过。数据生态系统很复杂。对于数据提供者来说,这将是一个全新的分销渠道。他们对发现性问题非常清楚,而这种交换可能会向数百万新的消费者开放市场,这些消费者否则不会考虑替代数据。另一方面,数据市场和聚合器是可能阻止数据提供者直接访问程序化数据交换的唱片公司等效物。
- 向“旧”行业引入新的定价模型很困难。程序化交换的流动性机制将显著扩大需求和供应双方,并且定价机制将优化价值捕获。总体而言,程序化数据交换对数据提供者来说是一项胜利。
技术
- 语义类型检测仍停留在过去。要自动识别可以连接的数据集,首先需要了解数据的语义类型。例如,某个数据是一个数字、一个邮政编码还是一个货币?大多数语义类型检测是基于启发式的,但现代方法更多。
- 无法通过暴力搜索来发现数据。事实证明,数据非常多。找出哪个第三方数据对您的任务最有益的朴素方法就是“尝试”所有数据,以确定哪个数据提供了最大的价值。幸运的是,在信息理论和数据总结等领域有现代突破,使得这个问题变得可行。
- 连接数据很困难。一旦您了解了语义类型,并且有一种机制可以确定哪个第三方数据将提供有意义的好处,您就必须以有趣的方式将第一方数据和第三方数据进行连接。天气数据可能会带有天气站的经度和纬度,但这些数据可能与您想要预测航班延误的机场不匹配。或者流量数据可能是按小时计算的,而您需要确定您是要使用平均值、最大值还是第n个百分位数来进行每日聚合。
- 数据安全。数据提供者不喜欢提供他们的数据(因为数据很容易被复制)。然而,有一些技术(如联邦学习)可以在保留数据访问和隐私的同时增加预测的准确性。
我相信实时的程序化数据交换将产生深远影响,幸运的是,人工智能的最新进展提供了上述挑战的解决方案。我期待未来数据作为一种体验品而不是商品。
本文所述观点仅代表个人观点,不代表雇主的观点。