机器学习如何成为位置数据行业的改变者
机器学习:位置数据行业的改变者
位置数据可以提供独特的见解,但也存在成本和隐私问题。机器学习可以克服这些缺点,并改进位置数据产品。
位置数据行业正在快速发展,但仍处于技术初级阶段。大多数基于位置数据的产品在技术上相对简单,可以看作是一种实施的描述性统计(例如,店内设备的平均数量),或者在最坏的情况下,这些产品就是原始的位置数据本身。机器学习可以通过节省成本、提高产品质量和增强隐私来为这个行业带来很多价值。
本文旨在提供关于机器学习如何提供更强大的位置数据产品、降低成本和增强隐私的高级和直观的概述。
介绍
位置数据行业与隐私
位置数据行业是一个快速增长的商业领域,为客户提供独特的见解。基于位置数据的特定产品使公司能够分析例如有多少人去竞争对手的商店,他们的客户来自哪里,有多少人从一个地区搬到另一个地区等等。然而,处理位置数据远非易事,并且存在一个巨大的问题:隐私!
除了其他技术和数据相关的问题需要解决外,个人隐私是该行业最重要且最具挑战性的问题。无论涉及的位置数据是来自手机的GPS数据、电信数据还是卫星图像,由于位置数据的整个目的就是揭示位置,简单的产品(原始数据或聚合数据)无法排除逆向工程的可能性,从而侵犯某人的隐私。
- 对任何关系数据库的openCypher*’ Note *openCypher is a query language for graph databases.
- 数据结构和算法中的双向链表
- VoAGI新闻,7月26日:谷歌免费生成式AI培训•数据工程入门指南•GPT-Engineer:你的新AI编码助手
即使“注重隐私”的数据转换(例如对唯一标识符进行哈希处理、模糊化纬度和经度、聚合数据等)也很难使逆向工程变得不可能。此外,即使第三方公司以完全注重隐私的方式聚合该位置数据,个别可识别的数据已经以数字形式发送给该公司,这些敏感数据不再由第一方数据所有者或个人控制。
因此,位置数据行业的未来在于两个方面的结合:在第一方数据方面以不可识别的格式尽早聚合数据,并利用机器学习在这些聚合数据上创建高质量的人类移动性见解。
位置数据行业的现状
大多数基于位置数据的产品为人类移动性提供见解,并基于相当简单的技术方法。例如,估计到店人流量的产品的常见工作流程可能如下:
行业内的更复杂产品会带来更多上下文,例如家庭和工作或区域人口统计信息。然而,流程始终相同:首先预处理原始数据,将个别数据点聚类为居住事件,纠正数据的技术问题,并在一个区域内聚合所有居住事件。
这种方法简单而有效。它允许非常准确地估计人流量,尤其是当某人对时间模式感兴趣时。技术复杂性和主要的专有部分在于对供应进行修正,简单聚合的供应修正将受到供应中潜在问题的极大影响。即使供应量发生微小变化,也可能对聚合数据产品产生巨大的负面影响,而没有适当的修正。因此,自动供应修正是确保数据产品质量的关键。
然而,即使供应修正有效,它仍然存在重大限制。其中一些包括:
- 供应不断变化,需要不断改进和推出新的产品版本。
- 在一段时间内获取和存储所有设备级别的数据成本高。
- 越来越多的位置数据被操纵,“重播”甚至被伪造,影响产品质量。
- 由于公众对使用数据的声誉较低,并且由于隐私原因,可用数据的数量正在减少。
因此,在未来,以原始形式购买位置数据并将其重新销售为某种衍生产品的一般设置不可行,并且将降低现有位置数据产品的稳健性和质量。
在第一方方解决上聚合数据解决了上述限制,对每个人都是双赢的,但是:我们如何基于已经聚合的数据构建产品?我们如何处理数据去重,将数据分配给位置,或者估计到店的人流量?答案是机器学习!
什么是机器学习
有各种关于人工智能和机器学习基础的很好的介绍(比如这个),通过简单的互联网搜索(或询问一个机器学习大师)将得到比这个故事更好的答案。然而,为了使其超级直观和易懂:
机器学习允许人工系统在没有人类干预的情况下学习数据之间的关系。
一个简单的现实生活比较可以是经典的条件反射,例如狗经常得到奖励时学会举起爪子。这种“举起爪子”和“奖励”之间的关系,简化起来,就是机器在人工系统中学习的(尽管狗比迄今为止人类建造的任何AI系统更聪明得多)。
需要注意的是,输入特征的数量不限于一个。事实上,机器学习通常使用很多特征来训练稳健的关系。好处多多。例如,当我们考虑来自第一方数据提供商的聚合数据问题时,机器学习可以让我们学习这些聚合数据与我们希望估计的特定目标之间的关系(例如,到店的人流量)。
如何使用机器学习处理位置数据
估计到店的人流量
为了使事情更加直观,选择了一个使用来自移动设备的GPS数据的案例研究。目标是开发一个可靠和质量高的产品,向客户提供每天访问特定店铺的人数。这对于那些对竞争对手的店铺表现或选址感兴趣的公司来说是非常有用的洞察。
当前的最先进方法
目前,基于GPS数据估计店铺流量的公司要么直接基于原始GPS数据进行估计,要么对该原始数据进行聚合并校正供应波动。然而,如下所示,这两种方法只在观察到感兴趣店铺内的数据之后才起作用。
当产品具有足够高的数据量时,产品方法论(设备级和聚合级)都能够发挥作用,主要关注点更多地集中在数据隐私、供应波动、成本和对数据供应的信任。
然而,当数据量较低或商店位于市场份额普遍较低的地区时,简单的聚合无法得出一个产品,因为它总是以“0”计数结束。鉴于可用的位置数据普遍减少,这已经成为该行业的一个问题。
使用机器学习模型估计人流量
记住之前的条件示例,机器学习模型只是简单地学习条件之间的关系。类似于狗学习抬起爪子会得到奖励的方式,机器学习模型可以学习到如果有更多人靠近场所,那么场所内也很可能有更多人。
换句话说,机器学习的目的是训练一个描述店内人流量如何根据店外流量波动而变化的关系(或模型)。例如,假设某个星期六有一次盛大的开业活动,导致靠近店铺的人数是普通星期六的两倍。在这种情况下,很可能也会有更多人进入店铺。
当然,店外人流量与店内人流量之间的关系不一定是线性的。但这也不是模型要学习的唯一关系。想一想,还有什么因素会影响到店铺的人流量并且可以被测量到?因为实质上,与店铺流量相关的每一个数据都可以提高模型的质量。一些增强这些关系的数据集包括降水、区域人口、人口统计学、星期几、假日等等。
机器学习能够利用所有这些不同的数据集并将它们合并成一个单一的模型,描述店内人流量如何根据描述周围环境的数据而变化。
没有完美的东西,那么优缺点是什么?
尽管机器学习提供了很多机会,但它并不是能解决一切问题的东西,而且存在一些需要解决的限制。
历史偏见。训练的关系通常基于一些历史的真实情况。这意味着最终产品在很大程度上受历史关系的影响。然而,如果关系发生变化,模型需要重新训练以确保预测保持最新且不会偏移。
有些事情是不可预测的。尽管当前人工智能的发展使得机器学习看起来几乎可以解决所有问题,但重要的是要记住很多事情是不可预测的。没有模型能够预测流行病并预测流行病对商店的影响。此外,模型只能学习数据中存在的关系。在训练数据中不存在或者在该数据中没有关系的事件或行为是无法预测的。
思维方式的转变。尽管最终的产品可能看起来相同,但它们来自于根本不同的方法论。这对商业方和产品用户都带来了挑战,需要确保好处和缺点得到恰当的解决。
然而,当我们公开解决机器学习的缺点并进行适当的教育时,好处将超过这些劣势。
符合伦理和隐私友好。将机器学习与第一方聚合数据结合起来,将有助于构建遵循严格伦理标准的未来可靠的隐私友好产品。
强大而高质量的产品。构建一个不直接依赖于GPS数据源的位置数据产品将使产品更加稳健和可信。此外,由于产品可以基于各种高质量的数据源,最终产品的质量可以平均提高。
更少的数据量和成本。与目前构建位置数据产品所需的数据相比,机器学习可以处理更少的数据。这不仅允许供应来源的独立性,还消除了大量数据的不必要存储。此外,使用机器学习基础设施进行数据处理和维护的成本相对较低。
新产品创新。在改善隐私保护后,可能最大的优势之一是实现新产品创新的可能性。机器学习的本质是结合不同的数据集和上下文,从而可以构建目前在位置数据行业中不可用的产品。
摘要
位置数据行业正在迅速增长,但仍处于早期阶段。大多数基于位置数据的产品都很简单,不够稳健,并且缺乏隐私保护。基于机器学习的方法有潜力为该行业带来额外的价值,通过降低成本、提高产品质量和增强隐私保护。我们在Unacast相信,位置数据行业的未来在于在一个不可识别的格式中早期聚合数据,然后在这些聚合数据之上应用机器学习技术,从而创建高质量的人类移动洞察产品。
除非另有说明,否则所有图片均为作者所有。
如果您想了解更多关于我和我所写的内容,请在这里查看并随时关注我。