非结构化数据漏斗

化繁为简:非结构化数据漏斗的秘诀

你走多深决定你支付多少。Ricardo Gomez Angel的照片摄于Unsplash

为什么漏斗是数据重击之间的中心

介绍

非结构化的数据形式各异。它通常以文本为主,但也可能包含日期、数字和字典等数据。数据工程师通常会遇到以嵌套JSON形式表示的非结构化数据。然而,“非结构化”数据实际上指的是任何非表格化的数据;实际上,超过80%的全球数据都是非结构化的

虽然对于我们数据从业人员来说,非结构化数据可能看起来无害,但它在宏观层面上引起了巨大的波澜。事实上,GPT模型都是在非结构化数据上进行训练的。这在Tomasz Tunguz最近在Snowflake的收益电话上正确观察到:

来自Tomasz Tunguz的“Snow Angels”

以金融和宏观经济的背景来看,将非结构化数据视为增长引擎似乎有些奇怪。我的第一份工作是在投资银行,所以在读到这类东西时,我感到怀旧。“非结构化数据是增长引擎”对我来说可能有道理——听起来像一个非常庞大的市场尾风

但自从我对齐Powerpoint方框以来已经过了一段时间。从概念上讲,非结构化数据现在是一个深层嵌套的JSON等待处理。但从收益电话中可以清楚地看出,非结构化数据现在不仅仅是JSONs(曾经是吗?),而是文本、文档、视频等等。

我们发现,这些数据驱动着一些最具前瞻性的用例,而它的处理对数据领域的两个重量级公司Databricks和Snowflake来说至关重要。让我们深入探讨一下原因。

为什么非结构化数据重要?

GPT模型依赖于数据。具体来说,它们依赖于非结构化数据。这些数据包括文本文档、HTML文件和代码片段。随着公司越来越多地在生产中实施LLMs,处理这些数据的价值逐渐增加,因为需求增加。因此,对于Snowflake和Databricks等供应商来说,它的价值也在增加。