组织非结构化数据
向量数据库公司Pinecone于4月在7.5亿美元的估值下获得1亿美元的风险投资(VC)融资。包括Chroma、Weviate和Qdrant在内的其他向量数据库创业公司最近也从VC那里筹集了数百万美元。这引发了一个问题:什么是向量数据库,它们为什么现在备受关注?
根据分析师的估计,任何组织的数据中80%至90%是非结构化的,数据库经历了许多迭代,从结构化查询语言/ SQL数据库(其中数据结构化为一组表)和关系数据库(专注于存储数据元素之间的关系)到NoSQL数据库(在其中使用不同的结构存储和检索数据,而不使用行和列)。 NoSQL是在2000年代初Web 2.0时代的崛起中引发的。
这些传统的数据库无法充分地分析非结构化数据,特别是在实时情况下。现在,随着人工智能(AI)的发展势头,向量数据库已经出现,用于机器学习应用。向量是数据的高维数组,其中每个维度是一个数字。
向量数据库公司Zilliz和Linux Foundation的Milvus项目的首席执行官兼创始人Charles Xie解释说:“向量非常重要,因为当你谈论图片、图像或视频时,它们是非结构化数据的数值表示,可以轻松地被机器处理。”
这就是使用机器学习模型将非结构化数据转化为浮点值或向量嵌入的关键所在。相比之下,这些非结构化的图像、图片和视频需要耗费时间,而且在关系数据库中手动分类是一项挑战。例如,现在著名的ImageNet数据集需要25000名人员(策展人)来标记,Xie说。
一旦数据处于机器可读格式中,关系数据库会存储和搜索结构化基于表格的数据,Xie说。但是,与结构化数据不同,没有一种简单的方法可以在关系数据库内存储和高效地搜索大量的非结构化数据。
例如,如果给出各个角度的一组鞋子图片,要快速搜索相似的鞋子将是不可能的,因为从图像的原始像素值中纯粹理解鞋子的大小、样式、鞋跟类型、颜色等是困难的,Zilliz的市场营销副总裁Chris Churilo指出。她说:“所以我们想让机器为我们做这件事,使用模型‘将以数字形式呈现内容的数值表示’嵌入或向量,’这是有意思的,因为拥有这种数值表示,现在我可以要求机器通过比较这些数值来查找相似的内容。’Churilo说,机器可以做到这一点相当准确。
同意市场调研公司Gartner的杰出副总裁兼分析师Arun Chandrasekaran的看法,向量数据库通常用于相似性搜索和产品推荐。
“向量数据库索引和存储向量嵌入以实现快速检索,”Chandrasekaran说。他表示,越来越多地使用AI基础模型引起了人们对向量数据库的兴趣。随着客户微调生成AI模型,他们将在向量数据库中存储和检索组织数据。
在生成式AI中,向量数据库可以用于存储由AI基础模型训练产生的向量嵌入,Chandrasekaran补充道。
“向量数据库是一个古老主题的热点名称,”卡内基梅隆大学数据库管理系统的副教授Andy Pavlo观察到。他的研究领域是数据库管理系统。 “这一切都是为了跟上人工智能的步伐。”
与其他人的观点相同,Pavlo说,ChatGPT和机器学习正在存储向量,向量数据库存储这些嵌入以便用户快速查找。
向量数据库可以进行相似性搜索,而且可扩展和灵活,苹果公司的软件数据工程师Huaping Gu写道。但是,使用它们也有一些缺点。高维向量计算成本较高。据Gu称,它们也很难可视化和解释,这使得调试或微调AI / ML模型成为挑战。
向量数据库也无法返回完美的搜索结果。 “最终,他们所做的是构建索引以进行最近邻搜索,其想法是您拥有表示您的向量的多维空间,” Pavlo说。 “当您将查询转换为向量嵌入时,它不会落在精确匹配上。”
目前,“对于大多数企业客户来说,向量数据库的用例非常有限,”Chandrasekaran观察到。但是,预计将看到它们的使用增加。他说,它们“在生成式AI应用程序中越来越受欢迎”,并补充说“这是一个新兴但快速发展的生态系统。”
Esther Shein是一位自由职业技术和商业作家,常驻波士顿地区。