利用SuperDuperDB轻松创建简单的去重系统

使用SuperDuperDB简单创建高效去重系统

使用语义搜索来识别相似的客户账户

图片作者

简介

我在身份解析领域度过了相当长的时间,试图识别重复的客户账户并将它们关联到群组中。

根据我的经验,有两种类型的B2C新客户:

  1. 一个真正的新客户:在公司数据库中没有现有账户的客户。

2. 一个伪新客户:在公司数据库中至少有一个现有账户的客户。

大多数大型B2C公司面临的一个共同问题是客户账户重复,即客户在一个公司中开设了多个账户。根据公司的新客户激励措施,拥有多个账户的客户可能会多次使用激励措施。如果不予追踪,随着伪新客户数量的增加,这可能导致重大的经济损失。

最近,我一直在思考LLMs(语言模型)如何帮助实时识别和关联客户,即在客户注册后立即决定客户是否有资格获得新客户激励措施。

这导致我构建了一个可以总结为两个步骤的解决方案:

  • 使用LLM在客户注册后立即在数据库中查找客户详细信息之间的语义相似性。然而,仅进行语义搜索是不够的,因为它可能会输出错误的正面相似性,而这些相似性可能会给企业声誉带来负面影响,特别是在真正的新客户被不公正地处罚时。
  • 创建一个简单的重新排名逻辑层作为后处理任务或第二层验证,将有助于缩小真正的正面结果范围。

与往常一样,我的思考过程通常会让我找到帮助快速构建简单的MVP演示的工具。而这一次也不例外。

我最近开始玩耍的一个新框架是SuperDuperDB

SuperDuperDB是一个开源框架,试图消除复杂的MLOps流程、专业的向量等等…