从非结构化数据到结构化数据的LLMs
学习如何使用大型语言模型从文档中提取洞察力,以进行规模化的分析和机器学习加入此网络研讨会和现场教程,学习如何入门
赞助文章
作者:Michael Ortega和Geoffrey Angus 一定要注册我们即将举行的网络研讨会,学习如何使用大型语言模型从非结构化文档中提取见解。 由于ChatGPT的存在,聊天界面是大多数用户与LLMs交互的方式。虽然这很快,直观,对于广泛的生成用例(例如ChatGPT给我讲一个关于多少工程师写博客的笑话),这很有趣,但是这种界面存在根本性的限制,使得它们无法投入生产。
- 慢 – 聊天界面被优化为提供低延迟体验。这种优化经常以吞吐量为代价,使它们无法用于大规模的分析用例。
- 不精确 – 即使经过数天的专门提示迭代,LLMs在回答简单问题时经常会提供冗长的响应。虽然这样的响应有时在类似聊天的交互中更容易理解,但在更广泛的软件生态系统中解析和消耗起来更加困难。
- 对于分析的支持有限-即使连接到您的私人数据(通过嵌入式索引或其他方式),大多数部署用于聊天的LLMs仅不能摄取数据分析人员通常提出的许多类问题所需的所有上下文。
事实上,许多这些由LLM驱动的搜索和问答系统并未针对大规模生产级分析用例进行优化。
- 这篇人工智能论文研究了匿名化对无人驾驶数据集训练计算机视觉模型的影响
- Voxel51开源VoxelGPT:一种利用GPT-3.5的能力生成Python代码进行计算机视觉数据集分析的AI助手
- 数据科学家具体做什么?
正确的方法:使用LLMs从非结构化数据中生成结构化见解
想象一下,你是一位拥有大量财务文件的投资组合经理。您想提出以下问题:“在2000年至2023年间,这10个潜在投资中,每个公司实现的最高收入是多少?”即使连接到您的私人数据的索引检索系统,LLM开箱即用也无法回答这个问题,因为需要大量的上下文。
幸运的是,有一种更好的方法。您可以通过单个大批处理作业首先使用LLM将您的非结构化文档转换为结构化表格,以更快地回答整个语料库中的问题。使用此方法,我们的假想金融机构可以使用定义的模式从大量金融PDF中生成结构化数据表。然后,可以快速以聊天方式无法实现的方式生成其投资组合的关键统计数据。
更进一步,您可以在派生的结构化数据上构建全新的表格ML模型,用于下游数据科学任务(例如,基于这10个风险因素中,哪家公司最有可能违约)。与基于聊天的LLM相比,使用派生的结构化数据的这种较小的,任务特定的ML模型将表现更好,并且运行成本更低。
学习如何使用LLMs从您的文档中提取结构化见解
- 定义要从大量PDF中提取的数据模式
- 定制并使用开源LLMs构建带有源引用的新表格
- 可视化并在提取的数据上运行预测分析
在我们的问答环节中,您将有机会现场提问。 保存您的位置