Jina AI推出’jina-embeddings-v2’:全球首个8k开源文本嵌入模型
Jina AI推出jina-embeddings-v2:全球首个8K开源文本嵌入模型
Jina AI发布了其第二代文本嵌入模型的最新进展:jina-embeddings-v2。这一先进的模型是目前唯一支持令人印象深刻的8K(8192个标记)上下文长度的开源解决方案。通过这一成就,它在功能和在大规模文本嵌入基准(MTEB)排行榜上的性能方面与OpenAI的专有模型text-embedding-ada-002相当。
Jina-embeddings-v2是开源文本嵌入模型的重要进展,与已建立起来的专有对手相媲美,无论是在容量还是基准性能方面。与OpenAI的8K模型jina-embeddings-v2相比,它的表现要更好。值得注意的是,Jina-embedding-v2在关键指标(如分类平均、重新排序平均、检索平均和摘要平均)上的性能都优于OpenAI对应模型。
研究人员说,Jina-embeddings-v2以其先进的功能彻底改变了各种应用领域。在法律文件分析方面,它捕捉并分析广泛的法律文本中的每一个细节。在医学研究中,它嵌入科学论文,促进全面的分析,并推动突破性的发现。在文学分析中,模型深入挖掘长篇内容,捕捉丰富的主题元素,以提升对文学作品的理解。金融预测使用户能够从详细的财务报告中获得更准确的见解,增强决策过程。在对话人工智能领域,Jina嵌入 V2显著改善了聊天机器人对复杂用户查询的回答。凭借其多功能和强大的功能,Jina嵌入 V2处于改变我们如何处理和从各个领域的复杂数据集中获取见解的前沿。
测试显示,这个具有上下文功能的jina-embeddings-v2比其他领先的基准嵌入模型表现更好,强调了更长上下文能力的实际优势。
Jina AI首席执行官韩笑博士分享了对这一历程和发布的意义的感悟。他表示,通过发布Jina-embeddings-v2获得的成就令人瞩目,旨在创建世界上第一个开源的8K上下文长度模型,并与OpenAI等行业领导者竞争。 Jina AI的使命始终明确无误:通过提供曾经局限于独占生态系统的工具,实现AI的民主化,在今天朝着这个目标迈出重要的一步。
研究人员表示,他们计划发表一篇学术论文,详细介绍Jina-embeddings-v2的技术细节和基准测试,为AI社区提供深入探索模型能力的机会。团队正在不断发展一个类似于OpenAI的嵌入式API平台,已经达到了可保证用户无缝扩展嵌入模型的先进阶段,以满足他们的需求。此外,Jina AI正在扩展其语言能力,进军多语言嵌入模型,计划推出德英语言模型。这一扩展旨在增强他们的产品组合,巩固他们作为AI创新领域的领导者的地位。
用户可以免费在Hugging Face上轻松下载这个实现上下文功能的jina-embeddings-v2。Base Model专为需要高准确性的任务而设计,可应用于学术研究或商业分析等领域。相比之下,Small Model仅有0.07G的紧凑尺寸,适用于轻量级任务,非常适合在移动应用程序或计算资源有限的设备上使用。Jina AI根据AI社区的不同需求提供了这两种不同的模型选项,让用户选择最适合他们计算需求和应用偏好的模型。