这家总部设在芬兰的人工智能创业公司发布了Poro:一款革命性的开源语言模型,提升了欧洲多语言人工智能能力

这家总部位于芬兰的人工智能创业公司发布了Poro:一款开源的语言模型,为欧洲多语言人工智能提升带来了革命性的力量

“`html

对于在人工智能领域中拥有比英语更少数据的欧洲语言来说,创建大型语言模型是具有挑战性的。科技界的公司一直在致力于解决这个问题,最近,一家来自芬兰赫尔辛基的创业公司引入了一个新的解决方案。

在此之前,一些语言模型是可用的,但它们常常只适用于单一语言,对于数据较少的语言可能有更好的性能。问题在于这些模型需要捕捉每种欧洲语言的独特特征、文化和价值观。现有的解决方案有限,需要更具包容性的解决方案。

现在,一家芬兰人工智能创业公司开发了一个名为 Poro 的开源解决方案。它是一个大型语言模型,旨在涵盖欧盟的所有24种官方语言。其目标是创建一系列能够理解和代表欧洲语言多样性的模型。该创业公司认为,这对数字主权非常重要,确保由这些模型创造的价值留在欧洲内部。

Poro 是针对数据较少的语言(如芬兰语)培训语言模型的挑战进行设计的。它采用跨语言培训方法,即从高资源语言(如英语)的数据中学习,以提高其在低资源语言上的性能。

Poro 34B 模型拥有342亿参数,采用一种称为 BLOOM transformer with ALiBi 嵌入的独特架构。它在一个庞大的多语言数据集上进行训练,包括 Python 和 Java 等语言和编程语言。训练是在欧洲最快的超级计算机上进行的,提供了巨大的计算能力。

该创业公司在模型训练过程中发布检查点,展示其进展。即使在完成的30%进度下,Poro也展现出了最先进的结果。在测试中,它超过了现有的芬兰语模型,并有望达到或超过英语的性能。

总之,Poro代表了人工智能在欧洲语言领域的一大进步。它不仅仅是创建一个强大的语言模型,而是以一种开放透明、尊重欧洲语言和文化多样性的方式进行。如果成功,Poro可能会成为一个改变游戏规则的因素,为主要科技公司的语言模型提供本地化的替代品。

此文章最先出现在[这家总部位于芬兰的人工智能创业公司发布了Poro:一个推动欧洲多语言人工智能能力的革命性开源语言模型](https://www.xiaozhuai.com/chatgpt-has-multilingual-capabilities-for-language-enthusiasts.html) 上。

“`