认识FinGPT:一种开源的金融大型语言模型(LLMs)
由于人工智能的不断发展和进步,大型语言模型得到了增强,这对自然语言处理在各个领域产生了深刻的影响。在这场激进的颠覆中,这些模型在金融领域的潜在应用引起了极大的关注。然而,构建一个有效且高效的开源经济语言模型取决于收集高质量、相关、及时的数据。在金融领域使用语言模型存在许多障碍。这些障碍包括从获取数据、维护各种数据形式和类型,到应对不一致的数据质量和关键的信息更新需求等各方面的挑战。
提取历史或专业的金融数据变得困难,因为有许多数据来源,包括网络平台、API、PDF文档和照片。为了专门为银行业培训语言模型,像BloombergGPT这样的专有模型利用其专有数据进行培训。然而,由于数据收集和培训过程的受限可访问性和开放性,需要更开放和包容性的替代方案。为了满足这一需求,他们观察到在开源领域中,有一个倾向于民主化互联网规模的金融数据。哥伦比亚大学和纽约大学(上海)的研究人员在本研究中讨论了金融数据的类似问题,并提供了FinGPT,一个端到端的开源框架,用于经济大型语言模型(FinLLMs)。
FinGPT强调了以数据为中心的方法在创建开源FinLLMs中的数据收集、清理和预处理中的关键意义。FinGPT通过促进数据可访问性和奠定开放金融实践的基础,旨在推进金融研究、合作和创新。以下是他们的贡献总结:• 民主化:开源FinGPT框架旨在通过展示可用金融的未实现的承诺,民主化金融数据和FinLLMs的访问。• 以数据为中心的方法:认识到数据管理的价值,FinGPT采用数据为中心的方法,采用严格的清理和预处理技术来处理各种数据格式和类型,从而产生高质量的数据。
FinGPT采用了一个端到端的FinLLMs全堆栈框架,包括四个层。- 数据源层:通过实时捕获信息,该层确保全面覆盖市场,同时解决金融数据的时间敏感性。- 数据工程层解决金融数据中高时间敏感性和信噪比低的固有问题,以便进行实时的NLP数据处理。- LLMs层:该层专注于各种微调方法,减少金融数据极其动态的特性,确保模型的正确性和相关性。- 应用层:该层强调了FinGPT在金融行业中的潜力,展示了真实世界的应用和演示。
他们希望FinGPT成为促进金融行业创新的催化剂。除了其技术贡献外,FinGPT还促进了开源环境的FinLLMs,鼓励实时处理和用户特定的适应。FinGPT定位于通过在开源AI4Finance社区内建立强大的合作生态系统来改变其对FinLLMs的知识和使用。他们很快计划发布经过训练的模型。