大型语言模型作为税务律师:这篇人工智能论文探讨了大型语言模型在应用税法方面的能力
大型语言模型应用于税法能力的探讨
人工智能取得了进展。大型语言模型(LLMs)是快速进展的地方。现代LLMs可以使用工具、规划和通过标准化评估。但即使对于其创建者来说,LLMs也只是神秘的盒子。他们对内部思维过程知之甚少,也无法预测LLM在新情境下的行为。在模型被用于研究以外的环境之前,最佳实践是在一长串基准测试上评估LLM的性能。然而,这些基准测试经常需要反映对我们重要的真实世界活动,或者可能已经被LLM在训练过程中记忆。性能评估所需的数据通常包含在用于训练LLM的数据集中,这些数据集经常从互联网下载。
重叠可能会高估模型的性能,给人一种理解的印象,但实际上只是简单的识别。他们特别关注LLM在法律分析能力上的评估,有三个原因。首先,确定LLM对法律的理解程度可以有助于更一般地监管LLM和自动化系统。一个与政策相关的策略是在LLM中利用法律和监管推理,以实现与通过民主程序和立法确立的社会理念相一致的“以法律为基础的人工智能”。这种“法律指导代码”的策略基于民主过程已经证明能够通过反复的讨论和诉讼产生灵活的法律规范,比如受托责任。这个理念是,教授AI系统法律的精神可以帮助它们在陌生情况下作出可辩护的决策。当一个由LLM驱动的系统支持一个人的原则时,这种早期的能力可以检测出何时破坏了受托责任,从而可能实现更安全的AI部署。其次,无论是通过自助服务还是通过合格的律师,人们都可以利用LLM作为工具更快速、更有效地提供法律服务。如果LLM更好地理解法律,模型可能会更可靠和有价值。LLM可以帮助解决各种问题,从案件预测到合同分析,从而使个人更容易理解法律体系,降低成本和复杂性。
考虑到法律工作的敏感性,实施这些模型应采取一定的保护措施。这包括提高数据隐私、减少偏见、对这些模型的选择负责,并评估LLM在特定用例中的适用性。因此,系统的评估是必要的。第三,如果LLM具有足够的法律知识,它们可以被政府、人民和学者用来发现法律矛盾。LLM可以提高政府的整体效能和透明度。例如,LLM经常能够以明确而可理解的方式解释复杂的规则和法规。
将来,LLM可以预测新法律或政策的可能影响。通过扫描大量的法律语言和相应的实施情况,LLM可能会识别出可能的“过时”立法或法律无声的情况,而在其他类似情况下,立法者或监管者会给出指导。在这项研究中,斯坦福大学、密歇根大学、华盛顿大学、南加利福尼亚大学、西北普里兹克法学院和SimPPL的研究人员使用美国法典(联邦法律的集合)和美国联邦法规(CFR)的文本进行了检索增强的LLM创作的研究。他们评估了一组LLM对税法的理解能力的发展。他们选择税法有四个原因。
税法中的法律权威主要包含在两个来源中:CFR下的财政部规章和美国法典第26章(通常称为《美国国内收入法典》)。这与许多法律领域不同,这些领域的原则是从多个前例中提炼出来的。这使我们能够通过预先定义可能相关文件的检索来补充LLM的检索。其次,许多税法允许对问题给出确定性答案。这使我们能够建立一致的自动验证工作流程。第三,回答特定案例的税法问题通常需要不仅仅是阅读相关法律权威,因此他们可以评估LLM的能力,以适用于实际实践。第四,税法对每个公民和企业的日常经济活动有着重要影响。通过使用LLM单独、将LLM与底层法律文本结合以及使用各种检索技术(对比不同的检索方法),我们评估了LLM在数千个税法问题上产生的回答的准确性。我们在一系列LLM上进行了这些测试,从最小和最弱的模型到最大的现代模型OpenAI的GPT-4。我们检查的每个LLM在首次提供时都是最前沿的。
他们发现,通过分析逐渐增大的模型的结果,可以发现发展LLMs的法律理解能力的证据,并且每次模型发布都有所改进。如果技术继续快速发展,他们可能很快会见证超人类的AI法律能力的发展。