使用伊萨卡来预测过去
'使用伊萨卡预测过去'
通过人工智能与历史学家的合作,恢复、定位和确定古代文本的年代
人类书写的诞生标志着历史的黎明,对于我们理解过去的文明和今天的世界至关重要。例如,2500多年前,希腊人开始在石头、陶器和金属上写字,记录了从租约和法律到日历和预言的一切,为我们提供了对地中海地区的详细了解。不幸的是,这是一个不完整的记录。许多现存的碑铭经过了几个世纪的损坏或从原来的位置移动。此外,现代的碳定年等技术无法用于这些材料,使得解释碑铭变得困难且耗时。
符合DeepMind解决智能问题以推进科学和人类进步的使命,我们与威尼斯Ca’ Foscari大学人文学部、牛津大学古典学院以及雅典经济与商业大学信息学系合作,探索机器学习如何帮助历史学家更好地解释这些碑铭,从而对古代历史有更深入的理解,并实现人工智能与历史学家之间的合作潜力。
我们在今天发表在《自然》杂志上的一篇论文中,共同介绍了Ithaca,第一个能够恢复受损碑铭上缺失文本、识别其原始位置并帮助确定其创作日期的深度神经网络。Ithaca的命名来自于荷马的《奥德赛》中的希腊岛屿,并在我们之前专注于文本恢复的Pythia系统的基础上进行了扩展。我们的评估结果显示,Ithaca在恢复受损文本方面的准确性达到62%,在识别原始位置方面的准确性达到71%,并且可以将文本的创作日期确定在其真实日期范围内的30年之内。历史学家已经使用这个工具重新评估了希腊历史的重要时期。
为了让我们的研究广泛可用于研究人员、教育工作者、博物馆工作人员和其他人员,我们与谷歌云和谷歌艺术与文化合作推出了Ithaca的免费交互版本。为了促进进一步的研究,我们还开源了我们的代码、预训练模型和一个交互式的Colaboratory笔记本。
协作工具
Ithaca是在Packard人文学研究所提供的希腊碑铭最大的数字数据集上进行训练的。自然语言处理模型通常使用单词进行训练,因为它们在句子中出现的顺序以及它们之间的关系提供了额外的上下文和意义。例如,“从前有个故事”比单独看到每个字符或单词更有意义。然而,历史学家有兴趣用Ithaca分析的许多碑铭都是受损的,经常缺失文本块。为了确保我们的模型在遇到其中之一时仍然有效,我们使用单词和单个字符作为输入对其进行了训练。模型核心的稀疏自注意机制并行评估这两个输入,使得Ithaca能够根据需要评估碑铭。
为了最大限度地发挥Ithaca作为研究工具的价值,我们还创建了一些视觉辅助工具,以确保历史学家能够轻松解释Ithaca的结果:
- 文本恢复假设:Ithaca为历史学家生成了多个预测假设,用于选择他们擅长的文本恢复任务。
- 地理归属:Ithaca通过为历史学家提供可能预测的概率分布来展示其不确定性,而不仅仅是单一的输出。因此,它返回了84个不同古代地区的概率,代表了其确定性水平。它将这些结果可视化在地图上,以揭示古代世界可能存在的地理联系。
- 时间归属:在对文本进行年代划定时,Ithaca生成了一个预测日期的分布,涵盖了公元前800年至公元800年的所有十年。这可以帮助历史学家可视化模型对特定日期范围的置信度,从而提供有价值的历史洞见。
- 显著性图:为了向历史学家传达结果,Ithaca使用了计算机视觉中常用的一种技术,该技术可以确定哪些输入序列对于预测最有贡献。输出以不同颜色强度突出显示导致Ithaca对缺失文本、位置和日期进行预测的单词。
对历史辩论的贡献
我们的实验评估显示了Ithaca的设计决策和可视化辅助工具如何使研究人员能够更容易地解释结果。我们与专家历史学家合作进行的工作表明,他们单独恢复古代文本的准确率为25%。但是,当他们使用Ithaca时,他们的表现提高到72%,超过了模型的个体表现,并显示了人机合作在推进历史解释、建立历史事件相对日期以及甚至对当前方法论辩论的潜力。
例如,历史学家目前对于一系列重要的雅典法令的日期存在分歧,这些法令是在苏格拉底和伯里克利斯等重要人物生活的时期制定的。长期以来,人们一直认为这些法令是在公元前446/445年之前编写的,尽管新证据表明它们的日期是公元前420年代。尽管这看起来是一个小差异,但这些法令对我们理解古典雅典的政治历史至关重要。
我们的训练数据集包含了较早的公元前446/445年。为了测试Ithaca的预测,我们在不包含日期铭文的数据集上重新训练了它,然后将这些保留的文本提交进行分析。令人惊讶的是,Ithaca对这些法令的平均预测日期是公元前421年,与最新的日期突破相一致,展示了机器学习在希腊历史上最重要时刻的辩论中的贡献。
我们相信,像Ithaca这样的工具只是机器学习和人文学科合作潜力的开始。古希腊在我们对地中海世界的理解中起着关键作用,但它仅仅是一个庞大全球文明图景的一部分。为此,我们目前正在开发用其他古代语言进行训练的Ithaca版本,历史学家已经可以在当前架构中使用他们的数据集来研究其他古代书写系统,从阿卡德语到德莫蒂克语,从希伯来语到玛雅语。我们希望像Ithaca这样的模型能够释放出人工智能和人文学科之间的合作潜力,从而深刻地影响我们研究和撰写人类历史上一些最重要时期的方式。
- 阅读论文
- 探索Ithaca的互动版本
- 获取开源代码
- 阅读这篇博客的希腊语翻译