自然语言处理的分类学

NLP Classification

自然语言处理中不同研究领域和最新发展的概述

NLP分类。图片作者:作者。

本文基于我们在RANLP 2023论文“探索自然语言处理研究领域”的基础上。您可以在那里阅读更多细节。

导言

作为一种理解、生成和处理自然语言文本的高效方法,自然语言处理(NLP)的研究近年来迅速传播并广泛采用。鉴于NLP的快速发展,获得该领域的概述并保持其更新是困难的。本博文旨在提供对NLP中不同研究领域的结构化概述,并分析该领域的最新趋势。

研究领域是通常由任务或技术组成的学术学科和概念。

在本文中,我们研究以下问题:

  • NLP中研究的不同研究领域是什么?
  • NLP研究文献的特点和发展如何随时间变化?
  • NLP的当前趋势和未来工作方向是什么?

虽然NLP中的大多数研究领域是众所周知且定义明确的,但目前还没有常用的分类法或分类方案来收集和结构化这些研究领域,使其呈一致且易于理解的格式。因此,了解整个NLP研究领域的概述是困难的。虽然有关NLP主题的会议和教科书的列表存在,但它们往往差异很大,常常要么过于广泛,要么过于专业化。因此,我们开发了一个涵盖NLP中各种研究领域的分类法。虽然该分类法可能不包括所有可能的NLP概念,但它涵盖了广泛的最受欢迎的研究领域,其中缺失的研究领域可以被视为所包含研究领域的子主题。在制定分类法时,我们发现某些较低级别的研究领域必须被分配给多个较高级别的研究领域,而不仅仅是一个。因此,某些研究领域在NLP分类法中列出多次,但分配给不同的较高级别的研究领域。最终的分类法是与领域专家共同经验主义地进行的迭代过程中开发出来的。

该分类法作为一个总体分类方案,可以根据所包含的研究领域中的至少一个分类对NLP出版物进行分类,即使它们不直接涉及其中的一个研究领域,而只涉及其子主题。为了分析NLP的最新发展,我们训练了一个弱监督模型,根据NLP分类法对ACL Anthology论文进行分类。

您可以在我们的论文中阅读有关分类模型和NLP分类法开发过程的更多细节。

NLP中的不同研究领域 📖

以下部分对上述NLP分类法中包含的研究领域概念进行简要说明。

多模态

“多模态指系统或方法处理不同类型或模态的输入的能力”(Garg等,2022)。我们区分可以处理自然语言文本以及视觉数据语音和音频编程语言结构化数据(例如表格或图形)的系统。

自然语言接口

“自然语言接口可以根据自然语言查询处理数据”(Voigt等,2021),通常实现为问答对话和交流系统

语义文本处理

这个高级研究领域包括所有试图从自然语言中获取含义并使机器对文本数据进行语义解释的概念。在这方面,最强大的研究领域之一是“试图学习单词序列的联合概率函数”的“语言模型”(Bengio等,2000)。“最近在语言模型训练方面的进展使得这些模型成功地执行各种下游NLP任务”(Soni等,2022)。在表示学习中,“语义文本表示通常以嵌入的形式学习”(Fu等,2022),这些“可以用于比较语义搜索设置中文本的语义相似性”(Reimers和Gurevych,2019)。此外,“知识表示,例如以知识图的形式,可以用于改进各种NLP任务”(Schneider等,2022)。

情感分析

“情感分析试图从文本中识别和提取主观信息”(Wankhade等人,2022)。通常,研究侧重于从文本中提取观点情绪极性。最近,基于方面的情感分析作为一种提供比一般情感分析更详细信息的方式出现,因为“它旨在预测文本中给定方面或实体的情感极性”(Xue和Li,2018)。

句法文本处理

这一高级研究领域旨在“分析文本的语法句法和词汇”(Bessmertny等人,2016)。这一背景下的代表性任务包括对句子中词依赖的句法解析、将单词标记为相应的词性标记、将文本分割为连贯的部分分段,以及根据语法和拼写纠正错误的文本修正

语言学与认知NLP

“语言学与认知NLP研究基于以下假设:我们的语言能力紧密根植于我们的认知能力,意义基本上是概念化,语法受到使用方式的塑造”(Dabrowska和Divjak,2015)。存在许多不同的语言学理论,它们一般认为“语言习得受到普遍的语法规则支配,这些规则适用于所有典型发育的人类”(Wise和Sevcik,2017)。“心理语言学试图建立人类大脑如何习得、产生、处理和理解语言,并提供反馈的模型”(Balamurugan,2018)。“认知建模关注以计算或数学形式模拟人类认知过程的各种形式”(Sun,2020)。

负责任和可信NLP

“负责任和可信NLP关注于在核心层面实施关注公平性、可解释性、问责制和伦理方面的方法”(Barredo Arrieta等人,2020)。绿色和可持续NLP主要关注高效的文本处理方法,而低资源NLP旨在在数据稀缺的情况下执行NLP任务。此外,NLP的鲁棒性试图开发对偏见不敏感、抵抗数据扰动且可靠进行超出分布预测的模型。

推理

推理使机器能够根据其可获得的信息进行逻辑推断和推导新知识,使用诸如演绎和归纳的技术。 “论证挖掘自动识别和提取自然语言文本中以论证形式表达的推理和推断结构”(Lawrence和Reed,2019)。文本推理通常被建模为蕴涵问题,自动确定自然语言假设是否可以从给定前提中推断出来”(MacCartney和Manning,2007)。“常识推理使用并未明确提供在文本中的世界知识连接前提和假设”(Ponti等人,2020),而“数值推理执行算术运算”(Al-Negheimish等人,2021)。“机器阅读理解旨在教机器根据给定的段落确定问题的正确答案”(Zhang等人,2021)。

多语言

多语言处理涉及涉及多种自然语言的所有类型的NLP任务,并且通常在机器翻译中进行研究。此外,“语码转换在单个句子或句子之间自由交换多种语言”(Diwan等人,2021),而跨语言转移技术使用一个语言可用的数据和模型来解决另一种语言的NLP任务。

信息检索

“信息检索是指从大型收藏中找到满足信息需求的文本”(Manning et al., 2008)。通常情况下,这涉及检索文档段落

信息提取与文本挖掘

这个研究领域专注于从非结构化文本中提取结构化知识,并且“可以分析和识别数据中的模式或相关性”(Hassani et al., 2020)。 “文本分类会自动将文本分类为预定义的类别”(Schopf et al., 2021),而“主题建模旨在发现文档集合中的潜在主题”(Grootendorst, 2022),通常使用文本聚类技术将语义相似的文本组织到同一簇中。 “摘要会在较小的空间中包含输入的关键点,并尽量减少重复”(El-Kassas et al., 2021)。此外,信息提取与文本挖掘研究领域还包括“命名实体识别,用于识别和分类命名实体”(Leitner et al., 2020),“共指消解,旨在识别语篇中指向同一实体的所有引用”(Yin et al., 2021),“术语提取,旨在提取相关术语,如关键词或关键短语”(Rigouts Terryn et al., 2020),目标是提取实体之间的关系,以及“开放信息提取,便于对领域无关的关系元组进行发现”(Yates et al., 2007)。

文本生成

文本生成方法的目标是生成既可理解于人类又难以与人类撰写的文本区分开来的文本。因此,输入通常包含文本,例如“复述以不同的表面形式呈现文本输入,同时保留语义”(Niu et al., 2021),“问题生成旨在根据段落和目标答案生成流畅且相关的问题”(Song et al., 2018),或“对话回应生成旨在生成与提示相关的看起来自然的文本”(Zhang et al., 2020)。然而,在许多情况下,文本是由其他形式输入生成的,例如“数据到文本生成根据结构化数据(如表格或图表)生成文本”(Kale and Rastogi, 2020),图像或视频的字幕,或者“语音识别将语音波形转录为文本”(Baevski et al., 2022)。

自然语言处理的特点和发展 📈

从1952年到2022年ACL Anthology每年论文数量。图像由作者提供

考虑到自然语言处理的文献,我们从研究数量作为研究兴趣的指标开始分析。上述图表显示了50年观察期内的出版物分布情况。虽然第一篇论文于1952年发表,但直到2000年,每年的出版物数量增长缓慢。因此,在2000年至2017年之间,出版物数量大致增加了四倍,而在随后的五年中,又翻了一番。因此,我们观察到自然语言处理研究的数量呈近似指数增长,表明研究界对其越来越关注。

从2002年到2022年研究领域中最受欢迎的论文数量分布。图像由作者提供

通过检查上面的图表,可以了解到自然语言处理(NLP)文献中最受欢迎的研究领域及其近期发展情况。尽管大多数NLP研究与机器翻译或语言模型相关,但这两个研究领域的发展却有所不同。机器翻译是一个经过深入研究的领域,已经建立了很长时间,并且在过去20年中经历了适度的增长。语言模型也是一个经过长期研究的领域。然而,关于这个主题的发表数量在2018年之后才出现了显著增长。当观察其他热门研究领域时,也可以观察到类似的差异。表示学习和文本分类虽然普遍受到广泛研究,但在其增长方面却有所停滞。相比之下,对话系统和会话代理以及资源匮乏的NLP在研究数量方面仍然保持高速增长。根据其他研究领域的平均研究数量的发展情况,我们可以观察到总体上略微积极的增长。然而,大多数研究领域的研究程度远不及最受欢迎的研究领域。

NLP研究领域的增长份额矩阵。每个研究领域的增长率和总论文数量是从2018年初到2022年底计算得出的。图像由作者提供。

上图显示了NLP研究领域的增长份额矩阵。我们使用这个矩阵来分析2018年至2022年期间与各个研究领域相关的论文数量和增长率,以检查当前的研究趋势和可能的未来研究方向。矩阵的右上部分包括增长率高且总论文数量大的研究领域。鉴于这些领域的研究受到了越来越多的关注,我们将它们归类为热门领域。矩阵的右下部分包含非常受欢迎但增长率低的研究领域。通常,这些是NLP中对研究至关重要但已经相对成熟的领域。因此,我们将它们归类为基础领域。矩阵的左上部分包含增长率高但总论文数量很少的研究领域。由于这些领域的进展前景相当有希望,但总论文数量较少,很难预测它们的进一步发展,所以我们将它们归类为潜在的疑问领域。矩阵的左下部分的研究领域由于总论文数量和增长率低而被归类为利基领域。

该图表显示,语言模型目前受到最多的关注。根据这个领域的最新发展趋势,这一趋势在不久的将来可能会继续加强。文本分类、机器翻译和表示学习位居最受欢迎的研究领域之列,但增长幅度有限。从长远来看,它们可能会被增长更快的领域取代,成为最受欢迎的研究领域。

总体而言,与句法文本处理相关的研究领域在增长和受欢迎程度上都表现出微不足道的水平。相反,与负责任和可信任的NLP相关的领域,例如绿色和可持续的NLP、资源匮乏的NLP和伦理NLP,往往表现出高增长率和高受欢迎度。这一趋势在与多模态相关的结构化数据、视觉数据和语音与音频的NLP领域也可以观察到。此外,涉及对话系统和会话代理以及问答的自然语言界面在研究界日益重要。我们得出结论,除了语言模型,负责任和可信任的NLP、多模态和自然语言界面可能会在不久的将来成为NLP研究领域的特点。

在推理领域,特别是与知识图谱推理和数值推理相关的领域,还有与文本生成相关的各个研究领域中,还可以观察到一些值得注意的发展。尽管这些研究领域目前还相对较小,但它们似乎越来越受到研究界的关注,并呈现出明显的增长趋势。

结论 💡

为了总结最近的发展并提供NLP领域的概览,我们定义了一个研究领域的分类法,并分析了最近的研究进展。

我们的研究发现,已经对许多研究领域进行了研究,包括流行的领域,如多模态、负责任和值得信赖的自然语言处理(NLP)以及自然语言界面。我们希望本文提供了当前NLP领域的有用概述,并可以作为进一步深入探索该领域的起点。

参考资料

探索自然语言处理研究领域

作为一种理解、生成和处理自然语言文本的高效方法,自然语言处理研究…

arxiv.org