信息提取的开始:突出关键词并获取频率
信息提取的开始:关键词突出,频率获取
一种快速的方法,用于在PDF文档中突出显示感兴趣的关键词并计算它们的频率。
介绍
随着可用信息的增加,快速收集相关统计信息对于关系映射和获取对于多余数据的新视角非常重要。今天我们将研究PDF文档的文本提取,也称为信息提取,以及一种快速的方法来制定关于不同语料库的一些事实和想法。今天的文章深入探讨了自然语言处理(NLP)领域,即计算机理解人类语言的能力。
信息提取
信息提取(IE),如Jurafsky等人所定义,是将嵌入在文本中的非结构化信息转化为结构化数据的过程。[1] 信息提取的一种非常快速的方法不仅是搜索某个词是否出现在文本中,还要计算该词出现的频率。这种方法基于一个假设,即一个词在文本中被提及的次数越多,它与语料库主题的关系就越重要。需要注意的是,在这个过程中去除停用词是很重要的。为什么呢?因为如果你简单地计算语料库中所有词的频率,那么the这个词会经常被提及。这是否意味着这个词在传递文本中的信息方面很重要?并不,因此您希望确保您查看的是对语义含义有贡献的词的频率。
信息提取可能会导致对文档使用其他NLP技术。这些技术超出了本文的范围,但我觉得它们既有趣又重要,值得分享。
第一种技术是命名实体识别(NER)。正如Jurafsky等人所述,“命名实体识别(NER)的任务是在文本中找到每个命名实体提及并标记其类型。”[1] 这类似于搜索…