了解语言的处理方式

已完成

一些用于通过计算机分析文本的最早技术涉及对文本主体( 语料库)进行统计分析,以推断某种语义含义。 简单地说,如果可以确定给定文档中最常用的字词,则通常可以很好地了解文档的用途。

标记化

分析库的第一步是将其分解为 令牌。 为简单起见,可以将训练文本中的每个不同单词视为标记,但实际上,可以为部分单词生成标记,也可以为字词和标点符号组合生成标记。

例如,考虑美国著名总统演讲中的这句话: "we choose to go to the moon" 该短语可以分解为以下标记,其中包含数字标识符:

1. we 
2. choose
3. to
4. go
5. the
6. moon

请注意,"to"(令牌编号3)在语料库中使用了两次。 "we choose to go to the moon"短语可由标记{1,2,3,4,3,5,6}表示。

我们使用了一个简单的示例,其中为文本中的每个不同单词标识了词元。 但是,请考虑以下可能适用于标记化的概念,具体取决于尝试解决的特定 NLP 问题类型:

概念 说明
文本规范化 在生成令牌之前,可以选择删除标点符号并将所有单词更改为小写来 规范 化文本。 对于完全依赖于单词频率的分析,此方法可提高整体性能。 但是,某些语义含义可能会丢失,例如,考虑句子 "Mr Banks has worked in many banks."。 你可能希望所做的分析能够区分 "Mr Banks" 这个人和他工作所在的 "banks"。 你可能还希望将 "banks." 单独视为一个标记,与 "banks" 分开,因为句点的存在说明这个单词出现在句子的结尾。
停止字词移除 干扰词是应该从分析中排除的字词。 例如,"the""a"或者"it"使文本更易于用户阅读,但添加的语义意义很少。 通过排除这些字词,文本分析解决方案可以更好地识别重要字词。
N 元语法 多术语短语,如 "I have""he walked"。 一个单词短语是一个 unigram,一个两个单词的短语是一个 bi-gram,一个三个单词的短语是一个 tri-gram,依此类推。 通过将字词视为组,机器学习模型可以更好地了解文本。
词干分析 一种在对字词进行计数之前应用算法来合并字词的技术,以便具有相同根的单词(例如 "power""powered""powerful")被解释为同一标记。

接下来,让我们看看统计技术如何让我们能够对语言进行建模。