了解语言的处理方式
一些用于通过计算机分析文本的最早技术涉及对文本主体( 语料库)进行统计分析,以推断某种语义含义。 简单地说,如果可以确定给定文档中最常用的字词,则通常可以很好地了解文档的用途。
标记化
分析库的第一步是将其分解为 令牌。 为简单起见,可以将训练文本中的每个不同单词视为标记,但实际上,可以为部分单词生成标记,也可以为字词和标点符号组合生成标记。
例如,考虑美国著名总统演讲中的这句话: "we choose to go to the moon" 该短语可以分解为以下标记,其中包含数字标识符:
1. we 
2. choose
3. to
4. go
5. the
6. moon
请注意,"to"(令牌编号3)在语料库中使用了两次。 "we choose to go to the moon"短语可由标记{1,2,3,4,3,5,6}表示。
我们使用了一个简单的示例,其中为文本中的每个不同单词标识了词元。 但是,请考虑以下可能适用于标记化的概念,具体取决于尝试解决的特定 NLP 问题类型:
| 概念 | 说明 | 
|---|---|
| 文本规范化 | 在生成令牌之前,可以选择删除标点符号并将所有单词更改为小写来 规范 化文本。 对于完全依赖于单词频率的分析,此方法可提高整体性能。 但是,某些语义含义可能会丢失,例如,考虑句子 "Mr Banks has worked in many banks."。 你可能希望所做的分析能够区分"Mr Banks"这个人和他工作所在的"banks"。 你可能还希望将"banks."单独视为一个标记,与"banks"分开,因为句点的存在说明这个单词出现在句子的结尾。 | 
| 停止字词移除 | 干扰词是应该从分析中排除的字词。 例如, "the""a"或者"it"使文本更易于用户阅读,但添加的语义意义很少。 通过排除这些字词,文本分析解决方案可以更好地识别重要字词。 | 
| N 元语法 | 多术语短语,如 "I have"或"he walked"。 一个单词短语是一个unigram,一个两个单词的短语是一个bi-gram,一个三个单词的短语是一个tri-gram,依此类推。 通过将字词视为组,机器学习模型可以更好地了解文本。 | 
| 词干分析 | 一种在对字词进行计数之前应用算法来合并字词的技术,以便具有相同根的单词(例如 "power","powered"和"powerful")被解释为同一标记。 | 
接下来,让我们看看统计技术如何让我们能够对语言进行建模。