了解语言的处理方式

一些用于通过计算机分析文本的最早技术涉及对文本主体（ 语料库）进行统计分析，以推断某种语义含义。简单地说，如果可以确定给定文档中最常用的字词，则通常可以很好地了解文档的用途。

标记化

分析库的第一步是将其分解为令牌。为简单起见，可以将训练文本中的每个不同单词视为标记，但实际上，可以为部分单词生成标记，也可以为字词和标点符号组合生成标记。

例如，考虑美国著名总统演讲中的这句话： "we choose to go to the moon" 该短语可以分解为以下标记，其中包含数字标识符：

1. we 
2. choose
3. to
4. go
5. the
6. moon

请注意，"to"（令牌编号3）在语料库中使用了两次。 "we choose to go to the moon"短语可由标记{1,2,3,4,3,5,6}表示。

我们使用了一个简单的示例，其中为文本中的每个不同单词标识了词元。但是，请考虑以下可能适用于标记化的概念，具体取决于尝试解决的特定 NLP 问题类型：

概念	说明
文本规范化	在生成令牌之前，可以选择删除标点符号并将所有单词更改为小写来规范化文本。对于完全依赖于单词频率的分析，此方法可提高整体性能。但是，某些语义含义可能会丢失，例如，考虑句子 `"Mr Banks has worked in many banks."`。你可能希望所做的分析能够区分 `"Mr Banks"` 这个人和他工作所在的 `"banks"`。你可能还希望将 `"banks."` 单独视为一个标记，与 `"banks"` 分开，因为句点的存在说明这个单词出现在句子的结尾。
停止字词移除	干扰词是应该从分析中排除的字词。例如，`"the""a"`或者`"it"`使文本更易于用户阅读，但添加的语义意义很少。通过排除这些字词，文本分析解决方案可以更好地识别重要字词。
N 元语法	多术语短语，如 `"I have"` 或 `"he walked"`。一个单词短语是一个 `unigram`，一个两个单词的短语是一个 `bi-gram`，一个三个单词的短语是一个 `tri-gram`，依此类推。通过将字词视为组，机器学习模型可以更好地了解文本。
词干分析	一种在对字词进行计数之前应用算法来合并字词的技术，以便具有相同根的单词（例如 `"power"`， `"powered"`和 `"powerful"`）被解释为同一标记。

接下来，让我们看看统计技术如何让我们能够对语言进行建模。

此页面是否有帮助？