Förstå hur språket bearbetas
Några av de tidigaste teknikerna som används för att analysera text med datorer omfattar statistisk analys av en texttext (en corpus) för att härleda någon form av semantisk betydelse. Enkelt uttryckt, om du kan fastställa de vanligaste orden i ett visst dokument kan du ofta få en bra uppfattning om vad dokumentet handlar om.
Tokenisering
Det första steget i att analysera en corpus är att dela upp den i token. För enkelhetens skull kan du tänka på varje distinkt ord i träningstexten som en token, men i verkligheten kan token genereras för partiella ord eller kombinationer av ord och skiljetecken.
Tänk till exempel på den här frasen från ett berömt amerikanskt presidenttal: "we choose to go to the moon". Frasen kan delas upp i följande token, med numeriska identifierare:
1. we 
2. choose
3. to
4. go
5. the
6. moon
Observera att "to" (tokennummer 3) används två gånger i corpus. Frasen "we choose to go to the moon" kan representeras av token {1,2,3,4,3,5,6}.
Vi har använt ett enkelt exempel där token identifieras för varje distinkt ord i texten. Tänk dock på följande begrepp som kan gälla för tokenisering beroende på vilken typ av NLP-problem du försöker lösa:
| Koncept | Beskrivning | 
|---|---|
| Textnormalisering | Innan du genererar token kan du välja att normalisera texten genom att ta bort skiljetecken och ändra alla ord till gemener. För analys som enbart bygger på ordfrekvens förbättrar den här metoden övergripande prestanda. En viss semantisk betydelse kan dock gå förlorad - till exempel, överväg meningen "Mr Banks has worked in many banks.". Du kanske vill att din analys ska skilja mellan den person "Mr Banks" och den "banks" där han har arbetat. Du kanske också vill överväga "banks." som en separat token snarare än "banks" eftersom en punkt ger informationen att ordet kommer i slutet av en mening. | 
| Stoppa ordborttagning | Stoppord är ord som ska undantas från analysen. Till exempel "the", "a"eller "it" göra text enklare för personer att läsa men lägga till lite semantisk betydelse. Genom att utesluta dessa ord kan en textanalyslösning vara bättre på att identifiera de viktiga orden. | 
| n-gram | Flertermsfraser som "I have" eller "he walked". En ordfras är en unigram, en fras med två ord är en bi-gram, en fras med tre ord är en tri-gramoch så vidare. Genom att betrakta ord som grupper kan en maskininlärningsmodell göra texten bättre. | 
| Stammen | En teknik där algoritmer används för att konsolidera ord innan de räknas, så att ord med samma rot, som "power", "powered"och "powerful", tolkas som samma token. | 
Nu ska vi se hur statistiska tekniker gör det möjligt för oss att modellera språk.