Förstå statistiska tekniker för NLP
Två viktiga statistiska tekniker som utgör grunden för bearbetning av naturligt språk (NLP) är: Naiva Bayes och Term Frequency - Inverse Document Frequency (TF-IDF).
Förstå Naïve Bayes
Naiva Bayes är en statistisk teknik som först användes för e-postfiltrering. Om du vill veta skillnaden mellan skräppost och inte skräppost jämförs två dokument. Naiva Bayes-klassificerare identifierar vilka token som korreleras med e-postmeddelanden som är märkta som skräppost. Med andra ord hittar tekniken vilken grupp av ord som bara förekommer i en typ av dokument och inte i den andra. Gruppen med ord kallas ofta för bag-of-words-funktioner.
Till exempel kan orden miracle cure, lose weight fastoch anti-aging visas oftare i skräppostmeddelanden om tvivelaktiga hälsoprodukter än dina vanliga e-postmeddelanden.
Även om naiva Bayes visade sig vara effektivare än enkla regelbaserade modeller för textklassificering, var det fortfarande relativt rudimentärt eftersom endast närvaron (och inte positionen) av ett ord eller token övervägdes.
Förståelse för TF-IDF
Metoden termfrekvens – inverterad dokumentfrekvens (TF-IDF) hade en liknande metod eftersom den jämförde frekvensen för ett ord i ett dokument med ordets frekvens i en hel uppsättning dokument. Genom att förstå i vilken kontext ett ord användes kan dokument klassificeras baserat på vissa ämnen. TF-IDF används ofta för informationshämtning för att förstå vilka relativa ord eller token som ska sökas efter.
Anmärkning
När det gäller NLP refererar en corpus till en stor och strukturerad samling textdokument som används för maskininlärningsuppgifter. Corpora (plural of corpus) fungerar som viktiga resurser för träning, testning och utvärdering av olika NLP-modeller.
När du till exempel har tokeniserat orden i "we choose to go to the moon"kan du utföra en analys för att räkna antalet förekomster av varje token. De vanligaste orden (förutom stoppord som "a", "the"och så vidare) kan ofta ge en ledtråd om huvudämnet i en text corpus. De vanligaste orden i hela texten i det "go to the moon" tal som vi övervägde tidigare är till exempel "new", "go", "space"och "moon". Om vi skulle tokenisera texten som bi-grams (ordpar) är den vanligaste bi-gram i talet "the moon". Utifrån denna information kan vi enkelt anta att texten främst handlar om rymdresor och att gå till månen.
Enkel frekvensanalys där du helt enkelt räknar antalet förekomster av varje token kan vara ett effektivt sätt att analysera ett enskilt dokument, men när du behöver skilja mellan flera dokument inom samma corpus behöver du ett sätt att avgöra vilka token som är mest relevanta i varje dokument. TF-IDF beräknar poäng baserat på hur ofta ett ord eller en term visas i ett dokument jämfört med dess mer allmänna frekvens i hela dokumentsamlingen. Med den här tekniken antas en hög grad av relevans för ord som ofta förekommer i ett visst dokument, men relativt sällan i en mängd andra dokument.
Nu ska vi titta på de djupinlärningstekniker som används för att skapa dagens semantiska modeller.