Ordfrekvenser og n-gram-søk
Ordfrekvenser angir frekvensen til ord i en tekst eller definert korpus.
Et n-gram er en sekvens av et eller flere elementer («n antall elementer»), gjerne ord, og dets forekomstmønster over tid. Tjenester for n-gram-søk gjør det mulig å raskt undersøke et ords eller et uttrykks forekomstmønster over tid. Nasjonalbiblioteket har en n-gram-tjeneste for søk i sine digitaliserte samlinger: NB N-gram. Google Books har også utviklet en n-gram-tjeneste, Google Books Ngram Viewer, for søk i sine korpus.
Korpussammenligning
Korpussammenligning som metode for digital tekstanalyse går ut på å undersøke hvilke ord som er overrepresenterte i et delkorpus, sammenlignet med et større referansekorpus. En måte å gjøre korpussammenligning på er gjennom ordfrekvenser, og sammenligne forskjellige korpus basert på forekomsten av forskjellige ord og uttrykk.
Konkordansanalyser
I korpuslingvistikk, tekstmining eller digital tekstanalyse er «konkordans» en generert liste over hver forekomst av et bestemt ord i et digitalt korpus, med konteksten ordet forekommer i (et visst antall ord før og etter nøkkelordet) for hvert tilfelle. Konkordanser kalles også «nøkkelord i kontekst»/«keyword in context» (KWIC).
Kollokasjonsanalyser
Begrepet «kollokasjon» betegner ord som er assosiert med hverandre, som ofte forekommer sammen. I korpuslingvistikk, tekst-mining eller digital tekstanalyse er kollokasjoner en statistisk oversikt over ord som har høy relativ samforekomst med et nøkkelord vi tar utgangspunkt i.
Temamodellering
Temamodellering, også kalt emnemodellering («topic modeling» på engelsk), er en metode som gjør det mulig å undersøke ords samforekomstmønster i tekster. Basert på en algoritmes statistiske beregning grupperes ord ut fra samforekomst og samvariasjon. Disse gruppene av ord (eller «clusters») kalles «temaer», «emner» («topics»). Selv om slike «temaer» i seg selv ikke er annet enn grupper av ord, satt sammen basert på statistiske beregninger, kan de gi forskeren innblikk i den tematiske strukturen i tekster.
Det finnes en rekke algoritmer for temamodellering. Latent Dirichlet Allocation (LDA), som er mest vanlig, og BERTopic, som er nyere, er et par eksempler. De forskjellige algoritmene gjør mer eller mindre det samme. LDA-algoritmen er implementert i Gensim, en Python-pakke med åpen kildekode (open-source), og i Mallet, et software toolkit, også med åpen kildekode (open-source).
Automatisk navnegjenkjenning
Kjent som «Named Entity Recogntion» eller NER på engelsk gjør automatisk gjenkjenning av navn det mulig å identifisere for eksempel egennavn og/eller stedsnavn i tekster. Natural Language Toolkit (NLTK) har utviklet en klassifikator for navnegjenkjenning.
Part-of-Speech tagging
Å merke ord med deres ordklasse, eller «Part-of-Speech» (POS), er å klassifisere ord basert på deres ordklasse, som substantiv eller verb. POS-taggen til et ord angir ordets ordklasse og grammatiske kategori som verbtid og substantivform. Natural Language Toolkit (NLTK) har utviklet en POS-tagger.
Sentimentanalyse
Sentimentanalyse («sentiment analysis» eller også kalt «opinion mining» på engelsk) er automatiserte metoder for å identifisere affektive tilstander i datasett. Dette gjøres ved å systematisk trekke ut uttrykk for subjektive meninger og følelsesmessige evalueringer i materialet. Sentimentanalyse er mye brukt i markedsføring og reklame, men også i undersøkelser av tonen i politisk kommunikasjon, i offentlig debatt, sosiale medier og i forbindelse med studier av plott og sjanger i litterære korpus.
I sentimentanalyse av tekstdata benyttes ofte digitale sentimentordlister eller datasett der ord og uttrykk er tildelt en score ut fra emosjonell ladning.