English version of this page

Typer tekstutvinning

Det finnes stadig flere forskjellig typer metoder for kvantitativ tekstanalyse. Her presenterer vi noen av de mest sentrale tekstutvinningsmetodene som flere av verktøyene tilbyr løsning for.

Ordfrekvenser og n-gram-søk

Ordfrekvenser angir frekvensen til ord i en tekst eller definert korpus.

Et n-gram er en sekvens av et eller flere elementer («n antall elementer»), gjerne ord, og dets forekomstmønster over tid. Tjenester for n-gram-søk gjør det mulig å raskt undersøke et ords eller et uttrykks forekomstmønster over tid. Nasjonalbiblioteket har en n-gram-tjeneste for søk i sine digitaliserte samlinger: NB N-gram. Google Books har også utviklet en n-gram-tjeneste, Google Books Ngram Viewer, for søk i sine korpus.

Korpussammenligning

Korpussammenligning som metode for digital tekstanalyse går ut på å undersøke hvilke ord som er overrepresenterte i et delkorpus, sammenlignet med et større referansekorpus. En måte å gjøre korpussammenligning på er gjennom ordfrekvenser, og sammenligne forskjellige korpus basert på forekomsten av forskjellige ord og uttrykk.

Konkordansanalyser

I korpuslingvistikk, tekstmining eller digital tekstanalyse er «konkordans» en generert liste over hver forekomst av et bestemt ord i et digitalt korpus, med konteksten ordet forekommer i (et visst antall ord før og etter nøkkelordet) for hvert tilfelle. Konkordanser kalles også «nøkkelord i kontekst»/«keyword in context» (KWIC).

Kollokasjonsanalyser

Begrepet «kollokasjon» betegner ord som er assosiert med hverandre, som ofte forekommer sammen. I korpuslingvistikk, tekst-mining eller digital tekstanalyse er kollokasjoner en statistisk oversikt over ord som har høy relativ samforekomst med et nøkkelord vi tar utgangspunkt i.

Temamodellering

Temamodellering, også kalt emnemodellering («topic modeling» på engelsk), er en metode som gjør det mulig å undersøke ords samforekomstmønster i tekster. Basert på en algoritmes statistiske beregning grupperes ord ut fra samforekomst og samvariasjon. Disse gruppene av ord (eller «clusters») kalles «temaer», «emner» («topics»). Selv om slike «temaer» i seg selv ikke er annet enn grupper av ord, satt sammen basert på statistiske beregninger, kan de gi forskeren innblikk i den tematiske strukturen i tekster.

Det finnes en rekke algoritmer for temamodellering. Latent Dirichlet Allocation (LDA), som er mest vanlig, og BERTopic, som er nyere, er et par eksempler. De forskjellige algoritmene gjør mer eller mindre det samme. LDA-algoritmen er implementert i Gensim, en Python-pakke med åpen kildekode (open-source), og i Mallet, et software toolkit, også med åpen kildekode (open-source).

Automatisk navnegjenkjenning

Kjent som «Named Entity Recogntion» eller NER på engelsk gjør automatisk gjenkjenning av navn det mulig å identifisere for eksempel egennavn og/eller stedsnavn i tekster. Natural Language Toolkit (NLTK) har utviklet en klassifikator for  navnegjenkjenning. 

Part-of-Speech tagging

Å merke ord med deres ordklasse, eller «Part-of-Speech» (POS), er å klassifisere ord basert på deres ordklasse, som substantiv eller verb. POS-taggen til et ord angir ordets ordklasse og grammatiske kategori som verbtid og substantivform. Natural Language Toolkit (NLTK) har utviklet en POS-tagger. 

Sentimentanalyse

Sentimentanalyse («sentiment analysis» eller også kalt «opinion mining» på engelsk) er automatiserte metoder for å identifisere affektive tilstander i datasett. Dette gjøres ved å systematisk trekke ut uttrykk for subjektive meninger og følelsesmessige evalueringer i materialet. Sentimentanalyse er mye brukt i markedsføring og reklame, men også i undersøkelser av tonen i politisk kommunikasjon, i offentlig debatt, sosiale medier og i forbindelse med studier av plott og sjanger i litterære korpus.

I sentimentanalyse av tekstdata benyttes ofte digitale sentimentordlister eller datasett der ord og uttrykk er tildelt en score ut fra emosjonell ladning. 

Publisert 27. mai 2021 13:42 - Sist endret 18. jan. 2024 11:50