English version of this page

Verktøy og programpakker for tekstutvinning

Det finnes mange verktøy for tekstutvinning. Her presenterer vi de to ledende programmeringsspråkene og sentrale verktøypakker som kan hjelpe deg i gang.

Python (med Jupyter Notebook i Anaconda)

Python er et åpen kildekode (open-source) programmeringsspråk som ofte brukes i digital tekstanalyse sammen med applikasjonen Jupyter Notebook, som følger med suiten Anaconda. Natural Language Toolkit (NLTK), som er en ledende plattform for Python programmer for behandling av språkdata («natural language processing» eller NLP), følger også med Anaconda som en av mange pakker og bibliotek du kan velge å installere og kjøre i Jupyter Notebook.

Last ned og installer Anaconda. Åpne Anaconda, launch Jupyter Notebook fra Anaconda og velg ny Notebook i Python.

Kom i gang

Natural Language Processing with Python (updated 2019) by Steven Bird; Ewan Klein; Edward Loper

From the developers of the Natural Language Toolkit (NLTK) for natural language processing (NLP), this book is a solid introduction to natural language processing with the programming language Python and shows how to use it to text mine. Following along using Python in the environment of Anaconda with Jupyter Notebook and NLTK, will make it even easier to follow.

Humanities Data Analysis: Case Studies with Python (online 2022) by Folgert Karsdorp, Mike Kestemeont and Allen Riddell.

A practical guide to textual data analysis with Python in the environment of Anaconda with Jupyter Notebook, this book begins by describing the essential techniques for gathering and cleaning textual data, before presenting a variety of detailed case studies where a range of text mining methods are employed. A comprehensive resource for humanities students and scholars aiming to take their Python skills to the next level.

The Programming Historian publishes open access peer-reviewed tutorials in digital tools and techniques for research in the humanities, in particular using Python, and providing an introduction to Python series. There are several lessons devoted to distant reading.

R og RStudio

R er et åpen kildekode (open-source) programmeringsspråk utviklet for statistisk analyse og grafiske visualiseringer. Det er mye brukt i akademia, særlig innen statistikk og samfunnsvitenskap. R brukes med RStudio som lar brukeren på samme tid se R koden som skrives, hva som kommer ut av skriptet, grafer og tabelldata. Det finnes mange tilgjengelige pakker som kan installeres for å løse ulike oppgaver innen statistiske analyser, kvantitativ tekstanalyse og grafiske fremstillinger.

Last ned og installer R og RStudio eller benytt via UiO Programkiosk. Åpne RStudio og velg nytt R Script under New File. 

Kom i gang

Text Analysis with R for Students of Literature (2020) by Matthew L. Jocke and Rosamond Thalken

Written with students and scholars of literature in mind, this book will also be applicable to other humanists and social scientists wishing to extend their methodological tool kit to include quantitative and computational approaches to the study of text.

The Programming Historian publishes open access peer-reviewed tutorials in digital tools and techniques for research in the humanities, including for distant reading. Initially focused on programming skills in Python, the catalog with lessons in R is growing.

Voyant Tools

Voyant Tools er et åpen kildekode (open-source), webbasert verktøy for digital analyse av tekst. Det kan brukes til å analysere tekster du lenker til fra nett eller som du selv laster opp, og det godtar en rekke forskjellige filformater, som docx, pdf, txt osv. Voyant er populært blant en rekke forskere i digital humaniora og har en stor, internasjonal brukerbase. Det tilbyr ikke løsninger for lingvistisk tekstanalyse som POS-tagging og navnegjenkjenning, men det er svært brukervennlig, tilbyr fine visualiseringer og har mange funksjonaliteter,

Utviklerne av Voyant viser selv til begrensningene ved verktøyets pre-programmerte funksjonaliteter, og inviterer brukere til selv å utvikle sine verktøy basert på Voyants funksjonalitet og kode, og anbefaler også varmt Python med Jupyter Notebook. 

Tilgang til Voyant Tools på voyant-tools.org

Kom i gang

Voyant har en grundig og informativ meny for hjelp med alle funksjonene, og tilbyr også en side for tutorial/workshop

A Beginner’s Guide to Using Voyant for Digital Theme Analysis” (2022) by Randa El Khatib and Shawna Ross, published at the Humanities Commons, provides a case-based illustration for how to use Voyant in literary criticism to carry out a digital thematic analysis.

DH-Lab Python Apps og Notebooks

DH-Lab på Nasjonalbiblioteket har skrevet kode for tekstutvinning av Nasjonalbibliotekets digitaliserte samlinger, og de utvikler webbaserte apper for enkel utprøving av tekstutvinning på Nasjonalbibliotekets samlinger. Koden har de skrevet i Python og delt i Jupyter Notebook, og appene er laget i Streamlit, et åpen kildekode (open-source) rammeverk for apper i Python.

Tilgang til DH-Lab sine apper og notebøker på nb.no/dh-lab

Kom i gang

For å kjøre Python-kode for å undersøke Nasjonalbibliotekets digitaliserte samlinger:

Last ned og installer Anaconda.
Last ned eksempelkode i notebok fra DH-Lab (begynn øverst og følg instruksene) for den type tekstutvinning du ønsker gjøre.
Åpne Anaconda, launch Jupyter Notebook fra Anaconda og åpne nedlastet notebok fra DH-Lab i Jupyter Notebook.
Kjør alle cellene i noteboken.

For å bruke en app til tekstutvinning av Nasjonalbibliotekets digitaliserte samlinger:

Gå til DH-Lab sin side for apper og velg app for den type tekstutvinning du ønsker gjøre. 

Publisert 27. mai 2021 13:56 - Sist endret 9. apr. 2023 19:21