Emnesøk og infrastruktur for emnevokabular

Vi i Scriptoteket har lenge interessert oss for å utnytte emneord bedre i søk og navigasjon. I forbindelse med flere mappingprosjekter har vi arbeidet med konvertering og standardisering av de ulike emnesystemene som er i bruk i biblioteket og etablert en eksperimentell plattform for deling som åpne, lenkede data. Samtidig har vi jobbet med et sluttbrukerverktøy for emnesøk som kom i ny versjon i januar 2016.

Skjermbilde av koblede emneord i LodLive

Visualisering av koblinger mellom emner i  LodLive på data.ub.uio.no.

Emnesøk er en applikasjon for å søke i norske fagbiblioteks samlinger ved hjelp av emneord. Selv om det også er er mulig å søke med emneord i de generelle søkesystemene (Oria, Biblioteksøk, tidligere Bibsys Ask) har vi savnet søkesystemer som bedre utnytter potensialet i emnevokabularene som utvikles og brukes ved fagbibliotekene. Emnesøket vårt er et lite steg på veien.

Et presist, flerspråklig søk som forstår hva du søker etter

Et emnevokabular er et kontrollert sett av emner som brukes for å beskrive en eller flere samlinger og som utvikles i takt med samlingsutviklingen. I emnevokabularene ligger det derfor kunnskap om begreper og samlinger, som vi ønsker å formidle. Hvert emne har alltid en foretrukken term (på ett eller flere språk), men kan også ha synonymer og andre alternative termer, definisjoner, noter, henvisninger til relaterte emner og mappinger til tilsvarende emner i andre vokabular. Søker du etter Java skjønner vi at det er lurt å skille mellom programmeringsspråket og stedet.

Og det skal ikke bety noe akkurat hvilken terminologi du velger å benytte. For Realfagstermer, som er flerspråklig, blir trefflista den samme om du søker etter bokmålstermene «aseksuell reproduksjon» eller «vegetativ formering», etter nynorsktermen «ukjønna øksling» eller etter engelske «asexual reproduction». Autofullføring hjelper deg å velge riktig emne. Emnesøk viser også definisjoner, noter og relaterte termer, og i trefflista får du en oversikt over klikkbare emner som kan brukes for å navigere videre i emneuniverset. Vi eksperimenterer også med å utnytte data fra andre kilder, som små utdrag fra Store Norske Leksikon og Wikipedia, og forslag til relaterte emner basert på korrelasjon i katalogdata. En liste over ting vi jobber med (eller ønsker å jobbe med) finnes på GitHub.

Emnesøk etter grafén
Søk etter bøker om «graphene» viser termer på bokmål og nynorsk, samt ulike muligheter for å hoppe videre til bøker om andre emner.

... med mulighet for å utvide søket på bekostning av presisheten

I Emnesøk 2.0 innførte vi muligheten for å velge mellom snevert og bredt søk. Snevert søk gir kun treff i ett bestemt emnevokabular, f.eks. Realfagstermer som brukes for å beskrive bøker ved realfagsbibliotekene ved Universitetet i Oslo og Bergen. Et snevert søk vil derfor ikke fange opp bøker fra bibliotek som ikke bruker dette vokabularet.

Ved å bytte til bredt søk vil en også få treff der samme term(er) er hentet fra andre vokabularer. I de fleste tilfeller vil en term ha den samme betydningen i alle vokabularer den finnes i, men ikke alltid. I emnevokabularet for realfagstermer betegner f.eks. «rokker» fisken, mens i emnevokabularet for humaniora og samfunnsfag betegner det redskapet. Et bredt søk vil returnere både boka Learn to spin og Biology of sharks and their relatives.

Neste steg på veien blir å utnytte kontrollerte overganger mellom vokabularene. I prosjektet Realfagstermer og Tekord ble det etablert en overgang (crosswalk) mellom de to vokabularene bestående av rundt 3000 mappinger som manuelt ble sjekket for betydningslikhet. Da viste det seg at «kritt» ble brukt om den geologiske perioden i Realfagstermer, mens den blir brukt om kalksteinen i Tekord (uheldigvis skiller vi ikke mellom stor og liten forbokstav). I det pågående prosjektet Mapping mot Norsk WebDewey har det blitt etablert en overgang mellom Realfagstermer og Humord, også på rundt 3000 mappinger, men som navnet tilsier er det sentrale i dette prosjektet å etablere en overgang (fra Humord og Realfagstermer) til Dewey. Per 1. mai 2017 består denne av 41000 mappinger. Overgangen vil være svært interessant å utnytte i et bredt emnesøk, og vi vil gleder oss til å begynne å eksperimentere med dette.

Infrastruktur og åpne, lenkede data

Vi liker åpne data, åpne standarder og delingskultur. Vi har derfor konvertert emneordene fra de ulike systemene til en RDF-basert modell basert på SKOS. Der vi har hatt behov for utvidelser utover har vi først og fremst sett til DCMI Metadata TermsMADS og ISO 25964. Emnevokabularene ligger nå åpent ute på GitHub (Realfagstermer, Humord, Menneskerettighetstermer, Tekord, UBOs emneregister til Dewey) og DataHub (Realfagstermer, Humord).

På GitHub ligger også frontend-koden til emnesøket og konverteringsscriptene våre. Søk i emnevokabularene drives av en Skosmos-instans med data fra data.ub.uio.no via et åpent SPARQL-endepunkt, mens søk i bibliotekskatalogen drives av Primo via en lokalt utviklet mellomvare.

Publisert 15. feb. 2016 21:49 - Sist endret 2. mai 2017 15:32