Tekstlaboratoriet

?Gjennom forsknings- og infrastruktur-prosjekter har Tekstlaboratoriet ansvaret for store, nasjonale infrastrukturer, s?rlig s?kbare korpus over talespr?k som norske og nordiske dialekter og amerikanorsk nedarvingsspr?k, men ogs? korpus med webtekster, litter?re tekster, elevtekster, databaser og ordlister - for mange ulike spr?k. Gjennom et stort NORAD-prosjekt har vi blant annet ogs? utviklet talespr?ks-korpus for ?tte etiopiske spr?k.?

Fysiske lokaler og utstyr/kamera-l?sninger

Tekstlaboratoriet holder til i 6. etg i Henrik Wergelands Hus to etasjer over MultiLing som ogs? er med i Videohuben og mottar teknisk assistanse fra tekstlaben. Laben er et rom med tre bemannede arbeidsstasjoner og et m?tebord med stoler. Tekstlaben har en 6-spors zoom H6 lydopptaker til utl?ns men hovedaktiviteten ligger i utarbeidelse og vedlikehold av forskjellige spr?k-korpus.

Data, lagring og datah?ndtering

Tekstlaboratoriet har adoptert ?Component Metadata Infrastructure? (CMDI) som infrastruktur til metadatah?ndtering og ?Text encoding initiative? (TEI) som metadatastandard for h?ndtering av tekst. Dataene er gr?nne og gule etter UiO sin lagringsguide og best?r av tekst, video og audio som innarbeides i Glossa; et s?kegrensesnitt videreutviklet av Tekstlaboratoriet.

N?kkelkompetanse / UiO-oppgaver

Tekstlaboratoriet har n?kkelkompetanse i utvikling av tekstbaserte korpuser og hvordan innarbeide disse korpusene i et s?kbart grensesnitt. Dette arbeidet inkluderer ogs? arbeid med personvern, copyright, forskningsetikk og datah?ndtering.

Kapasitet

Tekstlaboratoriet tar imot foresp?rsler om utvikling av tekstbaserte korpuser. Men slike utviklingsprosjekter m? avtales i god tid.

Utfordringer og l?sninger

Tekstlaboratoriet er oppdatert p? automatisk transkripsjon og forteller om utfordringene med nordiske dialekter og hvordan automatisk transkripsjon ikke kan tilfredsstille spr?kforskernes behov for ? fange opp de forskjellige uttrykksm?tene og andre detaljer i spr?ket. Tekstlaboratoriet bruker ELAN (open source) for manuell transkribering.

Tilgjengeliggjort er ogs? Big Brother korpuset som er videofiler fra TV-programmet Big Brother. Selskapet som har gjort opptakene er sl?tt konkurs og det er usikkerhet tilknyttet opphavsrett p? materialet hvor henvendelser til n?v?rende opphavshaver ikke blir besvart. Universitetets juridiske avdeling har allikevel godkjent bruken opp imot lovverket under forutsetning at det kun er tilgjengelig 20 segmenter av videoen i omkrets av ordet som ble s?kt p?.

 

Kontaktinformasjon

Nettsted: https://www.hf.uio.no/iln/om/organisasjon/tekstlab/

Tekstlaboratoriets leder er Professor Dag Trygve Truslew Haug. L?pende henvendelser kan gj?res til epost: tekstlab-post@iln.uio.no.

 

Publisert 30. aug. 2022 10:28 - Sist endret 31. aug. 2022 14:54