Ordbøker til lulesamisk og sørsamisk på veg

Sidan desember har eg jobba for Giellatekno ved Universitetet i Tromsø med språkteknologi og språkressursar for samisk, det må vera verdt eit innlegg her🙂 Akkurat no er i gong med maskinomsetjing, men mesteparten av vinteren har gått med til eit prosjekt for å laga ordbøker mellom norsk og lulesamisk og mellom norsk og sørsamisk. Prosjektet er eit offentleg oppdrag, dei vil ha hjelp for omsetjing av offentlege dokument og slikt, altså må me ha med mykje fagterminologi og departementsspråk og generelt lange ord som «allmennkringkastingsforpliktelse» eller «kulturminneregistreringsprosjekt». Eit tidlegare prosjekt laga ei slik ordbok mot nordsamisk, no skal me utvida ho mot to samiske språk til.

Min del av prosjektet har vore (1) å henta inn, kategorisera og reinska opp tekst på lule- og sørsamisk, sånn at det går an å sjå om eit ord faktisk er i bruk, og (2) å laga lister med kandidatar for omsetjingspar norsk-samisk, ved ulike metodar. Ein kandidat/eit omsetjingspar er til dømes «verdensforståelse →  almmavuodadádjadus», som kan vera rett eller feil. Eg kan ikkje samisk, så nokon andre får jobben med å gå gjennom desse listene og merka av for om dei er gode eller dårlege omsetjingar (og då bør eg helst laga så gode kandidatar som mogleg, så jobben til dei andre ikkje blir for kjip).

Tekstinnsamlingsbiten er relativt grei; finn nettsider med masse lulesamisk/sørsamisk, legg inn i eit program som hentar ned sider og arkiverer dei under rett språkkode og kategori i kodelageret til Giellatekno. Ikkje så utfordrande, men det tek tid; til gjengjeld er det verdt mykje å ha gode tekstgrunnlag. Det er ganske stor forskjell i kor flinke ulike offentlege instansar er til å omsetja til samisk; av og til er det éi oppsummeringsside på samisk mot tusen på norsk, medan andre gonger er omtrent alt omsett. Av dei som er flinke, finn me dei ulike kyrkjene (er det ein bra ting eller kva?) og … seksualopplysningsidene til Sveriges landsting.

Programmet me brukar til tekstinnsamling heiter CorpusTools (hovudsakleg utvikla av Børre Gaup frå Giellatekno/Divvun); det skal i tillegg kunna henta ut rein tekst frå ulike dokumentformat (HTML, PDF, …) og køyra språkgjenkjenning for å berre henta ut det som er i eit visst språk. Eg har òg jobba litt på CorpusTools-koden; eg har mellom anna prøvd å gjera tekstutvinninga meir robust, i tillegg til å reimplementera språkgjenkjenninga slik at ho stemmer overeins med den klassiske Perl-baserte TextCat-algoritmen – det er no sjeldan at tekstutdrag over to ord ikkje blir gjenkjent med rett språk🙂

Me kan òg merka dokument for at dei er parallelle med andre dokument, og bruka CorpusTools til å finna parallelle setningar – dette fungerer ikkje alltid like bra, men med eit stort nok korpus kan det vera nok bra parallellsetningar til at dei overdøyver støyen. Meir om dette i eit seinare innlegg …

2 thoughts on “Ordbøker til lulesamisk og sørsamisk på veg

Legg att eit svar

Fill in your details below or click an icon to log in:

WordPress.com logo

Du kommenterer no med WordPress.com-kontoen din. Logg ut / Endre )

Twitter-bilde

Du kommenterer no med Twitter-kontoen din. Logg ut / Endre )

Facebook-foto

Du kommenterer no med Facebook-kontoen din. Logg ut / Endre )

Google+ photo

Du kommenterer no med Google+-kontoen din. Logg ut / Endre )

Koplar til %s