Kandidatgenerering for ordbøker til lågressursspråk

Som nemnt har eg jobba med å laga kandidatar til omsetjingspar i ordbøker mellom norsk og lule-/sørsamisk. Viss dette hadde vore typisk «store» språk, ville metoden for å finna gode kandidatar vore klar:

  1. finn svære parallelle tekstkorpora frå offentlege EU-tekster, bøker osb.
  2. køyr Giza++, som brukar ein statistisk metode for å finna ut kva som er dei mest sannsynlege ordpara i mengder med parallelle setningar

Det mykje brukte Europarl-korpuset har titalls millionar ord per språk, dette gir ganske gode ordpar. Då bokmål–nordsamisk-delen av prosjektet var under utvikling, brukte dei eit parallellkorpus med under 500.000 ord, dette gav etter det eg har høyrt svært «støyete» data som trengte mykje manuell rydding for å bli brukbart. For bokmål–lulesamisk og bokmål–sørsamisk har me knapt 100.000 ord med parallellstilte setningar, og berre rundt 10 % av dei orda som me vil ha omsett finst i parallellkorpuset. Det seier seg sjølv at me ikkje kan klara oss med å køyra Giza++  for denne jobben.

Ja, det er ei strek der til høgre, viss du zoomar litt inn

Når dei vanlege ingrediensane ikkje finst, så må du vera kreativ og bruka det du har, og ta sjansen på at ikkje alt fungerer like bra. Dei metodane me har prøvd har anten vore basert på omsetjing av deler av ord, eller omsetjing via eksisterande ordbøker.

Omsetjing via eksisterande ordbøker

Dette er vel den konseptuelt enklaste metoden: Viss me har ei bokmål–nordsamisk-ordbok, og ei nordsamisk–lulesamisk-ordbok, så kan me «kryssa» desse for å få bokmål–lulesamisk. Til dømes står det at «dampbad» er sávdni i bokmål–nordsamisk-ordboka, medan nordsamisk–lulesamisk-ordboka gir sávdni→sávnne, så då får me at «dampbad» er sávnne (denne metoden er òg mykje brukt i Apertium).

Me kan òg bruka eksisterande ordbøker til å finna enkle synonymlister, som me kan utvida dei eksisterande omsetjingane med. Me vil til dømes gjerne ha omsetjingar av ordet «arbeidsform» til sørsamisk. I ei av ordbøkene finst det eit ord som er omsett til både «arbeidsform» og «arbeidsmåte», så dei er sannsynlegvis synonyme. Og faktisk har me ei omsetjing til sørsamisk av «arbeidsmåte»: barkoevuekie, så då er det ein god sjanse for at barkoevuekie òg er ei mogleg omsetjing av «arbeidsform». (No som eg tenkjer over det, så liknar vel dette litt på dei semantiske speglane til Dyvik.)

Omsetjing av deler av ord

Sett at me har eit bokmålsord som me vil ha på lulesamisk. Me klarer ikkje å finna ein lulesamisk kandidat sjølv om me følgjer synonymlister eller kryssar ordbøker eller slår opp i parallelltekst. Me kan prøva å transitivt følgja lister (synonym av synonym) eller ordbøker eller parallelltekst, men då blir det fort vanskeleg å halda kvaliteten oppe og dei stakkarane som må sjekka listene får endå meir tull å lesa gjennom. Men ord er ikkje atomære (iallfall ikkje på desse språka); det finst samanhengar mellom deler av omsetjingar, på ulike nivå.

Viss to språk er like nok, så går det ofte an å rett og slett «stava om» ord til det andre språket. Eg brukte denne metoden tidlegare for å generera kandidatar for nynorsk–bokmål i Apertium som eg så sjekka manuelt (du får mange gode adjektiv ved å endra -leg til -lig, pluss eit par andre småting), og me har òg brukt slike reglar for nordsamisk og lulesamisk, som er dei likaste av språkpara me ser på her. Giellatekno hadde allereie utvikla eit XFST-skript for å  «lulesamifisera» nordsamisk (me gjorde eit par endringar i løpet av dette prosjektet), som berre ser på enkle stavereglar og lydsamanhengar, utan kjennskap til morfologi (utover ordklasse) eller nokon leksikalsk informasjon. Dette blir forståeleg nok ikkje alltid heilt bra – ofte er den beste omsetjinga eit ord som ikkje liknar i det heile. Omsetjinga av birgemuš «livsopphald» er til dømes ikkje *birggemusj, men viessomuj. Men me fekk likevel ein del gode forslag med metoden. I tillegg er det ein metode som spyttar ut forslag for omtrent kva det skal vera av input – dei fleste andre metodane kan dessverre berre gi forslag for delar av ordlistene våre. For sørsamisk, derimot, blir den språklege avstanden for stor, og slik enkel «sørsamifisering» ville nok ikkje fungert.

Den siste metoden me har brukt er omsetjing av delene av samansette ord, men no er det lenge sidan eg såg overskrifta her, så det får eg spara til eit seinare innlegg.

One thought on “Kandidatgenerering for ordbøker til lågressursspråk

Legg att eit svar

Fill in your details below or click an icon to log in:

WordPress.com logo

Du kommenterer no med WordPress.com-kontoen din. Logg ut / Endre )

Twitter-bilde

Du kommenterer no med Twitter-kontoen din. Logg ut / Endre )

Facebook-foto

Du kommenterer no med Facebook-kontoen din. Logg ut / Endre )

Google+ photo

Du kommenterer no med Google+-kontoen din. Logg ut / Endre )

Koplar til %s