Ny utgåve av nynorsk–bokmål i Apertium

Eg lasta just opp ei ny utgåve av nynorsk–bokmål-språkparet i Apertium, du kan òg prøva det på apertium.org frå og med no. Det er snart fem år sidan sist gong, så det var vel på tide. Eg trur ikkje det er dei heilt store endringane i kvaliteten, utanom at me har lagt inn eit par fleire ord og retta nokre småfeil – hovudsakleg funne og rapportert av brukarane våre 🙂

Forskjellane er helst på utviklarsida: Datafilene er no omorganisert slik at dei einspråklege filene er i eigne pakker, for å unngå at andre språkpar mot dei same språka må ha sine eigne nesten-identiske kopiar av ordbøker og liknande. Dette er noko eg har jobba av og på med ein stund, sidan det kravde eit par endringar i byggsystemet i Apertium og at me tilpassar dei einspråklege ordbøkene til språkparet ved FST-kompilering. Til gjengjeld er det noko som alle språkpar i Apertium kan ha nytte av (og alle nye språkpar er laga på denne måten; dei gamle krev litt manuelt arbeid først).

Elles er det litt kult at det nye omsetjingsverktøyet til Wikipedia (Content Translation) no gir omsetjingsforslag med hjelp av Apertium:

Det var jo litt motiverande. Kanskje på tide å sjå om ikkje me kan få noko ut av norsk–engelsk.

Eller ikkje. Vel, prøv gjerne nye nynorsk–bokmål og gi ein kommentar her eller på IRC om du finn fleire rare omsetjingar 🙂

Motivasjon

apertium-sme-nob, januar 2010:

*– Bare tør mindre #tall fremme meninger #dette av sak , \@dat stund når \@eanas menneske av samfunn og #spesielt \@at , de tar \@vuostá muslimer med #åpen \@giehta . Jeg #bli også \@mo Tromsø av kommune kunne vi ser #dette sak slik med #lett \@miella når de gjør. \@Ii *jáhke dem #sann du forstår \@mii \@olu vanskelig *moskéa og \@eambbo #muslim kan #bringe til Norge , den #avrunde *Røyset. *Røyset den vraker pretensjon at *FMI organisasjon er #rasistisk .

 

apertium-sme-nob, juli 2010:

– Bare mindretallet tør å fremme meninger på denne saken, mens de fleste folk på samfunnet og spesielt kristne, de tar mot muslimene med åpne hender. Jeg forundres også hvordan på Tromsøs kommune kan de se denne saken slik med et lett sinn da du gjorde. Jeg tror ikke dem sanne å forstå som de mange problemenes *moskéa og de #mer muslimene kan bringe til Norge, han avslutter #Røyset. #Røyset vraker pretensjonen at *FMI organisasjonen er #rasistisk.

 

Originaltekst:

– Dušše unnitlohku duostá ovddidit oaiviliid dán áššis, dan botta go eanas olbmot servvodagas ja erenoamážit risttalaččat, váldet muslimaid vuostá rabas gieđaiguin. Mun imaštalan maiddái mo Romssa gielddas sáhttet geahččat dán ášši nu gehppes mielain go dahket. In jáhke sin duođaid áddet man olu váttisvuođaid moskéa ja eambbo muslimat sáhttet buktit Norgii, loahpaha Røyset. Røyset hilgu čuoččuhusa ahte FMI organisašuvdna lea rasisttalaš.

 

*, # og @ er debug-symbol, og vil seia at ordet manglar frå samisk-, bokmåls- eller omsetjingsordboka, høvesvis.

Samisk på norsk

Eg har ein heilt fantastisk sommarjobb. Eg samarbeider for tida med folk frå Apertium og Sámi Giellatekno (det samiske språkteknologiprosjektet ved UiT) for å få til maskinomsetjing frå nordsamisk til bokmål.

Oppdatering: utviklingsversjonen kan no testast frå sidene til Giellatekno.

Dette er litt meir krevande enn nynorsk-bokmål1… viss me hadde teikna eit kart der språk som likna på kvarandre sto nær kvarandre, kunne me fått noko slikt:

NB: Kartet er ikkje i målestokk. MÅ IKKJE NYTTAST TIL NAVIGERING

Altså er det litt forskjell på språka. No finst det sjølvsagt ein del språklege lån mellom norsk og samisk, men dei har heilt forskjellige språkfamilier og historie. Eit par døme på forskjellar:

  • samiske substantiv har ikkje kjønn, greit nok…
  • samiske pronomen har ikkje kjønn – den er litt verre, skal me omsetja son til «han» eller «ho»?
  • samiske verb bøyer seg etter subjektet, så av og til sløyfar folk pronomenet – då må me setja inn eit nytt pronomen på norsk (med rett kjønn…)
  • dei samiske verba er i det heile teke fulle av hemmelege våpen til å uttrykka ulike tidspunkt, aktørar og haldningar til situasjonen. Verbet veahkehit tyder «å hjelpa», veahkehat blir «du hjelper», veahkeheaččan blir (litt avhengig av kontekst) «du kunne vel hjelpa», medan veahkehežžet blir «du kunne vel ha hjelpt»
  • og så har me alle avleiingane, som gjer verb om til substantiv, substantiv om til adjektiv, eller seier at noko skjedde i hast, eller ofte, eller berre ein gong, eller at nokon fekk nokon til å gjere noko, eller at nokon berre byrja å gjere noko… Me har mange av desse mekanismane på norsk au, t.d. kan me gjera «skikk» til eit adjektiv ved å leggje til «-eleg», men å driva og laga nye ord slik er alt for risikabelt til at me kan gjera det til ein generell regel (*«kjærleikeleg»?).

For å ha det sagt: eg kan ikkje samisk. Det har tydelegvis skjedd ein glipp i utdanninga mi. Men eg har god hjelp frå dei fantastiske tri binda med LÆREBOK I LAPPISK (SAMISK) frå 19262 (og ein litt nyare grammatikk), i tillegg til at språkteknologane ved UiT allereie har gjort størsteparten av det arbeidet som krev skikkeleg samiskkunnskap. Min jobb er hovudsakleg å laga reglar som gjer ferdig analysert samisk tekst om til forståeleg bokmål.

Omsetjing mellom så ulike språk gir svært mange utfordringar. Me har i første omgang berre satsa på samisk til bokmål, og ventar med andre retninga. Me vil at maskinomsetjinga skal vere nyttig og formålstenleg, og då er det best å byrja med samisk til bokmål. Dei to vanlegaste formåla med automatisk omsetjing er:

  1. assimilering: maskinomsetjinga skal vera god nok til at ein kan forstå omsetjinga sjølv om ein ikkje forstår originalspråket
  2. disseminering: maskinomsetjing skal vera god nok til at ein omsetjar (som altså forstår begge språk) heller vil rette på maskinomsetjinga enn å skriva omsetjinga frå botnen av

Når folk nyttar maskinomsetjing frå eit majoritetsspråk til eit minoritetsspråk innanfor eit samfunn (t.d. bokmål til samisk, bokmål til nynorsk), er det sjeldan sånn at dei som har minoritetsspråket som morsmål ikkje forstår majoritetsspråket og lurer på kva det står i originalteksta; maskinomsetjing frå bokmål til samisk blir først nyttig når omsetjinga er god nok til at ho med minimalt etterarbeid blir klar for utgjeving. Andre vegen, derimot, er det nyttig med ei omsetjing som berre gir eit oversyn over innhaldet i originalteksta, utan å vera så bra at ein profesjonell omsetjar ville nytta ho som grunnlag. Så målet for no er at viss du t.d. søkjer etter namnet ditt og finn ein blogg på samisk som snakkar om deg3, så skal du kunne køyra dette innlegget gjennom Apertium og finne ut om det dei sa om deg var bra eller dårleg 😉

Men sjølv om me tillèt dårleg flyt i bokmålen, må me sjølvsagt ha noko å omsetja alle dei ulike verbformene og avleiingane til, og me må unngå å mista eller forvrenga viktig informasjon. Det er mange utfordringar i dette språkparet, men heldigvis har sjølve Apertium-plattforma fått ein del nye verktøy å takla utfordringane med. Men det får eg spara til eit seinare innlegg.

Fotnotar:

1 Ja, samisk til nynorsk hadde vore endå litt kulare, men me må jo spara noko til seinare 🙂

2 Vel, i nytt, men uendra, opplag frå 1977. I forordet står det at namnet på boka blei fastslått i 1922, «da trykningen begynte», og lappisk enno var det mest kjende namnet (det tok fire år å få trykka boka… ting tok tid før).

3 For skuld argumentet kan me lata som om det skortar på litt grunnleggande danning og du ikkje kan lese samisk.

Mål forskinga di i brukarar og nedlastingar

I dei siste ti-tjue åra har det vore veldig populært med datadrivne statistiske metodar i maskinomsetjing, og Google spesielt har ytra ei sterk tru på at meir data alltid vil trumfe over betre kunnskap. Men i eit foredrag frå i fjor sommar kunne det sjå ut til at Franz Och, leiaren for maskinomsetjingsprosjektet til Google, vurderer å sprøyta inn litt kunnskap i omsetjinga.

Når det er snakk om korleis maskinomsetjinga kan bli betre, viser han eit døme på ein tysk langdistanseavhengnad, der hovudverbet er på slutten av setninga, og nemner at dei har byrja å sjå på korleis dei kan nytte grammatikkar for å flytta verbet fram og gjere setninga «meir engelsk» før omsetjinga:

Ideally we would want to learn that from data […] and in some sense it’s in the data and a computer should be able to do that too, but in the meantime we are looking into ways to just explicitly put that knowledge into the system. So far the automatic grammar induction work has been, eh, not…very…well working or so…

Eg har sjølv prøvd meg på induksjon av dependensgrammatikkar, og resultatet var ikkje akkurat oppløftande; men det kjem vel betre metodar med åra.

Men dette med langdistanseavhengnader er noko som lenge har vore eit kjent problem for reint datadrivne metodar, og ein kan få ganske god statistisk maskinomsetjing (SMT) trass slike problem; men eg blei meir overraska over det følgjande utsagnet:

rule-based system with proprietary access

There’s a lot of interest [in SMT], and one reason is that it’s relatively simple for a small team to build a decent MT system by taking off-the-shelf resources, and there’s open-source software, parallell corpora and standard evaluation sets. […] This was not possible ten years ago with the rule-based systems, it was a complicated system with proprietary access [for] some companies and it was very hard to do the relevant research.

Det hjalp sjølvsagt at det på nittitalet blei mogleg å handtera store mengder data komputasjonelt; men likevel er det tankevekkande at tilgang til fri programvare og open data blir nemnt som ein hovudgrunn til at det skjer så mykje forsking på SMT. Ted Pedersen skriv at du burde «Measure Your Career in Downloads and Users». Det statistiske maskinomsetjingsverktøyet giza-pp1 har i følgje heimesida blitt lasta ned 9379 gonger, ikkje inkludert andre nettsider og utgåver. Med tanke på kor komplekst2 dette verktøyet er, vil eg tru at ein stor del av desse brukarane er doktorgradsstudentar…

Situasjonen til regelbasert maskinomsetjing er heldigvis i ferd med å betra seg her; dei siste åra har det komme fleire regelbaserte system med open data og open kjeldekode (FOSMT.org har ei god oversikt), der ein del system direkte erstattar kjende proprietære system som Xerox-verktøya, medan andre, som Apertium og Matxin, er uavhengige innovasjonar. Kanskje kjem dette til å gi den historiske pendelen eit lite dytt mot meir kunnskapsbaserte metodar igjen…

Fotnoter:

1 Som faktisk er basert på eit verktøy av Franz Och igjen.

2 Det var altså ein eufemisme.