Mål forskinga di i brukarar og nedlastingar

I dei siste ti-tjue åra har det vore veldig populært med datadrivne statistiske metodar i maskinomsetjing, og Google spesielt har ytra ei sterk tru på at meir data alltid vil trumfe over betre kunnskap. Men i eit foredrag frå i fjor sommar kunne det sjå ut til at Franz Och, leiaren for maskinomsetjingsprosjektet til Google, vurderer å sprøyta inn litt kunnskap i omsetjinga.

Når det er snakk om korleis maskinomsetjinga kan bli betre, viser han eit døme på ein tysk langdistanseavhengnad, der hovudverbet er på slutten av setninga, og nemner at dei har byrja å sjå på korleis dei kan nytte grammatikkar for å flytta verbet fram og gjere setninga «meir engelsk» før omsetjinga:

Ideally we would want to learn that from data […] and in some sense it’s in the data and a computer should be able to do that too, but in the meantime we are looking into ways to just explicitly put that knowledge into the system. So far the automatic grammar induction work has been, eh, not…very…well working or so…

Eg har sjølv prøvd meg på induksjon av dependensgrammatikkar, og resultatet var ikkje akkurat oppløftande; men det kjem vel betre metodar med åra.

Men dette med langdistanseavhengnader er noko som lenge har vore eit kjent problem for reint datadrivne metodar, og ein kan få ganske god statistisk maskinomsetjing (SMT) trass slike problem; men eg blei meir overraska over det følgjande utsagnet:

rule-based system with proprietary access

There’s a lot of interest [in SMT], and one reason is that it’s relatively simple for a small team to build a decent MT system by taking off-the-shelf resources, and there’s open-source software, parallell corpora and standard evaluation sets. […] This was not possible ten years ago with the rule-based systems, it was a complicated system with proprietary access [for] some companies and it was very hard to do the relevant research.

Det hjalp sjølvsagt at det på nittitalet blei mogleg å handtera store mengder data komputasjonelt; men likevel er det tankevekkande at tilgang til fri programvare og open data blir nemnt som ein hovudgrunn til at det skjer så mykje forsking på SMT. Ted Pedersen skriv at du burde «Measure Your Career in Downloads and Users». Det statistiske maskinomsetjingsverktøyet giza-pp1 har i følgje heimesida blitt lasta ned 9379 gonger, ikkje inkludert andre nettsider og utgåver. Med tanke på kor komplekst2 dette verktøyet er, vil eg tru at ein stor del av desse brukarane er doktorgradsstudentar…

Situasjonen til regelbasert maskinomsetjing er heldigvis i ferd med å betra seg her; dei siste åra har det komme fleire regelbaserte system med open data og open kjeldekode (FOSMT.org har ei god oversikt), der ein del system direkte erstattar kjende proprietære system som Xerox-verktøya, medan andre, som Apertium og Matxin, er uavhengige innovasjonar. Kanskje kjem dette til å gi den historiske pendelen eit lite dytt mot meir kunnskapsbaserte metodar igjen…

Fotnoter:

1 Som faktisk er basert på eit verktøy av Franz Och igjen.

2 Det var altså ein eufemisme.

Legg att eit svar

Fill in your details below or click an icon to log in:

WordPress.com logo

Du kommenterer no med WordPress.com-kontoen din. Logg ut / Endre )

Twitter-bilde

Du kommenterer no med Twitter-kontoen din. Logg ut / Endre )

Facebook-foto

Du kommenterer no med Facebook-kontoen din. Logg ut / Endre )

Google+ photo

Du kommenterer no med Google+-kontoen din. Logg ut / Endre )

Koplar til %s