Mål forskinga di i brukarar og nedlastingar

I dei siste ti-tjue åra har det vore veldig populært med datadrivne statistiske metodar i maskinomsetjing, og Google spesielt har ytra ei sterk tru på at meir data alltid vil trumfe over betre kunnskap. Men i eit foredrag frå i fjor sommar kunne det sjå ut til at Franz Och, leiaren for maskinomsetjingsprosjektet til Google, vurderer å sprøyta inn litt kunnskap i omsetjinga.

Når det er snakk om korleis maskinomsetjinga kan bli betre, viser han eit døme på ein tysk langdistanseavhengnad, der hovudverbet er på slutten av setninga, og nemner at dei har byrja å sjå på korleis dei kan nytte grammatikkar for å flytta verbet fram og gjere setninga «meir engelsk» før omsetjinga:

Ideally we would want to learn that from data […] and in some sense it’s in the data and a computer should be able to do that too, but in the meantime we are looking into ways to just explicitly put that knowledge into the system. So far the automatic grammar induction work has been, eh, not…very…well working or so…

Eg har sjølv prøvd meg på induksjon av dependensgrammatikkar, og resultatet var ikkje akkurat oppløftande; men det kjem vel betre metodar med åra.

Men dette med langdistanseavhengnader er noko som lenge har vore eit kjent problem for reint datadrivne metodar, og ein kan få ganske god statistisk maskinomsetjing (SMT) trass slike problem; men eg blei meir overraska over det følgjande utsagnet:

rule-based system with proprietary access

There’s a lot of interest [in SMT], and one reason is that it’s relatively simple for a small team to build a decent MT system by taking off-the-shelf resources, and there’s open-source software, parallell corpora and standard evaluation sets. […] This was not possible ten years ago with the rule-based systems, it was a complicated system with proprietary access [for] some companies and it was very hard to do the relevant research.

Det hjalp sjølvsagt at det på nittitalet blei mogleg å handtera store mengder data komputasjonelt; men likevel er det tankevekkande at tilgang til fri programvare og open data blir nemnt som ein hovudgrunn til at det skjer så mykje forsking på SMT. Ted Pedersen skriv at du burde «Measure Your Career in Downloads and Users». Det statistiske maskinomsetjingsverktøyet giza-pp1 har i følgje heimesida blitt lasta ned 9379 gonger, ikkje inkludert andre nettsider og utgåver. Med tanke på kor komplekst2 dette verktøyet er, vil eg tru at ein stor del av desse brukarane er doktorgradsstudentar…

Situasjonen til regelbasert maskinomsetjing er heldigvis i ferd med å betra seg her; dei siste åra har det komme fleire regelbaserte system med open data og open kjeldekode (FOSMT.org har ei god oversikt), der ein del system direkte erstattar kjende proprietære system som Xerox-verktøya, medan andre, som Apertium og Matxin, er uavhengige innovasjonar. Kanskje kjem dette til å gi den historiske pendelen eit lite dytt mot meir kunnskapsbaserte metodar igjen…

Fotnoter:

1 Som faktisk er basert på eit verktøy av Franz Och igjen.

2 Det var altså ein eufemisme.

Du skal ikkje stola på lukka forsking

Fri programvare er essensielt for fri forsking, i alle fagfelt der programvare er ein del av forskingsprosessen.

Slik det er no, får gjerne eit forskingsprosjekt offentleg stønad sjølv om det ikkje er mogleg å testa eller validera eit forskingsresultat utan å

  1. kjøpa tilgang til ein lukka platform (programvare), og
  2. kjøpa lisens for forskingsmaterialet.

Og ofte er det ikkje mogleg å få testa resultatet sjølv om ein har kjøpt desse lisensane. Dette er feil, både praktisk, etisk og epistemisk, av fleire grunnar.

For det første: om me skal kunne stola på eit empirisk forskingsresultat må me kunne gjendriva dette («falsifying», å sjekka om det er mogleg å gjenta eit eksperiment). Før i tida var det gjerne slik at eit forskingsresultat kunne skildrast så detaljert i ein artikkel at det faktisk var mogleg å gjenskapa eit eksperiment utan meir informasjon enn det som sto i artikkelen. Dette gjeld ikkje lenger – forsking no involverer gjerne tusenvis av databaseoppslag, tekster eller liknande (dvs. materialet som blei henta inn), og spesialisert programvare til å handsama dette materialet. I tillegg til å gje ut ein artikkel som skildrar metoden og resultata, sjølve materialet og eventuell programvare som blei utvikla i forskinga vera tilgjengeleggjort – elles har me ingen grunn til å stola på forskinga.

Dette gjeld ikkje berre for andre forskarar som vil gjendrive resultat, men au for dei som sjølv gjorde forskinga. Ted Pedersen har ein fantastisk artikkel (pdf) kor han fortel om professor Zigglebottom som publiserer ein artikkel om ein ny og betre parser (dvs. eit program som finn ulike strukturar i tekst); problemet er berre at programmet var skrive og testa av ein doktorgradsstudent og er totalt udokumentert, og nokre år seinare får ikkje ei gong Zigglebottom sjølv til å køyra programmet. Eg veit sjølv om nok av akademisk arbeid som, uansett kor innovativt og elegant det ein gong var, ikkje kan brukast eller testast fordi det er udokumentert, lukka, eller avhengig av ein gamal platform som ikkje blir oppdatert lenger fordi selskapet som lagte han ikkje tener nok penger på å oppdatera denne platformen. Slike prosjekt døyr med forskarane sine. Om ein frå byrjinga av har eit ope prosjekt, kan det veksa seg langt større enn det lille instituttet der det byrja. Eit godt døme på dette er R-prosjektet, som byrja som eit lite akademisk program med ein fri lisens, men no har blitt eit av dei leiande systema for statistisk analyse.


For det andre er det eit etisk problem at me gir stønad til utvikling av lukka informasjon. For å seie det litt enkelt, kvifor skal du betala skatt for fleire professorårslønner om ikkje du sjølv – i prinsippet – kan få noko ut av forskinga? Dette er ikkje berre hypotetisk. Om data og programvare som blir utvikla får ein fri og open lisens, kan me faktisk tena på det fordi andre har tilgang til det. Me hadde t.d. aldri klart å få til såpass god dekning og presisjon i maskinomsetjing mellom nynorsk og bokmål i Apertium om ikkje det var for at Norsk ordbank (ei slags ordbok) og Oslo-Bergen-taggaren (ein slags parser, heldigvis ikkje utvikla av professor Zigglebottom) hadde frie lisensar. Det same gjeld den norske stavekontrollen i OpenOffice. Du treng ikkje vere datalingvist for å tena på at datalingvistisk forsking er open, og prinsippet gjeld sjølvsagt ikkje berre språkteknologi.

Men det må nok ei haldningsendring til. Forskarar må tørra å dela kjeldematerialet sitt, og godta at andre forskarar kan finna feil i forskinga deira. I fri programvare-modellen er ikkje ein feil eit stort tema; grunntanken må alltid vera at ingen er feilfrie. Viss du som utanforståande finn ein feil i eit prosjekt, så rapporterer du denne i den offentlege feilbasen (bugtrackaren) til dei som har ansvar for prosjektet. Enkelt og greit, og alle tener på det. Når det er snakk om forsking er dette faktisk endå viktigare, sidan slike feil kan gå ut over tidlegare publiserte resultat.

Manifestet blir altså sånn:
Ein må alltid ta spørsmålet om fri tilgang til materiale og programvare med i totalvurderinga når det er snakk om offentleg prosjektstønad til forskingsprosjekt.
Om deler av midlane skal gå til utvikling av spesialisert programvare (kanskje utført av innleigde programmerarar) må denne programvaren frigjerast. Det burde vera sjølvsagt.
Søknader som er avhengige av lukka platformar skal nedprioriterast.
Om det skal samlast inn materiale, t.d. som grunnlag til statistisk eller anna maskinell analyse, må dette materialet (der det ikkje går ut over personvernet) vera tilgjengeleggjort; helst under ein fri og open lisens slik at skattebetalarane kan få nytte av det, og slik at det fritt kan kommersialiserast.

(Dette innlegget blei delvis framprovosert av eit spørsmål på friprog.no.)

Grunnen til at såkalla «løgndetektorar» enno er i bruk.

cover på American Phrenological Journal

For to-tre hundre år sidan var det alment kjent at ein kunne sjå om nokon var kriminelle ved å undersøkja beinstrukturen til hovuda deira. Eg er ganske sikker på at dei fleste ikkje lenger trur på dette (eg vonar iallfall at dei som har makt til å dømme folk ikkje lenger trur på dette). Likevel, det er noko forførande med tanken på å kunne «oppdaga» kriminelle med objektive og eintydige måleinstrument. Kanskje er dette grunnen til at folk enno trur at polygrafen kan avdekkja løgner.

bilete av polygraf

For ikkje lenge sidan skreiv forskarane Eriksson og Lacerda artikkelen «Charlatanry in forensic speech science: A problem to be taken seriously» kor dei undersøkte to typar stemmebaserte «stressdetektorar» utvikla av Nemesysco, meint for å gi svar på om den mistenkte lyg eller ikkje. Resultatet:

these machines perform at chance level when tested for reliability. Given such results and the absence of scientific support for the underlying principles it is justified to view the use of these machines as charlatanry and we argue that there are serious ethical and security reasons to demand that responsible authorities and institutions should not get involved in such practices.

Merk: chance level. Altså, du kunne like godt kasta for kron eller mynt. Eller fikla rundt på hovudbunnen til din mistenkte.

Men dette er eigentleg greitt nok, me reknar med at vitskapen skal kunne gi svar på om slike ting eigentleg fungerer som me trur dei gjer.

Problemet kom når Nemesysco trua forskarane med søksmål: «the researchers may be sued for libel if they continue to write on this subject in the future», og forlaget blei tvinga til å fjerna artikkelen frå publikasjonen og nettsidene. Kvalmande, rett og slett.

Men, om me ser på den lyse sida synest det som at Streisand-verknaden speler inn, og at alt oppstyret rundt skremselstaktikkane til Nemesysco gjer at fleire faktisk blir opplyst om det faktum at «løgndetektoren» ikkje finst.

For interesserte, her er Eriksson & Lacerda-artikkelen på scribd, du finn au ein torrent med pdf-en.