Du skal ikkje stole på lukka forsking
22 september, 2009
Eg har tenkt mykje i det siste på fri programvare og forsking. Slik det er no, får gjerne eit forskingsprosjekt offentleg stønad sjølv om forskingsresultat ikkje kan testast utan å
- kjøpe tilgang til ein lukka platform (programvare), og
- kjøpe lisens for forskingsmaterialet.
Og ofte er det ikkje mogleg å få testa resultatet sjølv om ein har kjøpt desse lisensane. Dette er gale av fleire grunnar.
For det første: om me skal kunne stole på eit empirisk forskingsresultat må me kunne gjendrive dette («falsifying», å sjekke om eit eksperiment kan gjentakast). Før i tida var det gjerne slik at eit forskingsresultat kunne skildrast så detaljert i ein artikkel at det faktisk var mogleg å gjenskape eit eksperiment utan meir informasjon enn det som sto i artikkelen. Dette gjeld ikkje lenger – forsking no involverer gjerne tusenvis av databaseoppslag, tekster eller liknande (dvs. materialet som blei henta inn), og spesialisert programvare til å handsame dette materialet. I tillegg til å gje ut ein artikkel som skildrar metoden og resultata, må sjølve materialet og eventuell programvare som blei utvikla i forskinga vere tilgjengeleggjort – elles har me ingen grunn til å stole på forskinga.
Dette gjeld ikkje berre for andre forskarar som vil gjendrive resultat, men au for dei som sjølv gjorde forskinga. Ted Pedersen har ein fantastisk artikkel (pdf) kor han fortel om professor Zigglebottom som publiserer ein artikkel om ein ny og betre parser (dvs. eit program som finn ulike strukturar i tekst); problemet er berre at programmet var skrive og testa av ein doktorgradsstudent og er totalt udokumentert, og nokre år seinare får ikkje ei gong Zigglebottom sjølv til å køyre programmet. Eg veit sjølv om nok av akademisk arbeid som, uansett kor innovativt og elegant det ei gong var, ikkje kan brukast eller testast fordi det er udokumentert, lukka, eller avhengig av ein gamal platform som ikkje blir oppdatert lenger fordi selskapet som lagte han ikkje tener nok penger på å oppdatere denne platformen. Slike prosjekt døyr med forskarane sine. Om ein frå byrjinga av har eit ope prosjekt, kan det vekse seg langt større enn det lille instituttet der det byrja. Eit godt døme på dette er R-prosjektet, som byrja som eit lite akademisk program med ein fri lisens, men no har blitt eit av dei leiande systema for statistisk analyse.
For det andre er det eit etisk problem at me gir stønad til utvikling av lukka informasjon. For å seie det litt enkelt, kvifor skal du betale skatt for fleire professorårslønner om ikkje du sjølv – i prinsippet – kan få noko ut av forskinga? Dette er ikkje berre hypotetisk. Om data og programvare som blir utvikla får ein fri og open lisens, kan me faktisk tene på det fordi andre har tilgang til det. Me hadde t.d. aldri klart å få til såpass god dekning og presisjon i maskinomsetjing mellom nynorsk og bokmål i Apertium om ikkje det var for at Norsk Ordbank (ei slags ordbok) og Oslo-Bergen-taggaren (ein slags parser, heldigvis ikkje utvikla av professor Zigglebottom) hadde frie lisensar. Det same gjeld den norske stavekontrollen i OpenOffice. Du treng ikkje vere datalingvist for å tene på at datalingvistisk forsking er open.
Men eg trur det må ei haldningsendring til. Eg opplevde nyleg ein forelesar fortelje om korleis dei hadde funne feil i materialet til ei anna gruppe – og korleis det var «flaut» for denne andre gruppa. Og dei rapporterte ikkje ei gong feilane til dei andre.
Eg blei heilt satt ut.
Hadde dei båe brukt ein fri programvare-modell i forskinga si, så hadde ikkje denne feilen vore eit tema ei gong: grunntanken må alltid vere at ingen er feilfrie, og om du som brukar av eit prosjekt finn ein feil, så rapporterer du denne til dei som har ansvar for prosjektet. Enkelt og greit, og alle tener på det. Når det er snakk om forsking er dette faktisk endå viktigare, sidan slike feil kan gå ut over tidlegare publiserte resultat.
Manifestet blir altså sånn:
Ein må alltid ta spørsmålet om fri tilgang til materiale og programvare med i totalvurderinga når det er snakk om offentleg prosjektstønad til forskingsprosjekt.
Om deler av midlane skal gå til utvikling av spesialisert programvare (kanskje utført av innleigde programmerarar) må denne programvaren frigjerast. Det burde vere sjølvsagt.
Søknader som er avhengige av lukka platformar skal nedprioriterast.
Om det skal samlast inn materiale, t.d. som grunnlag til statistisk eller anna maskinell analyse, må dette materialet (der det ikkje går ut over personvernet) vere tilgjengeleggjort; helst under ein fri og open lisens slik at skattebetalarane kan få nytte av det, og slik at det fritt kan kommersialiserast.
(Dette innlegget blei delvis framprovosert av eit spørsmål på friprog.no.)

22 september, 2009 at 13:50
[...] Du skal ikkje stole på lukka forsking « Lemurbataljonen a few seconds ago from xmpp [...]
22 september, 2009 at 22:12
Altso. Ikkje la dette her liggja her på bloggen. Kort det ned (eventuelt ikkje, og send det inn som kronikk) og send inn til ei avis! Aftenposten, Morgenbladet elder (heh) Universitas.
Pronto! Hadde du klart å få til eit ordskifte på det so hadde det vore fantastisk.
23 september, 2009 at 11:37
Kanskje det ja…
Forresten, kan ein få formidlingspoeng for arbeide retta mot eit fri programvare-miljø? Det er iallfall veldig bra at Wikipedia-tekster kan gi formidlingspoeng.
2 oktober, 2009 at 19:11
[...] musicologists to verify the empirical data collected with the tools. Today, research projects are often granted funding even though the results of the research are not possible to verify (or even to falsify, to check [...]
5 oktober, 2009 at 08:32
Verden vil bedras.