Du skal ikkje stola på lukka forsking

Fri programvare er essensielt for fri forsking, i alle fagfelt der programvare er ein del av forskingsprosessen.

Slik det er no, får gjerne eit forskingsprosjekt offentleg stønad sjølv om det ikkje er mogleg å testa eller validera eit forskingsresultat utan å

  1. kjøpa tilgang til ein lukka platform (programvare), og
  2. kjøpa lisens for forskingsmaterialet.

Og ofte er det ikkje mogleg å få testa resultatet sjølv om ein har kjøpt desse lisensane. Dette er feil, både praktisk, etisk og epistemisk, av fleire grunnar.

For det første: om me skal kunne stola på eit empirisk forskingsresultat må me kunne gjendriva dette («falsifying», å sjekka om det er mogleg å gjenta eit eksperiment). Før i tida var det gjerne slik at eit forskingsresultat kunne skildrast så detaljert i ein artikkel at det faktisk var mogleg å gjenskapa eit eksperiment utan meir informasjon enn det som sto i artikkelen. Dette gjeld ikkje lenger – forsking no involverer gjerne tusenvis av databaseoppslag, tekster eller liknande (dvs. materialet som blei henta inn), og spesialisert programvare til å handsama dette materialet. I tillegg til å gje ut ein artikkel som skildrar metoden og resultata, sjølve materialet og eventuell programvare som blei utvikla i forskinga vera tilgjengeleggjort – elles har me ingen grunn til å stola på forskinga.

Dette gjeld ikkje berre for andre forskarar som vil gjendrive resultat, men au for dei som sjølv gjorde forskinga. Ted Pedersen har ein fantastisk artikkel (pdf) kor han fortel om professor Zigglebottom som publiserer ein artikkel om ein ny og betre parser (dvs. eit program som finn ulike strukturar i tekst); problemet er berre at programmet var skrive og testa av ein doktorgradsstudent og er totalt udokumentert, og nokre år seinare får ikkje ei gong Zigglebottom sjølv til å køyra programmet. Eg veit sjølv om nok av akademisk arbeid som, uansett kor innovativt og elegant det ein gong var, ikkje kan brukast eller testast fordi det er udokumentert, lukka, eller avhengig av ein gamal platform som ikkje blir oppdatert lenger fordi selskapet som lagte han ikkje tener nok penger på å oppdatera denne platformen. Slike prosjekt døyr med forskarane sine. Om ein frå byrjinga av har eit ope prosjekt, kan det veksa seg langt større enn det lille instituttet der det byrja. Eit godt døme på dette er R-prosjektet, som byrja som eit lite akademisk program med ein fri lisens, men no har blitt eit av dei leiande systema for statistisk analyse.


For det andre er det eit etisk problem at me gir stønad til utvikling av lukka informasjon. For å seie det litt enkelt, kvifor skal du betala skatt for fleire professorårslønner om ikkje du sjølv – i prinsippet – kan få noko ut av forskinga? Dette er ikkje berre hypotetisk. Om data og programvare som blir utvikla får ein fri og open lisens, kan me faktisk tena på det fordi andre har tilgang til det. Me hadde t.d. aldri klart å få til såpass god dekning og presisjon i maskinomsetjing mellom nynorsk og bokmål i Apertium om ikkje det var for at Norsk ordbank (ei slags ordbok) og Oslo-Bergen-taggaren (ein slags parser, heldigvis ikkje utvikla av professor Zigglebottom) hadde frie lisensar. Det same gjeld den norske stavekontrollen i OpenOffice. Du treng ikkje vere datalingvist for å tena på at datalingvistisk forsking er open, og prinsippet gjeld sjølvsagt ikkje berre språkteknologi.

Men det må nok ei haldningsendring til. Forskarar må tørra å dela kjeldematerialet sitt, og godta at andre forskarar kan finna feil i forskinga deira. I fri programvare-modellen er ikkje ein feil eit stort tema; grunntanken må alltid vera at ingen er feilfrie. Viss du som utanforståande finn ein feil i eit prosjekt, så rapporterer du denne i den offentlege feilbasen (bugtrackaren) til dei som har ansvar for prosjektet. Enkelt og greit, og alle tener på det. Når det er snakk om forsking er dette faktisk endå viktigare, sidan slike feil kan gå ut over tidlegare publiserte resultat.

Manifestet blir altså sånn:
Ein må alltid ta spørsmålet om fri tilgang til materiale og programvare med i totalvurderinga når det er snakk om offentleg prosjektstønad til forskingsprosjekt.
Om deler av midlane skal gå til utvikling av spesialisert programvare (kanskje utført av innleigde programmerarar) må denne programvaren frigjerast. Det burde vera sjølvsagt.
Søknader som er avhengige av lukka platformar skal nedprioriterast.
Om det skal samlast inn materiale, t.d. som grunnlag til statistisk eller anna maskinell analyse, må dette materialet (der det ikkje går ut over personvernet) vera tilgjengeleggjort; helst under ein fri og open lisens slik at skattebetalarane kan få nytte av det, og slik at det fritt kan kommersialiserast.

(Dette innlegget blei delvis framprovosert av eit spørsmål på friprog.no.)

Grunnen til at såkalla «løgndetektorar» enno er i bruk.

cover på American Phrenological Journal

For to-tre hundre år sidan var det alment kjent at ein kunne sjå om nokon var kriminelle ved å undersøkja beinstrukturen til hovuda deira. Eg er ganske sikker på at dei fleste ikkje lenger trur på dette (eg vonar iallfall at dei som har makt til å dømme folk ikkje lenger trur på dette). Likevel, det er noko forførande med tanken på å kunne «oppdaga» kriminelle med objektive og eintydige måleinstrument. Kanskje er dette grunnen til at folk enno trur at polygrafen kan avdekkja løgner.

bilete av polygraf

For ikkje lenge sidan skreiv forskarane Eriksson og Lacerda artikkelen «Charlatanry in forensic speech science: A problem to be taken seriously» kor dei undersøkte to typar stemmebaserte «stressdetektorar» utvikla av Nemesysco, meint for å gi svar på om den mistenkte lyg eller ikkje. Resultatet:

these machines perform at chance level when tested for reliability. Given such results and the absence of scientific support for the underlying principles it is justified to view the use of these machines as charlatanry and we argue that there are serious ethical and security reasons to demand that responsible authorities and institutions should not get involved in such practices.

Merk: chance level. Altså, du kunne like godt kasta for kron eller mynt. Eller fikla rundt på hovudbunnen til din mistenkte.

Men dette er eigentleg greitt nok, me reknar med at vitskapen skal kunne gi svar på om slike ting eigentleg fungerer som me trur dei gjer.

Problemet kom når Nemesysco trua forskarane med søksmål: «the researchers may be sued for libel if they continue to write on this subject in the future», og forlaget blei tvinga til å fjerna artikkelen frå publikasjonen og nettsidene. Kvalmande, rett og slett.

Men, om me ser på den lyse sida synest det som at Streisand-verknaden speler inn, og at alt oppstyret rundt skremselstaktikkane til Nemesysco gjer at fleire faktisk blir opplyst om det faktum at «løgndetektoren» ikkje finst.

For interesserte, her er Eriksson & Lacerda-artikkelen på scribd, du finn au ein torrent med pdf-en.