Orddelingsomsetjing

I førre innlegg i denne serien gjekk eg kort gjennom ymse metodar for å generera omsetjingskandidatar til tospråklege ordbøker; i dette innlegget skal eg gå litt meir inn på kandidatgenerering ved omsetjing av enkeltdelane av samansette ord. Me har som nemnt allereie ei ordbok mellom bokmål og nordsamisk, som me vil utvida til bokmål–lulesamisk og bokmål–sørsamisk. Og ordboka blei utvikla for å omsetja typisk «departementsspråk», så ho er full av lange, samansette ord. Og på samisk kan me setja saman ord omtrent på same måte som på norsk (i tillegg til ein haug med andre måtar, men det hoppar me glatt over for no). Dette bør me kunna utnytta, sånn at viss me veit kva «klage» er på lulesamisk, og me veit kva «frist» er, så har me iallfall éin fornuftig hypotese for kva «klagefrist» kan vera på lulesamisk :-)

Orddeling er flott når du skal omsetja ordbøker. Særskrivingsfeil er flott når du vil smila litt.
«Ananássasuorma» jali «ananássa riŋŋgu»? Ij le buorre diehtet.

Altså kan me bruka dei få omsetjingane me allereie har mellom bokmål og lulesamisk/sørsamisk til å laga fleire omsetjingar, ved å omsetja deler av ord, og så setja dei saman igjen. Me har òg eit par omsetjingar liggande mellom nordsamisk og lulesamisk/sørsamisk, så me kan bruka same metoden der (og utnytta det at me har ei bokmål–nordsamisk-ordbok til å slutta riŋgen tilbake til bokmål).

Dekning og presisjon

Dessverre (i denne samanhengen) har me òg ofte fleire omsetjingar av kvart ord; i dei eksisterande bokmål–lulesamisk-ordbøkene me ser på (i stor grad basert på ordboka til Anders Kintel) står det at «klage» kan vera mellom anna gujdalvis, gujddim, luodjom eller kritihkka, medan «frist» kan vera  ájggemierre, giehtadaláduvvat, mierreduvvam eller ájggemærráj. Viss me tillet kvar venstredel å gå med kvar høgredel, får me 16 moglege kandidatar for dette eine ordet! Sannsynlegvis er ikkje meir enn ein eller to av dei brukande (og kanskje ikkje det ein gong). I snitt får me rundt dobbelt så mange kandidatar som kjeldeord med denne metoden. Så me bør finna metodar for å kutta ned på dårlege kandidatar.

Den komplementære utfordringa er å få god nok dekning. Av og til ser me at me ikkje har ei omsetjing av delane av ordet, sjølv om me har omsetjingar av ord med dei same delene i seg. Den setninga krev nok eit døme :) Me vil gjerne ha ein kandidat for ordet «øyekatarr» på lulesamisk, altså samansetjinga «øye+katarr». Me har kanskje ei omsetjing for «øye» i materialet vårt, men ingenting for «katarr». Derimot står det at «blærekatarr» er gådtjåráhkkovuolssje. Så for å utvida dekninga, kan me i tillegg dela opp kjeldematerialet vårt i alle par av samansetjingsdelar; viss me veit at desse orda kan analyserast som «blære+katarr» og gådtjåráhkko+vuolssje, så kan det jo synast som at «blære» er gådtjåráhkko og «katarr» er vuolssje (og Giellatekno har heldigvis gode morfologiske analysatorar som fint deler opp slike ord på rette staden). Og dette gir ei god utviding av materialet – faktisk får me kandidatar for nesten dobbelt så mange av dei orda som me ønsker kandidatar for, viss me utvidar kjeldematerialet på denne måten. Men det har ei stor ulempe òg: Me får over dobbelt så mange lule-/sørsamiske kandidatar per bokmålsord (i snitt rundt fire kandidatar per kjeldeord).

Filtrering og rangering

Me vil innskrenka dei moglege kandidatane til dei som mest sannsynleg er gode. Den beste testen er å sjå om kandidaten finst i korpus, og då helst i same parallellstilte setning (dette er oftast ein bra kandidat). Viss ikkje, så kan me òg sjå på om kandidaten og kjeldeordet har liknande frekvensar, eller om kandidaten har frekvens i det heile.

Orddelingsomsetjinga foreslo tsavtshvierhtie for «virkemiddel», og der stod dei i ein parallellsetning òg:
<s xml:lang="sma" id="2060"/>Daesnie FoU akte vihkeles tsavtshvierhtie .
<s xml:lang="nob" id="2060"/>Her er FoU er et viktig virkemiddel .

– då er det nok eit godt ordpar.

Uheldigvis har me så lite tekstgrunnlag for lule-/sørsamisk at me fort går tom for kandidatar med frekvens i det heile. For sørsamisk har me t.d. berre kandidatar med korpustreff for rundt 10 % av orda me lagar kandidatar for.

Ein annan test, som fungerer på alle ord, er å sjå om det får analyse av dei morfologiske analysatorane våre; viss ikkje (og viss det i tillegg ikkje har korpustreff) er det oftast feil. Men dette fjernar berre rundt 1/4 av kandidatane; med den oppdelte ordboka vår (kor me òg har med par av delar av ord) har me enno i snitt rundt tre kandidatar per kjeldeord.

(Ein test som eg prøvde, men avslo, var filtrering basert på liknande ordlengd. Det verkar jo logisk at lange ord blir omsett til lange og korte til korte, men det finst mange gode unntak. I tillegg fjernar det alt for få dårlege kandidatar til at det ser ut til å vera verdt det.)

Det parallelle korpusmaterialet vårt er altfor lite, men når me skal generera kandidatar til ordbøker så er det jo ikkje parallelle setningar me prøver å predikera, men parallelle ord og ordbokspar. Og då er jo læringsgrunnlaget vårt eigentleg dei eksisterande ordbøkene våre … Derfor prøvde eg å sjå på kva for samansetjingsdelar som faktisk var brukt i dei tidlegare omsetjingane våre, og kva for par av delar som ofte opptredde i tidlegare omsetjingar, og kva for delar som sjeldan eller aldri gjorde det. Til dømes har den oppdelte ordboka vår for bokmål–lulesamisk desse para:

  • løyve    loahpádus
  • løyve    doajmmaloahpe
  • arbeidsløyve    barggoloahpádus
  • spesialløyve    sierraloahpádus

Her ser me at «løyve» anten kan vera loahpádus eller doajmmaloahpe – skal «taxiløyve» då vera táksiloahpádus eller táksidoajmmaloahpe? På bakgrunn av dette materialet bør me nok satsa på det første – sjølv om doajmmaloahpe står oppført, så er det berre loahpádus som opptrer i samansette ord.

Då kan me prøva å generera kandidatar for alle bokmålsorda i materialet vårt, både dei me eigentleg er ute etter å finna kandidatar for, og dei me allereie har omsetjingar for. Gå så gjennom dei genererte kandidatane for dei orda me allereie har omsetjingar for, og tel opp dei para av orddelar som genererte slike ord. Me har kanskje laga kandidatane barggo+loahpádus og barggo+dajmmaloahpe for «arbeids+løyve»; når me så går gjennom dei eksisterande omsetjingane og finn at «arbeidsløyve» stod i ordboka med omsetjinga barggoloahpádus, så aukar me frekvensen til paret «løyve»–loahpádus med éin, medan «løyve»–dajmmaloahpe blir verande null.

For no har berre filtrert ut dei kandidatane kor paret til anten første- eller andreledd hadde nullfrekvens. I følgje litt manuell evaluering frå ein lingvist er det omtrent berre dårlege ord som blir kasta ut, så det filteret ser ut til å fungera bra. På den andre sida blir berre rundt 10 % av kandidatane fjerna viss me berre hiv ut dei med nullfrekvens, så neste steg blir å bruka frekvensane til å få ei full rangering.

Viss alle ord kunne delast i nøyaktig to delar, så ville det kanskje vore nok å telja opp par av delar og enkeltdelar for å estimera sannsyn, altså f(s,t)/f(s).  Men av og til kan ord delast på fleire måtar, til dømes kan me sjå på «sommersiidastyre» som «sommer+siidastyre» eller «sommersiida+styre» (eg har valt å halda meg til todelingar av ord, for å unngå for mange alternative kandidatar). Viss omsetjinga er giessesijddastivrra, med analysane giesse+sijddastivrra eller giessesijdda+stivrra, så har me ikkje utan vidare nokon grunn til å velja den eine over den andre (vel, me har lengd i dette tilfellet, men det gjeld ikkje i alle slike døme, og me kan ha par av analysar som er 2–3 eller 3–2). Då kan me heller ikkje seia kva for par av orddelar (s,t) me skal auka når me ser «sommersiidastyre»–giessesijddastivrra i treningsmaterialet. Men viss me i tillegg ser «styre»–stivvra ein annan stad, så har me plutseleg eit grunnlag til å ta ei avgjerd. Metodar som Expectation Maximization kan kombinera relaterte frekvensar på denne måten for å finna fram til gode estimat, men eg har ikkje komme så langt at eg har fått implementert dette enno.

Ny utgåve av nynorsk–bokmål i Apertium

Eg lasta just opp ei ny utgåve av nynorsk–bokmål-språkparet i Apertium, du kan òg prøva det på apertium.org frå og med no. Det er snart fem år sidan sist gong, så det var vel på tide. Eg trur ikkje det er dei heilt store endringane i kvaliteten, utanom at me har lagt inn eit par fleire ord og retta nokre småfeil – hovudsakleg funne og rapportert av brukarane våre :)

Forskjellane er helst på utviklarsida: Datafilene er no omorganisert slik at dei einspråklege filene er i eigne pakker, for å unngå at andre språkpar mot dei same språka må ha sine eigne nesten-identiske kopiar av ordbøker og liknande. Dette er noko eg har jobba av og på med ein stund, sidan det kravde eit par endringar i byggsystemet i Apertium og at me tilpassar dei einspråklege ordbøkene til språkparet ved FST-kompilering. Til gjengjeld er det noko som alle språkpar i Apertium kan ha nytte av (og alle nye språkpar er laga på denne måten; dei gamle krev litt manuelt arbeid først).

Elles er det litt kult at det nye omsetjingsverktøyet til Wikipedia (Content Translation) no gir omsetjingsforslag med hjelp av Apertium:

Det var jo litt motiverande. Kanskje på tide å sjå om ikkje me kan få noko ut av norsk–engelsk.

Eller ikkje. Vel, prøv gjerne nye nynorsk–bokmål og gi ein kommentar her eller på IRC om du finn fleire rare omsetjingar :)

Kandidatgenerering for ordbøker til lågressursspråk

Som nemnt har eg jobba med å laga kandidatar til omsetjingspar i ordbøker mellom norsk og lule-/sørsamisk. Viss dette hadde vore typisk «store» språk, ville metoden for å finna gode kandidatar vore klar:

  1. finn svære parallelle tekstkorpora frå offentlege EU-tekster, bøker osb.
  2. køyr Giza++, som brukar ein statistisk metode for å finna ut kva som er dei mest sannsynlege ordpara i mengder med parallelle setningar

Det mykje brukte Europarl-korpuset har titalls millionar ord per språk, dette gir ganske gode ordpar. Då bokmål–nordsamisk-delen av prosjektet var under utvikling, brukte dei eit parallellkorpus med under 500.000 ord, dette gav etter det eg har høyrt svært «støyete» data som trengte mykje manuell rydding for å bli brukbart. For bokmål–lulesamisk og bokmål–sørsamisk har me knapt 100.000 ord med parallellstilte setningar, og berre rundt 10 % av dei orda som me vil ha omsett finst i parallellkorpuset. Det seier seg sjølv at me ikkje kan klara oss med å køyra Giza++  for denne jobben.

Ja, det er ei strek der til høgre, viss du zoomar litt inn

Når dei vanlege ingrediensane ikkje finst, så må du vera kreativ og bruka det du har, og ta sjansen på at ikkje alt fungerer like bra. Dei metodane me har prøvd har anten vore basert på omsetjing av deler av ord, eller omsetjing via eksisterande ordbøker.

Omsetjing via eksisterande ordbøker

Dette er vel den konseptuelt enklaste metoden: Viss me har ei bokmål–nordsamisk-ordbok, og ei nordsamisk–lulesamisk-ordbok, så kan me «kryssa» desse for å få bokmål–lulesamisk. Til dømes står det at «dampbad» er sávdni i bokmål–nordsamisk-ordboka, medan nordsamisk–lulesamisk-ordboka gir sávdni→sávnne, så då får me at «dampbad» er sávnne (denne metoden er òg mykje brukt i Apertium).

Me kan òg bruka eksisterande ordbøker til å finna enkle synonymlister, som me kan utvida dei eksisterande omsetjingane med. Me vil til dømes gjerne ha omsetjingar av ordet «arbeidsform» til sørsamisk. I ei av ordbøkene finst det eit ord som er omsett til både «arbeidsform» og «arbeidsmåte», så dei er sannsynlegvis synonyme. Og faktisk har me ei omsetjing til sørsamisk av «arbeidsmåte»: barkoevuekie, så då er det ein god sjanse for at barkoevuekie òg er ei mogleg omsetjing av «arbeidsform». (No som eg tenkjer over det, så liknar vel dette litt på dei semantiske speglane til Dyvik.)

Omsetjing av deler av ord

Sett at me har eit bokmålsord som me vil ha på lulesamisk. Me klarer ikkje å finna ein lulesamisk kandidat sjølv om me følgjer synonymlister eller kryssar ordbøker eller slår opp i parallelltekst. Me kan prøva å transitivt følgja lister (synonym av synonym) eller ordbøker eller parallelltekst, men då blir det fort vanskeleg å halda kvaliteten oppe og dei stakkarane som må sjekka listene får endå meir tull å lesa gjennom. Men ord er ikkje atomære (iallfall ikkje på desse språka); det finst samanhengar mellom deler av omsetjingar, på ulike nivå.

Viss to språk er like nok, så går det ofte an å rett og slett «stava om» ord til det andre språket. Eg brukte denne metoden tidlegare for å generera kandidatar for nynorsk–bokmål i Apertium som eg så sjekka manuelt (du får mange gode adjektiv ved å endra -leg til -lig, pluss eit par andre småting), og me har òg brukt slike reglar for nordsamisk og lulesamisk, som er dei likaste av språkpara me ser på her. Giellatekno hadde allereie utvikla eit XFST-skript for å  «lulesamifisera» nordsamisk (me gjorde eit par endringar i løpet av dette prosjektet), som berre ser på enkle stavereglar og lydsamanhengar, utan kjennskap til morfologi (utover ordklasse) eller nokon leksikalsk informasjon. Dette blir forståeleg nok ikkje alltid heilt bra – ofte er den beste omsetjinga eit ord som ikkje liknar i det heile. Omsetjinga av birgemuš «livsopphald» er til dømes ikkje *birggemusj, men viessomuj. Men me fekk likevel ein del gode forslag med metoden. I tillegg er det ein metode som spyttar ut forslag for omtrent kva det skal vera av input – dei fleste andre metodane kan dessverre berre gi forslag for delar av ordlistene våre. For sørsamisk, derimot, blir den språklege avstanden for stor, og slik enkel «sørsamifisering» ville nok ikkje fungert.

Den siste metoden me har brukt er omsetjing av delene av samansette ord, men no er det lenge sidan eg såg overskrifta her, så det får eg spara til eit seinare innlegg.

Ordbøker til lulesamisk og sørsamisk på veg

Sidan desember har eg jobba for Giellatekno ved Universitetet i Tromsø med språkteknologi og språkressursar for samisk, det må vera verdt eit innlegg her :) Akkurat no er i gong med maskinomsetjing, men mesteparten av vinteren har gått med til eit prosjekt for å laga ordbøker mellom norsk og lulesamisk og mellom norsk og sørsamisk. Prosjektet er eit offentleg oppdrag, dei vil ha hjelp for omsetjing av offentlege dokument og slikt, altså må me ha med mykje fagterminologi og departementsspråk og generelt lange ord som «allmennkringkastingsforpliktelse» eller «kulturminneregistreringsprosjekt». Eit tidlegare prosjekt laga ei slik ordbok mot nordsamisk, no skal me utvida ho mot to samiske språk til.

Min del av prosjektet har vore (1) å henta inn, kategorisera og reinska opp tekst på lule- og sørsamisk, sånn at det går an å sjå om eit ord faktisk er i bruk, og (2) å laga lister med kandidatar for omsetjingspar norsk-samisk, ved ulike metodar. Ein kandidat/eit omsetjingspar er til dømes «verdensforståelse →  almmavuodadádjadus», som kan vera rett eller feil. Eg kan ikkje samisk, så nokon andre får jobben med å gå gjennom desse listene og merka av for om dei er gode eller dårlege omsetjingar (og då bør eg helst laga så gode kandidatar som mogleg, så jobben til dei andre ikkje blir for kjip).

Tekstinnsamlingsbiten er relativt grei; finn nettsider med masse lulesamisk/sørsamisk, legg inn i eit program som hentar ned sider og arkiverer dei under rett språkkode og kategori i kodelageret til Giellatekno. Ikkje så utfordrande, men det tek tid; til gjengjeld er det verdt mykje å ha gode tekstgrunnlag. Det er ganske stor forskjell i kor flinke ulike offentlege instansar er til å omsetja til samisk; av og til er det éi oppsummeringsside på samisk mot tusen på norsk, medan andre gonger er omtrent alt omsett. Av dei som er flinke, finn me dei ulike kyrkjene (er det ein bra ting eller kva?) og … seksualopplysningsidene til Sveriges landsting.

Programmet me brukar til tekstinnsamling heiter CorpusTools (hovudsakleg utvikla av Børre Gaup frå Giellatekno/Divvun); det skal i tillegg kunna henta ut rein tekst frå ulike dokumentformat (HTML, PDF, …) og køyra språkgjenkjenning for å berre henta ut det som er i eit visst språk. Eg har òg jobba litt på CorpusTools-koden; eg har mellom anna prøvd å gjera tekstutvinninga meir robust, i tillegg til å reimplementera språkgjenkjenninga slik at ho stemmer overeins med den klassiske Perl-baserte TextCat-algoritmen – det er no sjeldan at tekstutdrag over to ord ikkje blir gjenkjent med rett språk :-)

Me kan òg merka dokument for at dei er parallelle med andre dokument, og bruka CorpusTools til å finna parallelle setningar – dette fungerer ikkje alltid like bra, men med eit stort nok korpus kan det vera nok bra parallellsetningar til at dei overdøyver støyen. Meir om dette i eit seinare innlegg …

Review: The Artist’s Guide to GIMP, 2nd edition

I was lucky enough to get to review the “early beta” PDF version of the soon-to-be-released GIMP book The Artist’s Guide to GIMP, 2nd edition by Michael J. Hammel (published by No Starch Press, 2012). The book covers the new 2.8 version of GIMP, which had its first release candidate just about a week ago and is expected out any day now.

gimp2-cover.png

This book is not a complete reference on GIMP, but rather a set of hands-on tutorials. The book starts with a fairly quick intro to basic GIMP usage, and then consists of tutorial chapters for

  • Photographic Effects
  • Web Design
  • Advertising/Special Effects
  • Type (Font) Effects
  • Creative Inspiration

The last one seems to be the “miscellaneous” category . I’ll focus on the photography parts since that’s where I feel I have the most to say.

Being familiar with basic GIMP usage, I initially skipped straight into the Photographic Effects chapter. However, if you’re not familiar with basic GIMP usage, you should definitely read the first chapter, since certain steps of the tutorials might seem a bit too concise (for example, the instruction “Using the Fuzzy Select tool and the Quick Mask in combination, make a selection around the rose” might be a bit off-putting if you’ve never done this kind of thing before.).

The good

Already in the first tutorial of Photographic Effects we move straight into how we can create a high pass filter using layers and blurring, a very useful effect for bringing out the subject in a picture (and kudos for mentioning that a script exists in the GIMP Plugin Registry which performs the same steps, albeit with less control to the user). The methods are explained in simple steps, with screenshots along the way. After a simple walkthrough, we also get tips for further fine tuning. The author seems quite knowledgeable about how to get the most out of the tools available, as well as about when the tools are insufficient (e.g. Inkscape is suggested as a more advanced alternative to Gfig for vector drawing).

screenshot.png

Screenshots all the way

The author introduces various tricks into tutorials as they become useful, e.g.:”The white lines may need to be enhanced. Use the levels dialog and pull the White Point slider to the left.” I believe this kind of realistic, usage-based introduction to tools is much more pedagogical than technical explanations of how the tools work. Of course, if you’re looking for a reference to a specific tool, you may find other types of books more useful.

Apart from the high pass filter tutorial, the color swap is some times surprisingly useful to make a picture less “loud” and inconsistent. Also useful are the tutorials on changing Depth of Field and Colored Lighting (confusingly placed in Advertising instead of Photographic Effects); a handy technique even with just simple black/white gradients.

I really like the landscape format of the book. It’s a little thing perhaps, but compared to the typical portrait or square format, it’s a relief to be able to see one whole page on a wide-screen computers, and, I presume, for keeping a physical book flopped open on your desk while you work a tutorial.

The … not so good

I would also have preferred if the example images were available from one place, although this is a minor point.

Some of the tutorial screenshots seem to overdo the effects, but note that I’m reviewing a preprint, perhaps they look more subtle in the final print of the book.

overdone.png

I prefer the original and I hope you do too

I’ve seen much better tutorials on Minituarizing a Scene (e.g. the one by Rob Antonishen); if you’re just making a simple gradient anyway, I would rather just use the Toy plugin which does it all in one step. I’m not sure how useful the tutorials Lake Reflection and Reflections on Glass are, though I guess the methods might come in handy. And, perhaps it’s just me, but whenever I see tutorials on text effects (brushed metal, neon, etc.) I can’t help but think of bad WordArt. But then again, those effects are obviously very popular … and the Distressed Text effect actually looked rather classy.

distressed.png

Who knew text effects could look good

One thing that bugs me, that I often see in tutorial-type books, is the assumption that the user is a hobbyist, e.g. the advice on using JPEG over RAW/TIFF because of memory/processing constraints or cheap cameras. Those assumptions will definitely be off-putting to those who do invest a lot of time and resources in their graphics/photography work, no matter how useful the tricks in the rest of the book are.

So, should you buy it?

All in all, I would definitely recommend The Artist’s Guide to GIMP 2.8 to those who want an all-round, practical book on how to use GIMP.

For photography, the main alternative book would be GIMP 2.6 for Photographers by Klaus Goelker (see the review by Alexandre Prokoudine – as the title indicates, that one needs an update to 2.8, it’s also not in landscape format ;)). The Artist’s Guide … is perhaps a bit more fast-paced, a bit less in-depth, but also more varied in what it covers. Recommended.

Publisher’s info:

Artist’s Guide to GIMP, 2nd Edition
Creative Techniques for Photographers, Artists, and Designers
by Michael J. Hammel

July 2012, 320 pp.
ISBN: 978-1-59327-414-6
Available both as print and PDF e-book.

Lær deg samisk på nasjonaldagen

I dag, 6. februar, er det den samiske nasjonaldagen — lihkku beivviin!

Foto: Kenneth Hætta (NRK)

Viss dei einaste orda du kan på nordsamisk er joik, pulk, lavvo og tundra1, så har du i dag ei god unnskyldning til å utvida horisontane og læra litt samisk :)

Les Nordsamisk på ni minutt for å læra deg uttalen av bokstavane. Så kan du byrja med nettsida Gulahalan («å kommunisere/forstå kvarandre»), dette er ein fin nettstad for deg som ikkje kan noko samisk frå før av (men forstår svensk og ikkje har noko i mot å køyra Flash…). Svært pedagogisk, med lyd for alle setningane og små øvingar til tekstene. (I tillegg går det visst an å ta brevkurs i nordsamisk frå Folkeuniversitetet, eller «e-kurs» frå e-skuvla.no.)

Og så bør du ha tilgjengeleg ordbøkene til Sámi Giellatekno ved Universitetet i Tromsø. Dei fungerer på Windows, Mac og GNU/Linux (viss du køyrer Arch Linux kan du installere her via AUR). Du kan i tillegg søkja i dei på nett om du ikkje vil installere noko.

(Eg har au komme over ei lita nordsamisk-engelsk-ordbok; ingen ordforklaringar og lite grammatisk informasjon, men det kan jo vera nyttig.)

Innimellom kan du få eit samisk ord for dagen frå bloggen Kruspersille.


Etter Gulahalan-kurset er du klar til å byrja på OAHPA! Pedagogiske program, kor du kan preika med den samiske chatbot-en eller berre øva deg på å bøya verb (dei har litt dokumentasjon på korleis ein best kan bruka det, bør lesast).

Du treng nok ein grammatikk å slå opp i, då er det hendig at Nasjonalbiblioteket har skanna og lagt ut heile boka Samisk grammatikk av Klaus Peter Nickel. Det er kanskje like greit å kjøpa denne, og kanskje au innføringsboka Davvin 1 i same slengen.
Sidan du sikkert har gløymt alle grammatikktermane frå skulen, kan du øve på kva subjekt og objekt tyder ved å spela Visual Interactive Syntax Learning-spela. Dei er på samisk, men det bør du jo kunna ganske godt innan no.

No er det på tide å lesa lengre samiske tekster. Ávvir.no er vel den einaste nordsamiskspråklege avisa på nett, men du har jo au ein del lesestoff på NRK Sápmi som i tillegg har nett-tv og radio, sjølvsagt. Du finn ein del samisk skjønnlitteratur på sidene til Nasjonalbiblioteket.

Kanskje du til og med vil prøva deg på å skriva litt samisk, då bør du vita korleis du skriv samiske bokstavar på datamaskinen, kanskje må du slå opp litt samisk fagterminologi.

Ved dette punktet bør du (viss du øvde godt på Syntax Learning-spela) vera klar til å gå inn i den samisk lingvistikken. Her har Universitetet i Tromsø igjen ressursane du treng:

  • For korpuslingvistane har dei eit interaktivt tekstkorpus, både einspråkleg nordsamisk og tospråkleg nordsamisk-bokmål. Dei har au lagt ut ein del statistikk, frekvenslister ol.
  • For grammatikarane finst det ein kort grammatikk.
  • For morfonautane (eh, folk som studerer morfologi, då) tilbyr Giellatekno grammatisk analyse av bøygde nordsamiske ord, og fulle bøyingsparadigme av oppslagsord; du kan til og med generera bøygde ord om du kjenner oppslagskodane…


Eventuelt kan du berre kverna all samisken gjennom maskinomsetjing frå nordsamisk til bokmål.

 

Fotnotar:

1 Og kanskje jul

Konverter OpenOffice-dokument til LyX / LaTeX utan å mista Zotero-referansar

Det finst allereie eit program som konverterer OpenOffice-dokument til LaTeX, Writer2LaTeX, dette kan ein igjen opne i LaTeX-redigeringsprogrammet LyX. Men viss du har Zotero-referansar i dette OpenOffice-dokumentet, vil dei bli konvertert til «rein tekst» slik at litteraturlista til slutt ikkje viser kva du har sitert i teksta.

Difor endra eg litt på Writer2LaTeX slik at Zotero-referansar blir gjort om til skikkelege BibTeX-siteringskommandoar, av typen \cite{nøkkel} kor nøkkel viser til eit verk i BibTeX-databasen din.

Men så må me jo au ha ein BibTeX-database som inneheld det nøklane refererer til. Zotero kan allereie eksportere til BibTeX, med nøklar som ser ut som forfattar_tittel_år (t.d. kierkegaard_sygdommen_2007). Dette ville vore heilt tilstrekkeleg i andre samanhengar, men siteringane i OpenOffice-dokumentet har dessverre ikkje nok informasjon i seg til å finna desse nøklane; det dei har i staden er ein ganske uleseleg Zotero-intern identifikator, t.d. ITMKBABS.

Difor endra eg litt på LyZ – Firefox-utvidinga som integrerer Zotero med LyX – slik at me kan få ut ei BibTeX-fil kor nøklane er i dette uleselege Zotero-format. Heldigvis viser LyX meir eller mindre korleis siteringane kjem til å sjå ut i den endelege PDF-en så det gjer ikkje så mykje at nøklane er så rare. (I tillegg trur eg LyZ kan konvertera alle nøklane i eit LyX dokument i ettertid, til noko meir leseleg, men det har eg ikkje prøvd.)

Viss du vil prøva dette kan du lasta ned1:

Du kan køyra writer2latex.jar slik:

$ java -jar writer2latex -latex -config=zotero.xml Dokument.odt Dokument.tex

Så kan du importera Dokument.tex som LaTeX frå LyX-filmenyen (evt. køyre kommandoen tex2lyx Dokument.tex).

Opna lyz.xpi i Firefox, dette installerer den endra LyZ-utvidinga. Så må du omstarta Firefox, og under LyZ-innstillingane skriv du writer2latex for «Cite Key» («LyXPipe» skal vera det same som i LyX-innstillingane). For å leggja alle Zotero-referansane inn i éi BibTeX-fil kan du merkja alt i Zotero, og så velje «Cite in LyX» frå LyZ-menyen. Denne siteringa kan du så sletta frå LyX, men du må gjera det minst ein gong for at alt skal komme inn i bib-fila. Om det er første gong du køyrer LyZ får du spørsmål om kva for bib-fil du vil nytta, denne må du sjølvsagt leggja til i LyX (Set inn->Ulike lister->BibTeX-litteratur).

Om du skal konvertera fleire dokument, og alle nyttar same bibliografi (bib-fil), kan du jo laga eit skript som du kan opna odt-filer med for å laga ei LyX-fil automatisk, med bibliografien lagt til.

Og heilt til slutt, BibTeX-eksporten frå Zotero/LyZ taklar ikkje bokstaven «ø» enno… på denne sida finn du ei fil som gir litt betre BibTeX-eksport.


Viss nokon er interessert i kjeldekoden til dette, så ligg alt på

Fotnoter:

1 Den siste er ei konfigurasjonsfil til Writer2LaTeX. Siteringskommandoane til denne utgåva av Writer2LaTeX krev nemleg LaTeX-pakka natbib (sidan eg ikkje veit korleis ein får alle siteringstypane utan dette), i tillegg har eg lagt dei opphavlege reintekst-siteringane i kommentarar for at ein lett skal kunne kontrollera at alt gjekk greit for seg, som krev pakka verbatim. Konfigurasjonsfila sørgjer for at desse pakkene blir lasta. (Det er ganske mykje anna ein kan fikse på i konfigurasjonsfilene til Writer2LaTeX, sjå handboka. Eg nyttar t.d. denne fila for å ignorera harde mellomrom og slikt.)