Apertium

Frå Wikipedia – det frie oppslagsverket
Gå til: navigering, søk

Apertium er eit maskinomsetjingssystem som blir utvikla med støtte frå mellom anna den spanske regjeringa, regjeringa i Catalonia, og universitetet i Alicante, i tillegg til bidrag frå private aktørar, ymse universitet, studentar og frivillige entusiastar. Det er fri programvare, publisert under GNU GPL.

Historie[endre | endre wikiteksten]

Apertium starta som eit av maskinomsetjingssystema i prosjektet OpenTrad og var opphavleg laga for å omsetja mellom nærskylde språk, men det har seinare vorte utvida til å handsama språk med større skilnader, som t.d. baskiskspansk, nordsamiskbokmål og kasakhiskengelsk.

Sidan 2009 til no (2014) har det vore med i Google Summer of Code og Google Code-In kvart år og dermed fått bidrag frå mange studentar.

Metode[endre | endre wikiteksten]

Systemet er modulært, og for å leggja til eit nytt språkpar er det nok å leggja til språklege data (omsetjingsordbok, reglar) i veldefinerte format (hovudsakleg XML-baserte). Modulane er definerte som Unix-kommandoar, som kommuniserer gjennom logiske røyrpipes»).

Maskinomsetjinga i Apertium er regelbasert, med overflatisk overføring av grammatisk struktur. Dette vil seia at det finst reglar for morfologi og syntaks, men ingen rekursive reglar for syntaks og heller ingen gjennomgripande djup semantisk analyse. Det er ingen interlingva involvert, så nye omsetjingsretningar/språkpar krev ei omsetjingsordbok mellom kvart språkpar (ikkje berre mellom det nye språket og eit generelt mellomspråk). Der det finst ordbøker mellom språk A og B og B og C, finst verktøy[1] som genererer ei ordbok frå A til C. I tillegg må sjølvsagt kvart språk ha sine einspråklege ressursar (ordbøker, reglar, statistikk).

Apertium nyttar endelege tilstandsautomatar for analyse/ordklassetagging (kor ordformer blir markert med, kanskje fleirtydige, oppslagsformer og ordklassar), generering (ordklassetagging «baklengs»), omsetjing av analyserte enkeltord og leksikalsk seleksjon (dvs. tydingsdisambiguering for tydingsskilnader som er viktige for omsetjinga). Ein skjult Markov-modell blir nytta for disambiguering av ordklasser, men ein del av språkpara nyttar i tillegg føringsgrammatikk for regelbasert ordklassedisambiguering.

Språkstøtte[endre | endre wikiteksten]

Mellom dei språka som har publiserte språkpar i Apertium finn me nynorskbokmål, islandsk-svensk-dansk, dei romanske språka i Spania, kastillansk, katalansk, aragonsk og galisisk; engelsk, portugisisk, fransk, oksitansk, italiensk, indonesisk-malayisk, esperanto, bretonsk, walisisk, serbo-kroatiskmakedonskbulgarsk, kasakhisk-tatarsk, rumensk.[2]

Maskinomsetjing av norske språk[endre | endre wikiteksten]

Innanfor Apertium-ramma er det sett i gang arbeid med maskinomsetjing mellom nynorsk og bokmål, apertium-nn-nb,[3] nyaste publiserte utgåve kan testast på heimesida deira. I tillegg er Giellatekno ved Universitetet i Tromsø involvert i maskinomsetjing mellom samiske språk og mellom anna norsk. Ein omsetjar frå nordsamisk til bokmål er allereie publisert.

Brukargrensesnitt[endre | endre wikiteksten]

apertium-tolk 0.2, fransk til spansk.

Sidan omsetjingspar i Apertium er definerte som Unix-røyr, kan ein enkelt omsetja til dømes fil.txt frå bokmål til nynorsk i ein terminal ved å skriva apertium nb-nn < fil.txt, men det finst meir grafiske brukargrensesnitt som er meint for vanlege brukarar. Fleire nettstader har apertium installert, t.d. heimesida apertium.org. For GNU/Linux og Mac OS X finst programmet apertium-tolk som omset medan du tastar, i tillegg til program som er spesifikt meint for omsetjing av undertekster til film og TV-seriar. Ein del tredjepartsprogram meint for omsetjarar (til dømes OmegaT, pology og Virtaal) kan bruka apertium til å gi omsetjingsforslag. For Android-baserte einingar finst ein app som kan omsetja utan nettilgang (men berre for dei språkpara som berre brukar modular som er porterte til Java).

Kjelder[endre | endre wikiteksten]

Bakgrunnsstoff[endre | endre wikiteksten]

Litteratur

  • Corbí-Bellot, M. et al. (2005) «An open-source shallow-transfer machine translation engine for the romance languages of Spain» i Proceedings of the European Association for Machine Translation, 10th Annual Conference, Budapest 2005, s. 79-86
  • Armentano-Oller, C. et al. (2006) «Open-source Portuguese-Spanish machine translation» i Lecture Notes in Computer Science 3960 [Computational Processing of the Portuguese Language, Proceedings of the 7th International Workshop on Computational Processing of Written and Spoken Portuguese, PROPOR 2006], s. 50-59.