Wikipedia:Wikiprosjekt Maskinomsetjing frå bokmål/Manglande omsetjingar

Frå Wikipedia – det frie oppslagsverket
Hopp til navigering Hopp til søk

Arbeidet med apertium-nn-nb er no godt i gang, men me kunne trengt litt hjelp med omsetjingsordbøkene. Det er mange omsetjingar som ikkje har blitt manuelt sjekka enno, og ein del ord som ikkje har omsetjingar definert enno. På denne wiki-sida kan du enkelt bidra med forslag til omsetjingar! Du kan au leggje til #Feil i noverande omsetjingar der du finn dei.

I Apertium kan ein på ein enkel måte leggje til ulike variantar i ordbøkene, men foreløpig er det berre definert éin standard (oftast basert på frekvens i korpus, sjå [1] og [2]). Det er altså fullt mogleg å lage ein nn.wiki-variant av Apertium :-)

I lista nedanfor står det

  • bokmålsord > standard_nynorskord | alternative_nynorskord | ...

Så om du synst tilgang er den beste omsetjinga av adgang kan du t.d. skrive

  • adgang (m) > tilgang

eller au kome med fleire forslag:

  • adgang (m) > tilgang | tilgjenge | åtkome | å koma åt

Den siste omsetjinga her ville det vore fint å kunne nytta, men omsetjing til slike frasar krev ein god del meir arbeid (og er generelt eit stort problem innan maskinomsetjing); det er greit å ta dei med for framtida, men me kan nok diverre ikkje nytte dei heilt enno. Så det er gode ord-til-ord-omsetjingar som gir raskast resultat. Partikkelverb er mogleg, t.d.

  • iverksette (v) > setje i verk

men i visse kontekstar vil desse gi feil syntaks (NSB iverksetter ekstra tiltak for å takle kulden=>NSB set i verk ekstra tiltak for å takle kulda, men Iverksetter NSB ekstra tiltak for å takle kulden?=>Set i verk NSB ekstra tiltak for å takle kulda?) og det krev meir enn berre ordboksarbeid for å få slikt retta opp, så enkeltord er «sikrast».


Vil du leggje til ein kommentar, gjer du slik:

* amerikansk (nt) > ...
** språket, altså; t.d. «eit merkeleg amerikansk» ~~~~
* arabisk (nt) > ...

Eg flytter linjer herfrå inn i omsetjingsordboka etter kvart som det kjem forslag (eg legg dei over på diskusjonssida au i same slengen). Sjølve omsetjingsordboka kan lesast her (XML-format, sjå denne Apertium-wikisida for meir informasjon).Kiwibird 6. juli 2009 kl. 09:18 (CEST)[svar]

Er det noko som er uklart med dette, spør Unhammer på irc://irc.freenode.net/#apertium (webchat: http://xixona.dlsi.ua.es/cgi-bin/cgiirc/irc.cgi ), eller på GTalk/Gmail (dvs. Kiwibird på nn.wiki).

Omsetjingar for ord som manglar[endre wikiteksten]

Kategorisert etter ordklasse til bokmålsordet. Kjønn på bokmålssida står i parentes (nt for inkjekjønn, m for hankjønn, mf der det er mogleg å ha hokjønn). Adjektiv avleidd frå verb står under verboppslaget sitt (sjå kringsetje for kringsett, osb.), ein del av oppslaga i adjektivlista høyrer heime i verblista.

  • nt – inkjekjønn
  • m – hankjønn
  • f – hokjønn
  • m|f – hankjønn men og mogeleg med hokjønn (gjeld generelt for hokjønnsord på bokmål)
  • ut – felleskjønn (utrum)

Substantiv[endre wikiteksten]

  • forgrening
  • alkaner > alkanar

Verb[endre wikiteksten]

  • spende >
    • Finn ikkje i bokmålsordboka
  • spøle >
    • Finn ikkje i bokmålsordboka
  • innføle >
    • Finn ikkje i bokmålsordboka
  • møne >
    • Finn ikkje som verb i bokmålsordboka
  • genierklære >
    • «erklære som geni» er vel det beste ein kan kome opp med, men det går vel ikkje an å bruke?
    • Jo... men me ventar litt med den (problematisk med objekt oppi der, og adjektivformer: den genierklærte studenten => den erklærte som geni studenten?)--Kiwibird 16. februar 2010 kl. 11:23 (CET)[svar]
  • hentære >
    • Finn ikkje i bokmålsordboka
  • henføre >
    • Finst ikkje noko nynorskord som dekkjer både tydinga «begeistre» og «plassere, rekne til»
  • påhøre >
    • Finn ikkje i bokmålsordboka
  • kull-lyse > lyse i kull og kjønn
  • kullyse > lyse i kull og kjønn
  • somres > li mot sommar, somrast
  • vintres > li mot vinter, vintrast
  • brennbar

Adjektiv[endre wikiteksten]

  • bemerkelsesverdig
  • primært, sekundært, tertiært, osv.
    • Det same som på bokmål

Adverb[endre wikiteksten]

  • hånt > nedsetjande
    • «late hånt om» gir problem her, ventar med denne --Kiwibird 26. januar 2010 kl. 14:20 (CET)[svar]
      • Går det ikkje an å leggje inn omsetjing av heile uttrykket: «late hånt om» → «snakke nedsetjande om»? --EIRIK\diskusjon 29. januar 2010 kl. 15:08 (CET)[svar]

Stad- og personnamn[endre wikiteksten]

Desse skal som oftast ikkje omsetjast, men om dei manglar frå ordbøkene kan det føre til feil i resten av setninga; dette er altså ei liste over manglande stadnamn:

  • Gascogne
  • Anjou
  • Meltveit
  • Dagestad
  • Leon
  • Nordanger
  • Ramsdal
  • Shetlandsøyene > Shetlandsøyane
  • Deceptionøya
  • Baptiste
  • Charcot
  • Shackleton
  • Weddellhavet
  • Elefantøya
  • Hubert
  • Wilkins
  • Antarktishalvøya

Andre notat[endre wikiteksten]

  • Nasjonalitetsord som chilensk/chilenar og argentinsk/argentinar manglar.
    • Desse er eg i ferd med å lage ei liste over. --EIRIK\diskusjon 29. januar 2010 kl. 15:08 (CET)[svar]

Feil i noverande omsetjingar[endre wikiteksten]

  • «Skipet» (eit skip) vert til «skipa» (som i verbet).
  • «årene», som i «1960-årene», vert til «årane» (som i «ei åre»). Vil tru omsetjing til [1960-]åra burde vore prioritert føre årane.
  • «Skipet satte kurs mot» vert til «Skipa sindige kurs mot».
  • Mange forkortingar som «km», «cm» osv. vert skrivne med store bokstavar «KM», «CM» etter å ha gått gjennom omsetjinga. Står forkortinga til sist i ei setning med punktum bak, forsvinn òg punktumet.
  • «til havs» vert «til hav sine». Gjeld òg til lands, til bords, til fjells og til sjøs.
  • «store deler av» vert «store dele av»

--Frokor (diskusjon) 28. oktober 2012 kl. 14:23 (CET)[svar]


  • «[farlige] greier» vert til «greie»
    • Det blir rett her, har du andre kontekstar kor det skjer?
      • Mogleg det er retta. Hugsar ikkje nøyaktig kontekst, men det var med bruk av Bergens Tidende-motoren. --EIRIK\diskusjon 29. januar 2010 kl. 15:08 (CET)[svar]
  • «området» vert til «områdde»
    • Kan du gi meir kontekst? («å område» er eit verb.) --Kiwibird 29. januar 2010 kl. 10:35 (CET)[svar]
      • Det var substantivet «eit område» det var snakk om. Har ikkje kontekst, men meiner å ha sett det fleire gonger. Vi kan sikkert fjerne det, for så å leggje det til att med nøyaktig kontekst viss det dukkar opp igjen. --EIRIK\diskusjon 29. januar 2010 kl. 15:08 (CET)[svar]
  • «[det tar] sin tid» vert til «tida si»
  • «Les mer» vert til «Blir Ledd mer»
  • «Les også» vert til «Blir òg ledd» / «Least òg»
    • Kontekst? I SVN blir desse to «Les meir» og «Les òg».
      • På artiklar med bruk av BT-motoren. Er sikkert retta på no som du la til spesifikke unntakk for «les» --EIRIK\diskusjon 29. januar 2010 kl. 15:08 (CET)[svar]
  • «høres» vert til «hørst»
    • I kva kontekst? Eg får «høyrst» utan kontekst («høres» er partisipp av «høres», «høyrst» er partisipp av «høyrast»).
      • Vi kan sikkert fjerne det, for så å leggje det til att med nøyaktig kontekst viss det dukkar opp igjen. --EIRIK\diskusjon 29. januar 2010 kl. 15:08 (CET)[svar]

Retta på[endre wikiteksten]

  • «les» vert til «least»
    • La til spesifikke unntak så dette bør ikkje skje lenger i byrjinga av ei setning, men gi kontekst viss det skjer andre stader.
  • «øvd» vert til «øvt», men «øvd» er vel meir brukt her?
    • Retta (utanom som nøytrumsadjektiv, «eit øvt menneske» -- eller skal me ta den au?). Same paradigme gjeld au «prøve», «leve», «duge», «vade», «arbeide», m.fl -- bør me dele opp dette i to paradigme? --Kiwibird 29. januar 2010 kl. 10:22 (CET)[svar]
      • Nei, eg vil gjerne ha «eit øvt menneske», og eg synest ikkje vi bør dele opp i to paradigme her. --EIRIK\diskusjon 29. januar 2010 kl. 15:08 (CET)[svar]
  • «tenke» vert til «tenkja», men det er vel ikke brukt a-infinitiv elles?
    • Retta, takk!
  • «innlemme» er vel ei meir vanleg omsetjing enn «innleme»
    • Retta.
  • Litt «alvorleg»: «ett» vert til «éit» i staden for «eitt»
    • Skal vere retta i SVN no, men må sjekkast...
  • «heter» vert til «heitar» i staden for «heiter»
    • Retta. «å heite, heitar» har tydinga truge, skremme -- Norsk Ordbank skil dessverre ikkje mellom ulike tydingar med same grunnform, så det finst nok ein god del slike feil rundt omkring. --Kiwibird 29. januar 2010 kl. 10:06 (CET)[svar]
      • Men «heiter» vil jo vere rettast i dei fleste tilfelle. Er det ikkje mogleg å velje det som «standardomsetjing»? --EIRIK\diskusjon 29. januar 2010 kl. 15:08 (CET)[svar]
        • Jo, og det er som sagt retta no. Eg meinte berre å seie at det nok finst liknande «feil» rundt omkring... --Kiwibird 16. februar 2010 kl. 10:59 (CET)[svar]
  • «seilte» vert til «seglte» – dette er sideform, eg føretrekk «segla»
    • Retta. Same endring går au utover «svare», «regne», «klare», «vare», «regne» m.fl. (dei er definert med same bøyingsparadigme, men det kan me endre på om det er ønske om ulike paradigme for visse av orda). --Kiwibird 29. januar 2010 kl. 10:22 (CET)[svar]
      • Ynskjer paradigme for «klare» og «vare». --EIRIK\diskusjon 29. januar 2010 kl. 15:08 (CET)[svar]
  • «Sogn og Fjordane» vert til «Sokn og Fjordane»
    • Retta.
  • «leder» vert til «ledar» i staden for «leiar»
    • Om det var disambiguert til eit substantiv («en leder gikk forbi») gjekk det bra, men verbet hadde feil omsetjing; skal vere rett no.
  • «nesten» vert til «nestan»
    • Retta.
  • «engang» vert til «eigong»
    • Retta.

Nokre feil i 2019[endre wikiteksten]

Her er ein del feil som stadig går att:

"1980-årene" og liknande blir framleis omsett til *"1980-årane" og ikkje "1980-åra" (men "årene" for seg sjølv blir til "åra").

Pronomena "sitt" og "sine" blir tekne for verb og retta til "sit" og "sina". "Dette" blir gjort om til "detta". Dette er ganske høgfrekvente ord, så det hadde kanskje vore betre å ikkje omsetja dei slik?

Ifølgje Rettskrivinga frå 2012 er preteritumsforma av "å føra" "førte", ikkje *"førde". Dette gjeld også samansette ord som innførte, gjennomførte osb. *"Erklærde" er ein annan feil eg har sett dukka opp, rett form no er "erklærte".

Apertium-omsetjinga er blitt ganske flink til å laga bestemt form, men det blir ikkje heilt rett å skriva "den 13. desemberen" og liknande. Er det mogleg å leggja inn unntak?

Eg veit ikkje om dette er rette staden å melda om feil på (kva seier @Trondtr:?), men det er betre å dokumentera mens eg hugser. --Ranveig (diskusjon) 13. juli 2019 kl. 17:41 (CEST)[svar]

Hei. Ja, Dette er ein bra stad å melde i frå. Kevin har arbeidd meir med denne enn eg, men eg skal sjå kva eg får til, og seie i frå til han direkte etter kvart. Alt dette er det mogleg å ordne. For "årene" > "åra" skal vi berre plukke ut rett substantiv på bokmål, og problemet med "sitt", "sine" og "dette" er det same (for dårleg analyse av bokmål). For verba gjeld det å reklassifisere ein del verb, eg kaln sjå på det. Det der med den 13. desemberen forstår eg ikkje heilt. Eg har også sett det, men når eg no pröver å repetere det med apertium, får eg rett resultat (13. desember) og ikkje feil (13. desemberen), dvs. det er problematisk å rette. Elles er eg samd med deg: Resultatet er ikkje så verst, men akkurat desse problema er dei mest irriterande. Så la oss sjå. Trondtr (diskusjon) 13. juli 2019 kl. 21:21 (CEST)[svar]
Eg har no sett på dette. Lokalt fekk eg dei same feila som deg (og eg har sjølv sett dei i wp-grensesnittet). Eg laga ein regel for år vs. åre, den ser ut til å disambiguere rett, i alle fall for bruk i kvantorfraser. Då eg kompilerte MT-systemet såg eg at eg ikkje hadde gjort den rett, versjonen min var ikkje oppdatert. Då eg oppdaterte den fungerte førte og 13. desember. Det vi no må spørje oss om er dermed om rutinene for oppdatering frå Apertium til WP-grensesnittet for apertiumomsetjing fungerer. Eg skal undersøke. Kom gjerne med døme som ikkje fungerer no, evt. samanlikn dei med MT på Apertium-sida. Trondtr (diskusjon) 13. juli 2019 kl. 21:50 (CEST)[svar]
Omsetjingsverktøyet på Wikipedia er tydelegvis ikkje oppdatert med siste Apertium-versjon. Bokmålsteksten for liberisk dollar blei rett omsett på apertium.org, men ikkje her. Av erfaring frå Translatewiki veit eg at det kan gå ei god stund før omsetjingar blir lagt inn, så kanskje det framleis er håp. --Ranveig (diskusjon) 14. juli 2019 kl. 10:03 (CEST)[svar]
Det er jo bra at vi får lokalisert problemet: Nokon må oppdatere. Eg seier i frå på [3]. Trondtr (diskusjon) 14. juli 2019 kl. 17:47 (CEST)[svar]

Manglar i 2020[endre wikiteksten]

  • korsfarer > krossfarar, krossfararen, krossfararar, krossfararane. --Ranveig (diskusjon) 15. juni 2020 kl. 08:17 (CEST)[svar]
  • korstog > krosstog