Trebank

Frå Wikipedia – det frie oppslagsverket
Gå til: navigering, søk

Ein trebank er eit tekstkorpus der kvar setning er annotert med syntaktisk informasjon. Den syntaktiske strukturen blir oftast representert med ein trestruktur, difor namnet trebank. Trebankar kan nyttast til å studere syntaktiske fenomen i korpuslingvistikk, eller til å trene eller teste parserar i datalingvistikk.

Trebankar blir ofte skapt på grunnlag av eit korpus som allereie er annotert med syntaktiske kategoriar (såkalla POS-tagging). Trebankar på si side blir gjerne grunnlaget for korpus med semantisk, pragmatisk eller annan lingvistisk informasjon.

Trebankar kan skapast manuelt, ved at lingvistar annoterer kvar setning med den syntaktisk strukturen, eller halvautomatisk, der ein parser annoterer med ein struktur som lingvistar går gjennom og korrigerer.

Visse trebankar følgjer ein spesifikk lingvistisk teori i den syntaktiske annotasjonen (t.d. følgjer BulTreeBank teorien HPSG), men dei fleste prøver å vere mindre teori-spesifikke. Likevel kan ein finne to hovudgruppar her:

  1. trebankar som annoterer frasestruktur (t.d. Penn Treebank), dvs. dei viser syntaktisk dominans og presedens
  2. trebankar som annoterer dependentstruktur (t.d. Prague Dependency Treebank) eller trekkstruktur

Det finst mange måtar å representere den syntaktiske strukturen på, t.d. kan ein nytte enkle markerte parenteser i ein tekstfil, t.d. slik (etter Penn Treebank):

(S (NP (NNP John))
   (VP (VBZ loves)
       (NP (NNP Mary)))
   (. .))

eller ein kan t.d. nytte eit trebank-spesifikt XML-skjema.

TREPIL (prosjektside) er ein norsk trebank som nyttar halvautomatisk annotasjon, og byggjer på den LFG-baserte grammatikken frå NorGram.

TIGERSearch (hjemmeside) er eit gratis og ope program for å søkje gjennom trebankar, med båe grafisk og tekstleg brukargrensesnitt (ein kan t.d. søkje etter alle setningar i korpuset med genitive nominalfrasar dominert av andre nominalfrasar med adjektivfrasar som sysken).