Språkmodell

Frå Wikipedia – det frie oppslagsverket
Gå til: navigering, søk

Ein statistisk språkmodell tilordnar sannsynet til ein sekvens av m ord P(w_1,\ldots,w_m) med hjelp av ei sannsynsfordeling.

Språkmodellering er i bruk i mange ulike typar av program for prosessering av naturleg språk slik som taleattkjenning, maskinomsetjing, ordklassetagging, parsing og informasjonssøk.

I taleatkjenning og i datakomprimering prøver ein slik modell å fange eigenskapene til språket, og å spå neste ord i ein ordsekvens.

I informasjonssøk blir det laga ein språkmodell for kvart dokument i ei dokumentsamling. Med eit søk S som input blir innfanga dokument rangert basert på sannsynet for at språkmodellen M for kvart einskild dokument vil generere termane i søket, P(S|Md).

Å estimere sannsynet til sekvensar er vanskeleg i korpora der fraser eller setningar kan vere svært lange, og visse sekvensar ikkje er observert i treningsfasen til språkmodellen (problemet med for få data). Derfor er slike modellar ofte gjort med tilpassa N-gram-modellar.

N-gram modellar[endre | endre wikiteksten]

I ein n-gram-modell er sannsynet P(w_1,\ldots,w_m) for å observere sekvensen w1,...,wm estimert til


P(w_1,\ldots,w_m) = \prod^m_{i=1} P(w_i|w_1,\ldots,w_{i-1})
 \approx \prod^m_{i=1} P(w_i|w_{i-(n-1)},\ldots,w_{i-1})

Her går vi ut frå at sannsynet for å observere det i-te ordet wi i konteksthistoria til det føregåande i-1-ande ordet kan bli estimert av sannsynet for å sjå det i den forkorta historia til det føregåande n-1 ordet (n-te ordens Markoveigenskap).

Vilkårssannsynet kan bli estimert frå n-gram-frekvensteljingar:


P(w_i|w_{i-(n-1)},\ldots,w_{i-1}) = \frac{count(w_{i-(n-1)},w_{i-1},\ldots,w_i)}{count(w_{i-(n-1)},\ldots,w_{i-1})}

Bigrams og trigrams språkmodeller refererer til n-gram-modellar der n=2 and n=3.

Eksempel[endre | endre wikiteksten]

I ein bigrams språkmodell (n=2) er sannsynet for setninga Eg såg det raude huset estimert som

P(Eg,såg,det,raude,huset) ≈ P(Eg) P(såg|Eg) P(det|såg) P(raude|det) P(huset|raude)

mens i ein trigrams språkmodell (n=3) er estimeringa

P(Eg,såg,det,raude,huset) ≈ P(Eg) P(såg|Eg) P(det|Eg,såg) P(raude|såg,det) P(huset|det,raude)


Kjelde[endre | endre wikiteksten]

Engelsk wikipedia

Litteratur[endre | endre wikiteksten]