Hopp til innhald

Språkmodell

Frå Wikipedia – det frie oppslagsverket

Ein statistisk språkmodell tilordnar sannsynet til ein sekvens av m ord med hjelp av ei sannsynsfordeling.

Språkmodellering er i bruk i mange ulike typar av program for prosessering av naturleg språk slik som taleattkjenning, maskinomsetjing, ordklassetagging, parsing og informasjonssøk.

I taleatkjenning og i datakomprimering prøver ein slik modell å fange eigenskapene til språket, og å spå neste ord i ein ordsekvens.

I informasjonssøk blir det laga ein språkmodell for kvart dokument i ei dokumentsamling. Med eit søk S som input blir innfanga dokument rangert basert på sannsynet for at språkmodellen M for kvart einskild dokument vil generere termane i søket, P(S|Md).

Å estimere sannsynet til sekvensar er vanskeleg i korpora der fraser eller setningar kan vere svært lange, og visse sekvensar ikkje er observert i treningsfasen til språkmodellen (problemet med for få data). Derfor er slike modellar ofte gjort med tilpassa N-gram-modellar.

N-gram modellar

[endre | endre wikiteksten]

I ein n-gram-modell er sannsynet for å observere sekvensen w1,...,wm estimert til

Her går vi ut frå at sannsynet for å observere det i-te ordet wi i konteksthistoria til det føregåande i-1-ande ordet kan bli estimert av sannsynet for å sjå det i den forkorta historia til det føregåande n-1 ordet (n-te ordens Markoveigenskap).

Vilkårssannsynet kan bli estimert frå n-gram-frekvensteljingar:

Bigrams og trigrams språkmodeller refererer til n-gram-modellar der n=2 and n=3.

I ein bigrams språkmodell (n=2) er sannsynet for setninga Eg såg det raude huset estimert som

P(Eg,såg,det,raude,huset) ≈ P(Eg) P(såg|Eg) P(det|såg) P(raude|det) P(huset|raude)

mens i ein trigrams språkmodell (n=3) er estimeringa

P(Eg,såg,det,raude,huset) ≈ P(Eg) P(såg|Eg) P(det|Eg,såg) P(raude|såg,det) P(huset|det,raude)


Engelsk wikipedia

Litteratur

[endre | endre wikiteksten]