Språkmodell

Ein statistisk språkmodell tilordnar sannsynet til ein sekvens av m ord $P(w_{1},\ldots ,w_{m})$ med hjelp av ei sannsynsfordeling.

Språkmodellering er i bruk i mange ulike typar av program for prosessering av naturleg språk slik som taleattkjenning, maskinomsetjing, ordklassetagging, parsing og informasjonssøk.

I taleatkjenning og i datakomprimering prøver ein slik modell å fange eigenskapene til språket, og å spå neste ord i ein ordsekvens.

I informasjonssøk blir det laga ein språkmodell for kvart dokument i ei dokumentsamling. Med eit søk S som input blir innfanga dokument rangert basert på sannsynet for at språkmodellen M for kvart einskild dokument vil generere termane i søket, P(S|M_d).

Å estimere sannsynet til sekvensar er vanskeleg i korpora der fraser eller setningar kan vere svært lange, og visse sekvensar ikkje er observert i treningsfasen til språkmodellen (problemet med for få data). Derfor er slike modellar ofte gjort med tilpassa N-gram-modellar.

N-gram modellar

I ein n-gram-modell er sannsynet $P(w_{1},\ldots ,w_{m})$ for å observere sekvensen w₁,...,w_m estimert til

$P(w_{1},\ldots ,w_{m})=\prod _{i=1}^{m}P(w_{i}|w_{1},\ldots ,w_{i-1})\approx \prod _{i=1}^{m}P(w_{i}|w_{i-(n-1)},\ldots ,w_{i-1})$

Her går vi ut frå at sannsynet for å observere det i^-te ordet w_i i konteksthistoria til det føregåande i-1-ande ordet kan bli estimert av sannsynet for å sjå det i den forkorta historia til det føregåande n-1 ordet (n^-te ordens Markoveigenskap).

Vilkårssannsynet kan bli estimert frå n-gram-frekvensteljingar:

$P(w_{i}|w_{i-(n-1)},\ldots ,w_{i-1})={\frac {count(w_{i-(n-1)},w_{i-1},\ldots ,w_{i})}{count(w_{i-(n-1)},\ldots ,w_{i-1})}}$

Bigrams og trigrams språkmodeller refererer til n-gram-modellar der n=2 and n=3.

Eksempel

I ein bigrams språkmodell (n=2) er sannsynet for setninga Eg såg det raude huset estimert som

P(Eg,såg,det,raude,huset) ≈ P(Eg) P(såg|Eg) P(det|såg) P(raude|det) P(huset|raude)

mens i ein trigrams språkmodell (n=3) er estimeringa

P(Eg,såg,det,raude,huset) ≈ P(Eg) P(såg|Eg) P(det|Eg,såg) P(raude|såg,det) P(huset|det,raude)

Kjelde

Engelsk wikipedia

Litteratur

J M Ponte and W B Croft (1998). "A Language Modeling Approach to Information Retrieval Arkivert 2008-03-08 ved Wayback Machine.". Research and Development in Information Retrieval: 275-281.
F Song and W B Croft (1999). "A General Language Model for Information Retrieval Arkivert 2008-04-10 ved Wayback Machine.". Research and Development in Information Retrieval: 279-280.