Språkmodell
Ein statistisk språkmodell tilordnar sannsynet til ein sekvens av m ord med hjelp av ei sannsynsfordeling.
Språkmodellering er i bruk i mange ulike typar av program for prosessering av naturleg språk slik som taleattkjenning, maskinomsetjing, ordklassetagging, parsing og informasjonssøk.
I taleatkjenning og i datakomprimering prøver ein slik modell å fange eigenskapene til språket, og å spå neste ord i ein ordsekvens.
I informasjonssøk blir det laga ein språkmodell for kvart dokument i ei dokumentsamling. Med eit søk S som input blir innfanga dokument rangert basert på sannsynet for at språkmodellen M for kvart einskild dokument vil generere termane i søket, P(S|Md).
Å estimere sannsynet til sekvensar er vanskeleg i korpora der fraser eller setningar kan vere svært lange, og visse sekvensar ikkje er observert i treningsfasen til språkmodellen (problemet med for få data). Derfor er slike modellar ofte gjort med tilpassa N-gram-modellar.
N-gram modellar
[endre | endre wikiteksten]I ein n-gram-modell er sannsynet for å observere sekvensen w1,...,wm estimert til
Her går vi ut frå at sannsynet for å observere det i-te ordet wi i konteksthistoria til det føregåande i-1-ande ordet kan bli estimert av sannsynet for å sjå det i den forkorta historia til det føregåande n-1 ordet (n-te ordens Markoveigenskap).
Vilkårssannsynet kan bli estimert frå n-gram-frekvensteljingar:
Bigrams og trigrams språkmodeller refererer til n-gram-modellar der n=2 and n=3.
Eksempel
[endre | endre wikiteksten]I ein bigrams språkmodell (n=2) er sannsynet for setninga Eg såg det raude huset estimert som
P(Eg,såg,det,raude,huset) ≈ P(Eg) P(såg|Eg) P(det|såg) P(raude|det) P(huset|raude)
mens i ein trigrams språkmodell (n=3) er estimeringa
P(Eg,såg,det,raude,huset) ≈ P(Eg) P(såg|Eg) P(det|Eg,såg) P(raude|såg,det) P(huset|det,raude)
Kjelde
[endre | endre wikiteksten]Engelsk wikipedia
Litteratur
[endre | endre wikiteksten]- J M Ponte and W B Croft (1998). "A Language Modeling Approach to Information Retrieval Arkivert 2008-03-08 ved Wayback Machine.". Research and Development in Information Retrieval: 275-281.
- F Song and W B Croft (1999). "A General Language Model for Information Retrieval Arkivert 2008-04-10 ved Wayback Machine.". Research and Development in Information Retrieval: 279-280.