Stor språkmodell
Ein stor språkmodell (frå engelsk large language model, LLM) er ein type maskinlæringsmodell utvikla for oppgåver innan naturleg språkprosessering, og er kjenneteikna av evna si til å generera tekst. Dette er ein datalingvistisk sannsynsmodell som lærer statistiske samanhengar mellom ord og setningar frå eit stort utval av tekstdokument gjennom ein ressurskrevjande treningsprosess.
Store språkmodellar oppnår desse ferdigheitene gjennom bruk av enorme mengder data, og i treningsprosessen blir store mengder parametrar lært. Dette krev ekstremt mykje datakraft.[1] Store språkmodellar er i vid forstand kunstige nevrale nettverk og blir (a priori) anten trent gjennom sjølvtilsyn eller halv-overvaka læringsmetodar. Frå og med 2024 vert som oftast transformator brukt som nettverksarkitektur.[2]
Store språkmodellar fungerer som sjølvjusterande språkmodellar som «kan utføre ulike oppgåver i naturleg språk, til dømes oppsummere, omsetje, føresjå og skape tekstar, ved å ta ein inngangstekst og gjentekne gonger føresjå det neste tokenet eller ordet».[3] Fram til 2020 var den einaste måten å tilpasse ein modell til spesifikke oppgåver gjennom finjustering.[4] Større modellar, som den populære GPT-3, vart likevel designa slik at dei kan oppnå liknande resultat ved hjelp av såkalla Prompt Engineering.[5] I tillegg til evna til å lære seg kunnskap om syntaks, semantikk og «ontologi» i menneskelege tekstkorpus, vert det antatt at store språkmodellar òg kan fange opp skeivskapar og mangel på grannsemd i tekstkorpusa.[6]
LLM-ar vert til dømes nytta i Open Assistant, ChatGPT, Ernie Bot og Grok. Nokre store språkmodellar er GPT-modellserien frå OpenAI (som GPT-3.5 og GPT-4, brukt i ChatGPT og Microsoft Copilot), Google sine PaLM, Gemini og Gemma 2, LLaMA-familien frå Meta av open source-modellar, Anthropics Claude og Grok-1 frå X.AI. Det finst òg kraftige LLM-ar frå kinesiske selskap, som dei frå Alibaba, Deepseek, 01 AI og Zhipu AI.[7]
Historie
[endre | endre wikiteksten]På konferansen «Conference on Neural Information Processing Systems» (NeurIPS) i 2017 presenterte Google-forskarar under leiing av Ashish Vaswani Transformer-arkitekturen i artikkelen Attention Is All You Need.[8][9] Målet med dette publikasjonen var å forbetre Seq2seq-teknologien frå 2014, og det bygde hovudsakleg på den såkalla oppmerksame mekanismen («attention mechanism») utvikla av Bahdanau et al. i 2014.[10] I det påfølgjande året, 2018, vart språkmodellen BERT introdusert og raskt «allestadsnærverande». Sjølv om den opphavlege Transformer-modellen både hadde encoder- og decoder-blokker, er BERT ein rein encoder-modell.[11]
Sjølv om GPT-1 vart introdusert i 2018 som ein rein decoder-modell, fekk GPT-2 i 2019 mykje merksemd, då OpenAI først vurderte modellen som for kraftig til å offentleggjerast av frykt for vondarta bruk. GPT-3 i 2020 tok endå eit steg framover og er frå 2024 berre tilgjengeleg gjennom ein API, utan moglegheit for å laste ned modellen for lokal bruk. Det nettlesarbaserte ChatGPT frå 2022 «endra verda fullstendig».[12] I 2023 vart GPT-4 skrytt for auka grannsemd og som ein «heilag gral» for multimodale dugleikar.[13] OpenAI gav ikkje ut høgnivåarkitekturen eller talet på parametrar i GPT-4.
Samtidig har konkurrerande språkmodellar i stor grad kome på nivå med GPT-serien, iallfall når det gjeld talet på parametrar.[14] Blant dei merkbare unntaka i talet på parametrar er Googles T5-11B frå 2019 og PaLM-E frå 2022. Den 26. januar 2024 overgjekk Googles Gemini Pro GPT-4[15] når det gjaldt Elo-rangering.
Sidan 2022 har open source-modellar vorte stadig meir populære, først og fremst BLOOM og LLaMA, sjølv om begge har visse avgrensingar i bruksområdet. I januar 2024 var Mixtral 8x7b frå Mistral AI ifølge LMSYS Chatbot Arena Leaderboard den mest kraftfulle opne LLM-en, meir kraftfull enn GPT-3.5, men ikkje like kraftfull som GPT-4.[16]
Maskinvare
[endre | endre wikiteksten]I tillegg til grafikkprosessorar har det i fleire år vore chiparkitekturar som er optimaliserte for trening og inferens av store nevrale nettverk. Til dømes vart den første versjonen av Google sin Tensor Processing Unit (TPU) lansert i 2016. Sidan 2020-talet har det kome ei rekkje produsentar med spesial-maskinvare for handtering av LLM-ar. Til dømes har Cerebras lansert CS-1, CS-2 og CS-3, AMD har Instinct-serien, Intel har Gaudi-plattforma, og Nvidia har Hopper og den påfølgjande Blackwell, som anten er lanserte eller annonserte.
Multimodal læring
[endre | endre wikiteksten]Multimodal læring brukar data med ulike struktur i kunstig intelligens:[17]
- Tekst er ei av dei mest brukte modalitetane i maskinlæring. Tekstdata inneheld strukturerte informasjonar, og med bruk av naturleg språkbehandling kan ein lett trekkje kunnskap frå dei. Teknikkar som vert nytta til dette inkluderer tokenisering, lemmatisering, syntaksanalyse, gjenkjenning av namngjevne einingar og tekstanalyse.
- Bilete er ei viktig kjelde til visuell informasjon. Gjennom Convolutional Neural Networks har store framsteg blitt oppnådde i forståinga av bilete. Teknikkar som vert nytta her inkluderer til dømes objektdeteksjon, ansiktsgjenkjenning og segmentering av bilete.
- Lydmodalitet inkluderer informasjon frå lydopptak, lydfiler eller direkte strøyming av lyd.
- Videoar er ei kraftig kjelde til multimodale data, fordi dei kombinerer visuelle og auditive informasjonar. Gjennom teknikkar innan Computer Vision og lydhandsaming kan ein trekkje kunnskap frå ei videosekvens. Dette gjer det mogeleg å identifisere rørsler, analysere menneskelege aktivitetar eller til og med gjenkjenne gestar.
Bootstrapping Language-Image Pretraining
[endre | endre wikiteksten]Dei fleste moderne visjon-språk-modellane krev høg reknekraft under trening, fordi treninga vert utført med store modellar og datasett, til dømes Contrastive Language-Image Pre-training (CLIP). Forskninga skjer i skjæringspunktet mellom bilete og språk. Det er derfor venta at visjon-språk-modellar kan dra nytte av lett tilgjengelege unimodale modellar frå biletegjenkjenning og naturleg språkgjenkjenning.
Førehandsopplærte visjonsmodellar gjev høgkvalitets visuelle representasjonar. Førehandsopplærte språkmodellar, spesielt store språkmodellar, tilbyr kraftige evner innan språkproduksjon og Zero-Shot-overføring. For å redusere kostnadar og unngå problemet med katastrofal gløyming, vert unimodale førehandsopplærte modellar fryste under førehandsopplæringa. Fordi store språkmodellar ikkje har sett bilete under den unimodale førehandsopplæringa, vert det å fryse modellane ein særskilt utfordrande prosess for visuell-språk-tilpassing.[18]
Kollaps
[endre | endre wikiteksten]For LLM-ar og grunnmodellar av annan type (VAE, GMM) kan det gjennom kontinuerleg trening under bruk oppstå ein vedvarande, og til og med ubrukande, reduksjon i kvaliteten på resultat. Dette vert kalla modellkollaps (model collapse). Dette gjeld særleg for seinare modellversjonar som vert trena med ein aukande del kunstig genererte data, altså data som stammar frå andre LLM-ar. Ein føresortering av data, som vanlegvis vert henta gjennom webskraping, ser så langt ut til å vere for ressurskrevjande.[19]
Kjelder
[endre | endre wikiteksten]- ↑ «Better language models and their implications» (på engelsk). Henta 7. april 2025.
- ↑ Rick Merritt (25. mars 2022). «What Is a Transformer Model?» (på engelsk). Henta 7. april 2025.
- ↑ Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. herS. 319) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. Eight Things to Know about Large Language Models.
- ↑ «Was ist Feinabstimmung? | IBM» (på tysk). 15. mars 2024. Henta 7. april 2025.
- ↑ Brown, Tom and Mann, Benjamin and Ryder, Nick and Subbiah, Melanie and Kaplan, Jared D and Dhariwal, Prafulla and Neelakantan, Arvind and Shyam, Pranav and Sastry, Girish and Askell, Amanda; et al. (2020). «Language models are few-shot learners» (PDF). Advances in neural information processing systems 33: 1877––1901.
- ↑ «Human Language Understanding & Reasoning» (på engelsk). 13. april 2022. Henta 7. april 2025.
- ↑ Markus Städeli (14. desember 2024). «Die Rangliste der weltbesten KI-Chatbots zeigt: Bei der künstlichen Intelligenz ist China den amerikanischen Anbietern dicht auf den Fersen». NZZ am Sonntag (på tysk). Henta 7. april 2025.
- ↑ Ashish Vaswani; et al. «Attention is all you need» (PDF) (på engelsk). Henta 8. april 2025.
- ↑ Rob Toews. «Transformers Revolutionized AI. What Will Replace Them?» (på engelsk). Henta 8. april 2025.
- ↑ Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio (1. september 2014). «Neural Machine Translation by Jointly Learning to Align and Translate» (på engelsk). Henta 8. april 2025.
- ↑ Was ist BERT? – von Stefan Luber, über Bigdata-Insider, 10 mai 2022.
- ↑ «ChatGPT turns 1: How the AI chatbot has completely changed the world» (på engelsk). 30. november 2023. Henta 8. april 2025.
- ↑ «GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why» (på engelsk). Henta 8. april 2025.
- ↑ «Parameters in notable artificial intelligence systems» (på engelsk). Our World in Data. 3. april 2024. Henta 8. april 2025.
- ↑ Siddharth Jindal (27. januar 2024). «Google's Gemini Pro Beats GPT-4» (på engelsk). Henta 8. april 2025.
- ↑ «LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys». Henta 8. april 2025.
- ↑ «Multimodal Learning: Die Technik, die die künstliche Intelligenz revolutioniert». Weiterbildung Data Science | DataScientest.com (på tysk). 17. august 2023. Henta 8. april 2025.
- ↑ Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi (2023). «BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models». doi:10.48550/ARXIV.2301.12597.
- ↑ Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal (25. juli 2024). «AI models collapse when trained on recursively generated data». Nature 631: 755–759. ISSN 0028-0836. PMID 39048682. doi:10.1038/s41586-024-07566-y. Henta 8. april 2025.
- Denne artikkelen bygger på innleiinga av «Large Language Model» frå Wikipedia på tysk den 7. april 2025.
Bakgrunnsstoff
[endre | endre wikiteksten]- «Kva er ein stor språkmodell?». Helsedirektoratet. 6. mai 2024. Henta 6. april 2025.