Transformator i djuplæring
Ein transformator i djuplæringsarkitektur er ein modell innan kunstig intelligens, utvikla av forskarar hos Google i 2017. Arkitekturen er basert på ein såkalla multi-head attention-mekanisme, der modellen lærer å vektleggje ulike delar av inndataen avhengig av konteksten. Transformatorar har sidan vorte grunnlaget for moderne språkmodellar og andre system innan maskinlæring.
Grunntrekk
[endre | endre wikiteksten]Transformatormodellen blei introdusert i forskingsartikkelen Attention Is All You Need publisert under konferansen Neural Information Processing Systems (NeurIPS) i 2017.[1] I modellen blir tekst først omforma til såkalla token – numeriske representasjonar – som deretter blir gjort om til vektorar via ei embedding-tabell.[1] Kvart lag i modellen analyserer konteksten rundt kvar token gjennom ein parallell multi-head attention-mekanisme. Dette gjer at viktige token får sterkare vekting, medan mindre relevante token vert tona ned.
Til skilnad frå tidlegare modellar som rekurrente nevrale nettverk (RNN), til dømes long short-term memory (LSTM),[2] har transformatorar «ikkje rekurrent struktur». Tradisjonelle RNN-modellar handsamar inndata steg for steg og tek omsyn til tidlegare steg i rekkja. Dette kan vere nyttig for sekvensielle data, men det fører ofte til lengre treningstid og krevjande skalering.
Transformatorar handsamar derimot heile datastrukturen parallelt. Dei nyttar ein merksemdsmekanisme som gjer at modellen kan vurdere alle element i sekvensen samstundes. Dette aukar effektiviteten og gjer modellen betre eigna til å lære frå store datamengder.[3]
Opphavleg var transformatorar ein reaksjon på avgrensingane i tidlegare sekvensielle modellar. Medan RNN og LSTM måtte lære ein sekvens gjennom tid, kan transformatorar lære relasjonar mellom element uavhengig av posisjon. Seinare har ein utvikla ulike variantar, som til dømes lineære transformatorar og sparse attention-modellar, for å gjere prosesseringa endå raskare og meir ressursvenleg.
Bruksområde
[endre | endre wikiteksten]Transformatorar blei først utvikla for maskinomsetjing,[4][5] men har sidan fått ei lang rekkje bruksområde. Dei vert nytta i naturleg språk-prosessering (NLP), bilethandsaming (t.d. Vision Transformers), forsterkande læring,[6][7] lydprosessering,[8] multimodal læring, robotikk,[9] strategiske spel, som sjakk.[10]
Modellen ligg også til grunn for fleire store ferdigtrente system, til dømes: BERT (Bidirectional Encoder Representations from Transformers),[11] og GPT (Generative Pre-trained Transformer, norsk: generativ førehandstrent transformator).[12]
Kjelder
[endre | endre wikiteksten]- ↑ 1,0 1,1 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). «Attention is All you Need» (PDF). Advances in Neural Information Processing Systems (Curran Associates, Inc.) 30.
- ↑ Hochreiter, Sepp; Schmidhuber, Jürgen (1 November 1997). «Long Short-Term Memory». Neural Computation 9 (8): 1735–1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735.
- ↑ «Better Language Models and Their Implications», OpenAI, 14. februar 2019, arkivert frå originalen 19. desember 2020, henta 25. august 2019
- ↑ Bahdanau; Cho, Kyunghyun; Bengio, Yoshua (September 1, 2014). «Neural Machine Translation by Jointly Learning to Align and Translate». arXiv:1409.0473 [cs.CL].
- ↑ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (August 17, 2015). «Effective Approaches to Attention-based Neural Machine Translation». arXiv:1508.04025 [cs.CL].
- ↑ Chen, Lili; Lu, Kevin; Rajeswaran, Aravind; Lee, Kimin; Grover, Aditya; Laskin, Michael; Abbeel, Pieter; Srinivas, Aravind; Mordatch, Igor (24. juni 2021), Decision Transformer: Reinforcement Learning via Sequence Modeling, arXiv:2106.01345
- ↑ Parisotto, Emilio; Song, Francis; Rae, Jack; Pascanu, Razvan; Gulcehre, Caglar; Jayakumar, Siddhant; Jaderberg, Max; Kaufman, Raphaël Lopez; Clark, Aidan; Noury, Seb; Botvinick, Matthew; Heess, Nicolas; Hadsell, Raia (21. november 2020). «Stabilizing Transformers for Reinforcement Learning». Proceedings of the 37th International Conference on Machine Learning (på engelsk) (PMLR): 7487–7498.
- ↑ Radford, Alec; Jong Wook Kim; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). «Robust Speech Recognition via Large-Scale Weak Supervision». arXiv:2212.04356 [eess.AS].
- ↑ Monastirsky, Maxim; Azulay, Osher; Sintov, Avishai (February 2023). «Learning to Throw With a Handful of Samples Using Decision Transformers». IEEE Robotics and Automation Letters 8 (2): 576–583. ISSN 2377-3766. doi:10.1109/LRA.2022.3229266.
- ↑ Ruoss, Anian; Delétang, Grégoire; Medapati, Sourabh; Grau-Moya, Jordi; Wenliang, Li; Catt, Elliot; Reid, John; Genewein, Tim (7. februar 2024). «Grandmaster-Level Chess Without Search». arXiv:2402.04494v1 [cs.LG].
- ↑ «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing», Google AI Blog, 2 November 2018, arkivert frå originalen 13. januar 2021, henta 25. august 2019
- ↑ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). «Transformers: State-of-the-Art Natural Language Processing». Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. s. 38–45. doi:10.18653/v1/2020.emnlp-demos.6.
- Denne artikkelen bygger på innleiinga av «Transformer (deep learning architecture)» frå Wikipedia på engelsk den 11. april 2025.
Bakgrunnsstoff
[endre | endre wikiteksten]- DeepAI – «Recurrent Neural Network», henta 11. april 2025.