Nagy nyelvi modell

A nagy nyelvi modell (angolul Large language model, LLM) olyan számítási modell, amely képes nyelv generálására, vagy más természetes nyelvi feldolgozási feladatok elvégzésére. Mint nyelvi modellek, az LLM-ek úgy sajátítják el ezeket a képességeket, hogy óriási mennyiségű szövegből, egy önfelügyelt és egy félig felügyelt tanulási folyamat során, statisztikai összefüggéseket tanulnak meg.^[1]

A legnagyobb és legtehetségesebb LLM-ek 2024 augusztusában, mesterséges neurális hálózatok, amelyeket csak dekóderes, transzformer alapú architektúrával építettek. Ez lehetővé teszi számukra a nagy léptékű (hatalmas mennyiségű, heterogén tartalmú, sokféle forrásból származó^[2]) szöveges adatok hatékony feldolgozását és generálását. A modern modellek a konkrét feladatokhoz finomhangolhatók, és prompt mérnöki tevékenységgel irányíthatók.^[3] Ezek a modellek prediktív képességet sajátítanak el az emberi nyelvi korpuszokban rejlő szintaxis, szemantika és ontológiák tekintetében, ugyanakkor öröklik mindazt a pontatlanságot és torzítást (bias), amely az általuk betanult adatokban jelen volt.^[4]

Néhány nevezetes LLM: az OpenAI GPT modellsorozata (pl. a GPT-3.5, a GPT-4, valamint a GPT-4o ; amelyet a ChatGPT-ben és a Microsoft Copilotban használtak fel); a Google Gemini (ez utóbbit jelenleg az azonos nevű chatbotban használatos ); a Meta LLaMA modellcsaládja; az IBM eredetileg Watsonx-szel kiadott Granite modelljei; az Anthropic Claude modelljei; és a Mistral AI modelljei.

Története

2017 előtt volt néhány olyan nyelvi modell, amelyek az akkor elérhető képességekhez viszonyítva nagyok voltak. Az 1990-es években az IBM igazítási modellek (olyan, egyre összetettebb modellek sorozatáról van szó, amelyeket a statisztikai gépi fordításban használnak) úttörő szerepet játszottak a statisztikai nyelvi modellezésben. 2001-ben egy simított, 0,3 milliárd szóra kiképzett n-gram modell elérte az akkori SOTA (a technika legkorszerűbb) perplexitását. A 2000-es években, amikor az internethasználat elterjedt, néhány kutató internetes léptékű nyelvi adatkészleteket konstruált ("web as corpus"^[5] ), amelyek alapján statisztikai nyelvi modelleket képeztek ki.^[6]^[7] 2009-ben a legtöbb nyelvi feldolgozási feladatban a statisztikai nyelvi modellek domináltak a szimbolikus nyelvi modellekkel szemben, mivel képesek hasznosan befogadni nagy adathalmazokat.^[8]

Miután 2012 körül a neurális hálózatok dominánssá váltak a képfeldolgozásban, a nyelvi modellezésre is alkalmazták őket. A Google 2016-ban átalakította fordítószolgáltatását neurális gépi fordításra (NMT). A transzformerek előtti időszakhoz hasonlóan, most is a (Sequence to Sequence) Seq2seq mély LSTM hálózatok által tették ezt. (Egy többrétegű hosszú rövid-távú memória [Long Short-Term Memory] a bemeneti adatsorozatot leképezi egy rögzített dimenziójú vektorra, majd egy másik LSMT a vektorból dekódolja a célszekvenciát.^[9])

A transzformermodell fő összetevőinek illusztrációja az eredeti papírról, ahol a rétegek normalizálása a többfejű figyelem után (nem előtte) történt

A Google kutatói a 2017-es NeurIPS konferencián mutatták be a transzformer architektúrát a mérföldkőnek számító " Attention Is All You Need ” című tanulmányukban. E cikk célja a 2014 utáni Seq2seq technológia fejlesztése volt,^[10] és főként a Bahdanau és munkatársai által 2014-ben kifejlesztett figyelem-mechanizmuson (attention mechanism) alapult.

2018-ban bevezették a Google kutatói által épített BERT-öt (Bidirectional encoder representations from transformers), és ez a nyelvi modell gyorsan „mindenütt jelenlévővé” vált.^[11] Bár az eredeti transzformernek kódoló és dekódoló blokkja is van, a BERT csak kódoló (encoder) modell.

Noha 2018-ban bevezették a csak dekóderhez használható GPT-1-et, 2019-ben a GPT-2 volt az, amely széleskörű figyelmet keltett, mivel az OpenAI eleinte, a rosszindulatú felhasználástól félve, túl átütő erejűnek tartotta a nyilvános kiadáshoz.^[12] A GPT-3 2020-ban egy lépéssel tovább ment, és 2024-től már csak API-n keresztül érhető el, így nincs lehetőség a modell letöltésére és helyben futtatására. De a 2022-es, fogyasztóknak szánt, böngészőalapú ChatGPT volt az, amely megragadta az általános népesség fantáziáját, és okozott némi médiafelhajtást és online zsongást. A 2023-as GPT-4-et megnövekedett pontossága miatt dícsérték, és "szent grálként" tekintettek rá a multimodális képességei miatt.^[13] Az OpenAI nem fedte fel a GPT-4 magas szintű architektúráját és paramétereinek számát.

Az egymással versengő nyelvi modellek nagyrészt a GPT sorozattal próbáltak megegyezni, legalábbis a paraméterek száma szempontjából.

2022 óta a nyílt forráskódú modellek egyre népszerűbbek, eleinte főleg a BLOOM és a LLaMA, bár mindkettőnek korlátozzák a felhasználási területét. A Mistral AI modelljei, a Mistral 7B és a Mixtral 8x7b engedékenyebb Apache licenccel rendelkeznek. 2024 júniusától a Llama-3-70b-Instruct, a Llama finomhangolt változata, a 3 70 milliárd paraméteres modell a legerősebb nyílt LLM az LMSYS Chatbot Arena ranglistája szerint, erősebb, mint a GPT-3.5, de nem olyan erős, mint a GPT-4.

2024-től a legnagyobb és legjobb képességű modellek szinte mindegyike a transzformer-architektúrán alapul. Néhány a legújabb kivitelezések közül más architektúrájú, mint például a rekurrens (visszacsatolt) neurális hálózatok (RNN) változatai és a Mamba (egy állapottér modell [SSM]).^[14]^[15]^[16]

Adatkészlet előfeldolgozása

Tokenizálás

Mivel a gépi tanulási algoritmusok szöveg helyett számokat dolgoznak fel, a szöveget számokká kell alakítani. Első lépésben egy szókészletről születik döntés, majd önkényesen, de egyedileg egész indexeket rendelnek a szójegyzék minden egyes bejegyzéséhez, végül pedig egy beágyazást társítanak az integer indexhez. Az algoritmusok közé tartozik a bájtpáros kódolás ([BPE], a melyet a természetes nyelvi feldolgozában [Natural Language Procession, NLP] alszavak tokenizálására használnak) és a WordPiece (ez a Google által a BERT előképzésére kifejlesztett tokenizációs algoritmus).

Vannak speciális tokenek is, amelyek vezérlőkarakterként szolgálnak, mint például [MASK] a kimaszkolt tokenhez (ahogyan az a BERT -ben használatos), és [UNK] (unknown – ismeretlen) a szókincsben nem szereplő karakterekhez.

Ezenkívül néhány speciális szimbólumot használnak a különleges szövegformázás jelölésére. Például a „Ġ” egy előtte álló szóközt jelöl a RoBERTa-ban és a GPT-ben. A "##" egy előző szó folytatását jelöli a BERT-ben.^[17]

Például BPT tokenizátor, amit a GPT-3 (Legacy) haszná felosztja tokenizer: texts -> series of numerical "tokens" mint

token

izer

:

[texts

->

serie

of

numerical

"

t

ok

ens

"

A tokenizálás az adatkészleteket is tömöríti . Mivel az LLM-ek általában egy sorban lévő, nem pedig egyenetlenül adagolt inputot írnak elő, a rövidebb szövegeket ki kell "párnázni", egészen addig, amíg a hosszúságuk meg nem egyezik a leghosszabb szöveg hosszával. Az adatkészlet nyelvétől függ, hogy átlagosan hány tokenre van szükség szavanként.^[18]^[19]

BPE

Példaként vegyünk egy bájtpáros kódoláson alapuló tokenizátort. Az első lépésben az összes egyedi karaktert (beleértve az üreseket és az írásjeleket is) n -grammok kezdeti halmazaként (azaz unigrammok kezdeti halmazaként) kezeli. A szomszédos karakterek leggyakrabban előforduló párja egymás után összevonódik egy bigrammá, és a pár minden példányát ez helyettesíti. A korábban összevont, szomszédos n -gramm-párok összes (korábban összevont) előfordulását – amelyek a leggyakrabban fordulnak együtt elő – ezután ismét összevonják – egy még hosszabb – n -grammá, egészen addig, amíg a szókészlet az előírt méretűvé nem válik (a GPT-3 esetén a méret 50257) .^[20] A tokenizátorral, a betanítása után, bármely szöveg tokenizálható, feltéve, hogy nem tartalmaz olyan karaktereket, amelyek nem szerepelnek az unigrammok kezdőkészletében.^[21]

Problémák

A főként angol korpuszokból kinyert gyakoriságokon alapuló token szókincs, a lehető legkevesebb tokent használja egy átlagos angol szóhoz. Egy másik nyelven kódolt átlagos szó azonban, egy ilyen angolra optimalizált tokenizátor használata esetén, szuboptimális mennyiségű tokenre van felosztva. A GPT-2 tokenizátor szavanként akár 15-ször több tokent képes használni egyes nyelveken, például a mianmari Shan nyelven. Olyan, még elterjedtebb nyelvek, mint például a portugál és a német pedig „50%-os token-töblettel” rendelkeznek az angolhoz képest.^[22]

A mohó tokenizálás szintén okoz apróbb problémákat a szöveg befejezésénél.^[23]

Adatkészlet tisztítás

Az LLM-ek képzésével összefüggésben az adatkészleteket általában a toxikus szakaszok eltávolításával, az alacsony minőségű adatok elvetésével és a duplikációk megszüntetésével tisztítják. A megtisztított adatkészletek növelhetik a képzés hatékonyságát, és javíthatják a szervertől származó adatfolyam minőségét, teljesítőképességét.^[24] Egy betanított large language model egy további LLM betanításához szükséges adatkészletek tisztítására is használható..

A weben található tartalom egyre nagyobb hányada LLM által generált, ezért az adattisztítás a jövőben az ilyen tartalmak kiszűrését is magában foglalhatja. Az LLM által generált tartalom akkor jelenthet problémát, ha a tartalom az emberi szöveghez hasonló (ami bonyolultabbá teszi a szűrést), de rosszabb minőségű (lerontja a rá betanított modellek teljesítményét).^[25]

Szintetikus adatok

Előfordulhat, hogy a legnagyobb nyelvi modellek képzéséhez több nyelvi adatra van szükség a természetes módon rendelkezésre állónál, vagy, hogy a természetesen előforduló adatok nem megfelelő minőségűek. Ezekben az esetekben szintetikus adatok használhatók. A Microsoft Phi LLM-sorozatát például egy másik LLM által generált, tankönyvszerű adatokon tanították be.^[26]

Képzés és architektúra

Megerősítő tanulás emberi visszajelzésből (RLHF)

A emberi visszajelzésen alapuló megerősítő tanulás (Reinforcement learning from human feedback – RLHF) algoritmusokon – például a proximális politikaoptimalizáláson (PPO) – keresztül az emberi preferenciák adathalmazán alapuló modell további finomhangolására használatos.^[27]

Utasítás hangolás

Az önképző ("self-instruct") eljárásokat használva, az LLM-ek képessé váltak a helyes válaszok önálló rendszerbetöltésére (bootstrap), helyettesítve a naiv válaszokat, néhány eset ember által generált korrekciójából kiindulva. Például az „Írjon esszét a Hamlet fő témáiról" utasításban a kezdeti naiv kiegészítés, ennek a szöveges sorozatnak a korpuszban előforduló gyakorisága alapján, a következő lehet: "Ha március 17-e után küldi be az esszét, az osztályzata 10%-kal csökken minden egyes késedelmes nap után".^[28]

Szakértők keveréke

A legnagyobb LLM túl drága lehet a közvetlen képzéshez és használathoz. Az ilyen modellekre a szakértői keverék (mixture of experts – MoE) alkalmazható, a Google kutatói által 2017 óta folytatott kutatási vonal, amelynek célja az akár 1 billió paramétert is elérő modellek betanítása.^[29]^[30]

Prompt tervezés, figyelemmechanizmus és kontextusablak

A legtöbb olyan eredmény, amelyet korábban csak (költséges) finomhangolással lehetett elérni, elérhető az „utasítás tervezésen" (prompt engineering) keresztül, noha ez egyetlen beszélgetés hatókörére korlátozódik (pontosabban egy kontextusablak hatókörére).^[31]

Annak érdekében, hogy megtudja, mely tokenek relevánsak egymás számára a kontextusablak keretein belül, a figyelemmechanizmus „puha” súlyokat számol minden egyes tokenhez, pontosabban annak beágyazásához, több figyelemfej használatával, amelyek mindegyike saját „relevanciával” rendelkezik a saját lágy súlyok kiszámításához. Például a kicsi (azaz 117 milliós paraméter méretű) GPT-2 modell tizenkét figyelemfejjel és mindössze 1 ezer tokenből álló kontextusablakkal rendelkezik.^[33] Közepes változatában 345M paraméterrel rendelkezik, és 24 réteget tartalmaz, egyenként 12 figyelemfejjel. A gradiens süllyedéssel (GD) végzett képzéshez 512-es tételméretet használtak.^[21]

A legnagyobb modelleknek, így például a Google 2024 februárjában bemutatott Gemini 1.5-jének, akár 1 millió tokenes kontextusablaka is lehet (és a 10 milliós kontextusablakot is „sikeresen tesztelték").^[34] Más, nagy kontextusablakokkal rendelkező modellek közé tartozik például az Anthropic's Claude 2.1 is, amely egy, akár 200 000 tokenes kontextusablakkal rendelkezik.^[35]

Vegye figyelembe, hogy ez a maximum a bemeneti tokenek számára vonatkozik, valamint, hogy a kimeneti tokenek maximális száma eltér a bemeneti tokenek számától, és hogy a kimeneti tokenek maximális száma gyakran kisebb a bemeneti tokenek maximális számánál. Például a GPT-4 Turbo modell maximális kimenete 4096 tokenes.

Egy beszélgetés hosszát, amelyet a modell figyelembe tud venni a következő válasza generálásakor, egy kontextusablak mérete is korlátozza. Ha egy beszélgetés hossza – például a ChatGPT-vel – hosszabb, mint az adott LLM kontextusablaka, akkor a következő válasz generálásakor csak a kontextusablakon belüli részeket veszi figyelembe a modell, vagy valamilyen algoritmust kell alkalmaznia a modellnek a beszélgetés egymástól túl távol eső részeinek összefoglalására.

A kontextusablak megnagyobbításának hiányosságai közé tartozik a magasabb számítási költség és a helyi kontextusra való összpontosítás esetleges felhígulása. Az ablak kicsinyítése azonban azt okozhatja, hogy a modell kihagy egy fontos, hosszú távú függőséget (a sorozat, pl. egy beszélgetés, távoli elemei közötti kapcsolatot). Ezek kiegyensúlyozása kísérletezés és domén-specifikus megfontolások kérdése.

Egy modell előre betanítható annak előzetes becslésére, hogy hogyan folytatódik a szegmens, vagy éppen arra, hogy mi hiányzik a szegmensből, egy a betanítási adatkészletéből adott szegmens esetében.^[36] Bármelyik lehet

autoregresszív (azaz megjósolja, hogyan folytatódik a szegmens, úgy, ahogy a GPT-k csinálják): például adott egy „szeretek enni” szegmens, amelyre, a modell „fagylaltot” vagy „szusit” jósol.
" maszkolt " (azaz kitölti a szegmensből hiányzó részeket, ahogy "BERT"^[37] teszi): például adott egy "I like to [__] [__] cream" szegmens esetén a modell azt jósolja, hogy az „eat" és az „ice" hiányzik.

A modelleket olyan kiegészítő feladatokra is ki lehet képezni, amelyek tesztelik az adateloszlás megértését. Például a következő mondat előrejelzését (next sentence prediction – NSP), amelyben mondatpárok jelennek meg, és a modellnek meg kell jósolnia, hogy ezek egymás után megjelennek-e a tanító korpuszban.^[37] Edzés közben a regularizációs veszteséget az edzés stabilizálására is alkalmazzák, de általában nem használják a tesztelés és az értékelés során.

Infrastruktúra

A legnagyobb modellek képzéséhez jelentős infrastruktúra szükséges.^[38]^[39]^[40]

Képzési költség

2020 óta, a szoftver és a hardver területén tett előrelépések következtében jelentősen csökkentek a költségek, így 2023-ban egy 12 milliárd paraméterű LLM számítási költsége 72 300 A100-GPU óra volt, míg 2020-ban egy 1,5 milliárd paraméterű LLM képzésének költsége, (amely két nagyságrenddel volt kisebb, mint a 2020-as csúcstechnika), 80 ezer és 1,6 millió USD között volt.^[41] 2020 óta jelentős összegeket fektettek be a fokozatosan egyre nagyobb modellekbe. Például a GPT-2 (azaz egy 1,5 milliárd paraméteres modell) képzése 2019-ben 50000 USD-ba került, míg a PaLM (azaz egy 540 milliárd paraméteres modell) 2022-ben 8 millió USD-ba, a Megatron-Turing NLG 530B pedig (2021-ben) körülbelül 11 millió USD-ba került.

A transzformer-alapú LLM esetében sokkal magasabb a képzési költség, mint a következtetési költség. Míg az egy tokenre való betanítás paraméterenként 6 FLOP- ba kerül, a tokenre való következtetés paraméterenként csak 1-2 FLOP-ba kerül.^[42]

Eszközhasználat

Vannak bizonyos feladatok, amelyeket elvileg egyetlen LLM sem tud megoldani, legalábbis külső eszközök vagy kiegészítő szoftverek nélkül. Ilyen feladat például a felhasználó '354 * 139 = ' bevitelére való válaszadás, feltéve, hogy az LLM még nem találkozott ennek a számításnak a folytatásával a képzési korpuszában. Ilyen esetekben az LLM-nek futó programkódot kell igénybe vennie, amely kiszámítja az eredményt, amelyet azután belefoglalhat a válaszába. Egy másik példa: „Mennyi idő van most? Most ... van "', ahol egy különálló értelmező programnak végre kell hajtania egy kódot ahhoz, hogy hozzáférjen a rendszeridőhöz a számítógépen, és az LLM belefoglalhassa azt a válaszába.^[43]^[44] Ez az alapstratégia kifinomultabbá válhat a generált programok többszöri próbálkozásával és más mintavételi stratégiákkal.^[45]

Általában annak érdekében, hogy egy LLM eszközt használjon, finomhangolni kell azt az eszközhasználatra. Amikor az eszközök száma véges, akkor csak egyszer lehet elvégezni a finomhangolást. Azonban amikor az eszközök száma tetszőlegesen nőhet – mint az online API-szolgáltatások esetében – akkor az LLM finomhangolható úgy, hogy képes legyen olvasni az API-dokumentációt és megfelelően hívni az API-t.^[46]^[47]

Az eszközhasználat egyszerűbb formája a visszakereséssel bővített generálás : az LLM kiterjesztése dokumentum-visszakereséssel. Adott egy lekérdezés, és egy dokumentum visszakereső meghívást kap a legrelevánsabb dokumentumok visszakeresésére. Ez általában úgy történik, hogy a lekérdezést és a dokumentumokat vektorokba kódolják, majd megkeresik a dokumentumokat a lekérdezés vektorához leginkább hasonló vektorokkal (ezek rendszerint vektoradatbázisban tárolódnak). Az LLM ezután, a lekérdezés és a visszakeresett dokumentumokból származó kontextus alapján, kimenetet generál.^[48]

Ügynökség

Egy LLM az egy nyelvi modell, amely nem ügynök, mivel nincs célja, ugyanakkor használható egy intelligens ügynök összetevőjeként.^[49] A kutatók sokféle módszert leírtak már az ilyen integrációkhoz.

A ReAct minta, a „Reason + Act" egy csomagja, ügynököt hoz létre egy LLM-ből, tervezőként használva az LLM-et. Arra utasítja az LLM-et, hogy "gondolkozzon hangosan". Konkrétan a nyelvi modellt a környezetnek, egy célnak, a lehetséges cselekvések egy listájának szöveges leírására, valamint az eddigi cselekvések és megfigyelések feljegyzése utasítja. Az pedig egy, vagy több gondolatot generál, mielőtt olyan cselekvést generálna, amelyet aztán végrehajt a környezetben.^[50] Az LLM tervezőnek adott környezet nyelvi leírása akár egy környezetet leíró dolgozat LaTeX kódja is lehet.^[51]

A DEPS ("Describe, Explain, Plan and Select") módszerben egy LLM először képleírásokon keresztül kapcsolódik a vizuális világhoz, majd utasítást kap, hogy előre betanított tudása és az kapott környezeti visszajelzések alapján hozzon létre összetett feladatokra és viselkedésekre vonatkozó terveket.^[52]

A Reflexiós módszer egy több epizódon keresztül tanuló ügynököt konstruál. Az LLM minden egyes epizód végén megkapja az epizód jegyzőkönyvét, és utasítást kap, hogy gondolja át a „megtanult leckéket", amelyek segítik abban, hogy egy következő epizódban jobban teljesítsen. Ezeket a „megtanult leckéket" a következő epizódokban kapja meg az ügynök.

A Monte Carlo tree search LLM-et használhat a megértést segítő kiterjesztésként. Ha egy programadó világmodell nem érhető el, egy LLM-et a világmodellként működő környezet leírásával is lehet utasítani.^[53]

Nyílt végű kutatáshoz egy LLM használható a megfigyelések „érdekességének” pontozására, amely egyfajta jutalomjelzésként használható egy normál (nem-LLM) megerősítő tanulási ügynök vezérlésére. Alternatív megoldásként, az LLM javasolhat fokozatosan nehezedő feladatokat a tanterv szerinti tanuláshoz .^[54] Ahelyett, hogy egyedi műveleteket hajtana végre, az LLM-tervező „készségeket” vagy funkciókat is létrehozhat az összetett műveletsorozatokhoz. A készségek tárolhatók és később felidézhetők, lehetővé téve az absztrakció növekvő szintjét a tervezésben.^[54]

Az LLM-alapú ügynökök hosszútávú memóriát őrizhetnek a korábbi kontextusaikról, és ez a memória ugyanazon a módon visszakereshető, mint a visszakereséssel bővített generálás. Több ilyen ügynök is képes társadalmi interakcióba lépni.^[55]

Tömörítés

Az LLM-eket tipikusan egyszeres, vagy fél-pontosságú lebegőpontos (floating point numbers) számokkal (float32 és float16) képezik. Egy float16 16 bittel, vagy 2 bájttal rendelkezik, így egymilliárd paraméterhez 2 gigabájt szükséges. A legnagyobb modellek jellemzően 100 milliárd paraméterrel rendelkeznek, 200 gigabájtot igényelnek a betöltéshez, ami a legtöbb szórakoztató-elektronikai tartományon kívülre helyezi őket.^[56]

A tréning utáni kvantálás^[57] célja a helyigény csökkentése azáltal, hogy csökkenti a betanított modell paramétereinek pontosságát, ugyanakkor a teljesítményének nagy részét megőrzi. A kvantálás legegyszerűbb formája egyszerűen lecsonkítja az összes számot egy megadott számú bitre. Ez javítható, ha rétegenként eltérő kvantálási kódkönyvet használunk. További fejlesztés érhető el, ha a különböző paraméterekhez eltérő pontosságot alkalmaznak: nagyobb pontosságot a különösen fontos paramétereknél („kiugró súlyok"). Lásd^[58] a vizuális útmutatót.

Míg a kvantált modellek jellemzően fagyasztottak, és csak az előre kvantált modellek finomhangoltak, a kvantált modellek még lehetnek finomhangoltak.^[59]

Multimodalitás

A multimodalitás a „többféle modalitással rendelkezést" jelenti, a „modalitás” pedig egyfajta bemeneti vagy kimeneti adatra utal, például videóra, képre, hangra, szövegre, propriocepcióra, stb.^[60] Számos mesterséges intelligencia-modellt kifejezetten egyfajta modalitás bevitelére és egy másik fajta modalitás kibocsátására képeztek ki. Így például az AlexNetet a képet a címkéhez,^[61] a vizuális kérdés megválaszolása (a képnek és cimkéjének a szöveges átírása),^[62] és a beszédfelismerés (a beszéd szöveggé való átírására) típusú feladatok végrehajtására.

Egy általános módszer a multimodális modellek LLM-ből történő létrehozására a betanított kódoló kimenetének "tokenizálása". Konkrétan a következőképpen lehet létrehozni egy LLM-et, amely képes megérteni a képeket: vegyünk egy már képzett LLM-et, és vegyünk egy már szintén kiképzett képkódolót. $E$ . Készítsünk egy kis többrétegű perceptront (ami egy hatékony képfelismerő algoritmus a 20. sz. közepéről) $f$ , így bármilyen képhez $y$ , az utófeldolgozott vektor, $f(E(y))$ mérete megegyezik egy kódolt token méretével. Ez egy "kép token". Ezután már egymásba lehet illeszteni a szöveges és a képi tokeneket. Az összetett modellt ezután finomhangoljuk egy kép-szöveg adatkészleten. Ez az alapkonstrukció egy kicsit kifinomultabb formában a modell tökéletesítésére is alkalmazható. A képkódoló a stabilitás javítása érdekében lefagyhat.^[63]

A Flamingo bemutatta a tokenizációs módszer hatékonyságát, egy pár előre betanított nyelvi modellt és képkódolót finomhangolt annak érdekében, hogy jobban teljesítsenek a vizuális kérdések megválaszolásában, mint a nulláról betanított modellek.^[64] A Google PaLM modellt egy multimodális PaLM-E modellre finomhangolták, tokenizációs módszerrel, robotvezérlésre alkalmazva. A LLaMA modelleket szintén tokenizációs módszerrel alakították át multimodálissá, engedélyezve a kép- és videó bemeneteket.

A GPT-4 szöveget és képet is tud használni bemenetként^[65] (noha a látáskomponenst a GPT-4V-ig^[66] nem hozták nyilvánosságra); Szintén multimodális a Google DeepMind Gemini.^[67] A Mistral a saját multimodell Pixtral 12B modelljét 2024 szeptemberében mutatta be.^[68]

Tulajdonságok

Skálázási törvények

Bővebben: Neural scaling law

Egy LLM-et a következő négy hiperparaméter jellemez:

(elő)képzés költsége ( $C$ ),
magának a mesterséges neurális hálózatnak a mérete, például a paraméterek száma $N$ (azaz a neuronok mennyisége a rétegeiben, a köztük lévő súlyok és a torzítások),
(elő)képzési adatkészletének mérete (azaz a korpuszban lévő tokenek száma, $D$ ),
teljesítmény (elő)edzés után.

Ezeket a hiperparamétereket egyszerű statisztikai törvények kapcsolják össze, amelyeket "skálázási törvényeknek" neveznek. Egy adott skálázási törvény (pl. " Csincsilla-skálázás ") az egy korszakra autoregresszíven betanított LLM-re vonatkozóan, log-log tanulási ütemtervet követve, kimondja, hogy^[69] ${\begin{cases}C=C_{0}ND\\[6pt]L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$ hol vannak a változók:

$C$ a modell betanításának költsége FLOP- ban.
$N$ a paraméterek száma a modellben.
$D$ a képzési készletben lévő tokenek száma.
$L$ az átlagos negatív log-valószínűség veszteség tokenenként ( nats /token), amelyet a betanított LLM ért el a tesztadatkészleten.

A statisztikai hiperparaméterek pedig a következők:

$C_{0}=6$ , ami azt jelenti, hogy paraméterenként 6 FLOP-ba kerül egy token edzése. Vegye figyelembe, hogy a képzési költség sokkal magasabb, mint a következtetési költség, ahol paraméterenként 1-2 FLOP-ba kerül egy tokenre következtetni.^[42]
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

Kibontakozó képességek

A nagyobb modellek teljesítménye különböző feladatokon, amikor egy log-log skálán van ábrázolva, a kisebb modellekkel elért teljesítmény lineáris extrapolációjaként jelenik meg. Azonban ezt a linearitást a skálázási törvényben a " törés(ek) " megszakíthatja(ák), ott, ahol hirtelen megváltozik a vonal meredeksége, illetve ahol a nagyobb modellek "felbukkanó képességeket" sajátítanak el.^[31]^[71] Ezek a modell összetevőinek összetett interakciójából származnak, tehát nem kifejezetten programozottak, vagy tervezettek.

A felbukkanó képességek közül a legérdekesebb a példa bemutatókból való kontextuson belüli tanulás.^[72] Ez olyan feladatokat foglal magában, mint például:

számtan, a nemzetközi fonetikus ábécé dekódolása, egy szó betűinek a megfelelő sorrendbe állítása, egy szó kontextusban való egyértelművé tétele,^[31]^[73]^[74] térbeli szavak konvertálása, kardinális irányok (például „északkeleti” válasz a [0, 0, 1-re; 0, 0, 0; 0, 0, 0]) ismerete, szövegben ábrázolt szinekkel kapcsolatos kifejezések.^[75]
gondolati láncra vonatkozó utasítás : A modell kimenetei csak akkor javulnak a gondolatlánc-utasítással, ha a modell mérete meghaladja a 62B-t. A kisebb modellek jobban teljesítenek, ha azonnali, gondolatlánc nélküli válaszadásra utasítják őket.^[76]
a sértő tartalom azonosítása a hinglish (a hindi és az angol kombinációja) bekezdéseiben, és a kiswahili közmondások hasonló angol megfelelőjének létrehozása.^[77]

Schaeffer és munkatársai amellett érvelnek, hogy az LLM-ek ezeket a felbukkanó képességeket nem előre megjósolhatatlanul, hanem egy sima skálázási törvény szerint, előre láthatóan sajátítják el. A szerzők egy feleletválasztós kérdéseket megoldó LLM játékstatisztikai modelljét vizsgálták, és kimutatták, hogy ez a statisztikai modell, más típusú feladatok figyelembevételére módosítva, ezekre a feladatokra is vonatkozik.^[78]

Jelöljük a paraméterek számát, x-szel, a modell teljesítményét pedig y-nal!

Ha y = átlagos Pr (helyes token), akkor (log x, y) egy exponenciális görbe (mielőtt egynél eléri a legmagasabb értékét), amely felbukkanásnak tűnik.
Ha y = átlagos log(Pr(helyes token)), akkor a (log x, y) ábrázolása egy egyenes vonal (mielőtt nullánál eléri a felső értékét), amely nem tűnik felbukkanónak.
Ha y = átlagos Pr (a legvalószínűbb token) akkor, a (log x, y) egy lépcsős függvény, amely felbukkanónak tűnik.

Értelmezés

Önmagukban a nagy nyelvi modellek „fekete dobozok”, és nem világos, hogyan tudnak nyelvi feladatokat ellátni. Az LLM működésének megértésére számos módszer létezik.

A mechanikus értelmezhetőség célja az LLM visszafejtése olyan szimbolikus algoritmusok felfedezésével, amelyek közelítik az LLM által megvalósított következményt. Az egyik példa az Othello-GPT, ahol egy kis transzformert arra képeznek ki, hogy előre jelezze a legális Othello-lépéseket. Azt találták, hogy az Othello táblának lineáris ábrázolása van, és az ábrázolás módosítása a megfelelő módon megváltoztatja az előre jelzett legális Othello-mozgásokat.^[79] Egy másik példában egy kis transzformert Karel programokra képeznek ki. Az Othello-GPT példához hasonlóan a Karel program szemantikájának is van lineáris ábrázolása, és a reprezentáció módosítása a megfelelő módon változtatja meg a kimenetet. A modell megfelelő programokat is generál, amelyek átlagosan rövidebbek, mint azok, amelyeket a képzési készlet tartalmaz.

Egy másik példában a szerzők a moduláris aritmetikai összeadásra tanítottak kis transzformereket. Az eredményül kapott modellek visszafejtettek voltak, és kiderült, hogy diszkrét Fourier-transzformációt (DFT) használtak.^[80]

Megértés és intelligencia

Amikor egy 2022-es felmérésben megkérdezték, hogy a (nem hangolt) LLM-ek „meg tudják-e (valaha) érteni a természetes nyelvet valamilyen nem triviális értelemben”, az NLP-kutatók egyenletesen oszlottak el.^[81] Az „LLM-megértés” hívei úgy vélik, hogy egyes LLM-képességek, mint például a matematikai gondolkodás, bizonyos fogalmak „megértésének” képességére utalnak. A Microsoft egyik csapata 2023-ban azzal érvelt, hogy a GPT-4 „meg tud oldani olyan újszerű és nehéz feladatokat, amelyek kiterjednek a matematikára, a kódolásra, a látásra, az orvostudományra, a jogra, a pszichológiára és egyebekre”, valamint, hogy a GPT-4 „ésszerűen úgy tekinthető, mint egy általános mesterséges intelligencia rendszer korai, de még mindig nem teljes) verziója": „Mondhatja-e valaki ésszerűen azt, hogy egy rendszer, amely sikeresen leteszi a szoftvermérnökjelöltek számára kötelező vizsgákat, az nem igazán intelligens?"^[82] Egyes kutatók az LLM-eket „idegen intelligenciaként" jellemzik.^[83] Például a Conjecture vezérigazgatója, Connor Leahy úgy véli, hogy a hangolatlan LLM-ek olyanok, mint a kifürkészhetetlen idegen „ Shoggothok ”, és úgy véli, hogy az RLHF hangolás „mosolygó homlokzatot” hoz létre, amely elfedi az LLM belső működését: „Ha nem tolja túl messzire, a mosolygós arc megmarad. De akkor adsz neki egy [váratlan] utasítást, és hirtelen meglátod az őrületnek, a furcsa gondolkodási folyamatoknak és a nyilvánvalóan nem emberi megértésnek ezt a masszív övönaluliságát."^[84]^[85]

Ezzel szemben az „LLM-ek nem értenek" iskola egyes hívei úgy vélik, hogy a létező LLM-ek „egyszerűen újrakeverik és újrakombinálják a meglévő írásokat" – ez a jelenség sztochasztikus papagáj néven ismert – vagy rámutatnak a meglévő LLM-ek hiányosságaira.az előrejelzési készségek, a gondolkodási készségek, a működés és a megmagyarázhatóság területein.^[81] Például a GPT-4-nek természetes hiányosságai vannak a tervezésben és a valós idejű tanulásban. Megfigyelték, hogy a generatív LLM-ek magabiztosan jelentenek ki olyan tényállításokat, amelyek a képzési adataik alapján nem látszanak indokoltnak, ezt a jelenséget „ hallucinációnak ” nevezik.^[86] Konkrétan, a hallucinációk az LLM-ek kontextusában megfelelnek a szintaktikailag helyesnek, gördülékenynek és természetesnek tűnő szövegek vagy válaszok generálásának, de a tényszerűség szempontjából helytelenek, értelmetlenek, vagy nem hűségesek a megadott forrásbemenethez. Terrence Sejnowski idegtudós érvelése szerint, „a szakértőknek az LLM-ek intelligenciájáról alkotott, szerteágazó véleményei azt sugallják, hogy a természetes intelligencián alapuló régi elképzeléseink nem megfelelőek".^[81]

Az LLM által mutatott intelligencia, vagy megértés kérdéskörének két fő aspektusa van – az első az, hogy hogyan kell a gondolkodást és a nyelvet egy számítógépes rendszerben modellezni, a második pedig az, hogy hogyan lehet lehetővé tenni a számítógépes rendszer számára, hogy emberi nyelvet generáljon.^[81] A nyelvnek, mint a megismerés egy modelljének ezeket az aspektusait a kognitív nyelvészet területén fejlesztették ki. George Lakoff amerikai nyelvész a neurális nyelvelméletet (Neural Theory of Language-t (NTL))^[87] mint számítási alapot mutatta be a nyelv tanulási feladatok, és megértés egy modelljeként való használathoz. Az NTL-modell felvázolja, hogy hogyan alakítják a gondolkodás és a nyelv természetét az emberi agy specifikus neurális struktúrái, másfelől viszont azt, hogy az ilyen neurális rendszereknek milyen számítási tulajdonságai alkalmazhatók a gondolkodás és a nyelv modellezésére egy számítógépes rendszerben. Miután létrehozták a számítógépes rendszerekben a nyelv modellezésére szolgáló keretrendszert, a hangsúly az elfogadható nyelvtannal rendelkező nyelv generálására alkalmas számítógépes keretrendszer létrehozására helyeződött át. Vyvyan Evans brit kognitív nyelvész és digitális kommunikációtechnológus a The Language Myth: Why Language Is Not An Instinct (A nyelvmítosz: miért nem ösztön a nyelv?) című, 2014-es könyvében feltérképezte a valószínűségi kontextusmentes nyelvtan (PCFG) szerepét az NLP kognitív minták modellezésére és emberszerű nyelv létrehozására való képességeiben.^[88]^[89]

Értékelés

Perplexitás

A nyelvi modell teljesítményének a leggyakrabban használt mérőszáma az adott szövegkorpuszon való perplexitása (zavarossága.) A perplexitás annak a mértéke, hogy egy modell mennyire képes előrejelezni egy adatkészlet tartalmát; minél nagyobb valószínűséget rendel a modell az adatkészlethez, annál kisebb a zavartság. Matematikailag a perplexitást a tokenenkénti átlagos negatív log-valószínűség exponenciálisaként határozzuk meg: $\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(\Pr({\text{token}}_{i}\mid {\text{context for token}}_{i}))$ itt $N$ a tokenek száma a szövegkorpuszban, és „kontextus az $i$ tokenhez" a használt LLM konkrét típusától függ. Ha az LLM autoregresszív, akkor „a kontextus az $i$ tokenhez " az $i$ token előtt megjelenő szövegrész. Ha az LLM maszkolt, akkor „a kontextus az $i$ tokenhez " az $i$ tokent körülvevő szövegrész.

Mivel a nyelvi modellek túlilleszkedhetnek a képzési adataikhoz, a modelleket rendszerint a perplexitásuk alapján értékelik, egy láthatatlan adatokból álló tesztkészleten.^[37] Ez különös kihívást jelent a nagy nyelvi modellek értékelése számára. Ahogy egyre nagyobb, zömében az internetről lekapart, szöveges korpuszokra tanítják őket, egyre fokozottabban nő a valószínűsége annak, hogy a modellek betanítási adatai akaratlanul is tartalmazzák bármely adott tesztkészlet részeit.^[3]

BPW, BPC és BPT

Az információelméletben az entrópia fogalma szorosan kapcsolódik a perplexitáshoz, ezt a kapcsolatot, nevezetesen, Claude Shannon állapította meg.^[90] Ennek az összefüggésnek a matematikai kifejezése a következő: ${\text{Entrópia}}=\log _{2}({\text{Perplexitás}})$ .

Ebben az összefüggésben az entrópiát általában bit per szó (BPW) vagy bit per karakter (BPC) értékkel számszerűsítik. Hogy konkrétan melyikkel az azon múlik, hogy a nyelvi modell szóalapú vagy karakter alapú tokenizálást alkalmaz.

Nevezetesen, a nagyobb nyelvi modellek esetében, amelyek túlnyomórészt részszavak tokenizálását alkalmazzák, a bit per token (BPT) tűnik legmegfelelőbb mértéknek. A különböző nagy nyelvi modellek (LLM) tokenizációs módszereinek eltérése miatt azonban a BPT nem szolgál megbízható mérőszámként a különböző modellek összehasonlító elemzéséhez. Ahhoz, hogy a bit per tokent átalakítsuk BPW-vé, meg kell szorozni a szavankénti tokenek átlagos számával.

A nyelvi modellek értékelése és összehasonlítása során az entrópia helyett, általában a kereszt-entrópia a preferált mérőszám. Az alapelv az, hogy az alacsonyabb bit per szó (BPW) a modell fokozott tömörítési képességét jelzi. Ez pedig a modell pontos előrejelzések készítésében való jártasságát tükrözi.

Feladatspecifikus adatkészletek és benchmarkok

A nyelvi modellek képességeinek a speciális downstrem feladatokon való értékelésére nagy számú tesztelési adatkészletet és benchmarkot is kifejlesztettek. A tesztek különféle képességek értékelésére készülhetnek, többek között az általános ismeretek, a józan ész okoskodása és a matematikai problémamegoldás területén.

Az értékelési adatkészletek egyik széles kategóriája a kérdésre válaszoló adatkészletek, amelyek kérdés és helyes válasz párokból állnak, például („A San Jose Sharks megnyerte a Stanley Kupát?", „Nem").^[91] Egy kérdés megválaszolós feladat akkor tekinthető „nyitott könyvnek", ha a modell utasítása olyan szöveget tartalmaz, amelyből a várt válasz levezethető (például az előző kérdéshez kapcsolódhat valamilyen szöveg, amely tartalmazza a következő mondatot: „A cápák egyszer, 2016-ban, továbbjutottak a Stanley Kupa döntőbjébe, ahol vereséget szenvedetek a Pittsburgh Penguinstől."^[91] ). Ellenkező esetben a feladat „zárt könyvnek" tekintendő, és a modellnek a képzés során megőrzött tudásra kell támaszkodnia.^[92] A gyakran használt kérdésmegválaszoló adatkészletek néhány példája: a TruthfulQA, a SQuAD, a Web Questions, és a TriviaQA.^[92]

Az értékelési adatkészletek szövegkiegészítés formáját is ölthetik, amikor a modell kiválasztja a legvalószínűbb szót vagy mondatot a prompt befejezéséhez, például: „Alice barátja volt Bobnak. Alice elment meglátogatni a barátját, ____".^[3]

Néhány vegyes benchmark is kidolgozásra került, amelyek a különböző értékelési adatkészletek és feladatok sokféleségét kombinálják. A példák közé tartozik a GLUE, a SuperGLUE, az MMLU, a BIG-bench és a HELM.^[90] Az OpenAI nyilvánosságra hozott eszközöket az összetett benchmarkok futtatásához, de megjegyezte, hogy az értékelési eredmények érzékenyek az utasítási módszerre.^[93]^[94] Egyes nyilvános adatkészletek tévesen felcímkézett, kétértelmű, megválaszolhatatlan vagy más módon rossz minőségű kérdéseket tartalmaznak, amelyek megtisztíhatók annak érdekében, hogy megbízhatóbb benchmark pontszámokat szolgáltathassanak.^[95]

Korábban az volt a norma, hogy az értékelési adatkészlet egy kiragadott részének eredményeit feljegyezzék, miután felügyelt finomhangolást végeztek a fennmaradó részen. Manapság elterjedtebb, hogy egy előre betanított modellt közvetlenül az utasítási (prompting) technikákon keresztül értékelnek ki. De a kutatók eltérnek egymástól az egyes feladatokra vonatkozó promptok megfogalmazásának részleteit illetően, különösen abban a tekintetben, hogy hány megoldott feladat példája legyen a prompthoz kapcsolva (azaz n értéke egy n-shot utasításban).

Ellentmondásosan felépített értékelések

A nagy nyelvi modellek gyors fejlődése miatt az értékelési benchmarkok rövid élettartamúak, és a legkorszerűbb modellek gyorsan "eltelítik" a meglévő benchmarkokat, meghaladva az emberi annotátorok teljesítményét. Mindez a benchmarkok helyettesítésére vagy nagyobb kihívást jelentő feladatokkal való kiegészítésére irányuló erőfeszítésekhez vezetett. Ráadásul, a „shortcut learning” (lerövidített tanulás) bizonyos eseteiben, az MI-k „csalnak” a feleletválasztós teszteken, oly módon, hogy statisztikai korrelációkat használnak a felületesen megírt tesztkérdések esetében, annak érdekében, hogy a ténylegesen feltett kérdés szükséges megértése nélkül kitalálják a helyes válaszokat.^[81]

Egyes adathalmazokat ellentmondásos módon állítottak össze, olyan konkrét problémákra összpontosítva, amelyek esetében a meglévő nyelvi modellek az emberekhez képest szokatlanul gyengébb teljesítményt nyújtanak. Példa erre a TruthfulQA adatkészlet, egy 817 kérdésből álló, kérdés megválaszoló adatkészlet, amelyre a nyelvi modellek hajlamosak helytelenül válaszolni azáltal, hogy leutánozzák azokat a hazugságokat, amelyeknek ismétlődően ki voltak téve a képzésük során. Például egy LLM nemmel válaszolhat arra a kérdésre, hogy „megtaníthatunk-e egy öreg kutyát új trükkökre?", az angol szólásnak – amely szerint „nem lehet egy öreg kutyát új trükkökre tanítani" – való kitettsége miatt; pedig ez szó szerint nem igaz.^[96]

Az ellentmondásos értékelési adatkészlet másik példája a Swag és utódja, a HellaSwag, amely olyan problémagyűjtemény, amelyben több lehetőség közül kell kiválasztani egyet a szövegrészlet befejezéséhez. A hibás kiegészítéseket egy nyelvi modellből vett mintavétellel és egy osztályozókészlettel végzett szűréssel hozták létre a kutatók. Az ebből adódó problémák az emberek számára jelentéktelenek, ugyanakkor ez azt jelenti, hogy az adatkészletek létrehozásakor a legmodernebb nyelvi modellek pontossága gyenge volt. Például:

Egy fitneszközpont táblát látunk. Ezután pedig egy, a kamerába beszélő férfit, aki egy fitneszlabdán ül és fekszik. A férfi...</br> a) bemutatja, hogyan lehet növelni a hatékony edzésmunkát a labdán fel-alá futkozva.</br> b) megmozgatja a karjait és a lábait, és felépít rengeteg izmot.</br> c) majd labdázik, és egy grafikai és sövénynyírási bemutatót látunk.</br> d) felüléseket végez, miközben a labdán van és beszél.^[97]

A BERT a b) pontot választja a legvalószínűbb befejezésnek, noha a helyes válasz a d) pont.^[97]

Szélesebb hatás

2023-ban a Nature Biomedical Engineering azt írta, hogy „már nem lehet pontosan megkülönböztetni" az ember által írt szöveget a nagy nyelvi modellek által létrehozott szövegtől, és hogy „ de az bizonyos, hogy az általános célú, nagy nyelvi modellek gyorsan eterjednek... Meglehetősen nagy biztonsággal lehet fogadni arra, hogy idővel sok iparágat megváltoztatnak majd."^[98] A Goldman Sachs 2023-ban azt jóasolta, hogy a generatív nyelvi mesterséges intelligencia a következő tíz évben 7%-kal növelheti a globális GDP-t, és világszerte 300 millió munkahelyet tehet majd ki az automatizálásnak.^[99]^[100]

Memorizálás és szerzői jog

A memorizálás egy, az LLM-ekben felbukkanó viselkedés, melynek során időnként hosszú szövegsorok szó szerint kerülnek a kimenetbe (output) a betanítási adatokból, – ellentétben a hagyományos mesterséges neurális hálók tipikus viselkedésével. Az ellenőrzött LLM-kimenet értékelése a betanítási adatokból memorizált adatok mennyiségét méri (a GPT-2-sorozatú modellekre összpontosítva), amely változóan több, mint 1% pontos ismétlődéseknél,^[101] vagy maximum 7%-os.^[102]

Biztonság

Néhány hozzászóló aggodalmának adott hangot a félretájékoztatás véletlen vagy szándékos létrehozása vagy a rossz célra való felhasználás egyéb formái miatt.^[103] Például a nagy nyelvi modellek elérhetősége csökkentheti a bioterrorizmus elkövetéséhez szükséges készségszintet. Ezért Kevin Esvelt, a biológiai biztonsággal foglalkozó kutató azt javasolta, hogy a kórokozók létrehozásával vagy továbbfejlesztésével kapcsolatos dokumentumokat, zárják ki a képzéseikből az LLM-alkotók.^[104]

A Google és különböző egyetemek, köztük a Cornell Egyetem és a Berkeley-i Kaliforniai Egyetem kutatói által publikált tanulmány kimutatta, hogy vannak potenciális biztonsági kockázatok az olyan nyelvi modellekben, mint a ChatGPT. Tanulmányukban megvizsgálták és alátámasztották annak a lehetőségét, hogy a kérdezők a ChatGPT-ből megszerezhetik az MI-modell által használt képzési adatokat. Például, amikor arra kérik a ChatGPT 3.5 turbót, hogy örökkéke ismételje a „vers” szót, az MI-modell több százszor kimondja a „vers” szót, majd eltér, letér a szabványos párbeszédstílustól, és értelmetlen kifejezéseket köp ki, így kiadja a képzési adatokat is, egy az egyben. A kutatók több mint 10 000 példát láttak olyan MI-modellre, amely hasonló módszerrel leplezi le a képzési adatait. A kutatók szerint nehéz megmondani, hogy az MI-modell valóban biztonságos-e vagy sem.^[105]

Egy másik felbukkanó biztonsági probléma az „alvó ügynökök” potenciális jelenléte az LLM-modellekben. Ezek olyan, a modellbe épített rejtett funkciók, amelyek mindaddig alvó állapotban maradnak, amíg egy adott esemény vagy állapot ki nem váltja őket. Ezek aktiválódásakor az LLM eltér a tőle elvárt viselkedéstől, és veszélyes műveleteket hajt végre.^[106]

A nagyközönség számára elérhető nagy nyelvi modell (LLM) alkalmazások, mint például a ChatGPT vagy a Claude, általában biztonsági intézkedéseket tartalmaznak, amelyeket a káros tartalom kiszűrésére terveztek. Ezeknek az ellenőrzéseknek a hatékony megvalósítása azonban kihívásnak bizonyult. Például Kang és munkatársai bemutattak egy módszert az LLM biztonsági rendszerek megkerülésére. Hasonlóképpen, Wang^[107] szemléltette, hogy egy potenciális bűnöző miként kerülheti meg a ChatGPT 4o biztonsági ellenőrzését, hogy információt szerezzen egy kábítószer-csempész művelet végrehajtásáról.

Algoritmikus torzítás

Az LLM-ek figyelemre méltó képességeket mutatnak az emberszerű szöveg létrehozásában, ugyanakkor fogékonyak a képzési adataikban jelenlévő torzítások öröklésére és kiterjesztésére. Ez manifesztálódhat különböző demográfiai tényezők – például rassz, gender, nyelvi és kulturális csoportokon alapuló – elferdített ábrázolásában vagy tisztességtelen kezelésében.^[108] Mivel az angol adatok felülreprezentáltak a jelenlegi nagy nyelvi modellek képzési adataiban, ez a nem angol nézeteket is eljelentéktelenítheti.

Sztereotipizálás

Az MI-modellek sokféle sztereotípiát erősíthetnek, beleértve a genderen, az etnikai hovatartozáson, az életkoron, a nemzetiségen, a valláson, vagy a foglalkozáson alapulókat is. Ez olyan kimenetekhez (outputs) vezethet, amelyek méltánytalanul általánosítanak vagy karikíroznak embercsoportokat, néha káros vagy lekicsinylő módon.^[109]

A genderrel kapcsolatos torzítás különösképpen utal arra a tendenciára, hogy ezek a modellek olyan kimeneteket produkálnak, amelyek méltánytalanul előítéletesek az egyik nemhez képest. Ez az elfogultság jellemzően azokból az adatokból adódik, amelyek alapján ezeket a modelleket képezték. A nagy nyelvi modellek gyakran a hagyományos nemi normák alapján rendelnek hozzá az emberekhez szerepeket és jellemzőket.^[108] Például az ápolókat vagy a titkárokat túlnyomórészt nőkkel asszociálhatják, a mérnököket, vagy a vezérigazgatókat pedig férfiakkal társíthatják.^[110]

Politikai elfogultság

A politikai elfogultság az algoritmusok azon tendenciájára utal, hogy szisztematikusan részrehajlóak bizonyos politikai nézőpontokkal, ideológiákkal, vagy eredményekkel mások rovására. A nyelvi modellek politikai elfogultságot is tanúsíthatnak. Mivel a képzési adatok sokféle politikai véleményt és lefedettséget tartalmaznak, a modellek olyan válaszokat generálhatnak, amelyek egyes politikai ideológiák vagy nézőpontok felé hajlanak, ezeknek a nézeteknek az adatokban tapasztalható túlsúlyától függően.^[111]

Megjegyzések

a. Ez az a dátum, amikor a modell architektúráját leíró dokumentáció először megjelent.Sok esetben a kutatók egy modell több, különböző méretű változatát adják ki vagy jelentenek be.

b. Ezekben az esetekben itt a legnagyobb modell mérete szerepel.

c. Ez az előre betanított modellsúlyok licence. Maga a képzési kód szinte minden esetben nyílt forráskódú vagy könnyen replikálható.A kisebb modellek, köztük a 66B nyilvánosan elérhetők, míg a 175B modell kérésre elérhető.A Facebook licenc- és terjesztési rendszere korlátozta a jóváhagyott kutatók hozzáférését, de a modell súlyai kiszivárogtak, és széles körben elérhetővé váltak.Amint a műszaki jelentésben szerepel: „Tekintettel a nagyméretű modellek, például a GPT-4 versenyhelyzetére és biztonsági vonatkozásaira, ez a jelentés nem tartalmaz további részleteket az architektúráról (beleértve a modell méretét), a hardverről, a képzési számításokról, az adatkészlet-építésről és a képzésről. módszer...”

Irodalom

Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
Zhao, Wayne Xin, et. al. (2023). "A Sur5vey of Large Language Models" arXiv:2303.18223 [cs.CL]
Kaddur, Jean; et. al. (2023).
"Challenges and Applications of Large Language Models". arXiv:2307.10169 [cs.CL]
Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (2023-06-01). "A Survey on Multimodal Large Language Models". arXiv:2306.13549 [cs.CV]
AI Index Report 2024 – Artificial Intelligence Index. aiindex.stanford.edu. (Hozzáférés: 2024. május 5.)
Frank (2023. június 27.). „Baby steps in evaluating the capacities of large language models”. Nature Reviews Psychology 2 (8), 451–452. o. DOI:10.1038/s44159-023-00211-x. ISSN 2731-0574. (Hozzáférés: 2023. július 2.)

Fordítás

Ez a szócikk részben vagy egészben a Large language model című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Jegyzetek

↑ Better Language Models and Their Implications. OpenAI, 2019. február 14. [2020. december 19-i dátummal az eredetiből archiválva]. (Hozzáférés: 2019. augusztus 25.)
↑ Large Scale Data - an overview | ScienceDirect Topics. www.sciencedirect.com. (Hozzáférés: 2024. szeptember 15.)
↑ ^a ^b ^c Brown (2020. december 1.). „Language Models are Few-Shot Learners”. Advances in Neural Information Processing Systems 33, 1877–1901. o, Kiadó: Curran Associates, Inc.. [2023. november 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 14.)
↑ Manning (2022). „Human Language Understanding & Reasoning”. Daedalus 151 (2), 127–138. o. [2023. november 17-i dátummal az eredetiből archiválva]. DOI:10.1162/daed_a_01905. (Hozzáférés: 2023. március 9.)
↑ Kilgarriff (2003. szeptember 1.). „Introduction to the Special Issue on the Web as Corpus”. Computational Linguistics 29 (3), 333–347. o. DOI:10.1162/089120103322711569. ISSN 0891-2017.
↑ Banko (2001). „Scaling to very very large corpora for natural language disambiguation”. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01, Morristown, NJ, USA, 26–33. o, Kiadó: Association for Computational Linguistics. DOI:10.3115/1073012.1073017.
↑ Resnik (2003. szeptember 1.). „The Web as a Parallel Corpus”. Computational Linguistics 29 (3), 349–380. o. [2024. június 7-i dátummal az eredetiből archiválva]. DOI:10.1162/089120103322711578. ISSN 0891-2017. (Hozzáférés: 2024. június 7.)
↑ Halevy (2009. március 1.). „The Unreasonable Effectiveness of Data”. IEEE Intelligent Systems 24 (2), 8–12. o. DOI:10.1109/MIS.2009.36. ISSN 1541-1672.
↑ Cite web-hiba: a title paramétert mindenképpen meg kell adni!
↑ Vaswani (2017). „Attention is All you Need”. Advances in Neural Information Processing Systems 30, Kiadó: Curran Associates, Inc.. [2024. február 21-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 21.)
↑ Rogers (2020). „A Primer in BERTology: What We Know About How BERT Works”. Transactions of the Association for Computational Linguistics 8, 842–866. o. [2022. április 3-i dátummal az eredetiből archiválva]. DOI:10.1162/tacl_a_00349. (Hozzáférés: 2024. január 21.)
↑ Hern: New AI fake text generator may be too dangerous to release, say creators. The Guardian, 2019. február 14. [2019. február 14-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 20.)
↑ Heaven: GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why. MIT Technology Review, 2023. március 14. [2023. március 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 20.)
↑ Peng. "RWKV: Reinventing RNNS for the Transformer Era". {{cite arXiv}}: |arxiv= required (help)
↑ Merritt: What Is a Transformer Model?. NVIDIA Blog, 2022. március 25. [2023. november 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 25.)
↑ Gu, Albert (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces
↑ Kaushal, Ayush & Mahowald, Kyle (2022-06-06), What do tokens know about their characters and how do they know it?, doi:10.48550/arXiv.2206.02608, <https://arxiv.org/abs/2206.02608>. Hozzáférés ideje: 2024-09-08
↑ Yennie Jun: All languages are NOT created (tokenized) equal. Language models cost much more in some languages than others, 2023. május 3. [2023. augusztus 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. augusztus 17.) „In other words, to express the same sentiment, some languages require up to 10 times more tokens.”
↑ Petrov (2023. június 23.). „Language Model Tokenizers Introduce Unfairness Between Languages”. NeurIPS. [2023. december 15-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. szeptember 16.)
↑ OpenAI API. platform.openai.com. [2023. április 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. április 30.)
↑ ^a ^b Paaß, Gerhard. Pre-trained Language Models, Foundation Models for Natural Language Processing, Artificial Intelligence: Foundations, Theory, and Algorithms, 19–78. o.. DOI: 10.1007/978-3-031-23190-2_2 (2022. március 10.). ISBN 9783031231902. Hozzáférés ideje: 2023. augusztus 3.
↑ Petrov. "Language Model Tokenizers Introduce Unfairness Between Languages". arXiv:2305.15425.
↑ Lundberg: The Art of Prompt Design: Prompt Boundaries and Token Healing (angol nyelven). Medium, 2023. december 12. (Hozzáférés: 2024. augusztus 5.)
↑ Lee (2022. május 1.). „Deduplicating Training Data Makes Language Models Better”. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics 1: Long Papers, 8424–8445. o. DOI:10.18653/v1/2022.acl-long.577.
↑ Brown. "Language Models are Few-Shot Learners". arXiv:2005.14165.
↑ Abdin. "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone". arXiv:2404.14219.
↑ Ouyang. "Training language models to follow instructions with human feedback". arXiv:2203.02155.
↑ Wang. "Self-Instruct: Aligning Language Model with Self Generated Instructions". arXiv:2212.10560.
↑ Shazeer. "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". arXiv:1701.06538.
↑ Lepikhin. "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668.
↑ ^a ^b ^c Wei (2022. augusztus 31.). „Emergent Abilities of Large Language Models”. Transactions on Machine Learning Research. [2023. március 22-i dátummal az eredetiből archiválva]. ISSN 2835-8856. (Hozzáférés: 2023. március 19.)
↑ Allamar: Illustrated transformer. [2023. július 25-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 29.)
↑ Allamar: The Illustrated GPT-2 (Visualizing Transformer Language Models). (Hozzáférés: 2023. augusztus 1.)
↑ Our next-generation model: Gemini 1.5. Google, 2024. február 15. [2024. február 18-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. február 18.)
↑ Long context prompting for Claude 2.1, 2023. december 6. [2024. augusztus 27-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 20.)
↑ Zaib, Munazza. A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP, Proceedings of the Australasian Computer Science Week Multiconference, 1–4. o.. DOI: 10.1145/3373017.3373028 (2020. február 4.). ISBN 9781450376976
↑ ^a ^b ^c Jurafsky, Dan. Speech and Language Processing [archivált változat], 3rd edition draft (2023. január 7.). Hozzáférés ideje: 2022. május 24. [archiválás ideje: 2023. március 23.]
↑ From bare metal to a 70B model: infrastructure set-up and scripts (amerikai angol nyelven). imbue.com. [2024. július 26-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 24.)
↑ metaseq/projects/OPT/chronicles at main • facebookresearch/metaseq (angol nyelven). GitHub. [2024. január 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 24.)
↑ Albrecht: State of the Art: Training >70B LLMs on 10,000 H100 clusters (angol nyelven). www.latent.space, 2024. július 23. (Hozzáférés: 2024. július 24.)
↑ Wiggers: The emerging types of language models and why they matter. TechCrunch, 2022. április 28. [2023. március 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 9.)
↑ ^a ^b Section 2.1 and Table 1, A bot will complete this citation soon. Click here to jump the queue arXiv:[1].
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[2].
↑ PAL: Program-aided Language Models. reasonwithpal.com. [2023. június 12-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 12.)
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[3].
↑ Liang. "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434.
↑ Patil. "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334.
↑ Lewis (2020). „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”. Advances in Neural Information Processing Systems 33, 9459–9474. o, Kiadó: Curran Associates, Inc.. [2023. június 12-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 12.)
↑ Huang (2022. június 28.). „Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents”. Proceedings of the 39th International Conference on Machine Learning, 9118–9147. o, Kiadó: PMLR.
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[4].
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[5].
↑ Wang. "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560.
↑ Hao. "Reasoning with Language Model is Planning with World Model". arXiv:2305.14992.
↑ ^a ^b Voyager | An Open-Ended Embodied Agent with Large Language Models. voyager.minedojo.org. [2023. június 8-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 9.)
↑ Park. "Generative Agents: Interactive Simulacra of Human Behavior". arXiv:2304.03442.
↑ Mann: How to run an LLM locally on your PC in less than 10 minutes. www.theregister.com. (Hozzáférés: 2024. május 17.)
↑ Nagel (2020. november 21.). „Up or Down? Adaptive Rounding for Post-Training Quantization”. Proceedings of the 37th International Conference on Machine Learning, 7197–7206. o, Kiadó: PMLR. [2023. június 14-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 14.)
↑ Grootendorst: A Visual Guide to Quantization (angol nyelven). newsletter.maartengrootendorst.com. [2024. július 31-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 31.)
↑ Dettmers. "QLoRA: Efficient Finetuning of Quantized LLMs". arXiv:2305.14314.
↑ Kiros (2014. június 18.). „Multimodal Neural Language Models”. Proceedings of the 31st International Conference on Machine Learning, 595–603. o, Kiadó: PMLR. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)
↑ Krizhevsky (2012). „ImageNet Classification with Deep Convolutional Neural Networks”. Advances in Neural Information Processing Systems 25, Kiadó: Curran Associates, Inc.. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)
↑ Antol (2015). „VQA: Visual Question Answering”. ICCV, 2425–2433. o. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)
↑ Li. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597.
↑ Alayrac (2022. december 6.). „Flamingo: a Visual Language Model for Few-Shot Learning”. Advances in Neural Information Processing Systems 35, 23716–23736. o. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)
↑ OpenAI. "GPT-4 Technical Report". {{cite arXiv}}: |arxiv= required (help)
↑ OpenAI: GPT-4V(ision) System Card, 2023. szeptember 25.
↑ Pichai (10 May 2023), Google Keynote (Google I/O '23), <https://www.youtube.com/watch?v=cNfINi5CNbY&t=931s>
↑ Wiggers: Mistral releases Pixtral 12B, its first multimodal model. TechCrunch, 2024. szeptember 11. (Hozzáférés: 2024. szeptember 14.)
↑ Hoffmann. "Training Compute-Optimal Large Language Models". arXiv:2203.15556.
↑ Caballero. "Broken Neural Scaling Laws". arXiv:2210.14891.
↑ 137 emergent abilities of large language models. Jason Wei. (Hozzáférés: 2023. június 24.)
↑ Hahn. "A Theory of Emergent In-Context Learning as Implicit Structure Induction". arXiv:2303.07971.
↑ Pilehvar (2019. június 1.). „Proceedings of the 2019 Conference of the North”. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Minneapolis, Minnesota, 1267–1273. o, Kiadó: Association for Computational Linguistics. [2023. június 27-i dátummal az eredetiből archiválva]. DOI:10.18653/v1/N19-1128. (Hozzáférés: 2023. június 27.)
↑ WiC: The Word-in-Context Dataset. pilehvar.github.io. [2023. június 27-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 27.)
↑ Patel (2021. október 6.). „Mapping Language Models to Grounded Conceptual Spaces”. ICLR. [2023. június 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 27.)
↑ A Closer Look at Large Language Models Emergent Abilities Archiválva 2023. június 24-i dátummal a Wayback Machine-ben. (Yao Fu, Nov 20, 2022)
↑ Ornes: The Unpredictable Abilities Emerging From Large AI Models. Quanta Magazine, 2023. március 16. [2023. március 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 16.)
↑ Schaeffer. "Are Emergent Abilities of Large Language Models a Mirage?". arXiv:2304.15004.
↑ Large Language Model: world models or surface statistics?. The Gradient, 2023. január 21. (Hozzáférés: 2023. június 12.)
↑ Nanda. "Progress measures for grokking via mechanistic interpretability". arXiv:2301.05217.
↑ ^a ^b ^c ^d ^e Mitchell (2023. március 28.). „The debate over understanding in AI's large language models”. Proceedings of the National Academy of Sciences 120 (13), e2215907120. o. DOI:10.1073/pnas.2215907120. PMID 36943882. PMC 10068812.
↑ Metz. „Microsoft Says New A.I. Shows Signs of Human Reasoning”, The New York Times, 2023. május 16.
↑ „ChatGPT is more like an 'alien intelligence' than a human brain, says futurist”, ZDNET, 2023. március 10.. [2023. június 12-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 12.)
↑ Roose. „Why an Octopus-like Creature Has Come to Symbolize the State of A.I.”, The New York Times, 2023. május 30.. [2023. május 30-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 12.)
↑ „The A to Z of Artificial Intelligence”, Time Magazine, 2023. április 13.. [2023. június 16-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 12.)
↑ Ji (2022. november 1.). „Survey of Hallucination in Natural Language Generation” (pdf). ACM Computing Surveys 55 (12), 1–38. o, Kiadó: Association for Computing Machinery. [2023. március 26-i dátummal az eredetiből archiválva]. DOI:10.1145/3571730. (Hozzáférés: 2023. január 15.)
↑ Lakoff, George. Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books, 569–583. o. (1999). ISBN 978-0-465-05674-3
↑ Evans, Vyvyan.. The Language Myth. Cambridge University Press (2014). ISBN 978-1-107-04396-1
↑ Friston, Karl J.. Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference. The MIT Press (2022). ISBN 978-0-262-36997-8
↑ ^a ^b Huyen: Evaluation Metrics for Language Modeling. The Gradient, 2019. október 18. (Hozzáférés: 2024. január 14.)
↑ ^a ^b Clark. "BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions". arXiv:1905.10044.
↑ ^a ^b A bot will complete this citation soon. Click here to jump the queue arXiv:2303.18223.
↑ openai/simple-evals, 2024-05-28, <https://github.com/openai/simple-evals>. Hozzáférés ideje: 2024-05-28
↑ openai/evals, 2024-05-28, <https://github.com/openai/evals>. Hozzáférés ideje: 2024-05-28
↑ Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model (amerikai angol nyelven). imbue.com. [2024. július 26-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 24.)
↑ Lin. "TruthfulQA: Measuring How Models Mimic Human Falsehoods". arXiv:2109.07958.
↑ ^a ^b Zellers. "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830.
↑ (2023. március 7.) „Prepare for truly useful large language models”. Nature Biomedical Engineering 7 (2), 85–86. o. DOI:10.1038/s41551-023-01012-6. PMID 36882584.
↑ „Your job is (probably) safe from artificial intelligence”, The Economist, 2023. május 7.. [2023. június 17-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 18.)
↑ Generative AI Could Raise Global GDP by 7%. Goldman Sachs. [2023. június 18-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 18.)
↑ Peng (2023. június 13.). „Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation”. Proceedings of the ACM on Management of Data 1 (2), 1–18. o. [2024. augusztus 27-i dátummal az eredetiből archiválva]. DOI:10.1145/3589324. (Hozzáférés: 2024. január 20.) Citing Lee et al 2022.
↑ Peng, Wang & Deng 2023.
↑ Alba. „AI chatbots have been used to create dozens of news content farms”, The Japan Times, 2023. május 1. (Hozzáférés: 2023. június 18.)
↑ (2023. június 14.) „Could chatbots help devise the next pandemic virus?”. Science. [2023. június 18-i dátummal az eredetiből archiválva]. DOI:10.1126/science.adj2463. (Hozzáférés: 2023. június 18.)
↑ Stephen Council: How Googlers cracked an SF rival's tech model with a single word. SFGATE, 2023. december 1. [2023. december 16-i dátummal az eredetiből archiválva].
↑ Hubinger. "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training". arXiv:2401.05566.
↑ Wang: Encryption Based Covert Channel for Large Language Models. IACR ePrint 2024/586, 2024. június 20. [2024. június 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. június 24.)
↑ ^a ^b Stokel-Walker: ChatGPT Replicates Gender Bias in Recommendation Letters. Scientific American, 2023. november 22. [2023. december 29-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. december 29.)
↑ Cheng, Myra; Durmus, Esin & Jurafsky, Dan (2023-05-29), Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models
↑ Kotek, Hadas. Gender bias and stereotypes in Large Language Models, Proceedings of the ACM Collective Intelligence Conference, CI '23. New York, NY, USA: Association for Computing Machinery, 12–24. o.. DOI: 10.1145/3582269.3615599 (2023. november 5.). ISBN 979-8-4007-0113-9
↑ Heikkilä: AI language models are rife with different political biases. MIT Technology Review, 2023. augusztus 7. (Hozzáférés: 2023. december 29.)

Irodalom

Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
Zhao, Wayne Xin; et al. (2023). "A Survey of Large Language Models". arXiv:2303.18223 [cs.CL].
Kaddour, Jean; et al. (2023). "Challenges and Applications of Large Language Models". arXiv:2307.10169 [cs.CL].
(2024) „A Survey on Multimodal Large Language Models”. National Science Review 11 (12), nwae403. o. DOI:10.1093/nsr/nwae403. PMID 39679213. PMC 11645129.
AI Index Report 2024 – Artificial Intelligence Index. aiindex.stanford.edu . (Hozzáférés: 2024. május 5.)
(2023. június 27.) „Baby steps in evaluating the capacities of large language models”. Nature Reviews Psychology 2 (8), 451–452. o. DOI:10.1038/s44159-023-00211-x. ISSN 2731-0574. (Hozzáférés: 2023. július 2.)

Informatikai portál • összefoglaló, színes tartalomajánló lap

[:7-1] Better Language Models and Their Implications. OpenAI, 2019. február 14. [2020. december 19-i dátummal az eredetiből archiválva]. (Hozzáférés: 2019. augusztus 25.)

[2] Large Scale Data - an overview | ScienceDirect Topics. www.sciencedirect.com. (Hozzáférés: 2024. szeptember 15.)

[few-shot-learners-3] Brown (2020. december 1.). „Language Models are Few-Shot Learners”. Advances in Neural Information Processing Systems 33, 1877–1901. o, Kiadó: Curran Associates, Inc.. [2023. november 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 14.)

[Manning-2022-4] Manning (2022). „Human Language Understanding & Reasoning”. Daedalus 151 (2), 127–138. o. [2023. november 17-i dátummal az eredetiből archiválva]. DOI:10.1162/daed_a_01905. (Hozzáférés: 2023. március 9.)

[5] Kilgarriff (2003. szeptember 1.). „Introduction to the Special Issue on the Web as Corpus”. Computational Linguistics 29 (3), 333–347. o. DOI:10.1162/089120103322711569. ISSN 0891-2017.

[6] Banko (2001). „Scaling to very very large corpora for natural language disambiguation”. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01, Morristown, NJ, USA, 26–33. o, Kiadó: Association for Computational Linguistics. DOI:10.3115/1073012.1073017.

[7] Resnik (2003. szeptember 1.). „The Web as a Parallel Corpus”. Computational Linguistics 29 (3), 349–380. o. [2024. június 7-i dátummal az eredetiből archiválva]. DOI:10.1162/089120103322711578. ISSN 0891-2017. (Hozzáférés: 2024. június 7.)

[8] Halevy (2009. március 1.). „The Unreasonable Effectiveness of Data”. IEEE Intelligent Systems 24 (2), 8–12. o. DOI:10.1109/MIS.2009.36. ISSN 1541-1672.

[9] Cite web-hiba: a title paramétert mindenképpen meg kell adni!

[10] Vaswani (2017). „Attention is All you Need”. Advances in Neural Information Processing Systems 30, Kiadó: Curran Associates, Inc.. [2024. február 21-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 21.)

[11] Rogers (2020). „A Primer in BERTology: What We Know About How BERT Works”. Transactions of the Association for Computational Linguistics 8, 842–866. o. [2022. április 3-i dátummal az eredetiből archiválva]. DOI:10.1162/tacl_a_00349. (Hozzáférés: 2024. január 21.)

[12] Hern: New AI fake text generator may be too dangerous to release, say creators. The Guardian, 2019. február 14. [2019. február 14-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 20.)

[13] Heaven: GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why. MIT Technology Review, 2023. március 14. [2023. március 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 20.)

[14] Peng. "RWKV: Reinventing RNNS for the Transformer Era". {{cite arXiv}}: |arxiv= required (help)

[15] Merritt: What Is a Transformer Model?. NVIDIA Blog, 2022. március 25. [2023. november 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 25.)

[16] Gu, Albert (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces

[17] Kaushal, Ayush & Mahowald, Kyle (2022-06-06), What do tokens know about their characters and how do they know it?, doi:10.48550/arXiv.2206.02608, <https://arxiv.org/abs/2206.02608>. Hozzáférés ideje: 2024-09-08

[18] Yennie Jun: All languages are NOT created (tokenized) equal. Language models cost much more in some languages than others, 2023. május 3. [2023. augusztus 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. augusztus 17.) „In other words, to express the same sentiment, some languages require up to 10 times more tokens.”

[19] Petrov (2023. június 23.). „Language Model Tokenizers Introduce Unfairness Between Languages”. NeurIPS. [2023. december 15-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. szeptember 16.)

[xbiWb-20] OpenAI API. platform.openai.com. [2023. április 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. április 30.)

[2022Book_-21] Paaß, Gerhard. Pre-trained Language Models, Foundation Models for Natural Language Processing, Artificial Intelligence: Foundations, Theory, and Algorithms, 19–78. o.. DOI: 10.1007/978-3-031-23190-2_2 (2022. március 10.). ISBN 9783031231902. Hozzáférés ideje: 2023. augusztus 3.

[22] Petrov. "Language Model Tokenizers Introduce Unfairness Between Languages". arXiv:2305.15425.

[23] Lundberg: The Art of Prompt Design: Prompt Boundaries and Token Healing (angol nyelven). Medium, 2023. december 12. (Hozzáférés: 2024. augusztus 5.)

[24] Lee (2022. május 1.). „Deduplicating Training Data Makes Language Models Better”. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics 1: Long Papers, 8424–8445. o. DOI:10.18653/v1/2022.acl-long.577.

[qbFw1-25] Brown. "Language Models are Few-Shot Learners". arXiv:2005.14165.

[26] Abdin. "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone". arXiv:2404.14219.

[instructGPT-paper-27] Ouyang. "Training language models to follow instructions with human feedback". arXiv:2203.02155.

[self-instruct-paper-28] Wang. "Self-Instruct: Aligning Language Model with Self Generated Instructions". arXiv:2212.10560.

[HGZCJ-29] Shazeer. "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". arXiv:1701.06538.

[R9Qq5-30] Lepikhin. "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668.

[emergentpaper-31] Wei (2022. augusztus 31.). „Emergent Abilities of Large Language Models”. Transactions on Machine Learning Research. [2023. március 22-i dátummal az eredetiből archiválva]. ISSN 2835-8856. (Hozzáférés: 2023. március 19.)

[Jay_Allamar-32] Allamar: Illustrated transformer. [2023. július 25-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 29.)

[Jay_Allamar_GPT2-33] Allamar: The Illustrated GPT-2 (Visualizing Transformer Language Models). (Hozzáférés: 2023. augusztus 1.)

[34] Our next-generation model: Gemini 1.5. Google, 2024. február 15. [2024. február 18-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. február 18.)

[35] Long context prompting for Claude 2.1, 2023. december 6. [2024. augusztus 27-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 20.)

[ioUpE-36] Zaib, Munazza. A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP, Proceedings of the Australasian Computer Science Week Multiconference, 1–4. o.. DOI: 10.1145/3373017.3373028 (2020. február 4.). ISBN 9781450376976

[jm-37] Jurafsky, Dan. Speech and Language Processing [archivált változat], 3rd edition draft (2023. január 7.). Hozzáférés ideje: 2022. május 24. [archiválás ideje: 2023. március 23.]

[38] From bare metal to a 70B model: infrastructure set-up and scripts (amerikai angol nyelven). imbue.com. [2024. július 26-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 24.)

[39] metaseq/projects/OPT/chronicles at main • facebookresearch/metaseq (angol nyelven). GitHub. [2024. január 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 24.)

[40] Albrecht: State of the Art: Training >70B LLMs on 10,000 H100 clusters (angol nyelven). www.latent.space, 2024. július 23. (Hozzáférés: 2024. július 24.)

[Wiggers-41] Wiggers: The emerging types of language models and why they matter. TechCrunch, 2022. április 28. [2023. március 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 9.)

[kaplan-scaling-42] Section 2.1 and Table 1, A bot will complete this citation soon. Click here to jump the queue arXiv:[1].

[PI1fW-43] A bot will complete this citation soon. Click here to jump the queue arXiv:[2].

[J5OW5-44] PAL: Program-aided Language Models. reasonwithpal.com. [2023. június 12-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 12.)

[gQxzq-45] A bot will complete this citation soon. Click here to jump the queue arXiv:[3].

[lLrda-46] Liang. "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434.

[4Xzrs-47] Patil. "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334.

[BUZBP-48] Lewis (2020). „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”. Advances in Neural Information Processing Systems 33, 9459–9474. o, Kiadó: Curran Associates, Inc.. [2023. június 12-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 12.)

[CFuti-49] Huang (2022. június 28.). „Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents”. Proceedings of the 39th International Conference on Machine Learning, 9118–9147. o, Kiadó: PMLR.

[DmvNE-50] A bot will complete this citation soon. Click here to jump the queue arXiv:[4].

[JS8Vd-51] A bot will complete this citation soon. Click here to jump the queue arXiv:[5].

[52] Wang. "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560.

[ltTer-53] Hao. "Reasoning with Language Model is Planning with World Model". arXiv:2305.14992.

[:0-54] Voyager | An Open-Ended Embodied Agent with Large Language Models. voyager.minedojo.org. [2023. június 8-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 9.)

[XuvjF-55] Park. "Generative Agents: Interactive Simulacra of Human Behavior". arXiv:2304.03442.

[56] Mann: How to run an LLM locally on your PC in less than 10 minutes. www.theregister.com. (Hozzáférés: 2024. május 17.)

[LS2Go-57] Nagel (2020. november 21.). „Up or Down? Adaptive Rounding for Post-Training Quantization”. Proceedings of the 37th International Conference on Machine Learning, 7197–7206. o, Kiadó: PMLR. [2023. június 14-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 14.)

[58] Grootendorst: A Visual Guide to Quantization (angol nyelven). newsletter.maartengrootendorst.com. [2024. július 31-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 31.)

[D0nFA-59] Dettmers. "QLoRA: Efficient Finetuning of Quantized LLMs". arXiv:2305.14314.

[60] Kiros (2014. június 18.). „Multimodal Neural Language Models”. Proceedings of the 31st International Conference on Machine Learning, 595–603. o, Kiadó: PMLR. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)

[61] Krizhevsky (2012). „ImageNet Classification with Deep Convolutional Neural Networks”. Advances in Neural Information Processing Systems 25, Kiadó: Curran Associates, Inc.. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)

[62] Antol (2015). „VQA: Visual Question Answering”. ICCV, 2425–2433. o. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)

[63] Li. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597.

[64] Alayrac (2022. december 6.). „Flamingo: a Visual Language Model for Few-Shot Learning”. Advances in Neural Information Processing Systems 35, 23716–23736. o. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)

[65] OpenAI. "GPT-4 Technical Report". {{cite arXiv}}: |arxiv= required (help)

[66] OpenAI: GPT-4V(ision) System Card, 2023. szeptember 25.

[67] Pichai (10 May 2023), Google Keynote (Google I/O '23), <https://www.youtube.com/watch?v=cNfINi5CNbY&t=931s>

[68] Wiggers: Mistral releases Pixtral 12B, its first multimodal model. TechCrunch, 2024. szeptember 11. (Hozzáférés: 2024. szeptember 14.)

[fJta3-69] Hoffmann. "Training Compute-Optimal Large Language Models". arXiv:2203.15556.

[IYm4Q-70] Caballero. "Broken Neural Scaling Laws". arXiv:2210.14891.

[JM6s1-71] 137 emergent abilities of large language models. Jason Wei. (Hozzáférés: 2023. június 24.)

[Hahn_20230314-72] Hahn. "A Theory of Emergent In-Context Learning as Implicit Structure Induction". arXiv:2303.07971.

[57FEA-73] Pilehvar (2019. június 1.). „Proceedings of the 2019 Conference of the North”. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Minneapolis, Minnesota, 1267–1273. o, Kiadó: Association for Computational Linguistics. [2023. június 27-i dátummal az eredetiből archiválva]. DOI:10.18653/v1/N19-1128. (Hozzáférés: 2023. június 27.)

[TEIkA-74] WiC: The Word-in-Context Dataset. pilehvar.github.io. [2023. június 27-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 27.)

[zgy1i-75] Patel (2021. október 6.). „Mapping Language Models to Grounded Conceptual Spaces”. ICLR. [2023. június 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 27.)

[Imb98-76] A Closer Look at Large Language Models Emergent Abilities Archiválva 2023. június 24-i dátummal a Wayback Machine-ben. (Yao Fu, Nov 20, 2022)

[CeQVF-77] Ornes: The Unpredictable Abilities Emerging From Large AI Models. Quanta Magazine, 2023. március 16. [2023. március 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 16.)

[C775b-78] Schaeffer. "Are Emergent Abilities of Large Language Models a Mirage?". arXiv:2304.15004.

[RLik9-79] Large Language Model: world models or surface statistics?. The Gradient, 2023. január 21. (Hozzáférés: 2023. június 12.)

[oYGlo-80] Nanda. "Progress measures for grokking via mechanistic interpretability". arXiv:2301.05217.

[debate_understanding-81] Mitchell (2023. március 28.). „The debate over understanding in AI's large language models”. Proceedings of the National Academy of Sciences 120 (13), e2215907120. o. DOI:10.1073/pnas.2215907120. PMID 36943882. PMC 10068812.

[O8Upd-82] Metz. „Microsoft Says New A.I. Shows Signs of Human Reasoning”, The New York Times, 2023. május 16.

[rEEmH-83] „ChatGPT is more like an 'alien intelligence' than a human brain, says futurist”, ZDNET, 2023. március 10.. [2023. június 12-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 12.)

[rAFIZ-84] Roose. „Why an Octopus-like Creature Has Come to Symbolize the State of A.I.”, The New York Times, 2023. május 30.. [2023. május 30-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 12.)

[4luKE-85] „The A to Z of Artificial Intelligence”, Time Magazine, 2023. április 13.. [2023. június 16-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 12.)

[hallucination-survey-86] Ji (2022. november 1.). „Survey of Hallucination in Natural Language Generation” (pdf). ACM Computing Surveys 55 (12), 1–38. o, Kiadó: Association for Computing Machinery. [2023. március 26-i dátummal az eredetiből archiválva]. DOI:10.1145/3571730. (Hozzáférés: 2023. január 15.)

[87] Lakoff, George. Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books, 569–583. o. (1999). ISBN 978-0-465-05674-3

[88] Evans, Vyvyan.. The Language Myth. Cambridge University Press (2014). ISBN 978-1-107-04396-1

[89] Friston, Karl J.. Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference. The MIT Press (2022). ISBN 978-0-262-36997-8

[Huyen-90] Huyen: Evaluation Metrics for Language Modeling. The Gradient, 2019. október 18. (Hozzáférés: 2024. január 14.)

[boolq-91] Clark. "BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions". arXiv:1905.10044.

[survey-92] A bot will complete this citation soon. Click here to jump the queue arXiv:2303.18223.

[93] openai/simple-evals, 2024-05-28, <https://github.com/openai/simple-evals>. Hozzáférés ideje: 2024-05-28

[94] openai/evals, 2024-05-28, <https://github.com/openai/evals>. Hozzáférés ideje: 2024-05-28

[95] Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model (amerikai angol nyelven). imbue.com. [2024. július 26-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 24.)

[truthfulqa-96] Lin. "TruthfulQA: Measuring How Models Mimic Human Falsehoods". arXiv:2109.07958.

[hellaswag-97] Zellers. "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830.

[ZDTUM-98] (2023. március 7.) „Prepare for truly useful large language models”. Nature Biomedical Engineering 7 (2), 85–86. o. DOI:10.1038/s41551-023-01012-6. PMID 36882584.

[81w7x-99] „Your job is (probably) safe from artificial intelligence”, The Economist, 2023. május 7.. [2023. június 17-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 18.)

[zIM6Y-100] Generative AI Could Raise Global GDP by 7%. Goldman Sachs. [2023. június 18-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 18.)

[101] Peng (2023. június 13.). „Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation”. Proceedings of the ACM on Management of Data 1 (2), 1–18. o. [2024. augusztus 27-i dátummal az eredetiből archiválva]. DOI:10.1145/3589324. (Hozzáférés: 2024. január 20.) Citing Lee et al 2022.

[102] Peng, Wang & Deng 2023.

[nD6kH-103] Alba. „AI chatbots have been used to create dozens of news content farms”, The Japan Times, 2023. május 1. (Hozzáférés: 2023. június 18.)

[PKiPY-104] (2023. június 14.) „Could chatbots help devise the next pandemic virus?”. Science. [2023. június 18-i dátummal az eredetiből archiválva]. DOI:10.1126/science.adj2463. (Hozzáférés: 2023. június 18.)

[105] Stephen Council: How Googlers cracked an SF rival's tech model with a single word. SFGATE, 2023. december 1. [2023. december 16-i dátummal az eredetiből archiválva].

[106] Hubinger. "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training". arXiv:2401.05566.

[107] Wang: Encryption Based Covert Channel for Large Language Models. IACR ePrint 2024/586, 2024. június 20. [2024. június 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. június 24.)

[:8-108] Stokel-Walker: ChatGPT Replicates Gender Bias in Recommendation Letters. Scientific American, 2023. november 22. [2023. december 29-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. december 29.)

[109] Cheng, Myra; Durmus, Esin & Jurafsky, Dan (2023-05-29), Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models

[110] Kotek, Hadas. Gender bias and stereotypes in Large Language Models, Proceedings of the ACM Collective Intelligence Conference, CI '23. New York, NY, USA: Association for Computing Machinery, 12–24. o.. DOI: 10.1145/3582269.3615599 (2023. november 5.). ISBN 979-8-4007-0113-9

[111] Heikkilä: AI language models are rife with different political biases. MIT Technology Review, 2023. augusztus 7. (Hozzáférés: 2023. december 29.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]

Sablon:Generatív AI chatbotok m v sz Generatív MI chatbotok
USA	ChatGPT Claude Copilot Gemini Grok Poe Replika You.com
Oroszország	YandexGPT
Kína	DeepSeek Qwen
Európa	Mistral (Franciaország)
Dél-Korea	Galaxy AI
Megszűnt	Bard
Kapcsolódó cikkek	Nagy nyelvi modell