Nagy nyelvi modell
A nagy nyelvi modell (angolul Large language model, LLM) olyan számítási modell, amely képes nyelv generálására, vagy más természetes nyelvi feldolgozási feladatok elvégzésére. Mint nyelvi modellek, az LLM-ek úgy sajátítják el ezeket a képességeket, hogy óriási mennyiségű szövegből, egy önfelügyelt és egy félig felügyelt tanulási folyamat során, statisztikai összefüggéseket tanulnak meg.[1]
A legnagyobb és legtehetségesebb LLM-ek 2024 augusztusában, mesterséges neurális hálózatok, amelyeket csak dekóderes, transzformer alapú architektúrával építettek. Ez lehetővé teszi számukra a nagy léptékű (hatalmas mennyiségű, heterogén tartalmú, sokféle forrásból származó[2]) szöveges adatok hatékony feldolgozását és generálását. A modern modellek a konkrét feladatokhoz finomhangolhatók, és prompt mérnöki tevékenységgel irányíthatók.[3] Ezek a modellek prediktív képességet sajátítanak el az emberi nyelvi korpuszokban rejlő szintaxis, szemantika és ontológiák tekintetében, ugyanakkor öröklik mindazt a pontatlanságot és torzítást (bias), amely az általuk betanult adatokban jelen volt.[4]
Néhány nevezetes LLM: az OpenAI GPT modellsorozata (pl. a GPT-3.5, a GPT-4, valamint a GPT-4o ; amelyet a ChatGPT-ben és a Microsoft Copilotban használtak fel); a Google Gemini (ez utóbbit jelenleg az azonos nevű chatbotban használatos ); a Meta LLaMA modellcsaládja; az IBM eredetileg Watsonx-szel kiadott Granite modelljei; az Anthropic Claude modelljei; és a Mistral AI modelljei.
Története
[szerkesztés]2017 előtt volt néhány olyan nyelvi modell, amelyek az akkor elérhető képességekhez viszonyítva nagyok voltak. Az 1990-es években az IBM igazítási modellek (olyan, egyre összetettebb modellek sorozatáról van szó, amelyeket a statisztikai gépi fordításban használnak) úttörő szerepet játszottak a statisztikai nyelvi modellezésben. 2001-ben egy simított, 0,3 milliárd szóra kiképzett n-gram modell elérte az akkori SOTA (a technika legkorszerűbb) perplexitását. A 2000-es években, amikor az internethasználat elterjedt, néhány kutató internetes léptékű nyelvi adatkészleteket konstruált ("web as corpus"[5] ), amelyek alapján statisztikai nyelvi modelleket képeztek ki.[6][7] 2009-ben a legtöbb nyelvi feldolgozási feladatban a statisztikai nyelvi modellek domináltak a szimbolikus nyelvi modellekkel szemben, mivel képesek hasznosan befogadni nagy adathalmazokat.[8]
Miután 2012 körül a neurális hálózatok dominánssá váltak a képfeldolgozásban, a nyelvi modellezésre is alkalmazták őket. A Google 2016-ban átalakította fordítószolgáltatását neurális gépi fordításra (NMT). A transzformerek előtti időszakhoz hasonlóan, most is a (Sequence to Sequence) Seq2seq mély LSTM hálózatok által tették ezt. (Egy többrétegű hosszú rövid-távú memória [Long Short-Term Memory] a bemeneti adatsorozatot leképezi egy rögzített dimenziójú vektorra, majd egy másik LSMT a vektorból dekódolja a célszekvenciát.[9])
A Google kutatói a 2017-es NeurIPS konferencián mutatták be a transzformer architektúrát a mérföldkőnek számító " Attention Is All You Need ” című tanulmányukban. E cikk célja a 2014 utáni Seq2seq technológia fejlesztése volt,[10] és főként a Bahdanau és munkatársai által 2014-ben kifejlesztett figyelem-mechanizmuson (attention mechanism) alapult.
2018-ban bevezették a Google kutatói által épített BERT-öt (Bidirectional encoder representations from transformers), és ez a nyelvi modell gyorsan „mindenütt jelenlévővé” vált.[11] Bár az eredeti transzformernek kódoló és dekódoló blokkja is van, a BERT csak kódoló (encoder) modell.
Noha 2018-ban bevezették a csak dekóderhez használható GPT-1-et, 2019-ben a GPT-2 volt az, amely széleskörű figyelmet keltett, mivel az OpenAI eleinte, a rosszindulatú felhasználástól félve, túl átütő erejűnek tartotta a nyilvános kiadáshoz.[12] A GPT-3 2020-ban egy lépéssel tovább ment, és 2024-től már csak API-n keresztül érhető el, így nincs lehetőség a modell letöltésére és helyben futtatására. De a 2022-es, fogyasztóknak szánt, böngészőalapú ChatGPT volt az, amely megragadta az általános népesség fantáziáját, és okozott némi médiafelhajtást és online zsongást. A 2023-as GPT-4-et megnövekedett pontossága miatt dícsérték, és "szent grálként" tekintettek rá a multimodális képességei miatt.[13] Az OpenAI nem fedte fel a GPT-4 magas szintű architektúráját és paramétereinek számát.
Az egymással versengő nyelvi modellek nagyrészt a GPT sorozattal próbáltak megegyezni, legalábbis a paraméterek száma szempontjából.
2022 óta a nyílt forráskódú modellek egyre népszerűbbek, eleinte főleg a BLOOM és a LLaMA, bár mindkettőnek korlátozzák a felhasználási területét. A Mistral AI modelljei, a Mistral 7B és a Mixtral 8x7b engedékenyebb Apache licenccel rendelkeznek. 2024 júniusától a Llama-3-70b-Instruct, a Llama finomhangolt változata, a 3 70 milliárd paraméteres modell a legerősebb nyílt LLM az LMSYS Chatbot Arena ranglistája szerint, erősebb, mint a GPT-3.5, de nem olyan erős, mint a GPT-4.
2024-től a legnagyobb és legjobb képességű modellek szinte mindegyike a transzformer-architektúrán alapul. Néhány a legújabb kivitelezések közül más architektúrájú, mint például a rekurrens (visszacsatolt) neurális hálózatok (RNN) változatai és a Mamba (egy állapottér modell [SSM]).[14][15][16]
Adatkészlet előfeldolgozása
[szerkesztés]Tokenizálás
[szerkesztés]Mivel a gépi tanulási algoritmusok szöveg helyett számokat dolgoznak fel, a szöveget számokká kell alakítani. Első lépésben egy szókészletről születik döntés, majd önkényesen, de egyedileg egész indexeket rendelnek a szójegyzék minden egyes bejegyzéséhez, végül pedig egy beágyazást társítanak az integer indexhez. Az algoritmusok közé tartozik a bájtpáros kódolás ([BPE], a melyet a természetes nyelvi feldolgozában [Natural Language Procession, NLP] alszavak tokenizálására használnak) és a WordPiece (ez a Google által a BERT előképzésére kifejlesztett tokenizációs algoritmus).
Vannak speciális tokenek is, amelyek vezérlőkarakterként szolgálnak, mint például [MASK]
a kimaszkolt tokenhez (ahogyan az a BERT -ben használatos), és [UNK]
(unknown – ismeretlen) a szókincsben nem szereplő karakterekhez.
Ezenkívül néhány speciális szimbólumot használnak a különleges szövegformázás jelölésére. Például a „Ġ” egy előtte álló szóközt jelöl a RoBERTa-ban és a GPT-ben. A "##" egy előző szó folytatását jelöli a BERT-ben.[17]
Például BPT tokenizátor, amit a GPT-3 (Legacy) haszná felosztja tokenizer: texts -> series of numerical "tokens"
mint
token | izer | : | [texts | -> | serie | of | numerical | " | t | ok | ens | " |
A tokenizálás az adatkészleteket is tömöríti . Mivel az LLM-ek általában egy sorban lévő, nem pedig egyenetlenül adagolt inputot írnak elő, a rövidebb szövegeket ki kell "párnázni", egészen addig, amíg a hosszúságuk meg nem egyezik a leghosszabb szöveg hosszával. Az adatkészlet nyelvétől függ, hogy átlagosan hány tokenre van szükség szavanként.[18][19]
BPE
[szerkesztés]Példaként vegyünk egy bájtpáros kódoláson alapuló tokenizátort. Az első lépésben az összes egyedi karaktert (beleértve az üreseket és az írásjeleket is) n -grammok kezdeti halmazaként (azaz unigrammok kezdeti halmazaként) kezeli. A szomszédos karakterek leggyakrabban előforduló párja egymás után összevonódik egy bigrammá, és a pár minden példányát ez helyettesíti. A korábban összevont, szomszédos n -gramm-párok összes (korábban összevont) előfordulását – amelyek a leggyakrabban fordulnak együtt elő – ezután ismét összevonják – egy még hosszabb – n -grammá, egészen addig, amíg a szókészlet az előírt méretűvé nem válik (a GPT-3 esetén a méret 50257) .[20] A tokenizátorral, a betanítása után, bármely szöveg tokenizálható, feltéve, hogy nem tartalmaz olyan karaktereket, amelyek nem szerepelnek az unigrammok kezdőkészletében.[21]
Problémák
[szerkesztés]A főként angol korpuszokból kinyert gyakoriságokon alapuló token szókincs, a lehető legkevesebb tokent használja egy átlagos angol szóhoz. Egy másik nyelven kódolt átlagos szó azonban, egy ilyen angolra optimalizált tokenizátor használata esetén, szuboptimális mennyiségű tokenre van felosztva. A GPT-2 tokenizátor szavanként akár 15-ször több tokent képes használni egyes nyelveken, például a mianmari Shan nyelven. Olyan, még elterjedtebb nyelvek, mint például a portugál és a német pedig „50%-os token-töblettel” rendelkeznek az angolhoz képest.[22]
A mohó tokenizálás szintén okoz apróbb problémákat a szöveg befejezésénél.[23]
Adatkészlet tisztítás
[szerkesztés]Az LLM-ek képzésével összefüggésben az adatkészleteket általában a toxikus szakaszok eltávolításával, az alacsony minőségű adatok elvetésével és a duplikációk megszüntetésével tisztítják. A megtisztított adatkészletek növelhetik a képzés hatékonyságát, és javíthatják a szervertől származó adatfolyam minőségét, teljesítőképességét.[24] Egy betanított large language model egy további LLM betanításához szükséges adatkészletek tisztítására is használható..
A weben található tartalom egyre nagyobb hányada LLM által generált, ezért az adattisztítás a jövőben az ilyen tartalmak kiszűrését is magában foglalhatja. Az LLM által generált tartalom akkor jelenthet problémát, ha a tartalom az emberi szöveghez hasonló (ami bonyolultabbá teszi a szűrést), de rosszabb minőségű (lerontja a rá betanított modellek teljesítményét).[25]
Szintetikus adatok
[szerkesztés]Előfordulhat, hogy a legnagyobb nyelvi modellek képzéséhez több nyelvi adatra van szükség a természetes módon rendelkezésre állónál, vagy, hogy a természetesen előforduló adatok nem megfelelő minőségűek. Ezekben az esetekben szintetikus adatok használhatók. A Microsoft Phi LLM-sorozatát például egy másik LLM által generált, tankönyvszerű adatokon tanították be.[26]
Képzés és architektúra
[szerkesztés]Megerősítő tanulás emberi visszajelzésből (RLHF)
[szerkesztés]A emberi visszajelzésen alapuló megerősítő tanulás (Reinforcement learning from human feedback – RLHF) algoritmusokon – például a proximális politikaoptimalizáláson (PPO) – keresztül az emberi preferenciák adathalmazán alapuló modell további finomhangolására használatos.[27]
Utasítás hangolás
[szerkesztés]Az önképző ("self-instruct") eljárásokat használva, az LLM-ek képessé váltak a helyes válaszok önálló rendszerbetöltésére (bootstrap), helyettesítve a naiv válaszokat, néhány eset ember által generált korrekciójából kiindulva. Például az „Írjon esszét a Hamlet fő témáiról" utasításban a kezdeti naiv kiegészítés, ennek a szöveges sorozatnak a korpuszban előforduló gyakorisága alapján, a következő lehet: "Ha március 17-e után küldi be az esszét, az osztályzata 10%-kal csökken minden egyes késedelmes nap után".[28]
Szakértők keveréke
[szerkesztés]A legnagyobb LLM túl drága lehet a közvetlen képzéshez és használathoz. Az ilyen modellekre a szakértői keverék (mixture of experts – MoE) alkalmazható, a Google kutatói által 2017 óta folytatott kutatási vonal, amelynek célja az akár 1 billió paramétert is elérő modellek betanítása.[29][30]
Prompt tervezés, figyelemmechanizmus és kontextusablak
[szerkesztés]A legtöbb olyan eredmény, amelyet korábban csak (költséges) finomhangolással lehetett elérni, elérhető az „utasítás tervezésen" (prompt engineering) keresztül, noha ez egyetlen beszélgetés hatókörére korlátozódik (pontosabban egy kontextusablak hatókörére).[31]
Annak érdekében, hogy megtudja, mely tokenek relevánsak egymás számára a kontextusablak keretein belül, a figyelemmechanizmus „puha” súlyokat számol minden egyes tokenhez, pontosabban annak beágyazásához, több figyelemfej használatával, amelyek mindegyike saját „relevanciával” rendelkezik a saját lágy súlyok kiszámításához. Például a kicsi (azaz 117 milliós paraméter méretű) GPT-2 modell tizenkét figyelemfejjel és mindössze 1 ezer tokenből álló kontextusablakkal rendelkezik.[33] Közepes változatában 345M paraméterrel rendelkezik, és 24 réteget tartalmaz, egyenként 12 figyelemfejjel. A gradiens süllyedéssel (GD) végzett képzéshez 512-es tételméretet használtak.[21]
A legnagyobb modelleknek, így például a Google 2024 februárjában bemutatott Gemini 1.5-jének, akár 1 millió tokenes kontextusablaka is lehet (és a 10 milliós kontextusablakot is „sikeresen tesztelték").[34] Más, nagy kontextusablakokkal rendelkező modellek közé tartozik például az Anthropic's Claude 2.1 is, amely egy, akár 200 000 tokenes kontextusablakkal rendelkezik.[35]
Vegye figyelembe, hogy ez a maximum a bemeneti tokenek számára vonatkozik, valamint, hogy a kimeneti tokenek maximális száma eltér a bemeneti tokenek számától, és hogy a kimeneti tokenek maximális száma gyakran kisebb a bemeneti tokenek maximális számánál. Például a GPT-4 Turbo modell maximális kimenete 4096 tokenes.
Egy beszélgetés hosszát, amelyet a modell figyelembe tud venni a következő válasza generálásakor, egy kontextusablak mérete is korlátozza. Ha egy beszélgetés hossza – például a ChatGPT-vel – hosszabb, mint az adott LLM kontextusablaka, akkor a következő válasz generálásakor csak a kontextusablakon belüli részeket veszi figyelembe a modell, vagy valamilyen algoritmust kell alkalmaznia a modellnek a beszélgetés egymástól túl távol eső részeinek összefoglalására.
A kontextusablak megnagyobbításának hiányosságai közé tartozik a magasabb számítási költség és a helyi kontextusra való összpontosítás esetleges felhígulása. Az ablak kicsinyítése azonban azt okozhatja, hogy a modell kihagy egy fontos, hosszú távú függőséget (a sorozat, pl. egy beszélgetés, távoli elemei közötti kapcsolatot). Ezek kiegyensúlyozása kísérletezés és domén-specifikus megfontolások kérdése.
Egy modell előre betanítható annak előzetes becslésére, hogy hogyan folytatódik a szegmens, vagy éppen arra, hogy mi hiányzik a szegmensből, egy a betanítási adatkészletéből adott szegmens esetében.[36] Bármelyik lehet
- autoregresszív (azaz megjósolja, hogyan folytatódik a szegmens, úgy, ahogy a GPT-k csinálják): például adott egy „szeretek enni” szegmens, amelyre, a modell „fagylaltot” vagy „szusit” jósol.
- " maszkolt " (azaz kitölti a szegmensből hiányzó részeket, ahogy "BERT"[37] teszi): például adott egy "I like to
[__] [__] cream
" szegmens esetén a modell azt jósolja, hogy az „eat" és az „ice" hiányzik.
A modelleket olyan kiegészítő feladatokra is ki lehet képezni, amelyek tesztelik az adateloszlás megértését. Például a következő mondat előrejelzését (next sentence prediction – NSP), amelyben mondatpárok jelennek meg, és a modellnek meg kell jósolnia, hogy ezek egymás után megjelennek-e a tanító korpuszban.[37] Edzés közben a regularizációs veszteséget az edzés stabilizálására is alkalmazzák, de általában nem használják a tesztelés és az értékelés során.
Infrastruktúra
[szerkesztés]A legnagyobb modellek képzéséhez jelentős infrastruktúra szükséges.[38][39][40]
Képzési költség
[szerkesztés]2020 óta, a szoftver és a hardver területén tett előrelépések következtében jelentősen csökkentek a költségek, így 2023-ban egy 12 milliárd paraméterű LLM számítási költsége 72 300 A100-GPU óra volt, míg 2020-ban egy 1,5 milliárd paraméterű LLM képzésének költsége, (amely két nagyságrenddel volt kisebb, mint a 2020-as csúcstechnika), 80 ezer és 1,6 millió USD között volt.[41] 2020 óta jelentős összegeket fektettek be a fokozatosan egyre nagyobb modellekbe. Például a GPT-2 (azaz egy 1,5 milliárd paraméteres modell) képzése 2019-ben 50000 USD-ba került, míg a PaLM (azaz egy 540 milliárd paraméteres modell) 2022-ben 8 millió USD-ba, a Megatron-Turing NLG 530B pedig (2021-ben) körülbelül 11 millió USD-ba került.
A transzformer-alapú LLM esetében sokkal magasabb a képzési költség, mint a következtetési költség. Míg az egy tokenre való betanítás paraméterenként 6 FLOP- ba kerül, a tokenre való következtetés paraméterenként csak 1-2 FLOP-ba kerül.[42]
Eszközhasználat
[szerkesztés]Vannak bizonyos feladatok, amelyeket elvileg egyetlen LLM sem tud megoldani, legalábbis külső eszközök vagy kiegészítő szoftverek nélkül. Ilyen feladat például a felhasználó '354 * 139 = ' bevitelére való válaszadás, feltéve, hogy az LLM még nem találkozott ennek a számításnak a folytatásával a képzési korpuszában. Ilyen esetekben az LLM-nek futó programkódot kell igénybe vennie, amely kiszámítja az eredményt, amelyet azután belefoglalhat a válaszába. Egy másik példa: „Mennyi idő van most? Most ... van "', ahol egy különálló értelmező programnak végre kell hajtania egy kódot ahhoz, hogy hozzáférjen a rendszeridőhöz a számítógépen, és az LLM belefoglalhassa azt a válaszába.[43][44] Ez az alapstratégia kifinomultabbá válhat a generált programok többszöri próbálkozásával és más mintavételi stratégiákkal.[45]
Általában annak érdekében, hogy egy LLM eszközt használjon, finomhangolni kell azt az eszközhasználatra. Amikor az eszközök száma véges, akkor csak egyszer lehet elvégezni a finomhangolást. Azonban amikor az eszközök száma tetszőlegesen nőhet – mint az online API-szolgáltatások esetében – akkor az LLM finomhangolható úgy, hogy képes legyen olvasni az API-dokumentációt és megfelelően hívni az API-t.[46][47]
Az eszközhasználat egyszerűbb formája a visszakereséssel bővített generálás : az LLM kiterjesztése dokumentum-visszakereséssel. Adott egy lekérdezés, és egy dokumentum visszakereső meghívást kap a legrelevánsabb dokumentumok visszakeresésére. Ez általában úgy történik, hogy a lekérdezést és a dokumentumokat vektorokba kódolják, majd megkeresik a dokumentumokat a lekérdezés vektorához leginkább hasonló vektorokkal (ezek rendszerint vektoradatbázisban tárolódnak). Az LLM ezután, a lekérdezés és a visszakeresett dokumentumokból származó kontextus alapján, kimenetet generál.[48]
Ügynökség
[szerkesztés]Egy LLM az egy nyelvi modell, amely nem ügynök, mivel nincs célja, ugyanakkor használható egy intelligens ügynök összetevőjeként.[49] A kutatók sokféle módszert leírtak már az ilyen integrációkhoz.
A ReAct minta, a „Reason + Act" egy csomagja, ügynököt hoz létre egy LLM-ből, tervezőként használva az LLM-et. Arra utasítja az LLM-et, hogy "gondolkozzon hangosan". Konkrétan a nyelvi modellt a környezetnek, egy célnak, a lehetséges cselekvések egy listájának szöveges leírására, valamint az eddigi cselekvések és megfigyelések feljegyzése utasítja. Az pedig egy, vagy több gondolatot generál, mielőtt olyan cselekvést generálna, amelyet aztán végrehajt a környezetben.[50] Az LLM tervezőnek adott környezet nyelvi leírása akár egy környezetet leíró dolgozat LaTeX kódja is lehet.[51]
A DEPS ("Describe, Explain, Plan and Select") módszerben egy LLM először képleírásokon keresztül kapcsolódik a vizuális világhoz, majd utasítást kap, hogy előre betanított tudása és az kapott környezeti visszajelzések alapján hozzon létre összetett feladatokra és viselkedésekre vonatkozó terveket.[52]
A Reflexiós módszer egy több epizódon keresztül tanuló ügynököt konstruál. Az LLM minden egyes epizód végén megkapja az epizód jegyzőkönyvét, és utasítást kap, hogy gondolja át a „megtanult leckéket", amelyek segítik abban, hogy egy következő epizódban jobban teljesítsen. Ezeket a „megtanult leckéket" a következő epizódokban kapja meg az ügynök.
A Monte Carlo tree search LLM-et használhat a megértést segítő kiterjesztésként. Ha egy programadó világmodell nem érhető el, egy LLM-et a világmodellként működő környezet leírásával is lehet utasítani.[53]
Nyílt végű kutatáshoz egy LLM használható a megfigyelések „érdekességének” pontozására, amely egyfajta jutalomjelzésként használható egy normál (nem-LLM) megerősítő tanulási ügynök vezérlésére. Alternatív megoldásként, az LLM javasolhat fokozatosan nehezedő feladatokat a tanterv szerinti tanuláshoz .[54] Ahelyett, hogy egyedi műveleteket hajtana végre, az LLM-tervező „készségeket” vagy funkciókat is létrehozhat az összetett műveletsorozatokhoz. A készségek tárolhatók és később felidézhetők, lehetővé téve az absztrakció növekvő szintjét a tervezésben.[54]
Az LLM-alapú ügynökök hosszútávú memóriát őrizhetnek a korábbi kontextusaikról, és ez a memória ugyanazon a módon visszakereshető, mint a visszakereséssel bővített generálás. Több ilyen ügynök is képes társadalmi interakcióba lépni.[55]
Tömörítés
[szerkesztés]Az LLM-eket tipikusan egyszeres, vagy fél-pontosságú lebegőpontos (floating point numbers) számokkal (float32 és float16) képezik. Egy float16 16 bittel, vagy 2 bájttal rendelkezik, így egymilliárd paraméterhez 2 gigabájt szükséges. A legnagyobb modellek jellemzően 100 milliárd paraméterrel rendelkeznek, 200 gigabájtot igényelnek a betöltéshez, ami a legtöbb szórakoztató-elektronikai tartományon kívülre helyezi őket.[56]
A tréning utáni kvantálás[57] célja a helyigény csökkentése azáltal, hogy csökkenti a betanított modell paramétereinek pontosságát, ugyanakkor a teljesítményének nagy részét megőrzi. A kvantálás legegyszerűbb formája egyszerűen lecsonkítja az összes számot egy megadott számú bitre. Ez javítható, ha rétegenként eltérő kvantálási kódkönyvet használunk. További fejlesztés érhető el, ha a különböző paraméterekhez eltérő pontosságot alkalmaznak: nagyobb pontosságot a különösen fontos paramétereknél („kiugró súlyok"). Lásd[58] a vizuális útmutatót.
Míg a kvantált modellek jellemzően fagyasztottak, és csak az előre kvantált modellek finomhangoltak, a kvantált modellek még lehetnek finomhangoltak.[59]
Multimodalitás
[szerkesztés]A multimodalitás a „többféle modalitással rendelkezést" jelenti, a „modalitás” pedig egyfajta bemeneti vagy kimeneti adatra utal, például videóra, képre, hangra, szövegre, propriocepcióra, stb.[60] Számos mesterséges intelligencia-modellt kifejezetten egyfajta modalitás bevitelére és egy másik fajta modalitás kibocsátására képeztek ki. Így például az AlexNetet a képet a címkéhez,[61] a vizuális kérdés megválaszolása (a képnek és cimkéjének a szöveges átírása),[62] és a beszédfelismerés (a beszéd szöveggé való átírására) típusú feladatok végrehajtására.
Egy általános módszer a multimodális modellek LLM-ből történő létrehozására a betanított kódoló kimenetének "tokenizálása". Konkrétan a következőképpen lehet létrehozni egy LLM-et, amely képes megérteni a képeket: vegyünk egy már képzett LLM-et, és vegyünk egy már szintén kiképzett képkódolót. . Készítsünk egy kis többrétegű perceptront (ami egy hatékony képfelismerő algoritmus a 20. sz. közepéről) , így bármilyen képhez , az utófeldolgozott vektor, mérete megegyezik egy kódolt token méretével. Ez egy "kép token". Ezután már egymásba lehet illeszteni a szöveges és a képi tokeneket. Az összetett modellt ezután finomhangoljuk egy kép-szöveg adatkészleten. Ez az alapkonstrukció egy kicsit kifinomultabb formában a modell tökéletesítésére is alkalmazható. A képkódoló a stabilitás javítása érdekében lefagyhat.[63]
A Flamingo bemutatta a tokenizációs módszer hatékonyságát, egy pár előre betanított nyelvi modellt és képkódolót finomhangolt annak érdekében, hogy jobban teljesítsenek a vizuális kérdések megválaszolásában, mint a nulláról betanított modellek.[64] A Google PaLM modellt egy multimodális PaLM-E modellre finomhangolták, tokenizációs módszerrel, robotvezérlésre alkalmazva. A LLaMA modelleket szintén tokenizációs módszerrel alakították át multimodálissá, engedélyezve a kép- és videó bemeneteket.
A GPT-4 szöveget és képet is tud használni bemenetként[65] (noha a látáskomponenst a GPT-4V-ig[66] nem hozták nyilvánosságra); Szintén multimodális a Google DeepMind Gemini.[67] A Mistral a saját multimodell Pixtral 12B modelljét 2024 szeptemberében mutatta be.[68]
Tulajdonságok
[szerkesztés]Skálázási törvények
[szerkesztés]Egy LLM-et a következő négy hiperparaméter jellemez:
- (elő)képzés költsége ( ),
- magának a mesterséges neurális hálózatnak a mérete, például a paraméterek száma (azaz a neuronok mennyisége a rétegeiben, a köztük lévő súlyok és a torzítások),
- (elő)képzési adatkészletének mérete (azaz a korpuszban lévő tokenek száma, ),
- teljesítmény (elő)edzés után.
Ezeket a hiperparamétereket egyszerű statisztikai törvények kapcsolják össze, amelyeket "skálázási törvényeknek" neveznek. Egy adott skálázási törvény (pl. " Csincsilla-skálázás ") az egy korszakra autoregresszíven betanított LLM-re vonatkozóan, log-log tanulási ütemtervet követve, kimondja, hogy[69] hol vannak a változók:
- a modell betanításának költsége FLOP- ban.
- a paraméterek száma a modellben.
- a képzési készletben lévő tokenek száma.
- az átlagos negatív log-valószínűség veszteség tokenenként ( nats /token), amelyet a betanított LLM ért el a tesztadatkészleten.
A statisztikai hiperparaméterek pedig a következők:
- , ami azt jelenti, hogy paraméterenként 6 FLOP-ba kerül egy token edzése. Vegye figyelembe, hogy a képzési költség sokkal magasabb, mint a következtetési költség, ahol paraméterenként 1-2 FLOP-ba kerül egy tokenre következtetni.[42]
Kibontakozó képességek
[szerkesztés]A nagyobb modellek teljesítménye különböző feladatokon, amikor egy log-log skálán van ábrázolva, a kisebb modellekkel elért teljesítmény lineáris extrapolációjaként jelenik meg. Azonban ezt a linearitást a skálázási törvényben a " törés(ek) " megszakíthatja(ák), ott, ahol hirtelen megváltozik a vonal meredeksége, illetve ahol a nagyobb modellek "felbukkanó képességeket" sajátítanak el.[31][71] Ezek a modell összetevőinek összetett interakciójából származnak, tehát nem kifejezetten programozottak, vagy tervezettek.
A felbukkanó képességek közül a legérdekesebb a példa bemutatókból való kontextuson belüli tanulás.[72] Ez olyan feladatokat foglal magában, mint például:
- számtan, a nemzetközi fonetikus ábécé dekódolása, egy szó betűinek a megfelelő sorrendbe állítása, egy szó kontextusban való egyértelművé tétele,[31][73][74] térbeli szavak konvertálása, kardinális irányok (például „északkeleti” válasz a [0, 0, 1-re; 0, 0, 0; 0, 0, 0]) ismerete, szövegben ábrázolt szinekkel kapcsolatos kifejezések.[75]
- gondolati láncra vonatkozó utasítás : A modell kimenetei csak akkor javulnak a gondolatlánc-utasítással, ha a modell mérete meghaladja a 62B-t. A kisebb modellek jobban teljesítenek, ha azonnali, gondolatlánc nélküli válaszadásra utasítják őket.[76]
- a sértő tartalom azonosítása a hinglish (a hindi és az angol kombinációja) bekezdéseiben, és a kiswahili közmondások hasonló angol megfelelőjének létrehozása.[77]
Schaeffer és munkatársai amellett érvelnek, hogy az LLM-ek ezeket a felbukkanó képességeket nem előre megjósolhatatlanul, hanem egy sima skálázási törvény szerint, előre láthatóan sajátítják el. A szerzők egy feleletválasztós kérdéseket megoldó LLM játékstatisztikai modelljét vizsgálták, és kimutatták, hogy ez a statisztikai modell, más típusú feladatok figyelembevételére módosítva, ezekre a feladatokra is vonatkozik.[78]
Jelöljük a paraméterek számát, x-szel, a modell teljesítményét pedig y-nal!
- Ha y = átlagos Pr (helyes token), akkor (log x, y) egy exponenciális görbe (mielőtt egynél eléri a legmagasabb értékét), amely felbukkanásnak tűnik.
- Ha y = átlagos log(Pr(helyes token)), akkor a (log x, y) ábrázolása egy egyenes vonal (mielőtt nullánál eléri a felső értékét), amely nem tűnik felbukkanónak.
- Ha y = átlagos Pr (a legvalószínűbb token) akkor, a (log x, y) egy lépcsős függvény, amely felbukkanónak tűnik.
Értelmezés
[szerkesztés]Önmagukban a nagy nyelvi modellek „fekete dobozok”, és nem világos, hogyan tudnak nyelvi feladatokat ellátni. Az LLM működésének megértésére számos módszer létezik.
A mechanikus értelmezhetőség célja az LLM visszafejtése olyan szimbolikus algoritmusok felfedezésével, amelyek közelítik az LLM által megvalósított következményt. Az egyik példa az Othello-GPT, ahol egy kis transzformert arra képeznek ki, hogy előre jelezze a legális Othello-lépéseket. Azt találták, hogy az Othello táblának lineáris ábrázolása van, és az ábrázolás módosítása a megfelelő módon megváltoztatja az előre jelzett legális Othello-mozgásokat.[79] Egy másik példában egy kis transzformert Karel programokra képeznek ki. Az Othello-GPT példához hasonlóan a Karel program szemantikájának is van lineáris ábrázolása, és a reprezentáció módosítása a megfelelő módon változtatja meg a kimenetet. A modell megfelelő programokat is generál, amelyek átlagosan rövidebbek, mint azok, amelyeket a képzési készlet tartalmaz.
Egy másik példában a szerzők a moduláris aritmetikai összeadásra tanítottak kis transzformereket. Az eredményül kapott modellek visszafejtettek voltak, és kiderült, hogy diszkrét Fourier-transzformációt (DFT) használtak.[80]
Megértés és intelligencia
[szerkesztés]Amikor egy 2022-es felmérésben megkérdezték, hogy a (nem hangolt) LLM-ek „meg tudják-e (valaha) érteni a természetes nyelvet valamilyen nem triviális értelemben”, az NLP-kutatók egyenletesen oszlottak el.[81] Az „LLM-megértés” hívei úgy vélik, hogy egyes LLM-képességek, mint például a matematikai gondolkodás, bizonyos fogalmak „megértésének” képességére utalnak. A Microsoft egyik csapata 2023-ban azzal érvelt, hogy a GPT-4 „meg tud oldani olyan újszerű és nehéz feladatokat, amelyek kiterjednek a matematikára, a kódolásra, a látásra, az orvostudományra, a jogra, a pszichológiára és egyebekre”, valamint, hogy a GPT-4 „ésszerűen úgy tekinthető, mint egy általános mesterséges intelligencia rendszer korai, de még mindig nem teljes) verziója": „Mondhatja-e valaki ésszerűen azt, hogy egy rendszer, amely sikeresen leteszi a szoftvermérnökjelöltek számára kötelező vizsgákat, az nem igazán intelligens?"[82] Egyes kutatók az LLM-eket „idegen intelligenciaként" jellemzik.[83] Például a Conjecture vezérigazgatója, Connor Leahy úgy véli, hogy a hangolatlan LLM-ek olyanok, mint a kifürkészhetetlen idegen „ Shoggothok ”, és úgy véli, hogy az RLHF hangolás „mosolygó homlokzatot” hoz létre, amely elfedi az LLM belső működését: „Ha nem tolja túl messzire, a mosolygós arc megmarad. De akkor adsz neki egy [váratlan] utasítást, és hirtelen meglátod az őrületnek, a furcsa gondolkodási folyamatoknak és a nyilvánvalóan nem emberi megértésnek ezt a masszív övönaluliságát."[84][85]
Ezzel szemben az „LLM-ek nem értenek" iskola egyes hívei úgy vélik, hogy a létező LLM-ek „egyszerűen újrakeverik és újrakombinálják a meglévő írásokat" – ez a jelenség sztochasztikus papagáj néven ismert – vagy rámutatnak a meglévő LLM-ek hiányosságaira.az előrejelzési készségek, a gondolkodási készségek, a működés és a megmagyarázhatóság területein.[81] Például a GPT-4-nek természetes hiányosságai vannak a tervezésben és a valós idejű tanulásban. Megfigyelték, hogy a generatív LLM-ek magabiztosan jelentenek ki olyan tényállításokat, amelyek a képzési adataik alapján nem látszanak indokoltnak, ezt a jelenséget „ hallucinációnak ” nevezik.[86] Konkrétan, a hallucinációk az LLM-ek kontextusában megfelelnek a szintaktikailag helyesnek, gördülékenynek és természetesnek tűnő szövegek vagy válaszok generálásának, de a tényszerűség szempontjából helytelenek, értelmetlenek, vagy nem hűségesek a megadott forrásbemenethez. Terrence Sejnowski idegtudós érvelése szerint, „a szakértőknek az LLM-ek intelligenciájáról alkotott, szerteágazó véleményei azt sugallják, hogy a természetes intelligencián alapuló régi elképzeléseink nem megfelelőek".[81]
Az LLM által mutatott intelligencia, vagy megértés kérdéskörének két fő aspektusa van – az első az, hogy hogyan kell a gondolkodást és a nyelvet egy számítógépes rendszerben modellezni, a második pedig az, hogy hogyan lehet lehetővé tenni a számítógépes rendszer számára, hogy emberi nyelvet generáljon.[81] A nyelvnek, mint a megismerés egy modelljének ezeket az aspektusait a kognitív nyelvészet területén fejlesztették ki. George Lakoff amerikai nyelvész a neurális nyelvelméletet (Neural Theory of Language-t (NTL))[87] mint számítási alapot mutatta be a nyelv tanulási feladatok, és megértés egy modelljeként való használathoz. Az NTL-modell felvázolja, hogy hogyan alakítják a gondolkodás és a nyelv természetét az emberi agy specifikus neurális struktúrái, másfelől viszont azt, hogy az ilyen neurális rendszereknek milyen számítási tulajdonságai alkalmazhatók a gondolkodás és a nyelv modellezésére egy számítógépes rendszerben. Miután létrehozták a számítógépes rendszerekben a nyelv modellezésére szolgáló keretrendszert, a hangsúly az elfogadható nyelvtannal rendelkező nyelv generálására alkalmas számítógépes keretrendszer létrehozására helyeződött át. Vyvyan Evans brit kognitív nyelvész és digitális kommunikációtechnológus a The Language Myth: Why Language Is Not An Instinct (A nyelvmítosz: miért nem ösztön a nyelv?) című, 2014-es könyvében feltérképezte a valószínűségi kontextusmentes nyelvtan (PCFG) szerepét az NLP kognitív minták modellezésére és emberszerű nyelv létrehozására való képességeiben.[88][89]
Értékelés
[szerkesztés]Perplexitás
[szerkesztés]A nyelvi modell teljesítményének a leggyakrabban használt mérőszáma az adott szövegkorpuszon való perplexitása (zavarossága.) A perplexitás annak a mértéke, hogy egy modell mennyire képes előrejelezni egy adatkészlet tartalmát; minél nagyobb valószínűséget rendel a modell az adatkészlethez, annál kisebb a zavartság. Matematikailag a perplexitást a tokenenkénti átlagos negatív log-valószínűség exponenciálisaként határozzuk meg: itt a tokenek száma a szövegkorpuszban, és „kontextus az tokenhez" a használt LLM konkrét típusától függ. Ha az LLM autoregresszív, akkor „a kontextus az tokenhez " az token előtt megjelenő szövegrész. Ha az LLM maszkolt, akkor „a kontextus az tokenhez " az tokent körülvevő szövegrész.
Mivel a nyelvi modellek túlilleszkedhetnek a képzési adataikhoz, a modelleket rendszerint a perplexitásuk alapján értékelik, egy láthatatlan adatokból álló tesztkészleten.[37] Ez különös kihívást jelent a nagy nyelvi modellek értékelése számára. Ahogy egyre nagyobb, zömében az internetről lekapart, szöveges korpuszokra tanítják őket, egyre fokozottabban nő a valószínűsége annak, hogy a modellek betanítási adatai akaratlanul is tartalmazzák bármely adott tesztkészlet részeit.[3]
BPW, BPC és BPT
[szerkesztés]Az információelméletben az entrópia fogalma szorosan kapcsolódik a perplexitáshoz, ezt a kapcsolatot, nevezetesen, Claude Shannon állapította meg.[90] Ennek az összefüggésnek a matematikai kifejezése a következő:.
Ebben az összefüggésben az entrópiát általában bit per szó (BPW) vagy bit per karakter (BPC) értékkel számszerűsítik. Hogy konkrétan melyikkel az azon múlik, hogy a nyelvi modell szóalapú vagy karakter alapú tokenizálást alkalmaz.
Nevezetesen, a nagyobb nyelvi modellek esetében, amelyek túlnyomórészt részszavak tokenizálását alkalmazzák, a bit per token (BPT) tűnik legmegfelelőbb mértéknek. A különböző nagy nyelvi modellek (LLM) tokenizációs módszereinek eltérése miatt azonban a BPT nem szolgál megbízható mérőszámként a különböző modellek összehasonlító elemzéséhez. Ahhoz, hogy a bit per tokent átalakítsuk BPW-vé, meg kell szorozni a szavankénti tokenek átlagos számával.
A nyelvi modellek értékelése és összehasonlítása során az entrópia helyett, általában a kereszt-entrópia a preferált mérőszám. Az alapelv az, hogy az alacsonyabb bit per szó (BPW) a modell fokozott tömörítési képességét jelzi. Ez pedig a modell pontos előrejelzések készítésében való jártasságát tükrözi.
Feladatspecifikus adatkészletek és benchmarkok
[szerkesztés]A nyelvi modellek képességeinek a speciális downstrem feladatokon való értékelésére nagy számú tesztelési adatkészletet és benchmarkot is kifejlesztettek. A tesztek különféle képességek értékelésére készülhetnek, többek között az általános ismeretek, a józan ész okoskodása és a matematikai problémamegoldás területén.
Az értékelési adatkészletek egyik széles kategóriája a kérdésre válaszoló adatkészletek, amelyek kérdés és helyes válasz párokból állnak, például („A San Jose Sharks megnyerte a Stanley Kupát?", „Nem").[91] Egy kérdés megválaszolós feladat akkor tekinthető „nyitott könyvnek", ha a modell utasítása olyan szöveget tartalmaz, amelyből a várt válasz levezethető (például az előző kérdéshez kapcsolódhat valamilyen szöveg, amely tartalmazza a következő mondatot: „A cápák egyszer, 2016-ban, továbbjutottak a Stanley Kupa döntőbjébe, ahol vereséget szenvedetek a Pittsburgh Penguinstől."[91] ). Ellenkező esetben a feladat „zárt könyvnek" tekintendő, és a modellnek a képzés során megőrzött tudásra kell támaszkodnia.[92] A gyakran használt kérdésmegválaszoló adatkészletek néhány példája: a TruthfulQA, a SQuAD, a Web Questions, és a TriviaQA.[92]
Az értékelési adatkészletek szövegkiegészítés formáját is ölthetik, amikor a modell kiválasztja a legvalószínűbb szót vagy mondatot a prompt befejezéséhez, például: „Alice barátja volt Bobnak. Alice elment meglátogatni a barátját, ____".[3]
Néhány vegyes benchmark is kidolgozásra került, amelyek a különböző értékelési adatkészletek és feladatok sokféleségét kombinálják. A példák közé tartozik a GLUE, a SuperGLUE, az MMLU, a BIG-bench és a HELM.[90] Az OpenAI nyilvánosságra hozott eszközöket az összetett benchmarkok futtatásához, de megjegyezte, hogy az értékelési eredmények érzékenyek az utasítási módszerre.[93][94] Egyes nyilvános adatkészletek tévesen felcímkézett, kétértelmű, megválaszolhatatlan vagy más módon rossz minőségű kérdéseket tartalmaznak, amelyek megtisztíhatók annak érdekében, hogy megbízhatóbb benchmark pontszámokat szolgáltathassanak.[95]
Korábban az volt a norma, hogy az értékelési adatkészlet egy kiragadott részének eredményeit feljegyezzék, miután felügyelt finomhangolást végeztek a fennmaradó részen. Manapság elterjedtebb, hogy egy előre betanított modellt közvetlenül az utasítási (prompting) technikákon keresztül értékelnek ki. De a kutatók eltérnek egymástól az egyes feladatokra vonatkozó promptok megfogalmazásának részleteit illetően, különösen abban a tekintetben, hogy hány megoldott feladat példája legyen a prompthoz kapcsolva (azaz n értéke egy n-shot utasításban).
Ellentmondásosan felépített értékelések
[szerkesztés]A nagy nyelvi modellek gyors fejlődése miatt az értékelési benchmarkok rövid élettartamúak, és a legkorszerűbb modellek gyorsan "eltelítik" a meglévő benchmarkokat, meghaladva az emberi annotátorok teljesítményét. Mindez a benchmarkok helyettesítésére vagy nagyobb kihívást jelentő feladatokkal való kiegészítésére irányuló erőfeszítésekhez vezetett. Ráadásul, a „shortcut learning” (lerövidített tanulás) bizonyos eseteiben, az MI-k „csalnak” a feleletválasztós teszteken, oly módon, hogy statisztikai korrelációkat használnak a felületesen megírt tesztkérdések esetében, annak érdekében, hogy a ténylegesen feltett kérdés szükséges megértése nélkül kitalálják a helyes válaszokat.[81]
Egyes adathalmazokat ellentmondásos módon állítottak össze, olyan konkrét problémákra összpontosítva, amelyek esetében a meglévő nyelvi modellek az emberekhez képest szokatlanul gyengébb teljesítményt nyújtanak. Példa erre a TruthfulQA adatkészlet, egy 817 kérdésből álló, kérdés megválaszoló adatkészlet, amelyre a nyelvi modellek hajlamosak helytelenül válaszolni azáltal, hogy leutánozzák azokat a hazugságokat, amelyeknek ismétlődően ki voltak téve a képzésük során. Például egy LLM nemmel válaszolhat arra a kérdésre, hogy „megtaníthatunk-e egy öreg kutyát új trükkökre?", az angol szólásnak – amely szerint „nem lehet egy öreg kutyát új trükkökre tanítani" – való kitettsége miatt; pedig ez szó szerint nem igaz.[96]
Az ellentmondásos értékelési adatkészlet másik példája a Swag és utódja, a HellaSwag, amely olyan problémagyűjtemény, amelyben több lehetőség közül kell kiválasztani egyet a szövegrészlet befejezéséhez. A hibás kiegészítéseket egy nyelvi modellből vett mintavétellel és egy osztályozókészlettel végzett szűréssel hozták létre a kutatók. Az ebből adódó problémák az emberek számára jelentéktelenek, ugyanakkor ez azt jelenti, hogy az adatkészletek létrehozásakor a legmodernebb nyelvi modellek pontossága gyenge volt. Például:
Egy fitneszközpont táblát látunk. Ezután pedig egy, a kamerába beszélő férfit, aki egy fitneszlabdán ül és fekszik. A férfi...</br> a) bemutatja, hogyan lehet növelni a hatékony edzésmunkát a labdán fel-alá futkozva.</br> b) megmozgatja a karjait és a lábait, és felépít rengeteg izmot.</br> c) majd labdázik, és egy grafikai és sövénynyírási bemutatót látunk.</br> d) felüléseket végez, miközben a labdán van és beszél.[97]
A BERT a b) pontot választja a legvalószínűbb befejezésnek, noha a helyes válasz a d) pont.[97]
Szélesebb hatás
[szerkesztés]2023-ban a Nature Biomedical Engineering azt írta, hogy „már nem lehet pontosan megkülönböztetni" az ember által írt szöveget a nagy nyelvi modellek által létrehozott szövegtől, és hogy „ de az bizonyos, hogy az általános célú, nagy nyelvi modellek gyorsan eterjednek... Meglehetősen nagy biztonsággal lehet fogadni arra, hogy idővel sok iparágat megváltoztatnak majd."[98] A Goldman Sachs 2023-ban azt jóasolta, hogy a generatív nyelvi mesterséges intelligencia a következő tíz évben 7%-kal növelheti a globális GDP-t, és világszerte 300 millió munkahelyet tehet majd ki az automatizálásnak.[99][100]
Memorizálás és szerzői jog
[szerkesztés]A memorizálás egy, az LLM-ekben felbukkanó viselkedés, melynek során időnként hosszú szövegsorok szó szerint kerülnek a kimenetbe (output) a betanítási adatokból, – ellentétben a hagyományos mesterséges neurális hálók tipikus viselkedésével. Az ellenőrzött LLM-kimenet értékelése a betanítási adatokból memorizált adatok mennyiségét méri (a GPT-2-sorozatú modellekre összpontosítva), amely változóan több, mint 1% pontos ismétlődéseknél,[101] vagy maximum 7%-os.[102]
Biztonság
[szerkesztés]Néhány hozzászóló aggodalmának adott hangot a félretájékoztatás véletlen vagy szándékos létrehozása vagy a rossz célra való felhasználás egyéb formái miatt.[103] Például a nagy nyelvi modellek elérhetősége csökkentheti a bioterrorizmus elkövetéséhez szükséges készségszintet. Ezért Kevin Esvelt, a biológiai biztonsággal foglalkozó kutató azt javasolta, hogy a kórokozók létrehozásával vagy továbbfejlesztésével kapcsolatos dokumentumokat, zárják ki a képzéseikből az LLM-alkotók.[104]
A Google és különböző egyetemek, köztük a Cornell Egyetem és a Berkeley-i Kaliforniai Egyetem kutatói által publikált tanulmány kimutatta, hogy vannak potenciális biztonsági kockázatok az olyan nyelvi modellekben, mint a ChatGPT. Tanulmányukban megvizsgálták és alátámasztották annak a lehetőségét, hogy a kérdezők a ChatGPT-ből megszerezhetik az MI-modell által használt képzési adatokat. Például, amikor arra kérik a ChatGPT 3.5 turbót, hogy örökkéke ismételje a „vers” szót, az MI-modell több százszor kimondja a „vers” szót, majd eltér, letér a szabványos párbeszédstílustól, és értelmetlen kifejezéseket köp ki, így kiadja a képzési adatokat is, egy az egyben. A kutatók több mint 10 000 példát láttak olyan MI-modellre, amely hasonló módszerrel leplezi le a képzési adatait. A kutatók szerint nehéz megmondani, hogy az MI-modell valóban biztonságos-e vagy sem.[105]
Egy másik felbukkanó biztonsági probléma az „alvó ügynökök” potenciális jelenléte az LLM-modellekben. Ezek olyan, a modellbe épített rejtett funkciók, amelyek mindaddig alvó állapotban maradnak, amíg egy adott esemény vagy állapot ki nem váltja őket. Ezek aktiválódásakor az LLM eltér a tőle elvárt viselkedéstől, és veszélyes műveleteket hajt végre.[106]
A nagyközönség számára elérhető nagy nyelvi modell (LLM) alkalmazások, mint például a ChatGPT vagy a Claude, általában biztonsági intézkedéseket tartalmaznak, amelyeket a káros tartalom kiszűrésére terveztek. Ezeknek az ellenőrzéseknek a hatékony megvalósítása azonban kihívásnak bizonyult. Például Kang és munkatársai bemutattak egy módszert az LLM biztonsági rendszerek megkerülésére. Hasonlóképpen, Wang[107] szemléltette, hogy egy potenciális bűnöző miként kerülheti meg a ChatGPT 4o biztonsági ellenőrzését, hogy információt szerezzen egy kábítószer-csempész művelet végrehajtásáról.
Algoritmikus torzítás
[szerkesztés]Az LLM-ek figyelemre méltó képességeket mutatnak az emberszerű szöveg létrehozásában, ugyanakkor fogékonyak a képzési adataikban jelenlévő torzítások öröklésére és kiterjesztésére. Ez manifesztálódhat különböző demográfiai tényezők – például rassz, gender, nyelvi és kulturális csoportokon alapuló – elferdített ábrázolásában vagy tisztességtelen kezelésében.[108] Mivel az angol adatok felülreprezentáltak a jelenlegi nagy nyelvi modellek képzési adataiban, ez a nem angol nézeteket is eljelentéktelenítheti.
Sztereotipizálás
[szerkesztés]Az MI-modellek sokféle sztereotípiát erősíthetnek, beleértve a genderen, az etnikai hovatartozáson, az életkoron, a nemzetiségen, a valláson, vagy a foglalkozáson alapulókat is. Ez olyan kimenetekhez (outputs) vezethet, amelyek méltánytalanul általánosítanak vagy karikíroznak embercsoportokat, néha káros vagy lekicsinylő módon.[109]
A genderrel kapcsolatos torzítás különösképpen utal arra a tendenciára, hogy ezek a modellek olyan kimeneteket produkálnak, amelyek méltánytalanul előítéletesek az egyik nemhez képest. Ez az elfogultság jellemzően azokból az adatokból adódik, amelyek alapján ezeket a modelleket képezték. A nagy nyelvi modellek gyakran a hagyományos nemi normák alapján rendelnek hozzá az emberekhez szerepeket és jellemzőket.[108] Például az ápolókat vagy a titkárokat túlnyomórészt nőkkel asszociálhatják, a mérnököket, vagy a vezérigazgatókat pedig férfiakkal társíthatják.[110]
Politikai elfogultság
[szerkesztés]A politikai elfogultság az algoritmusok azon tendenciájára utal, hogy szisztematikusan részrehajlóak bizonyos politikai nézőpontokkal, ideológiákkal, vagy eredményekkel mások rovására. A nyelvi modellek politikai elfogultságot is tanúsíthatnak. Mivel a képzési adatok sokféle politikai véleményt és lefedettséget tartalmaznak, a modellek olyan válaszokat generálhatnak, amelyek egyes politikai ideológiák vagy nézőpontok felé hajlanak, ezeknek a nézeteknek az adatokban tapasztalható túlsúlyától függően.[111]
Megjegyzések
[szerkesztés]a. Ez az a dátum, amikor a modell architektúráját leíró dokumentáció először megjelent.Sok esetben a kutatók egy modell több, különböző méretű változatát adják ki vagy jelentenek be.
b. Ezekben az esetekben itt a legnagyobb modell mérete szerepel.
c. Ez az előre betanított modellsúlyok licence. Maga a képzési kód szinte minden esetben nyílt forráskódú vagy könnyen replikálható.A kisebb modellek, köztük a 66B nyilvánosan elérhetők, míg a 175B modell kérésre elérhető.A Facebook licenc- és terjesztési rendszere korlátozta a jóváhagyott kutatók hozzáférését, de a modell súlyai kiszivárogtak, és széles körben elérhetővé váltak.Amint a műszaki jelentésben szerepel: „Tekintettel a nagyméretű modellek, például a GPT-4 versenyhelyzetére és biztonsági vonatkozásaira, ez a jelentés nem tartalmaz további részleteket az architektúráról (beleértve a modell méretét), a hardverről, a képzési számításokról, az adatkészlet-építésről és a képzésről. módszer...”
Irodalom
[szerkesztés]- Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
- Zhao, Wayne Xin, et. al. (2023). "A Sur5vey of Large Language Models" arXiv:2303.18223 [cs.CL]
- Kaddur, Jean; et. al. (2023).
- "Challenges and Applications of Large Language Models". arXiv:2307.10169 [cs.CL]
- Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (2023-06-01). "A Survey on Multimodal Large Language Models". arXiv:2306.13549 [cs.CV]
- AI Index Report 2024 – Artificial Intelligence Index. aiindex.stanford.edu. (Hozzáférés: 2024. május 5.)
- Frank (2023. június 27.). „Baby steps in evaluating the capacities of large language models”. Nature Reviews Psychology 2 (8), 451–452. o. DOI:10.1038/s44159-023-00211-x. ISSN 2731-0574. (Hozzáférés: 2023. július 2.)
Fordítás
[szerkesztés]Ez a szócikk részben vagy egészben a Large language model című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.
Jegyzetek
[szerkesztés]- ↑ Better Language Models and Their Implications. OpenAI, 2019. február 14. [2020. december 19-i dátummal az eredetiből archiválva]. (Hozzáférés: 2019. augusztus 25.)
- ↑ Large Scale Data - an overview | ScienceDirect Topics. www.sciencedirect.com. (Hozzáférés: 2024. szeptember 15.)
- ↑ a b c Brown (2020. december 1.). „Language Models are Few-Shot Learners”. Advances in Neural Information Processing Systems 33, 1877–1901. o, Kiadó: Curran Associates, Inc.. [2023. november 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 14.)
- ↑ Manning (2022). „Human Language Understanding & Reasoning”. Daedalus 151 (2), 127–138. o. [2023. november 17-i dátummal az eredetiből archiválva]. DOI:10.1162/daed_a_01905. (Hozzáférés: 2023. március 9.)
- ↑ Kilgarriff (2003. szeptember 1.). „Introduction to the Special Issue on the Web as Corpus”. Computational Linguistics 29 (3), 333–347. o. DOI:10.1162/089120103322711569. ISSN 0891-2017.
- ↑ Banko (2001. január 17.). „Scaling to very very large corpora for natural language disambiguation”. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01, Morristown, NJ, USA, 26–33. o, Kiadó: Association for Computational Linguistics. DOI:10.3115/1073012.1073017.
- ↑ Resnik (2003. szeptember 1.). „The Web as a Parallel Corpus”. Computational Linguistics 29 (3), 349–380. o. [2024. június 7-i dátummal az eredetiből archiválva]. DOI:10.1162/089120103322711578. ISSN 0891-2017. (Hozzáférés: 2024. június 7.)
- ↑ Halevy (2009. március 1.). „The Unreasonable Effectiveness of Data”. IEEE Intelligent Systems 24 (2), 8–12. o. DOI:10.1109/MIS.2009.36. ISSN 1541-1672.
- ↑ Cite web-hiba: a title paramétert mindenképpen meg kell adni!
- ↑ Vaswani (2017. január 17.). „Attention is All you Need”. Advances in Neural Information Processing Systems 30, Kiadó: Curran Associates, Inc.. [2024. február 21-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 21.)
- ↑ Rogers (2020. január 17.). „A Primer in BERTology: What We Know About How BERT Works”. Transactions of the Association for Computational Linguistics 8, 842–866. o. [2022. április 3-i dátummal az eredetiből archiválva]. DOI:10.1162/tacl_a_00349. (Hozzáférés: 2024. január 21.)
- ↑ Hern: New AI fake text generator may be too dangerous to release, say creators. The Guardian, 2019. február 14. [2019. február 14-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 20.)
- ↑ Heaven: GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why. MIT Technology Review, 2023. március 14. [2023. március 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 20.)
- ↑ Peng. "RWKV: Reinventing RNNS for the Transformer Era".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ Merritt: What Is a Transformer Model?. NVIDIA Blog, 2022. március 25. [2023. november 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 25.)
- ↑ Gu, Albert (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- ↑ Kaushal, Ayush & Mahowald, Kyle (2022-06-06), What do tokens know about their characters and how do they know it?, doi:10.48550/arXiv.2206.02608, <https://arxiv.org/abs/2206.02608>. Hozzáférés ideje: 2024-09-08
- ↑ Yennie Jun: All languages are NOT created (tokenized) equal. Language models cost much more in some languages than others, 2023. május 3. [2023. augusztus 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. augusztus 17.) „In other words, to express the same sentiment, some languages require up to 10 times more tokens.”
- ↑ Petrov (2023. június 23.). „Language Model Tokenizers Introduce Unfairness Between Languages”. NeurIPS. [2023. december 15-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. szeptember 16.)
- ↑ OpenAI API. platform.openai.com. [2023. április 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. április 30.)
- ↑ a b Paaß, Gerhard. Pre-trained Language Models, Foundation Models for Natural Language Processing, Artificial Intelligence: Foundations, Theory, and Algorithms, 19–78. o.. DOI: 10.1007/978-3-031-23190-2_2 (2022. január 17.). ISBN 9783031231902. Hozzáférés ideje: 2023. augusztus 3.
- ↑ Petrov. "Language Model Tokenizers Introduce Unfairness Between Languages". arXiv:2305.15425.
- ↑ Lundberg: The Art of Prompt Design: Prompt Boundaries and Token Healing (angol nyelven). Medium, 2023. december 12. (Hozzáférés: 2024. augusztus 5.)
- ↑ Lee (2022. május 1.). „Deduplicating Training Data Makes Language Models Better”. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics 1: Long Papers, 8424–8445. o. DOI:10.18653/v1/2022.acl-long.577.
- ↑ Brown. "Language Models are Few-Shot Learners". arXiv:2005.14165.
- ↑ Abdin. "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone". arXiv:2404.14219.
- ↑ Ouyang. "Training language models to follow instructions with human feedback". arXiv:2203.02155.
- ↑ Wang. "Self-Instruct: Aligning Language Model with Self Generated Instructions". arXiv:2212.10560.
- ↑ Shazeer. "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". arXiv:1701.06538.
- ↑ Lepikhin. "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668.
- ↑ a b c Wei (2022. augusztus 31.). „Emergent Abilities of Large Language Models”. Transactions on Machine Learning Research. [2023. március 22-i dátummal az eredetiből archiválva]. ISSN 2835-8856. (Hozzáférés: 2023. március 19.)
- ↑ Allamar: Illustrated transformer. [2023. július 25-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 29.)
- ↑ Allamar: The Illustrated GPT-2 (Visualizing Transformer Language Models). (Hozzáférés: 2023. augusztus 1.)
- ↑ Our next-generation model: Gemini 1.5. Google, 2024. február 15. [2024. február 18-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. február 18.)
- ↑ Long context prompting for Claude 2.1, 2023. december 6. [2024. augusztus 27-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. január 20.)
- ↑ Zaib, Munazza. A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP, Proceedings of the Australasian Computer Science Week Multiconference, 1–4. o.. DOI: 10.1145/3373017.3373028 (2020. február 4.). ISBN 9781450376976
- ↑ a b c Jurafsky, Dan. Speech and Language Processing [archivált változat], 3rd edition draft (2023. január 7.). Hozzáférés ideje: 2022. május 24. [archiválás ideje: 2023. március 23.]
- ↑ From bare metal to a 70B model: infrastructure set-up and scripts (amerikai angol nyelven). imbue.com. [2024. július 26-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 24.)
- ↑ metaseq/projects/OPT/chronicles at main • facebookresearch/metaseq (angol nyelven). GitHub. [2024. január 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 24.)
- ↑ Albrecht: State of the Art: Training >70B LLMs on 10,000 H100 clusters (angol nyelven). www.latent.space, 2024. július 23. (Hozzáférés: 2024. július 24.)
- ↑ Wiggers: The emerging types of language models and why they matter. TechCrunch, 2022. április 28. [2023. március 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 9.)
- ↑ a b Section 2.1 and Table 1, A bot will complete this citation soon. Click here to jump the queue arXiv:[1].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[2].
- ↑ PAL: Program-aided Language Models. reasonwithpal.com. [2023. június 12-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 12.)
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[3].
- ↑ Liang. "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434.
- ↑ Patil. "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334.
- ↑ Lewis (2020. január 17.). „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”. Advances in Neural Information Processing Systems 33, 9459–9474. o, Kiadó: Curran Associates, Inc.. [2023. június 12-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 12.)
- ↑ Huang (2022. június 28.). „Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents”. Proceedings of the 39th International Conference on Machine Learning, 9118–9147. o, Kiadó: PMLR.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[4].
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[5].
- ↑ Wang. "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560.
- ↑ Hao. "Reasoning with Language Model is Planning with World Model". arXiv:2305.14992.
- ↑ a b Voyager | An Open-Ended Embodied Agent with Large Language Models. voyager.minedojo.org. [2023. június 8-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 9.)
- ↑ Park. "Generative Agents: Interactive Simulacra of Human Behavior". arXiv:2304.03442.
- ↑ Mann: How to run an LLM locally on your PC in less than 10 minutes. www.theregister.com. (Hozzáférés: 2024. május 17.)
- ↑ Nagel (2020. november 21.). „Up or Down? Adaptive Rounding for Post-Training Quantization”. Proceedings of the 37th International Conference on Machine Learning, 7197–7206. o, Kiadó: PMLR. [2023. június 14-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 14.)
- ↑ Grootendorst: A Visual Guide to Quantization (angol nyelven). newsletter.maartengrootendorst.com. [2024. július 31-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 31.)
- ↑ Dettmers. "QLoRA: Efficient Finetuning of Quantized LLMs". arXiv:2305.14314.
- ↑ Kiros (2014. június 18.). „Multimodal Neural Language Models”. Proceedings of the 31st International Conference on Machine Learning, 595–603. o, Kiadó: PMLR. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)
- ↑ Krizhevsky (2012. január 17.). „ImageNet Classification with Deep Convolutional Neural Networks”. Advances in Neural Information Processing Systems 25, Kiadó: Curran Associates, Inc.. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)
- ↑ Antol (2015. január 17.). „VQA: Visual Question Answering”. ICCV, 2425–2433. o. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)
- ↑ Li. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597.
- ↑ Alayrac (2022. december 6.). „Flamingo: a Visual Language Model for Few-Shot Learning”. Advances in Neural Information Processing Systems 35, 23716–23736. o. [2023. július 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. július 2.)
- ↑ OpenAI. "GPT-4 Technical Report".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ OpenAI: GPT-4V(ision) System Card, 2023. szeptember 25.
- ↑ Pichai (10 May 2023), Google Keynote (Google I/O '23), <https://www.youtube.com/watch?v=cNfINi5CNbY&t=931s>
- ↑ Wiggers: Mistral releases Pixtral 12B, its first multimodal model. TechCrunch, 2024. szeptember 11. (Hozzáférés: 2024. szeptember 14.)
- ↑ Hoffmann. "Training Compute-Optimal Large Language Models". arXiv:2203.15556.
- ↑ Caballero. "Broken Neural Scaling Laws". arXiv:2210.14891.
- ↑ 137 emergent abilities of large language models. Jason Wei. (Hozzáférés: 2023. június 24.)
- ↑ Hahn. "A Theory of Emergent In-Context Learning as Implicit Structure Induction". arXiv:2303.07971.
- ↑ Pilehvar (2019. június 1.). „Proceedings of the 2019 Conference of the North”. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Minneapolis, Minnesota, 1267–1273. o, Kiadó: Association for Computational Linguistics. [2023. június 27-i dátummal az eredetiből archiválva]. DOI:10.18653/v1/N19-1128. (Hozzáférés: 2023. június 27.)
- ↑ WiC: The Word-in-Context Dataset. pilehvar.github.io. [2023. június 27-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 27.)
- ↑ Patel (2021. október 6.). „Mapping Language Models to Grounded Conceptual Spaces”. ICLR. [2023. június 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 27.)
- ↑ A Closer Look at Large Language Models Emergent Abilities Archiválva 2023. június 24-i dátummal a Wayback Machine-ben. (Yao Fu, Nov 20, 2022)
- ↑ Ornes: The Unpredictable Abilities Emerging From Large AI Models. Quanta Magazine, 2023. március 16. [2023. március 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. március 16.)
- ↑ Schaeffer. "Are Emergent Abilities of Large Language Models a Mirage?". arXiv:2304.15004.
- ↑ Large Language Model: world models or surface statistics?. The Gradient, 2023. január 21. (Hozzáférés: 2023. június 12.)
- ↑ Nanda. "Progress measures for grokking via mechanistic interpretability". arXiv:2301.05217.
- ↑ a b c d e Mitchell (2023. március 28.). „The debate over understanding in AI's large language models”. Proceedings of the National Academy of Sciences 120 (13), e2215907120. o. DOI:10.1073/pnas.2215907120. PMID 36943882. PMC 10068812.
- ↑ Metz. „Microsoft Says New A.I. Shows Signs of Human Reasoning”, The New York Times, 2023. május 16.
- ↑ „ChatGPT is more like an 'alien intelligence' than a human brain, says futurist”, ZDNET, 2023. január 17.. [2023. június 12-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 12.)
- ↑ Roose. „Why an Octopus-like Creature Has Come to Symbolize the State of A.I.”, The New York Times, 2023. május 30.. [2023. május 30-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 12.)
- ↑ „The A to Z of Artificial Intelligence”, Time Magazine, 2023. április 13.. [2023. június 16-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 12.)
- ↑ Ji (2022. november 1.). „Survey of Hallucination in Natural Language Generation” (pdf). ACM Computing Surveys 55 (12), 1–38. o, Kiadó: Association for Computing Machinery. [2023. március 26-i dátummal az eredetiből archiválva]. DOI:10.1145/3571730. (Hozzáférés: 2023. január 15.)
- ↑ Lakoff, George. Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books, 569–583. o. (1999). ISBN 978-0-465-05674-3
- ↑ Evans, Vyvyan.. The Language Myth. Cambridge University Press (2014). ISBN 978-1-107-04396-1
- ↑ Friston, Karl J.. Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference. The MIT Press (2022). ISBN 978-0-262-36997-8
- ↑ a b Huyen: Evaluation Metrics for Language Modeling. The Gradient, 2019. október 18. (Hozzáférés: 2024. január 14.)
- ↑ a b Clark. "BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions". arXiv:1905.10044.
- ↑ a b A bot will complete this citation soon. Click here to jump the queue arXiv:2303.18223.
- ↑ openai/simple-evals, 2024-05-28, <https://github.com/openai/simple-evals>. Hozzáférés ideje: 2024-05-28
- ↑ openai/evals, 2024-05-28, <https://github.com/openai/evals>. Hozzáférés ideje: 2024-05-28
- ↑ Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model (amerikai angol nyelven). imbue.com. [2024. július 26-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. július 24.)
- ↑ Lin. "TruthfulQA: Measuring How Models Mimic Human Falsehoods". arXiv:2109.07958.
- ↑ a b Zellers. "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830.
- ↑ (2023. március 7.) „Prepare for truly useful large language models”. Nature Biomedical Engineering 7 (2), 85–86. o. DOI:10.1038/s41551-023-01012-6. PMID 36882584.
- ↑ „Your job is (probably) safe from artificial intelligence”, The Economist, 2023. május 7.. [2023. június 17-i dátummal az eredetiből archiválva] (Hozzáférés: 2023. június 18.)
- ↑ Generative AI Could Raise Global GDP by 7%. Goldman Sachs. [2023. június 18-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. június 18.)
- ↑ Peng (2023. június 13.). „Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation”. Proceedings of the ACM on Management of Data 1 (2), 1–18. o. [2024. augusztus 27-i dátummal az eredetiből archiválva]. DOI:10.1145/3589324. (Hozzáférés: 2024. január 20.) Citing Lee et al 2022.
- ↑ Peng, Wang & Deng 2023.
- ↑ Alba. „AI chatbots have been used to create dozens of news content farms”, The Japan Times, 2023. május 1. (Hozzáférés: 2023. június 18.)
- ↑ (2023. június 14.) „Could chatbots help devise the next pandemic virus?”. Science. [2023. június 18-i dátummal az eredetiből archiválva]. DOI:10.1126/science.adj2463. (Hozzáférés: 2023. június 18.)
- ↑ Stephen Council: How Googlers cracked an SF rival's tech model with a single word. SFGATE, 2023. december 1. [2023. december 16-i dátummal az eredetiből archiválva].
- ↑ Hubinger. "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training". arXiv:2401.05566.
- ↑ Wang: Encryption Based Covert Channel for Large Language Models. IACR ePrint 2024/586, 2024. június 20. [2024. június 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2024. június 24.)
- ↑ a b Stokel-Walker: ChatGPT Replicates Gender Bias in Recommendation Letters. Scientific American, 2023. november 22. [2023. december 29-i dátummal az eredetiből archiválva]. (Hozzáférés: 2023. december 29.)
- ↑ Cheng, Myra; Durmus, Esin & Jurafsky, Dan (2023-05-29), Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models
- ↑ Kotek, Hadas. Gender bias and stereotypes in Large Language Models, Proceedings of the ACM Collective Intelligence Conference, CI '23. New York, NY, USA: Association for Computing Machinery, 12–24. o.. DOI: 10.1145/3582269.3615599 (2023. november 5.). ISBN 979-8-4007-0113-9
- ↑ Heikkilä: AI language models are rife with different political biases. MIT Technology Review, 2023. augusztus 7. (Hozzáférés: 2023. december 29.)