Prompttervezés
A prompttervezés (prompt engineering) a mesterséges intelligencia modell által értelmezhető és megérthető utasítások (promptok) strukturálásának a folyamata.[1][2] A prompt egy természetes nyelvű szöveg, amely leírja a feladatot, amit az MI-nek végre kellene hajtania:[3] a nyelvi modell szövegről szövegre generálásra utasítása lehet egy kérdés, például, hogy „Mi a kis Fermat-tétel?";[4] egy parancs, mint például az, hogy „Írjon verset a lehulló levelekről";[5] vagy egy, a kontextust, az utasításokat,[6] és a beszélgetés történetét is magában foglaló, hosszabb állítás.
A prompt tervezése magában foglalhatja egy lekérdezés megfogalmazását; egy stílus meghatározását;[5] a releváns kontextus ismertetését;[7] vagy egy szerep hozzárendelését az AI-hoz, például azt, hogy "viselkedj úgy mint egy francia anyanyelvű".[8] Az utasítás tartalmazhat néhány példát, amelyből a modell tanulhat - például megkérheti a modellt, hogy egészítse ki a következő logikai sort: "maison → ház, chat → macska, chien → ? " (a várt válasz: kutya) - ezt a megközelítést few-shot learning-nek (kevés adatból történő tanulásnak) nevezzük.[9]
Mikor egy szövegről képre vagy szövegről hangra generáló modellel kommunikálunk, egy tipikus felszólítás a kívánt kimenet leírása, például "jó minőségű fénykép egy lovagló űrhajósról"[10] vagy "Lo-fi lassú BPM elektrohűtés szerves mintákkal".[11] Egy szövegről képre generáló modell utasítása tartalmazhatja szavak hozzáadását, eltávolítását, kiemelését és átrendezését a kívánt téma, stílus,[1] elrendezés, hangsúly[12] és esztétikai célok elérése érdekében.
A kontextuson belüli tanulás
[szerkesztés]A prompttervezést a kontextuson belüli tanulás teszi lehetővé, amelyet egy modellnek az utasításokból való ideiglenes tanulási képességeként definiálunk. A kontextuson belüli tanulás képessége a nagy nyelvi modellek felbukkanó képessége[13]. Maga a kontextuson belüli tanulás a modell léptékének egyik felbukkanó tulajdonsága, ami azt jelenti, hogy a downstream skálázási törvényekben olyan megszakítások[14] [breaks] fordulnak elő, amelyek hatékonysága eltérő mértékben növekszik a nagyobb és a kisebb modellekben.[15][16]
Az egyes feladatokra vonatkozó, nem ideiglenes képzésekkel és finomhangolásokkal, ellentétben, a kontextuson belüli tanulás során elsajátított dolgok átmeneti jellegűek. Nem hordozzák az ideiglenes kontextusokat vagy torzításokat, kivéve azokat, amelyek már jelen vannak az (elő)képzési adatkészletben, egyik beszélgetésről a másikra.[17] Ez a transzformer rétegeken belüli „köztes-optimalizálás” [mesa-optimization] [18] eredménye, amely a metatanulás [meta-learning], vagyis a „tanulás tanulásának” egy formája.
Történelem
[szerkesztés]Először 2018-ban javasolták a kutatók, hogy minden, az NLP- ben (natural language processing, természetes nyelv feldolgozás) korábban különálló feladatnak, egy kontextuson felül álló, kérdés megválaszolási problémaként kellene szerepelnie. Ezen kívül, kiképezték az első egyedi, egyesített, többfeladatos (multi-task) modellt, amely bármely, a feladattal kapcsolatos kérdésre válaszolhat - például olyanokra, hogy: „Milyen a hangulat?" vagy „Fordítsd le ezt a mondatot németre." vagy „Ki az elnök?".[19]
2021-ben a kutatók egy generatívan előképzett modellt, (a T0-t) 12 NLP- feladat végrehajtására finomhangoltak (62 adatkészlet felhasználásával, ahol minden feladatnak több adatkészlete is lehetett). A modell jó teljesítményt mutatott az új feladatokban, felülmúlva azokat a modelleket, amelyeket közvetlenül csak egy feladat elvégzésére képeztek ki (előképzés nélkül). Egy-egy feladat megoldásához, T0 egy strukturált promptban kapta meg a feladatot - például egy arra való utasításként, hogy hozza létre a „következmény" változót: If {{premise}} is true, is it also true that {{hypothesis}}?
||| {{entailed}}.
[20]
Egy utasítástár (repository for prompts) feljegyzése szerint 2022 februárjában körülbelül 170 adatkészlethez több mint 2000 nyilvános utasítás volt elérhető.[21]
AÍ Google kutatói 2022-ben javasolták a gondolatlánc promptolási technika használatát. [22]
2023-ban számos szövegről szövegre és szövegről képre generálásra irányuló promptadatbázis volt nyilvánosan elérhető.[23][24]
Szövegről szövegre
[szerkesztés]Gondolatlánc
[szerkesztés]A gondolatlánc (Chain-of-thought, CoT) promptolás egy olyan technika, amely lehetővé teszi a nagy nyelvi modellek (LLM) számára, hogy közbenső lépések sorozataként oldjanak meg egy problémát[25] mielőtt végső választ adnának. A gondolatlánc promptolás javítja az érvelési képességet azáltal, hogy arra készteti a modellt, hogy egy többlépcsős problémára válaszoljon olyan érvelési lépésekkel, amelyek egy gondolatmenetet utánoznak.[26][16][27] Lehetővé teszi a nagy nyelvi modellek számára, hogy leküzdjék a nehézségeket néhány olyan érvelési feladat során, amelyek megoldása logikai gondolkodást és több lépést igényel, mint például a számtani feladatok, vagy a józan észen alapuló érvelési kérdések.[28][29][30]
Például, adott a következő kérdés: "K(érdés): A kávézónak 23 almája volt. Ha 20-at felhasználtak az ebéd elkészítéséhez, és vettek még 6-ot, mennyi almájuk van?", a CoT prompt arra késztetheti az LLM-et, hogy így válaszoljon: "V(álasz): A kávézónak eredetileg 23 almája volt. 20 almát használtak fel az ebéd elkészítéséhez, így maradt 23-20 = 3 almájuk. Vettek még 6 almát, így a kávézónak 3 + 6 = 9 almája van. A válasz: 9.[16]
Az eredeti javaslatnak megfelelően[16] minden CoT prompt tartalmazott néhány kérdés-felelet (Q&A) példát. Ez tette kevés adatot tartalmazó, néhány lövéses (few-shot) felszólító technikává. Mindemellett azonban, a "Gondolkozzunk lépésről lépésre" szavak egyszerű hozzáfűzése is hatékonynak bizonyult[31], ami a CoT-ot nulla lövésű (zero-shot) promptolási technikává teszi. Mivel a felhasználónak többé nem kell sok konkrét CoT kérdés-válasz példát megfogalmaznia, ez a modszer lehetővé teszi a jobb méretezést.[32]
Mikor a PaLM-re, egy 540B paraméteres nyelvi modellre alkalmazták, a CoT promptolás jelentős mértékben segítette a modellt, lehetővé téve, hogy az számos feladatnál a feladatspecifikus finomhangolt modellekkel összehasonlíthatóan teljesítsen, így a legkorszerűbb eredményeket (state of the art) érje el a GSM8K matematikai érvelési benchmarkon.[16] Ennek a képességnek a további erősítése és a jobb értelmezhetőségre stimulálása érdekében lehetséges a modelleknek a CoT érvelési adatkészleteken való finomhangolása.[33][34]
Példa:[31]
K: {kérdés} V: Gondolkozzunk lépésről lépésre.
Egyéb technikák
[szerkesztés]A gondolatlánc utasítás csak egy a sok prompt mérnöki technika közül. Különféle egyéb technikákat is javasoltak. Legalább 29 különböző technikát publikáltak.[35]
Szimbólumlánc (CoS) promptolás
A Szimbólumlánc-promptolás, a CoT felszólítással együtt, segíti az LLM-eket a szövegben megjelenő térbeli érvelés nehézségeinek leküzdésében. Más szavakkal, tetszőleges szimbólumok, például a ' / ' használata segíti az LLM-et a szöveg részei közötti szünetek értelmezésében. Ez segíti az érvelést és növeli az LLM teljesítményét.[36]
Példa:[36]
Bemenet: Van egy sor tégla. A sárga C tégla az E tégla tetején van. A sárga D tégla az A tégla tetején van. A sárga E tégla a D tégla tetején található. A fehér A tégla a B tégla tetején található. A B tégla fehér színű. Most egy konkrét téglát kell szereznünk. A téglákat most fentről lefelé kell megérinteni, így ha az alsó téglát kell megfogni, akkor először a felső téglát kell eltávolítani. Hogyan lehet D téglához hozzáférni? B/A/D/E/C C/E E/D D Kimenet: Így az eredményt C, E, D formában kapjuk.
Generált tudás promptolás
[szerkesztés]A generált tudás felszólítás[37] először arra kéri a modellt, hogy generáljon releváns tényeket a prompt kitöltéséhez, majd folytassa a prompt befejezésével. A megoldás minősége általában magasabb, mivel a modell releváns tényekre kondicionálható.
Példa:[37]
Generálj ismereteket a bemenetben szereplő fogalmakról. Bemenet: {kérdés} Tudás:
„A legkevesebbtől a legtöbbig" promptolás
[szerkesztés]„A legkevesebbtől a legtöbbig" promptolás[38] arra utasítja a modellt, hogy először sorolja fel egy probléma alproblémáit, majd sorban oldja meg azokat úgy, hogy a későbbi alproblémák az előző alfeladatokra adott válaszok segítségével megoldhatók legyenek.
Példa:[38]
Bemenet: K: {kérdés} V: Bontsuk le ezt a problémát: 1.
Önkonzisztencia dekódolás
[szerkesztés]Az önkonzisztencia dekódolás[39] több gondolati láncon halad végig, majd kiválasztja ezek közül a leggyakrabban elért következtetést. Ha a gondolatmenetek nagymértékben eltérnek egymástól, egy embertől lehet érdeklődni a helyes gondolati láncról.[40]
Komplexitás alapú felszólítás
[szerkesztés]A komplexitás alapú felszólítás[41] több CoT-kiterjesztést hajt végre, majd kiválasztja ezek közül a leghosszabb gondolati lánccal rendelkező kiterjesztéseket, végül pedig ezek közül választja ki a leggyakrabban elért konklúziót.
Önfinomítás (Self-refine)
[szerkesztés]Az önfinomítás[42] először felszólítja az LLM-et a probléma megoldására, majd arra, hogy az LLM bírálja el a saját megoldását. Végül felszólítja az LLM-et, hogy a probléma, a megoldás és a kritika figyelembe vételével, oldja meg újra a problémát. Ezt a folyamatot addig ismétli, amíg el nem fogynak a tokenek, vagy az idő, vagy amíg az LLM nem hoz létre egy „stop” tokent.
Példa a kritikára:[42]
Van egy kódom. Adjon egy javaslatot az olvashatóság javítására. Ne javítsd ki a kódot, csak adj javaslatot. Kód: {code} Javaslat:
Példa a finomításra:
Kód: {code} Használjuk ezt a javaslatot a kód fejlesztésére. Javaslat: {suggestion} Új kód:
A gondolatfa
[szerkesztés]A gondolatfa prompt[43] általánosítja a gondolatláncot azáltal, hogy felszólítja a modellt, hogy generáljon egy vagy több "lehetséges következő lépést", majd breadth-first, beam, vagy más fakeresési módszerrel, minden lehetséges következő lépésben lefuttatja a modellt.[44]
Maieutikus felszólítás
[szerkesztés]A maieutikus felszólítás hasonló a gondolatfához. A modellt arra kérik, hogy magyarázattal válaszoljon egy kérdésre. Ezután arra utasítják a modellt, hogy magyarázza el a magyarázat egyes részeit, és így tovább. Az inkonzisztens magyarázó fákat lemetszik vagy kidobják. Ez javítja a teljesítményt az összetett józan ész típusú érvelés során.[45]
Példa:[45]
K: {kérdés} V: Igaz, mert
K: {kérdés} V: Hamis, mert
Irányító-inger promptolás
[szerkesztés]Az irányított inger felszólítás[46] olyan tippet vagy jelzést tartalmaz, például a kívánt kulcsszavakat, amelyek a kívánt kimenet felé irányítják a nyelvi modellt.
Példa:[46]
Cikk: {cikk} Kulcsszavak:
Cikk: {cikk} K: Írjon egy rövid összefoglalót a cikkről 2-4 mondatban, amely pontosan tartalmazza a megadott kulcsszavakat. Kulcsszavak: {keywords} V:
A bizonytalanságot felfedő utasítás
[szerkesztés]Alapértelmezés szerint a nyelvi modellek kimenete nem tartalmazhat bizonytalansági becsléseket. A modell olyan szöveget jeleníthet meg, amely magabiztosnak tűnik, bár a mögöttes token előrejelzések alacsony valószínűségi pontszámokkal rendelkeznek. Az olyan nagy nyelvi modellek, mint a GPT-4, pontosan kalibrált valószínűségi pontszámokkal rendelkezhetnek token előrejelzéseikben,[47] és így a modell kimeneti bizonytalansága közvetlenül megbecsülhető a token előrejelzés valószínűségi pontszámainak kiolvasásával.
Attól még, hogy valaki nem fér hozzá az ilyen pontszámokhoz (például, amikor valaki egy korlátozó API-n keresztül éri el a modellt), a bizonytalanság továbbra is megbecsülhető és beépíthető a modell kimenetébe. Az egyik egyszerű módszer az, hogy arra utasítjuk a modellt, hogy a bizonytalanság becslésére szavakat használjon.[48] A másik pedig az, hogy felszólítjuk a modellt, hogy ha a bemenet nem felel meg a feltételeknek, akkor utasítsa el a szabványos válaszadást.
Automatikus promptgenerálás
[szerkesztés]Visszakereséssel bővített generálás
[szerkesztés]
A visszakereséssel bővített generálás (Retrieval-augmented Generation - RAG) egy kétfázisú folyamat, amely magában foglalja, hogy egy Nagy Nyelvi Modell (LLM) visszakeresi a dokumentumokat és megfogalmazza a válaszokat. A kezdeti fázis sűrű beágyazást használ a dokumentumok visszakereséséhez. Ez a visszakeresés, a használati esettől függően, számos adatbázis-formátumon alapulhat, például vektoros adatbázison, összefoglaló indexen, faindexen vagy kulcsszótábla-indexen.[49]
Egy lekérdezésre adott válaszban a dokumentum-visszakereső kiválasztja a legrelevánsabb dokumentumokat. Ez a relevancia általában először a lekérdezés és a dokumentumok vektorizálása során határozódik meg, majd ezt követi azoknak a dokumentumoknak az azonosítása, amelyek vektorai euklideszi távolságban a legközelebb vannak a lekérdezési vektorhoz. A dokumentum visszakeresést követően, az LLM létrehoz egy kimenetet, amely mind a lekérdezésből, mind a lekért dokumentumokból származó információkat tartalmazza.[50] Ez a módszer különösen előnyös olyan védett vagy dinamikus információk kezelésére, amelyek nem szerepeltek a modell kezdeti betanítási vagy finomhangolási fázisában. A RAG figyelemre méltóan használja a "kevés lövésű" tanulást is, amelynek során a modell kis számú, gyakran adatbázisból automatikusan visszakeresett példát használ az outputjaiban használt infromációk létrehozásra.
Grafikonok visszakeresésével kiegészített generálás
[szerkesztés]
A Microsoft Research által fémjelzett GraphRAG[51] úgy terjeszti ki a RAG-ot, hogy ahelyett, hogy pusztán a vektoros hasonlóságra hagyatkozna (mint a legtöbb RAG megközelítésben), a GraphRAG az LLM által generált tudásgráfot használja. Ez a grafikon lehetővé teszi a modell számára, hogy összekapcsolja a különböző információ darabkákat, szintetizálja a különböző felismeréseit, és holisztikusan ragadja meg a nagy adatgyűjteményekben összefoglalt szemantikai fogalmakat.
A kutatók olyan adatkészletek használatával demonstrálták a GraphRAG hatékonyságát, mint a „Hírcikkekből származó erőszakos eseményekre vonatkozó információk” adatkészlet (Violent Incident Information from News Articles - VIINA).[52] A GraphRAG, az LLM által generált tudásgráfoknak a gépi gráftanulással való kombinálásával, a globális értelmezési kérdésekre generált válaszok átfogóságát és sokszínűségét egyaránt jelentősen javítja.
Egy korábbi munka már bemutatta a tudásgráf alkalmazásának hatékonyságát a szövegből-lekérdezést generáló válaszok esetében.[53] Ezek a technikák kombinálhatók a strukturálatlan és strukturált adatok közötti kereséshez, kibővített kontextust és jobb rangsorolást biztosítva.
Nyelvi modellek használata promptok generálásához
[szerkesztés]A nagy nyelvi modellek (LLM) maguk is használhatók arra, hogy promptokat fogalmazzanak meg nagy nyelvi modellekhez.[54][55][56][57]
Az automatikus prompt mérnök algoritmus (automatic prompt engineer algorithm) egy LLM-et használ annak érdekében, hogy egy másik LLM-re vonatkozó promptokat sugározzon:[58]
- Tegyük fel, hogy van két Nagy Nyelvi Modellünk (LLMs). Az egyik a cél LLM, a másik pedig az utasító LLM.
- Az utasító LLM-nek példa bemenet-kimenet párokat mutatunk be, és megkérjük, hogy generáljon olyan utasításokat, amelyek egy, az instrukciókat követő modellt, az adott bemenetek ismeretében a kimenetek generálására késztethetnének.
- Az egyes bemeneteket követően generált instrukciók mindegyike a cél LLM utasítására szolgál. A kimenetek log-valószínűségeit kiszámítódnak és összeadódnak. Ez az utasítás pontszáma.
- A promptoló LLM a legmagasabb pontszámot elért instrukciókat adja hozzá a további utasítás variációkhoz.
- Mindezt addig ismétli, amíg el nem ér néhány leállítási feltételt, majd kiadja a legmagasabb pontszámot elért utasításokat.
CoT példákat az LLM maga is generálhat. Az "auto-CoT"-ban[59] egy olyan modell, mint például a BERT, vektorokká konvertálja át a kérdéskönyvtárat. Csoportokba rendeződnek a kérdésvektorok (klaszterizálódnak). Minden egyes klaszter esetében a súlypontjához (centroid) legközelebb eső kérdések kerülnek kiválasztásra. Egy LLM minden kérdésnél nulla-shot CoT-ot választ. Az eredményül kapott CoT-példák hozzáadódnak az adatkészlethez. Amikor új kérdéssel promptolnak, a legközelebbi kérdésekre vonatkozó CoT-példák visszakereshetők és hozzáadhatók a prompthoz.
Szövegből képet
[szerkesztés]2022-ben a nagyközönség számára is megjelentek olyan, szövegből képet generáló modellek, mint a DALL-E, a Stable Diffusion és a Midjourney.[60] Ezek a modellek szöveges felszólításokat fogadnak bemenetként, és művészi AI képek generálására használják őket. A szövegből képet generáló modellek tipikusan nem értik ugyanúgy a nyelvtant és a mondatszerkezetet, mint a nagy nyelvi modellek[61], és eltérő felszólítási technikákat igényelnek.
Promptformátumok
[szerkesztés]A szövegről képre generálást célzó prompt általában tartalmazza a művészet tárgyának leírását (például „élénk, narancssárga pipacsok”), a kívánt médiumot (például „digitális festmény” vagy „fénykép”), a stílust (például „hiperrealista” vagy „'pop-art”), a világítást (például „peremvilágítás” vagy „krepuszkuláris sugarak”), valamint a színt és a textúrát.[62]
A Midjourney dokumentációja a rövid, leíró jellegű felszólításokra buzdít: a „Mutasson egy képet sok virágzó kaliforniai pipacsról, tegye világos, élénk narancssárgává őket, és rajzolja meg őket színes ceruzákkal illusztrált stílusban” helyett a „Színes ceruzával rajzolt, élénk narancssárga, kaliforniai pipacsok” lenne a hatékony felszólítás.[61]
A szavak sorrendje befolyásolja a szövegről képre generálást célzó prompt kimenetét. A felszólítás elejéhez közelebbi szavak hangsúlyosabbak lehetnek.[1]
Művészi stílusok
[szerkesztés]Egyes szövegről képre generáló modellek képesek név szerint utánozni bizonyos művészek stílusát. Például a Stable Diffusion és a Midjourney promptokban használták a „Greg Rutkowski stílusában" kifejezést, hogy Greg Rutkowski, lengyel digitális művész jellegzetes stílusában hozzanak létre képeket.[63]
Negatív promptok
[szerkesztés]A szöveg-kép modellek alapvetően nem értik a tagadást. Egy tagadó prompt, például a "buli torta nélkül" felszólítás, valószínűleg olyan képet eredményez, amely tortát is tartalmaz.[61] Alternatív megoldásként ugyanakkor a felhasználó a negatív prompt esetében jelezheti, hogy mely kifejezések ne jelenjenek meg a kapott képen.[64] Gyakori eljárás, hogy az általánosan nem kívánatos kifejezéseket - például csúnya, unalmas, rossz anatómiájú -, beilleszti a kép generálására vonatkozó negatív utasításba.
Szövegből videót
[szerkesztés]A szövegből videó (text-to-video - TTV) generálás egy feltörekvő technológia, amely lehetővé teszi videók készítését közvetlenül a szöveges leírásokból. Ez a terület nagy potenciált rejt magában a videógyártás, az animáció és a történetmesélés átalakítására. A mesterséges intelligencia erejét kihasználva, a TTV lehetővé teszi a felhasználók számára, hogy a hagyományos videószerkesztő eszközök megkerülésével alakíthassák ötleteiket mozgóképekké.
E modellek közé a következők tartoznak:
- Runway Gen-2 – Felhasználóbarát felületet kínál, és különféle videóstílusokat támogat.
- Lumiere – Nagy felbontású videó generálására tervezték.[65]
- Make-a-Video – A részletes és változatos videokimenetek létrehozására összpontosít.[66]
- Az OpenAI Sora – A még kiadatlan Sora állítólag nagy felbontású videókat tud készíteni.[67][68]
Nem szöveges felszólítások
[szerkesztés]Egyes megközelítések a természetes nyelvű szöveges felszólításokat nem szöveges bevitellel egészítik ki, vagy helyettesítik.
Szöveges inverzió és beágyazások
[szerkesztés]Szövegből képet generáló modellek esetén a "szöveges inverzió"[69] egy optimalizálási folyamatot hajt végre egy új szóbeágyazás létrehozására, példaképek halmaza alapján. Ez a beágyazási vektor egyfajta „pszeudoszóként” működik, amely a példák tartalmának, vagy stílusának kifejezése érdekében belefoglalható a promptba.
Képi utasítás
[szerkesztés]2023-ban a Meta mesterséges intelligencia-kutatása kiadta a Segment Anything nevű számítógépes látásmodellt, amely promptból is képes képet szegmentálni. A szöveges utasítások alternatívájaként, a Segment Anything fogadhat határolókereteket, szegmentációs maszkokat és előtér-/háttérpontokat is.[70]
A gradiens süllyedés használata a promptok kereséséhez
[szerkesztés]Az "előtag-hangolás",[71] "prompt tuning" vagy "soft prompting"[72] során a lebegőpontos értékű vektorok, a log-valószínűségeknek a kimenetben való maximalizálása érdekében, közvetlenül a gradiens süllyedése alapján kerülnek megkeresésre.
Formálisan, legyen
lágy prompt tokenek (hangolható beágyazások) halmaza, míg
és legyenek a bemeneti és a kimeneti token beágyazásai. A képzés során a hangolható beágyazások, bemeneti és kimeneti tokenek egyetlen sorozatba vannak összefűzve: ,
és betáplálva a nagy nyelvi modellekbe (LLM).
A veszteségeket az tokenekkel számítjuk; a színátmenetek pedig prompt-specifikus paraméterekként vannak visszapropagálva: az előtag-hangolás során ezek az egyes rétegekben lévő prompt tokenekhez társított paraméterek. A prompthangolásnál viszont ezek csupán a szójegyzékhez hozzáadott soft tokenek.[73]
Formálisabban ez a prompthangolás. Legyen egy LLM felírva a következő módon:
, ahol a nyelvi tokenek sorozata, a „tokenből-vektort" függvény, és a modell többi része. Az előtag-hangolás során valaki bemenet-kimenet párokat biztosít , majd a gradiens süllyedést használja a következő kereséséhez . Szavakkal: a kimenet log-valószínűsége , ha a modell először a bemenetet a vektorba kódolja, majd a vektor elé teszi az "előtag vektort" , majd alkalmazza az -et.
Az előtag hangolásához hasonló, de az "előtag vektor" előre hozzá van fűzve a rejtett állapotokhoz a modell minden rétegében.
Egy korábbi eredmény[74] a gradiens süllyedés keresésének ugyanezt az elképzelését használja, de olyan maszkolt nyelvi modellekhez készült, mint a BERT, és numerikus vektorok helyett csak token-szekvenciákon keres.
Formálisan, -ra keres, ahol egy meghatározott hosszúságú token sorozatok tartománya.
Promptinjekció
[szerkesztés]A promptinjekció a számítógépes biztonsági rések kihasználásnak családjába tartozik, amelyet egy olyan, az ember által adott instrukciók követésére kiképzett gépi tanulási modellnek (például LLM-nek) a felhasználásával hajtanak végre, amely képes követni a rosszindulatú felhasználó utasításait. Ez ellentétben áll az utasításkövető rendszerek tervezett működésével, ahol az ML modell csak az ML modell kezelője által biztosított megbízható utasítások (prompt) követésére szolgál.[75][76][77]
Hivatkozások
[szerkesztés]- ↑ a b c Diab: Stable Diffusion Prompt Book, 2022. október 28. (Hozzáférés: 2023. augusztus 7.) „"Prompt engineering is the process of structuring words that can be interpreted and understood by a text-to-image model. Think of it as the language you need to speak in order to tell an AI model what to draw."”
- ↑ Ziegler: A developer's guide to prompt engineering and LLMs. The GitHub Blog, 2023. július 17. „"Prompt engineering is the art of communicating with a generative AI model."”
- ↑ Radford: Language Models are Unsupervised Multitask Learners. OpenAI, 2019. „"We demonstrate language models can perform down-stream tasks in a zero-shot setting – without any parameter or architecture modification"”
- ↑ Introducing ChatGPT. OpenAI Blog, 2022. november 30. (Hozzáférés: 2023. augusztus 16.) „"what is the fermat's little theorem"”
- ↑ a b Robinson: How to write an effective GPT-3 or GPT-4 prompt. Zapier, 2023. augusztus 3. (Hozzáférés: 2023. augusztus 14.) „"Basic prompt: 'Write a poem about leaves falling.' Better prompt: 'Write a poem in the style of Edgar Allan Poe about leaves falling.'”
- ↑ Gouws-Stewart: The ultimate guide to prompt engineering your GPT-3.5-Turbo model. masterofcode.com, 2023. június 16.
- ↑ Greenberg, J.: How to Prime and Prompt ChatGPT for More Reliable Contract Drafting Support. contractnerds.com, 2023. május 31. (Hozzáférés: 2023. július 24.)
- ↑ GPT Best Practices. OpenAI. (Hozzáférés: 2023. augusztus 16.)
- ↑ Brown (2020). „Language models are few-shot learners”. Advances in Neural Information Processing Systems 33, 1877–1901. o.
- ↑ Heaven: This horse-riding astronaut is a milestone on AI's long road towards understanding. MIT Technology Review, 2022. április 6. (Hozzáférés: 2023. augusztus 14.)
- ↑ Wiggers: Meta open sources an AI-powered music generator. TechCrunch, 2023. június 12. (Hozzáférés: 2023. augusztus 15.) „Next, I gave a more complicated prompt to attempt to throw MusicGen for a loop: "Lo-fi slow BPM electro chill with organic samples."”
- ↑ How to Write AI Photoshoot Prompts: A Guide for Better Product Photos. claid.ai, 2023. június 12. (Hozzáférés: 2023. június 12.)
- ↑ Wei. "Emergent Abilities of Large Language Models". arXiv:2206.07682.
- ↑ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.
- ↑ Wei. "Emergent Abilities of Large Language Models". arXiv:2206.07682.
- ↑ a b c d e (2022. október 31.) „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”..
- ↑ Musser: How AI Knows Things No One Told It. Scientific American. (Hozzáférés: 2023. május 17.) „"By the time you type a query into ChatGPT, the network should be fixed; unlike humans, it should not continue to learn. So it came as a surprise that LLMs do, in fact, learn from their users' prompts—an ability known as in-context learning."”
- ↑ Mesa-Optimization, 2019. május 31. (Hozzáférés: 2023. május 17.) „"Mesa-Optimization is the situation that occurs when a learned model (such as a neural network) is itself an optimizer."”
- ↑ McCann. "The Natural Language Decathlon: Multitask Learning as Question Answering". arXiv:1806.08730.
- ↑ Sanh. "Multitask Prompted Training Enables Zero-Shot Task Generalization". arXiv:2110.08207.
- ↑ Bach. "PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts". arXiv:2202.01279.
- ↑ Wei: Language Models Perform Reasoning via Chain of Thought (angol nyelven). ai.googleblog.com, 2022. május 11. (Hozzáférés: 2023. március 10.)
- ↑ Chen: How to Turn Your Chatbot Into a Life Coach. The New York Times, 2023. június 23.
- ↑ Chen. „Get the Best From ChatGPT With These Golden Prompts”, The New York Times, 2023. május 25. (Hozzáférés: 2023. augusztus 16.) (amerikai angol nyelvű)
- ↑ McAuliffe: Google's Latest AI Model Can Be Taught How to Solve Problems (angol nyelven). CNET. (Hozzáférés: 2023. március 10.) „"'Chain-of-thought prompting allows us to describe multistep problems as a series of intermediate steps,' Google CEO Sundar Pichai"”
- ↑ McAuliffe: Google's Latest AI Model Can Be Taught How to Solve Problems (angol nyelven). CNET. (Hozzáférés: 2023. március 10.)
- ↑ Sharan Narang and Aakanksha Chowdhery: Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, 2022. április 4.
- ↑ Dang: Harnessing the power of GPT-3 in scientific research. VentureBeat, 2023. február 8. (Hozzáférés: 2023. március 10.)
- ↑ Montti: Google's Chain of Thought Prompting Can Boost Today's Best Algorithms (angol nyelven). Search Engine Journal, 2022. május 13. (Hozzáférés: 2023. március 10.)
- ↑ Ray: Amazon's Alexa scientists demonstrate bigger AI isn't always better (angol nyelven). ZDNET. (Hozzáférés: 2023. március 10.)
- ↑ a b Kojima. "Large Language Models are Zero-Shot Reasoners".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ Dickson: LLMs have not learned our language — we're trying to learn theirs. VentureBeat, 2022. augusztus 30. (Hozzáférés: 2023. március 10.)
- ↑ Chung. "Scaling Instruction-Finetuned Language Models".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ Wei: Better Language Models Without Massive Compute (angol nyelven). ai.googleblog.com, 2022. november 29. (Hozzáférés: 2023. március 10.)
- ↑ Sahoo, Pranab & Singh, Ayush Kumar (2024-02-05), A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications
- ↑ a b Hu, Hanxu; Lu, Hongyuan & Zhang, Huajian et al. (2023-10-03), Chain-of-Symbol Prompting Elicits Planning in Large Language Models
- ↑ a b Liu (2022. május 1.). „Generated Knowledge Prompting for Commonsense Reasoning”. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Dublin, Ireland, 3154–3169. o, Kiadó: Association for Computational Linguistics. DOI:10.18653/v1/2022.acl-long.225.
- ↑ a b Zhou. "Least-to-Most Prompting Enables Complex Reasoning in Large Language Models". arXiv:2205.10625.
- ↑ Wang. "Self-Consistency Improves Chain of Thought Reasoning in Language Models". arXiv:2203.11171.
- ↑ Diao. "Active Prompting with Chain-of-Thought for Large Language Models". arXiv:2302.12246.
- ↑ Fu. "Complexity-Based Prompting for Multi-Step Reasoning". arXiv:2210.00720.
- ↑ a b Madaan. "Self-Refine: Iterative Refinement with Self-Feedback". arXiv:2303.17651.
- ↑ Long. "Large Language Model Guided Tree-of-Thought". arXiv:2305.08291.
- ↑ Yao. "Tree of Thoughts: Deliberate Problem Solving with Large Language Models". arXiv:2305.10601.
- ↑ a b Jung. "Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations". arXiv:2205.11822.
- ↑ a b Li. "Guiding Large Language Models via Directional Stimulus Prompting". arXiv:2302.11520.
- ↑ OpenAI. "GPT-4 Technical Report". arXiv:2303.08774. [See Figure 8.]
- ↑ Eliot: Latest Prompt Engineering Technique Aims To Get Certainty And Uncertainty Of Generative AI Directly On The Table And Out In The Open. Forbes, 2023. augusztus 18. (Hozzáférés: 2024. augusztus 31.) „If you explicitly indicate in your prompt that you want the generative AI to emit a certainty or uncertainty qualification then you will almost certainly get such an indication.”
- ↑ How Each Index Works - LlamaIndex 🦙 v0.10.17. docs.llamaindex.ai. (Hozzáférés: 2024. április 8.)
- ↑ Lewis (2020). „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”. Advances in Neural Information Processing Systems 33, 9459–9474. o, Kiadó: Curran Associates, Inc..
- ↑ GraphRAG: Unlocking LLM discovery on narrative private data, 2024, <https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/>
- ↑ Edge, Darren; Trinh, Ha & Cheng, Newman et al. (2024), From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- ↑ Sequeda, Juan; Allemang, Dean & Jacob, Bryon (2023), A Benchmark to Understand the Role of Knowledge Graphs on Large Language Model's Accuracy for Question Answering on Enterprise SQL Databases
- ↑ Singh (2022. október 4.). „Explaining Patterns in Data with Language Models via Interpretable Autoprompting”. arXiv.
- ↑ Fernando (2023). „Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution”.
- ↑ Pryzant (2023). „Automatic Prompt Optimization with "Gradient Descent" and Beam Search”.
- ↑ Guo (2023). „Connecting Large Language Models with Evolutionary Algorithms Yields Powerful Prompt Optimizers”.
- ↑ Zhou. "Large Language Models Are Human-Level Prompt Engineers". arXiv:2211.01910.
- ↑ Zhang. "Automatic Chain of Thought Prompting in Large Language Models". arXiv:2210.03493.
- ↑ Monge: Dall-E2 VS Stable Diffusion: Same Prompt, Different Results (angol nyelven). MLearning.ai, 2022. augusztus 25. (Hozzáférés: 2022. augusztus 31.)
- ↑ a b c Prompts. (Hozzáférés: 2023. augusztus 14.)
- ↑ Stable Diffusion prompt: a definitive guide, 2023. május 14. (Hozzáférés: 2023. augusztus 14.)
- ↑ Heikkilä: This Artist Is Dominating AI-Generated Art and He's Not Happy About It. MIT Technology Review, 2022. szeptember 16. (Hozzáférés: 2023. augusztus 14.)
- ↑ Max Woolf: Stable Diffusion 2.0 and the Importance of Negative Prompts for Good Results, 2022. november 28. (Hozzáférés: 2023. augusztus 14.)
- ↑ Lumiere - Google Research. Lumiere - Google Research. (Hozzáférés: 2024. február 25.)
- ↑ Introducing Make-A-Video: An AI system that generates videos from text (angol nyelven). ai.meta.com. (Hozzáférés: 2024. február 25.)
- ↑ Video generation models as world simulators (amerikai angol nyelven). openai.com. (Hozzáférés: 2024. február 25.)
- ↑ Team: Understanding OpenAI's Sora: A Revolutionary Leap | PromptSora: Discover Prompts and Videos for Sora from Open AI (angol nyelven). PromptSora. (Hozzáférés: 2024. február 25.)
- ↑ Gal. "An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion". arXiv:2208.01618.
- ↑ Kirillov. "Segment Anything". arXiv:2304.02643.
- ↑ Li, Xiang Lisa. Prefix-Tuning: Optimizing Continuous Prompts for Generation, Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 4582–4597. o.. DOI: 10.18653/V1/2021.ACL-LONG.353 (2021) „"In this paper, we propose prefix-tuning, a lightweight alternative to fine-tuning... Prefix-tuning draws inspiration from prompting"”
- ↑ Lester, Brian. The Power of Scale for Parameter-Efficient Prompt Tuning, Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 3045–3059. o.. DOI: 10.18653/V1/2021.EMNLP-MAIN.243 (2021) „"In this work, we explore "prompt tuning," a simple yet effective mechanism for learning "soft prompts"...Unlike the discrete text prompts used by GPT-3, soft prompts are learned through back-propagation"”
- ↑ Sun. "How Does In-Context Learning Help Prompt Tuning?". arXiv:2302.11521.
- ↑ Shin, Taylor. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts, Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics, 4222–4235. o.. DOI: 10.18653/v1/2020.emnlp-main.346 (2020. november 1.)
- ↑ Willison: Prompt injection attacks against GPT-3 (brit angol nyelven). simonwillison.net, 2022. szeptember 12. (Hozzáférés: 2023. február 9.)
- ↑ Papp: What's Old Is New Again: GPT-3 Prompt Injection Attack Affects AI (amerikai angol nyelven). Hackaday, 2022. szeptember 17. (Hozzáférés: 2023. február 9.)
- ↑ Vigliarolo: GPT-3 'prompt injection' attack causes bot bad manners (angol nyelven). www.theregister.com, 2022. szeptember 19. (Hozzáférés: 2023. február 9.)
Fordítás
[szerkesztés]Ez a szócikk részben vagy egészben a Prompt engineering című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.