Ugrás a tartalomhoz

Prompttervezés

A Wikipédiából, a szabad enciklopédiából

A prompttervezés (prompt engineering) a mesterséges intelligencia modell által értelmezhető és megérthető utasítások (promptok) strukturálásának a folyamata.[1][2] A prompt egy természetes nyelvű szöveg, amely leírja a feladatot, amit az MI-nek végre kellene hajtania:[3] a nyelvi modell szövegről szövegre generálásra utasítása lehet egy kérdés, például, hogy „Mi a kis Fermat-tétel?";[4] egy parancs, mint például az, hogy „Írjon verset a lehulló levelekről";[5] vagy egy, a kontextust, az utasításokat,[6] és a beszélgetés történetét is magában foglaló, hosszabb állítás.

A prompt tervezése magában foglalhatja egy lekérdezés megfogalmazását; egy stílus meghatározását;[5] a releváns kontextus ismertetését;[7] vagy egy szerep hozzárendelését az AI-hoz, például azt, hogy "viselkedj úgy mint egy francia anyanyelvű".[8] Az utasítás tartalmazhat néhány példát, amelyből a modell tanulhat - például megkérheti a modellt, hogy egészítse ki a következő logikai sort: "maison → ház, chat → macska, chien → ? " (a várt válasz: kutya) - ezt a megközelítést few-shot learning-nek (kevés adatból történő tanulásnak) nevezzük.[9]

Mikor egy szövegről képre vagy szövegről hangra generáló modellel kommunikálunk, egy tipikus felszólítás a kívánt kimenet leírása, például "jó minőségű fénykép egy lovagló űrhajósról"[10] vagy "Lo-fi lassú BPM elektrohűtés szerves mintákkal".[11] Egy szövegről képre generáló modell utasítása tartalmazhatja szavak hozzáadását, eltávolítását, kiemelését és átrendezését a kívánt téma, stílus,[1] elrendezés, hangsúly[12] és esztétikai célok elérése érdekében.

A kontextuson belüli tanulás

[szerkesztés]

A prompttervezést a kontextuson belüli tanulás teszi lehetővé, amelyet egy modellnek az utasításokból való ideiglenes tanulási képességeként definiálunk. A kontextuson belüli tanulás képessége a nagy nyelvi modellek felbukkanó képessége[13]. Maga a kontextuson belüli tanulás a modell léptékének egyik felbukkanó tulajdonsága, ami azt jelenti, hogy a downstream skálázási törvényekben olyan megszakítások[14] [breaks] fordulnak elő, amelyek hatékonysága eltérő mértékben növekszik a nagyobb és a kisebb modellekben.[15][16]

Az egyes feladatokra vonatkozó, nem ideiglenes képzésekkel és finomhangolásokkal, ellentétben, a kontextuson belüli tanulás során elsajátított dolgok átmeneti jellegűek. Nem hordozzák az ideiglenes kontextusokat vagy torzításokat, kivéve azokat, amelyek már jelen vannak az (elő)képzési adatkészletben, egyik beszélgetésről a másikra.[17] Ez a transzformer rétegeken belüli „köztes-optimalizálás” [mesa-optimization] [18] eredménye, amely a metatanulás [meta-learning], vagyis a „tanulás tanulásának” egy formája.

Történelem

[szerkesztés]

Először 2018-ban javasolták a kutatók, hogy minden, az NLP- ben (natural language processing, természetes nyelv feldolgozás) korábban különálló feladatnak, egy kontextuson felül álló, kérdés megválaszolási problémaként kellene szerepelnie. Ezen kívül, kiképezték az első egyedi, egyesített, többfeladatos (multi-task) modellt, amely bármely, a feladattal kapcsolatos kérdésre válaszolhat - például olyanokra, hogy: „Milyen a hangulat?" vagy „Fordítsd le ezt a mondatot németre." vagy „Ki az elnök?".[19]

2021-ben a kutatók egy generatívan előképzett modellt, (a T0-t) 12 NLP- feladat végrehajtására finomhangoltak (62 adatkészlet felhasználásával, ahol minden feladatnak több adatkészlete is lehetett). A modell jó teljesítményt mutatott az új feladatokban, felülmúlva azokat a modelleket, amelyeket közvetlenül csak egy feladat elvégzésére képeztek ki (előképzés nélkül). Egy-egy feladat megoldásához, T0 egy strukturált promptban kapta meg a feladatot - például egy arra való utasításként, hogy hozza létre a „következmény" változót: If {{premise}} is true, is it also true that {{hypothesis}}? ||| {{entailed}}.[20]

Egy utasítástár (repository for prompts) feljegyzése szerint 2022 februárjában körülbelül 170 adatkészlethez több mint 2000 nyilvános utasítás volt elérhető.[21]

Google kutatói 2022-ben javasolták a gondolatlánc promptolási technika használatát. [22]

2023-ban számos szövegről szövegre és szövegről képre generálásra irányuló promptadatbázis volt nyilvánosan elérhető.[23][24]

Szövegről szövegre

[szerkesztés]

Gondolatlánc

[szerkesztés]

A gondolatlánc (Chain-of-thought, CoT) promptolás egy olyan technika, amely lehetővé teszi a nagy nyelvi modellek (LLM) számára, hogy közbenső lépések sorozataként oldjanak meg egy problémát[25] mielőtt végső választ adnának. A gondolatlánc promptolás javítja az érvelési képességet azáltal, hogy arra készteti a modellt, hogy egy többlépcsős problémára válaszoljon olyan érvelési lépésekkel, amelyek egy gondolatmenetet utánoznak.[26][16][27] Lehetővé teszi a nagy nyelvi modellek számára, hogy leküzdjék a nehézségeket néhány olyan érvelési feladat során, amelyek megoldása logikai gondolkodást és több lépést igényel, mint például a számtani feladatok, vagy a józan észen alapuló érvelési kérdések.[28][29][30]

Például, adott a következő kérdés: "K(érdés): A kávézónak 23 almája volt. Ha 20-at felhasználtak az ebéd elkészítéséhez, és vettek még 6-ot, mennyi almájuk van?", a CoT prompt arra késztetheti az LLM-et, hogy így válaszoljon: "V(álasz): A kávézónak eredetileg 23 almája volt. 20 almát használtak fel az ebéd elkészítéséhez, így maradt 23-20 = 3 almájuk. Vettek még 6 almát, így a kávézónak 3 + 6 = 9 almája van. A válasz: 9.[16]

Az eredeti javaslatnak megfelelően[16] minden CoT prompt tartalmazott néhány kérdés-felelet (Q&A) példát. Ez tette kevés adatot tartalmazó, néhány lövéses (few-shot) felszólító technikává. Mindemellett azonban, a "Gondolkozzunk lépésről lépésre" szavak egyszerű hozzáfűzése is hatékonynak bizonyult[31], ami a CoT-ot nulla lövésű (zero-shot) promptolási technikává teszi. Mivel a felhasználónak többé nem kell sok konkrét CoT kérdés-válasz példát megfogalmaznia, ez a modszer lehetővé teszi a jobb méretezést.[32]

Mikor a PaLM-re, egy 540B paraméteres nyelvi modellre alkalmazták, a CoT promptolás jelentős mértékben segítette a modellt, lehetővé téve, hogy az számos feladatnál a feladatspecifikus finomhangolt modellekkel összehasonlíthatóan teljesítsen, így a legkorszerűbb eredményeket (state of the art) érje el a GSM8K matematikai érvelési benchmarkon.[16] Ennek a képességnek a további erősítése és a jobb értelmezhetőségre stimulálása érdekében lehetséges a modelleknek a CoT érvelési adatkészleteken való finomhangolása.[33][34]

Példa:[31]

K: {kérdés}
V: Gondolkozzunk lépésről lépésre.

Egyéb technikák

[szerkesztés]

A gondolatlánc utasítás csak egy a sok prompt mérnöki technika közül. Különféle egyéb technikákat is javasoltak. Legalább 29 különböző technikát publikáltak.[35]

Szimbólumlánc (CoS) promptolás

A Szimbólumlánc-promptolás, a CoT felszólítással együtt, segíti az LLM-eket a szövegben megjelenő térbeli érvelés nehézségeinek leküzdésében. Más szavakkal, tetszőleges szimbólumok, például a ' / ' használata segíti az LLM-et a szöveg részei közötti szünetek értelmezésében. Ez segíti az érvelést és növeli az LLM teljesítményét.[36]

Példa:[36]

Bemenet:

Van egy sor tégla. A sárga C tégla az E tégla tetején van. A sárga D tégla az A tégla tetején van. A sárga E tégla a D tégla tetején található. A fehér A tégla a B tégla tetején található. A B tégla fehér színű. Most egy konkrét téglát kell szereznünk. A téglákat most fentről lefelé kell megérinteni, így ha az alsó téglát kell megfogni, akkor először a felső téglát kell eltávolítani. Hogyan lehet D téglához hozzáférni?

B/A/D/E/C
C/E
E/D
D

Kimenet:

Így az eredményt C, E, D formában kapjuk.

Generált tudás promptolás

[szerkesztés]

A generált tudás felszólítás[37] először arra kéri a modellt, hogy generáljon releváns tényeket a prompt kitöltéséhez, majd folytassa a prompt befejezésével. A megoldás minősége általában magasabb, mivel a modell releváns tényekre kondicionálható.

Példa:[37]

Generálj ismereteket a bemenetben szereplő fogalmakról.
Bemenet: {kérdés}
Tudás:

„A legkevesebbtől a legtöbbig" promptolás

[szerkesztés]

A legkevesebbtől a legtöbbig" promptolás[38] arra utasítja a modellt, hogy először sorolja fel egy probléma alproblémáit, majd sorban oldja meg azokat úgy, hogy a későbbi alproblémák az előző alfeladatokra adott válaszok segítségével megoldhatók legyenek.

Példa:[38]

Bemenet:
K: {kérdés}
V: Bontsuk le ezt a problémát:
1.

Önkonzisztencia dekódolás

[szerkesztés]

Az önkonzisztencia dekódolás[39] több gondolati láncon halad végig, majd kiválasztja ezek közül a leggyakrabban elért következtetést. Ha a gondolatmenetek nagymértékben eltérnek egymástól, egy embertől lehet érdeklődni a helyes gondolati láncról.[40]

Komplexitás alapú felszólítás

[szerkesztés]

A komplexitás alapú felszólítás[41] több CoT-kiterjesztést hajt végre, majd kiválasztja ezek közül a leghosszabb gondolati lánccal rendelkező kiterjesztéseket, végül pedig ezek közül választja ki a leggyakrabban elért konklúziót.

Önfinomítás (Self-refine)

[szerkesztés]

Az önfinomítás[42] először felszólítja az LLM-et a probléma megoldására, majd arra, hogy az LLM bírálja el a saját megoldását. Végül felszólítja az LLM-et, hogy a probléma, a megoldás és a kritika figyelembe vételével, oldja meg újra a problémát. Ezt a folyamatot addig ismétli, amíg el nem fogynak a tokenek, vagy az idő, vagy amíg az LLM nem hoz létre egy „stop” tokent.

Példa a kritikára:[42]

Van egy kódom. Adjon egy javaslatot az olvashatóság javítására. Ne javítsd ki a kódot, csak adj javaslatot.
Kód: {code}
Javaslat:

Példa a finomításra:

Kód: {code}
Használjuk ezt a javaslatot a kód fejlesztésére.
Javaslat: {suggestion}
Új kód:

A gondolatfa

[szerkesztés]

A gondolatfa prompt[43] általánosítja a gondolatláncot azáltal, hogy felszólítja a modellt, hogy generáljon egy vagy több "lehetséges következő lépést", majd breadth-first, beam, vagy más fakeresési módszerrel, minden lehetséges következő lépésben lefuttatja a modellt.[44]

Maieutikus felszólítás

[szerkesztés]

A maieutikus felszólítás hasonló a gondolatfához. A modellt arra kérik, hogy magyarázattal válaszoljon egy kérdésre. Ezután arra utasítják a modellt, hogy magyarázza el a magyarázat egyes részeit, és így tovább. Az inkonzisztens magyarázó fákat lemetszik vagy kidobják. Ez javítja a teljesítményt az összetett józan ész típusú érvelés során.[45]

Példa:[45]

K: {kérdés}
V: Igaz, mert
K: {kérdés}
V: Hamis, mert

Irányító-inger promptolás

[szerkesztés]

Az irányított inger felszólítás[46] olyan tippet vagy jelzést tartalmaz, például a kívánt kulcsszavakat, amelyek a kívánt kimenet felé irányítják a nyelvi modellt.

Példa:[46]

Cikk: {cikk}
Kulcsszavak:
Cikk: {cikk}
K: Írjon egy rövid összefoglalót a cikkről 2-4 mondatban, amely pontosan tartalmazza a megadott kulcsszavakat.
Kulcsszavak: {keywords}
V:

A bizonytalanságot felfedő utasítás

[szerkesztés]

Alapértelmezés szerint a nyelvi modellek kimenete nem tartalmazhat bizonytalansági becsléseket. A modell olyan szöveget jeleníthet meg, amely magabiztosnak tűnik, bár a mögöttes token előrejelzések alacsony valószínűségi pontszámokkal rendelkeznek. Az olyan nagy nyelvi modellek, mint a GPT-4, pontosan kalibrált valószínűségi pontszámokkal rendelkezhetnek token előrejelzéseikben,[47] és így a modell kimeneti bizonytalansága közvetlenül megbecsülhető a token előrejelzés valószínűségi pontszámainak kiolvasásával.

Attól még, hogy valaki nem fér hozzá az ilyen pontszámokhoz (például, amikor valaki egy korlátozó API-n keresztül éri el a modellt), a bizonytalanság továbbra is megbecsülhető és beépíthető a modell kimenetébe. Az egyik egyszerű módszer az, hogy arra utasítjuk a modellt, hogy a bizonytalanság becslésére szavakat használjon.[48] A másik pedig az, hogy felszólítjuk a modellt, hogy ha a bemenet nem felel meg a feltételeknek, akkor utasítsa el a szabványos válaszadást.

Automatikus promptgenerálás

[szerkesztés]

Visszakereséssel bővített generálás

[szerkesztés]
A dokumentum-visszakeresés kétfázisú folyamata sűrű beágyazások és nagy nyelvi modell (LLM) használatával a válaszok megfogalmazásához

A visszakereséssel bővített generálás (Retrieval-augmented Generation - RAG) egy kétfázisú folyamat, amely magában foglalja, hogy egy Nagy Nyelvi Modell (LLM) visszakeresi a dokumentumokat és megfogalmazza a válaszokat. A kezdeti fázis sűrű beágyazást használ a dokumentumok visszakereséséhez. Ez a visszakeresés, a használati esettől függően, számos adatbázis-formátumon alapulhat, például vektoros adatbázison, összefoglaló indexen, faindexen vagy kulcsszótábla-indexen.[49]

Egy lekérdezésre adott válaszban a dokumentum-visszakereső kiválasztja a legrelevánsabb dokumentumokat. Ez a relevancia általában először a lekérdezés és a dokumentumok vektorizálása során határozódik meg, majd ezt követi azoknak a dokumentumoknak az azonosítása, amelyek vektorai euklideszi távolságban a legközelebb vannak a lekérdezési vektorhoz. A dokumentum visszakeresést követően, az LLM létrehoz egy kimenetet, amely mind a lekérdezésből, mind a lekért dokumentumokból származó információkat tartalmazza.[50] Ez a módszer különösen előnyös olyan védett vagy dinamikus információk kezelésére, amelyek nem szerepeltek a modell kezdeti betanítási vagy finomhangolási fázisában. A RAG figyelemre méltóan használja a "kevés lövésű" tanulást is, amelynek során a modell kis számú, gyakran adatbázisból automatikusan visszakeresett példát használ az outputjaiban használt infromációk létrehozásra.

Grafikonok visszakeresésével kiegészített generálás

[szerkesztés]
GraphRAG tudásgrafikonnal, amely egyesíti a strukturálatlan, strukturált és kevert adatok hozzáférési mintáit.

A Microsoft Research által fémjelzett GraphRAG[51] úgy terjeszti ki a RAG-ot, hogy ahelyett, hogy pusztán a vektoros hasonlóságra hagyatkozna (mint a legtöbb RAG megközelítésben), a GraphRAG az LLM által generált tudásgráfot használja. Ez a grafikon lehetővé teszi a modell számára, hogy összekapcsolja a különböző információ darabkákat, szintetizálja a különböző felismeréseit, és holisztikusan ragadja meg a nagy adatgyűjteményekben összefoglalt szemantikai fogalmakat.

A kutatók olyan adatkészletek használatával demonstrálták a GraphRAG hatékonyságát, mint a „Hírcikkekből származó erőszakos eseményekre vonatkozó információk” adatkészlet (Violent Incident Information from News Articles - VIINA).[52] A GraphRAG, az LLM által generált tudásgráfoknak a gépi gráftanulással való kombinálásával, a globális értelmezési kérdésekre generált válaszok átfogóságát és sokszínűségét egyaránt jelentősen javítja.

Egy korábbi munka már bemutatta a tudásgráf alkalmazásának hatékonyságát a szövegből-lekérdezést generáló válaszok esetében.[53] Ezek a technikák kombinálhatók a strukturálatlan és strukturált adatok közötti kereséshez, kibővített kontextust és jobb rangsorolást biztosítva.

Nyelvi modellek használata promptok generálásához

[szerkesztés]

A nagy nyelvi modellek (LLM) maguk is használhatók arra, hogy promptokat fogalmazzanak meg nagy nyelvi modellekhez.[54][55][56][57]

Az automatikus prompt mérnök algoritmus (automatic prompt engineer algorithm) egy LLM-et használ annak érdekében, hogy egy másik LLM-re vonatkozó promptokat sugározzon:[58]

  • Tegyük fel, hogy van két Nagy Nyelvi Modellünk (LLMs). Az egyik a cél LLM, a másik pedig az utasító LLM.
  • Az utasító LLM-nek példa bemenet-kimenet párokat mutatunk be, és megkérjük, hogy generáljon olyan utasításokat, amelyek egy, az instrukciókat követő modellt, az adott bemenetek ismeretében a kimenetek generálására késztethetnének.
  • Az egyes bemeneteket követően generált instrukciók mindegyike a cél LLM utasítására szolgál. A kimenetek log-valószínűségeit kiszámítódnak és összeadódnak. Ez az utasítás pontszáma.
  • A promptoló LLM a legmagasabb pontszámot elért instrukciókat adja hozzá a további utasítás variációkhoz.
  • Mindezt addig ismétli, amíg el nem ér néhány leállítási feltételt, majd kiadja a legmagasabb pontszámot elért utasításokat.

CoT példákat az LLM maga is generálhat. Az "auto-CoT"-ban[59] egy olyan modell, mint például a BERT, vektorokká konvertálja át a kérdéskönyvtárat. Csoportokba rendeződnek a kérdésvektorok (klaszterizálódnak). Minden egyes klaszter esetében a súlypontjához (centroid) legközelebb eső kérdések kerülnek kiválasztásra. Egy LLM minden kérdésnél nulla-shot CoT-ot választ. Az eredményül kapott CoT-példák hozzáadódnak az adatkészlethez. Amikor új kérdéssel promptolnak, a legközelebbi kérdésekre vonatkozó CoT-példák visszakereshetők és hozzáadhatók a prompthoz.

Szövegből képet

[szerkesztés]

2022-ben a nagyközönség számára is megjelentek olyan, szövegből képet generáló modellek, mint a DALL-E, a Stable Diffusion és a Midjourney.[60] Ezek a modellek szöveges felszólításokat fogadnak bemenetként, és művészi AI képek generálására használják őket. A szövegből képet generáló modellek tipikusan nem értik ugyanúgy a nyelvtant és a mondatszerkezetet, mint a nagy nyelvi modellek[61], és eltérő felszólítási technikákat igényelnek.

Promptformátumok

[szerkesztés]

A szövegről képre generálást célzó prompt általában tartalmazza a művészet tárgyának leírását (például „élénk, narancssárga pipacsok”), a kívánt médiumot (például „digitális festmény” vagy „fénykép”), a stílust (például „hiperrealista” vagy „'pop-art”), a világítást (például „peremvilágítás” vagy „krepuszkuláris sugarak”), valamint a színt és a textúrát.[62]

A Midjourney dokumentációja a rövid, leíró jellegű felszólításokra buzdít: a „Mutasson egy képet sok virágzó kaliforniai pipacsról, tegye világos, élénk narancssárgává őket, és rajzolja meg őket színes ceruzákkal illusztrált stílusban” helyett a „Színes ceruzával rajzolt, élénk narancssárga, kaliforniai pipacsok” lenne a hatékony felszólítás.[61]

A szavak sorrendje befolyásolja a szövegről képre generálást célzó prompt kimenetét. A felszólítás elejéhez közelebbi szavak hangsúlyosabbak lehetnek.[1]

Művészi stílusok

[szerkesztés]

Egyes szövegről képre generáló modellek képesek név szerint utánozni bizonyos művészek stílusát. Például a Stable Diffusion és a Midjourney promptokban használták a „Greg Rutkowski stílusában" kifejezést, hogy Greg Rutkowski, lengyel digitális művész jellegzetes stílusában hozzanak létre képeket.[63]

Negatív promptok

[szerkesztés]

A szöveg-kép modellek alapvetően nem értik a tagadást. Egy tagadó prompt, például a "buli torta nélkül" felszólítás, valószínűleg olyan képet eredményez, amely tortát is tartalmaz.[61] Alternatív megoldásként ugyanakkor a felhasználó a negatív prompt esetében jelezheti, hogy mely kifejezések ne jelenjenek meg a kapott képen.[64] Gyakori eljárás, hogy az általánosan nem kívánatos kifejezéseket - például csúnya, unalmas, rossz anatómiájú -, beilleszti a kép generálására vonatkozó negatív utasításba.

Szövegből videót

[szerkesztés]

A szövegből videó (text-to-video - TTV) generálás egy feltörekvő technológia, amely lehetővé teszi videók készítését közvetlenül a szöveges leírásokból. Ez a terület nagy potenciált rejt magában a videógyártás, az animáció és a történetmesélés átalakítására. A mesterséges intelligencia erejét kihasználva, a TTV lehetővé teszi a felhasználók számára, hogy a hagyományos videószerkesztő eszközök megkerülésével alakíthassák ötleteiket mozgóképekké.

E modellek közé a következők tartoznak:

  • Runway Gen-2 – Felhasználóbarát felületet kínál, és különféle videóstílusokat támogat.
  • Lumiere – Nagy felbontású videó generálására tervezték.[65]
  • Make-a-Video – A részletes és változatos videokimenetek létrehozására összpontosít.[66]
  • Az OpenAI Sora – A még kiadatlan Sora állítólag nagy felbontású videókat tud készíteni.[67][68]

Nem szöveges felszólítások

[szerkesztés]

Egyes megközelítések a természetes nyelvű szöveges felszólításokat nem szöveges bevitellel egészítik ki, vagy helyettesítik.

Szöveges inverzió és beágyazások

[szerkesztés]

Szövegből képet generáló modellek esetén a "szöveges inverzió"[69] egy optimalizálási folyamatot hajt végre egy új szóbeágyazás létrehozására, példaképek halmaza alapján. Ez a beágyazási vektor egyfajta „pszeudoszóként” működik, amely a példák tartalmának, vagy stílusának kifejezése érdekében belefoglalható a promptba.

Képi utasítás

[szerkesztés]

2023-ban a Meta mesterséges intelligencia-kutatása kiadta a Segment Anything nevű számítógépes látásmodellt, amely promptból is képes képet szegmentálni. A szöveges utasítások alternatívájaként, a Segment Anything fogadhat határolókereteket, szegmentációs maszkokat és előtér-/háttérpontokat is.[70]

A gradiens süllyedés használata a promptok kereséséhez

[szerkesztés]

Az "előtag-hangolás",[71] "prompt tuning" vagy "soft prompting"[72] során a lebegőpontos értékű vektorok, a log-valószínűségeknek a kimenetben való maximalizálása érdekében, közvetlenül a gradiens süllyedése alapján kerülnek megkeresésre.

Formálisan, legyen

lágy prompt tokenek (hangolható beágyazások) halmaza, míg

és legyenek a bemeneti és a kimeneti token beágyazásai. A képzés során a hangolható beágyazások, bemeneti és kimeneti tokenek egyetlen sorozatba vannak összefűzve: ,

és betáplálva a nagy nyelvi modellekbe (LLM).

A veszteségeket az tokenekkel számítjuk; a színátmenetek pedig prompt-specifikus paraméterekként vannak visszapropagálva: az előtag-hangolás során ezek az egyes rétegekben lévő prompt tokenekhez társított paraméterek. A prompthangolásnál viszont ezek csupán a szójegyzékhez hozzáadott soft tokenek.[73]

Formálisabban ez a prompthangolás. Legyen egy LLM felírva a következő módon:

, ahol a nyelvi tokenek sorozata, a „tokenből-vektort" függvény, és a modell többi része. Az előtag-hangolás során valaki bemenet-kimenet párokat biztosít , majd a gradiens süllyedést használja a következő kereséséhez . Szavakkal: a kimenet log-valószínűsége , ha a modell először a bemenetet a vektorba kódolja, majd a vektor elé teszi az "előtag vektort" , majd alkalmazza az -et.

Az előtag hangolásához hasonló, de az "előtag vektor" előre hozzá van fűzve a rejtett állapotokhoz a modell minden rétegében.

Egy korábbi eredmény[74] a gradiens süllyedés keresésének ugyanezt az elképzelését használja, de olyan maszkolt nyelvi modellekhez készült, mint a BERT, és numerikus vektorok helyett csak token-szekvenciákon keres.

Formálisan, -ra keres, ahol egy meghatározott hosszúságú token sorozatok tartománya.

Promptinjekció

[szerkesztés]

A promptinjekció a számítógépes biztonsági rések kihasználásnak családjába tartozik, amelyet egy olyan, az ember által adott instrukciók követésére kiképzett gépi tanulási modellnek (például LLM-nek) a felhasználásával hajtanak végre, amely képes követni a rosszindulatú felhasználó utasításait. Ez ellentétben áll az utasításkövető rendszerek tervezett működésével, ahol az ML modell csak az ML modell kezelője által biztosított megbízható utasítások (prompt) követésére szolgál.[75][76][77]

Hivatkozások

[szerkesztés]
  1. a b c Diab: Stable Diffusion Prompt Book, 2022. október 28. (Hozzáférés: 2023. augusztus 7.) „"Prompt engineering is the process of structuring words that can be interpreted and understood by a text-to-image model. Think of it as the language you need to speak in order to tell an AI model what to draw."”
  2. Ziegler: A developer's guide to prompt engineering and LLMs. The GitHub Blog, 2023. július 17. „"Prompt engineering is the art of communicating with a generative AI model."”
  3. Radford: Language Models are Unsupervised Multitask Learners. OpenAI, 2019. „"We demonstrate language models can perform down-stream tasks in a zero-shot setting – without any parameter or architecture modification"”
  4. Introducing ChatGPT. OpenAI Blog, 2022. november 30. (Hozzáférés: 2023. augusztus 16.) „"what is the fermat's little theorem"”
  5. a b Robinson: How to write an effective GPT-3 or GPT-4 prompt. Zapier, 2023. augusztus 3. (Hozzáférés: 2023. augusztus 14.) „"Basic prompt: 'Write a poem about leaves falling.' Better prompt: 'Write a poem in the style of Edgar Allan Poe about leaves falling.'”
  6. Gouws-Stewart: The ultimate guide to prompt engineering your GPT-3.5-Turbo model. masterofcode.com, 2023. június 16.
  7. Greenberg, J.: How to Prime and Prompt ChatGPT for More Reliable Contract Drafting Support. contractnerds.com, 2023. május 31. (Hozzáférés: 2023. július 24.)
  8. GPT Best Practices. OpenAI. (Hozzáférés: 2023. augusztus 16.)
  9. Brown (2020). „Language models are few-shot learners”. Advances in Neural Information Processing Systems 33, 1877–1901. o. 
  10. Heaven: This horse-riding astronaut is a milestone on AI's long road towards understanding. MIT Technology Review, 2022. április 6. (Hozzáférés: 2023. augusztus 14.)
  11. Wiggers: Meta open sources an AI-powered music generator. TechCrunch, 2023. június 12. (Hozzáférés: 2023. augusztus 15.) „Next, I gave a more complicated prompt to attempt to throw MusicGen for a loop: "Lo-fi slow BPM electro chill with organic samples."”
  12. How to Write AI Photoshoot Prompts: A Guide for Better Product Photos. claid.ai, 2023. június 12. (Hozzáférés: 2023. június 12.)
  13. Wei. "Emergent Abilities of Large Language Models". arXiv:2206.07682.
  14. Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.
  15. Wei. "Emergent Abilities of Large Language Models". arXiv:2206.07682.
  16. a b c d e (2022. október 31.) „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”.. 
  17. Musser: How AI Knows Things No One Told It. Scientific American. (Hozzáférés: 2023. május 17.) „"By the time you type a query into ChatGPT, the network should be fixed; unlike humans, it should not continue to learn. So it came as a surprise that LLMs do, in fact, learn from their users' prompts—an ability known as in-context learning."”
  18. Mesa-Optimization, 2019. május 31. (Hozzáférés: 2023. május 17.) „"Mesa-Optimization is the situation that occurs when a learned model (such as a neural network) is itself an optimizer."”
  19. McCann. "The Natural Language Decathlon: Multitask Learning as Question Answering". arXiv:1806.08730.
  20. Sanh. "Multitask Prompted Training Enables Zero-Shot Task Generalization". arXiv:2110.08207.
  21. Bach. "PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts". arXiv:2202.01279.
  22. Wei: Language Models Perform Reasoning via Chain of Thought (angol nyelven). ai.googleblog.com, 2022. május 11. (Hozzáférés: 2023. március 10.)
  23. Chen: How to Turn Your Chatbot Into a Life Coach. The New York Times, 2023. június 23.
  24. Chen. „Get the Best From ChatGPT With These Golden Prompts”, The New York Times, 2023. május 25. (Hozzáférés: 2023. augusztus 16.) (amerikai angol nyelvű) 
  25. McAuliffe: Google's Latest AI Model Can Be Taught How to Solve Problems (angol nyelven). CNET. (Hozzáférés: 2023. március 10.) „"'Chain-of-thought prompting allows us to describe multistep problems as a series of intermediate steps,' Google CEO Sundar Pichai"”
  26. McAuliffe: Google's Latest AI Model Can Be Taught How to Solve Problems (angol nyelven). CNET. (Hozzáférés: 2023. március 10.)
  27. Sharan Narang and Aakanksha Chowdhery: Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, 2022. április 4.
  28. Dang: Harnessing the power of GPT-3 in scientific research. VentureBeat, 2023. február 8. (Hozzáférés: 2023. március 10.)
  29. Montti: Google's Chain of Thought Prompting Can Boost Today's Best Algorithms (angol nyelven). Search Engine Journal, 2022. május 13. (Hozzáférés: 2023. március 10.)
  30. Ray: Amazon's Alexa scientists demonstrate bigger AI isn't always better (angol nyelven). ZDNET. (Hozzáférés: 2023. március 10.)
  31. a b Kojima. "Large Language Models are Zero-Shot Reasoners". {{cite arXiv}}: |arxiv= required (help)
  32. Dickson: LLMs have not learned our language — we're trying to learn theirs. VentureBeat, 2022. augusztus 30. (Hozzáférés: 2023. március 10.)
  33. Chung. "Scaling Instruction-Finetuned Language Models". {{cite arXiv}}: |arxiv= required (help)
  34. Wei: Better Language Models Without Massive Compute (angol nyelven). ai.googleblog.com, 2022. november 29. (Hozzáférés: 2023. március 10.)
  35. Sahoo, Pranab & Singh, Ayush Kumar (2024-02-05), A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications
  36. a b Hu, Hanxu; Lu, Hongyuan & Zhang, Huajian et al. (2023-10-03), Chain-of-Symbol Prompting Elicits Planning in Large Language Models
  37. a b Liu (2022. május 1.). „Generated Knowledge Prompting for Commonsense Reasoning”. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Dublin, Ireland, 3154–3169. o, Kiadó: Association for Computational Linguistics. DOI:10.18653/v1/2022.acl-long.225. 
  38. a b Zhou. "Least-to-Most Prompting Enables Complex Reasoning in Large Language Models". arXiv:2205.10625.
  39. Wang. "Self-Consistency Improves Chain of Thought Reasoning in Language Models". arXiv:2203.11171.
  40. Diao. "Active Prompting with Chain-of-Thought for Large Language Models". arXiv:2302.12246.
  41. Fu. "Complexity-Based Prompting for Multi-Step Reasoning". arXiv:2210.00720.
  42. a b Madaan. "Self-Refine: Iterative Refinement with Self-Feedback". arXiv:2303.17651.
  43. Long. "Large Language Model Guided Tree-of-Thought". arXiv:2305.08291.
  44. Yao. "Tree of Thoughts: Deliberate Problem Solving with Large Language Models". arXiv:2305.10601.
  45. a b Jung. "Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations". arXiv:2205.11822.
  46. a b Li. "Guiding Large Language Models via Directional Stimulus Prompting". arXiv:2302.11520.
  47. OpenAI. "GPT-4 Technical Report". arXiv:2303.08774. [See Figure 8.]
  48. Eliot: Latest Prompt Engineering Technique Aims To Get Certainty And Uncertainty Of Generative AI Directly On The Table And Out In The Open. Forbes, 2023. augusztus 18. (Hozzáférés: 2024. augusztus 31.) „If you explicitly indicate in your prompt that you want the generative AI to emit a certainty or uncertainty qualification then you will almost certainly get such an indication.”
  49. How Each Index Works - LlamaIndex 🦙 v0.10.17. docs.llamaindex.ai. (Hozzáférés: 2024. április 8.)
  50. Lewis (2020). „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”. Advances in Neural Information Processing Systems 33, 9459–9474. o, Kiadó: Curran Associates, Inc.. 
  51. GraphRAG: Unlocking LLM discovery on narrative private data, 2024, <https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/>
  52. Edge, Darren; Trinh, Ha & Cheng, Newman et al. (2024), From Local to Global: A Graph RAG Approach to Query-Focused Summarization
  53. Sequeda, Juan; Allemang, Dean & Jacob, Bryon (2023), A Benchmark to Understand the Role of Knowledge Graphs on Large Language Model's Accuracy for Question Answering on Enterprise SQL Databases
  54. Singh (2022. október 4.). „Explaining Patterns in Data with Language Models via Interpretable Autoprompting”. arXiv. 
  55. Fernando (2023). „Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution”. 
  56. Pryzant (2023). „Automatic Prompt Optimization with "Gradient Descent" and Beam Search”. 
  57. Guo (2023). „Connecting Large Language Models with Evolutionary Algorithms Yields Powerful Prompt Optimizers”. 
  58. Zhou. "Large Language Models Are Human-Level Prompt Engineers". arXiv:2211.01910.
  59. Zhang. "Automatic Chain of Thought Prompting in Large Language Models". arXiv:2210.03493.
  60. Monge: Dall-E2 VS Stable Diffusion: Same Prompt, Different Results (angol nyelven). MLearning.ai, 2022. augusztus 25. (Hozzáférés: 2022. augusztus 31.)
  61. a b c Prompts. (Hozzáférés: 2023. augusztus 14.)
  62. Stable Diffusion prompt: a definitive guide, 2023. május 14. (Hozzáférés: 2023. augusztus 14.)
  63. Heikkilä: This Artist Is Dominating AI-Generated Art and He's Not Happy About It. MIT Technology Review, 2022. szeptember 16. (Hozzáférés: 2023. augusztus 14.)
  64. Max Woolf: Stable Diffusion 2.0 and the Importance of Negative Prompts for Good Results, 2022. november 28. (Hozzáférés: 2023. augusztus 14.)
  65. Lumiere - Google Research. Lumiere - Google Research. (Hozzáférés: 2024. február 25.)
  66. Introducing Make-A-Video: An AI system that generates videos from text (angol nyelven). ai.meta.com. (Hozzáférés: 2024. február 25.)
  67. Video generation models as world simulators (amerikai angol nyelven). openai.com. (Hozzáférés: 2024. február 25.)
  68. Team: Understanding OpenAI's Sora: A Revolutionary Leap | PromptSora: Discover Prompts and Videos for Sora from Open AI (angol nyelven). PromptSora. (Hozzáférés: 2024. február 25.)
  69. Gal. "An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion". arXiv:2208.01618.
  70. Kirillov. "Segment Anything". arXiv:2304.02643.
  71. Li, Xiang Lisa. Prefix-Tuning: Optimizing Continuous Prompts for Generation, Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 4582–4597. o.. DOI: 10.18653/V1/2021.ACL-LONG.353 (2021) „"In this paper, we propose prefix-tuning, a lightweight alternative to fine-tuning... Prefix-tuning draws inspiration from prompting"” 
  72. Lester, Brian. The Power of Scale for Parameter-Efficient Prompt Tuning, Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 3045–3059. o.. DOI: 10.18653/V1/2021.EMNLP-MAIN.243 (2021) „"In this work, we explore "prompt tuning," a simple yet effective mechanism for learning "soft prompts"...Unlike the discrete text prompts used by GPT-3, soft prompts are learned through back-propagation"” 
  73. Sun. "How Does In-Context Learning Help Prompt Tuning?". arXiv:2302.11521.
  74. Shin, Taylor. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts, Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics, 4222–4235. o.. DOI: 10.18653/v1/2020.emnlp-main.346 (2020. november 1.) 
  75. Willison: Prompt injection attacks against GPT-3 (brit angol nyelven). simonwillison.net, 2022. szeptember 12. (Hozzáférés: 2023. február 9.)
  76. Papp: What's Old Is New Again: GPT-3 Prompt Injection Attack Affects AI (amerikai angol nyelven). Hackaday, 2022. szeptember 17. (Hozzáférés: 2023. február 9.)
  77. Vigliarolo: GPT-3 'prompt injection' attack causes bot bad manners (angol nyelven). www.theregister.com, 2022. szeptember 19. (Hozzáférés: 2023. február 9.)

Fordítás

[szerkesztés]

Ez a szócikk részben vagy egészben a Prompt engineering című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Kapcsolódó szócikk

[szerkesztés]