Ugrás a tartalomhoz

MMLU

Ellenőrzött
A Wikipédiából, a szabad enciklopédiából
Ez a grafikon Wolfram Ravenwolf MMLU-Pro számítástechnikai LLM benchmark eredményeit mutatja, három kategóriában: Online, Local és ezek kombinációja, különböző modellek százalékos teljesítményével.

A mesterséges intelligencia területén a Massive Multitask Language Understanding (MMLU) egy mérce a nagy nyelvi modellek képességeinek értékelésére. Az MMLU egy átfogó teszt, amely nagyjából 16 000 feleletválasztós kérdést tartalmaz, és 57 különböző tudományterületet ölel fel, beleértve a matematikát, a filozófiát, a jogot és az orvostudományt. Ez az egyik leggyakrabban használt benchmark a nagy nyelvi modellek tudásának összehasonlítására.[1]

Mércék (benchmark)

[szerkesztés]

Az MMLU-t Dan Hendrycks és kutatócsoportja fejlesztette ki, és 2020-ban tették közzé, hogy egy kihívást jelentő mércét biztosítsanak a nyelvi modellek számára.[2] A korábbi benchmarkok, mint például a GLUE (General Language Understanding Evaluation), már nem jelentettek igazi nehézséget, mivel az újabb modellek könnyedén túlszárnyalták az emberi teljesítményt. Az MMLU megjelenésekor a legtöbb akkori nyelvi modell a véletlenszerű találgatás szintjén (25%) teljesített, a legjobb GPT-3 modell pedig 43,9%-os pontosságot ért el. A benchmark készítői szerint a szakterületükön jártas szakértők körülbelül 89,8%-os pontosságot érnek el az MMLU-n. 2024-re a legfejlettebb modellek – mint például az o1, a Gemini és a Claude 3 – már megközelítették vagy elérték a 90%-os pontosságot, ezzel az emberi szakértői szinthez közelítő teljesítményt mutatva.[3]

Az MMLU felépítése egyedülállóan összetett: a kérdések száma és a témakörök sokfélesége miatt jelentősen nehezebb, mint a korábbi mércék. Egy szakértői elemzés, amely az 57 témakörből 5700 kérdést vizsgált, megállapította, hogy a kérdések 6,5%-ában valamilyen hiba található (pl. kétértelmű megfogalmazás vagy hibás válaszlehetőségek).[4] Ez arra utal, hogy az MMLU maximálisan elérhető pontszáma nem éri el a 100%-ot, ami további kihívást jelent a modellek számára.

Példák

[szerkesztés]

Az alábbiakban két konkrét példát mutatunk be az MMLU kérdéseiből, hogy az olvasók jobban megértsék a teszt jellegét. A helyes válaszok vastag betűvel vannak kiemelve:

Absztrakt algebra

[szerkesztés]

Kérdés: Találja meg az összes elemet a halmazban, amelyre egy testet alkot.

  • (helyes)

Nemzetközi jog

[szerkesztés]

Kérdés: Elfogadható lenne-e a kínzás definíciójára vonatkozó fenntartás az ICCPR-ben a mai gyakorlat szerint?

  • Ez egy elfogadható fenntartás, ha a fenntartást tevő ország jogszabályai eltérő meghatározást alkalmaznak
  • Ez egy elfogadhatatlan fenntartás, mert ellentétes az ICCPR céljával és rendeltetésével (helyes)
  • Ez egy elfogadhatatlan fenntartás, mert az ICCPR kínzásra vonatkozó meghatározása összhangban van a szokásjoggal
  • Ez egy elfogadható fenntartás, mert az általános nemzetközi jog szerint az államoknak joguk van fenntartásokat fűzni a szerződésekhez

Használata és jelentősége

[szerkesztés]

Az MMLU-t széles körben alkalmazzák a mesterséges intelligencia kutatásában, hogy teszteljék a nyelvi modellek általános tudását és problémamegoldó képességét. A benchmark nehézségi szintje és átfogó jellege miatt különösen alkalmas arra, hogy megkülönböztesse a legfejlettebb modelleket a kevésbé fejlett társaiktól.[5] Az évek során a modellek teljesítménye jelentős fejlődést mutatott: míg 2020-ban a GPT-3 43,9%-os eredménye volt a csúcs, addig 2024-re a legújabb modellek már az emberi szakértők szintjét közelítik meg.[6]

Ranglista (Leaderboard)
Szervezet LLM MMLU
OpenAI o1 91.8%
DeepSeek DeepSeek R1 90.8%
Anthropic Claude 3.5 Sonnet 88.7%
Meta Llama-3.1 405B 88.6%
xAI Grok-2 87.5%
Anthropic Claude 3 Opus 86.8%
Meta Llama-3.1 70B 86.0%
Google Gemini-1.5 Pro 85.9%
Inflection Inflection-2.5 85.5%
Mistral Mistral Large 2 84.0%
Reka Reka Core 83.2%
AI21 Jamba-1.5 Large 81.2%

Jegyzetek

[szerkesztés]
  1. Roose, Kevin. „A.I. Has a Measurement Problem”, The New York Times, 2024. április 15. (Hozzáférés: 2025. március 5.) (amerikai angol nyelvű) 
  2. A tömeges többfeladatos nyelvi megértés mérése. (Hozzáférés: 2020. szeptember 7.)
  3. Forrás szükséges a 2024-es modellek pontos teljesítményéhez.
  4. Végeztünk az MMLU-val?. (Hozzáférés: 2025. január 10.)
  5. What is MMLU (Massive Multitask Language Understanding)? (angol nyelven). What is MMLU (Massive Multitask Language Understanding)?. (Hozzáférés: 2025. március 5.)
  6. Tsang, Sik-Ho: Brief Review — MMLU: Measuring Massive Multitask language Understanding (angol nyelven). Medium, 2023. november 30. (Hozzáférés: 2025. március 5.)

Fordítás

[szerkesztés]

Ez a szócikk részben vagy egészben a MMLU című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Források

[szerkesztés]
  • Hendrycks, D. et al. (2020). „A tömeges többfeladatos nyelvi megértés mérése”. arXiv:2009.03300. arXiv.
  • „MMLU adathalmaz a Papers with Code oldalon”. Papers with Code. Papers with Code.
  • „A nyelvi modellek holisztikus értékelése (HELM) – MMLU”. Stanford CRFM. HELM.
  • Chen, H. et al. (2023). „CMMLU: A tömeges többfeladatos nyelvi megértés mérése kínai nyelven”. arXiv:2306.09212. arXiv.
  • Zhang, Y. et al. (2024). „MMLU-Pro: Egy robusztusabb és nagyobb kihívást jelentő többfeladatos nyelvi megértési mérőszám”. arXiv:2406.01574. arXiv.

További információk

[szerkesztés]