MMLU

A mesterséges intelligencia területén a Massive Multitask Language Understanding (MMLU) egy mérce a nagy nyelvi modellek képességeinek értékelésére. Az MMLU egy átfogó teszt, amely nagyjából 16 000 feleletválasztós kérdést tartalmaz, és 57 különböző tudományterületet ölel fel, beleértve a matematikát, a filozófiát, a jogot és az orvostudományt. Ez az egyik leggyakrabban használt benchmark a nagy nyelvi modellek tudásának összehasonlítására.[1]
Mércék (benchmark)
[szerkesztés]Az MMLU-t Dan Hendrycks és kutatócsoportja fejlesztette ki, és 2020-ban tették közzé, hogy egy kihívást jelentő mércét biztosítsanak a nyelvi modellek számára.[2] A korábbi benchmarkok, mint például a GLUE (General Language Understanding Evaluation), már nem jelentettek igazi nehézséget, mivel az újabb modellek könnyedén túlszárnyalták az emberi teljesítményt. Az MMLU megjelenésekor a legtöbb akkori nyelvi modell a véletlenszerű találgatás szintjén (25%) teljesített, a legjobb GPT-3 modell pedig 43,9%-os pontosságot ért el. A benchmark készítői szerint a szakterületükön jártas szakértők körülbelül 89,8%-os pontosságot érnek el az MMLU-n. 2024-re a legfejlettebb modellek – mint például az o1, a Gemini és a Claude 3 – már megközelítették vagy elérték a 90%-os pontosságot, ezzel az emberi szakértői szinthez közelítő teljesítményt mutatva.[3]
Az MMLU felépítése egyedülállóan összetett: a kérdések száma és a témakörök sokfélesége miatt jelentősen nehezebb, mint a korábbi mércék. Egy szakértői elemzés, amely az 57 témakörből 5700 kérdést vizsgált, megállapította, hogy a kérdések 6,5%-ában valamilyen hiba található (pl. kétértelmű megfogalmazás vagy hibás válaszlehetőségek).[4] Ez arra utal, hogy az MMLU maximálisan elérhető pontszáma nem éri el a 100%-ot, ami további kihívást jelent a modellek számára.
Példák
[szerkesztés]Az alábbiakban két konkrét példát mutatunk be az MMLU kérdéseiből, hogy az olvasók jobban megértsék a teszt jellegét. A helyes válaszok vastag betűvel vannak kiemelve:
Absztrakt algebra
[szerkesztés]Kérdés: Találja meg az összes elemet a halmazban, amelyre egy testet alkot.
- (helyes)
Nemzetközi jog
[szerkesztés]Kérdés: Elfogadható lenne-e a kínzás definíciójára vonatkozó fenntartás az ICCPR-ben a mai gyakorlat szerint?
- Ez egy elfogadható fenntartás, ha a fenntartást tevő ország jogszabályai eltérő meghatározást alkalmaznak
- Ez egy elfogadhatatlan fenntartás, mert ellentétes az ICCPR céljával és rendeltetésével (helyes)
- Ez egy elfogadhatatlan fenntartás, mert az ICCPR kínzásra vonatkozó meghatározása összhangban van a szokásjoggal
- Ez egy elfogadható fenntartás, mert az általános nemzetközi jog szerint az államoknak joguk van fenntartásokat fűzni a szerződésekhez
Használata és jelentősége
[szerkesztés]Az MMLU-t széles körben alkalmazzák a mesterséges intelligencia kutatásában, hogy teszteljék a nyelvi modellek általános tudását és problémamegoldó képességét. A benchmark nehézségi szintje és átfogó jellege miatt különösen alkalmas arra, hogy megkülönböztesse a legfejlettebb modelleket a kevésbé fejlett társaiktól.[5] Az évek során a modellek teljesítménye jelentős fejlődést mutatott: míg 2020-ban a GPT-3 43,9%-os eredménye volt a csúcs, addig 2024-re a legújabb modellek már az emberi szakértők szintjét közelítik meg.[6]
Szervezet | LLM | MMLU |
---|---|---|
OpenAI | o1 | 91.8% |
DeepSeek | DeepSeek R1 | 90.8% |
Anthropic | Claude 3.5 Sonnet | 88.7% |
Meta | Llama-3.1 405B | 88.6% |
xAI | Grok-2 | 87.5% |
Anthropic | Claude 3 Opus | 86.8% |
Meta | Llama-3.1 70B | 86.0% |
Gemini-1.5 Pro | 85.9% | |
Inflection | Inflection-2.5 | 85.5% |
Mistral | Mistral Large 2 | 84.0% |
Reka | Reka Core | 83.2% |
AI21 | Jamba-1.5 Large | 81.2% |
Jegyzetek
[szerkesztés]- ↑ Roose, Kevin. „A.I. Has a Measurement Problem”, The New York Times, 2024. április 15. (Hozzáférés: 2025. március 5.) (amerikai angol nyelvű)
- ↑ A tömeges többfeladatos nyelvi megértés mérése. (Hozzáférés: 2020. szeptember 7.)
- ↑ Forrás szükséges a 2024-es modellek pontos teljesítményéhez.
- ↑ Végeztünk az MMLU-val?. (Hozzáférés: 2025. január 10.)
- ↑ What is MMLU (Massive Multitask Language Understanding)? (angol nyelven). What is MMLU (Massive Multitask Language Understanding)?. (Hozzáférés: 2025. március 5.)
- ↑ Tsang, Sik-Ho: Brief Review — MMLU: Measuring Massive Multitask language Understanding (angol nyelven). Medium, 2023. november 30. (Hozzáférés: 2025. március 5.)
Fordítás
[szerkesztés]Ez a szócikk részben vagy egészben a MMLU című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.
Források
[szerkesztés]- Hendrycks, D. et al. (2020). „A tömeges többfeladatos nyelvi megértés mérése”. arXiv:2009.03300. arXiv.
- „MMLU adathalmaz a Papers with Code oldalon”. Papers with Code. Papers with Code.
- „A nyelvi modellek holisztikus értékelése (HELM) – MMLU”. Stanford CRFM. HELM.
- Chen, H. et al. (2023). „CMMLU: A tömeges többfeladatos nyelvi megértés mérése kínai nyelven”. arXiv:2306.09212. arXiv.
- Zhang, Y. et al. (2024). „MMLU-Pro: Egy robusztusabb és nagyobb kihívást jelentő többfeladatos nyelvi megértési mérőszám”. arXiv:2406.01574. arXiv.
További információk
[szerkesztés]- Measuring Massive Multitask Language Understanding – Az eredeti kutatási cikk az arXiv-on.
- MMLU adatkészlet – A Hugging Face platformon elérhető adathalmaz.