הבחינה האחרונה של האנושות
הבחינה האחרונה של האנושות ( HLE ) היא מבחן (benchmark) למודל שפה טבעית הכוללת 3000 שאלות אקדמיות ברמה גבוהה ביותר, ממגוון תחומים, פיזיקה, מתמטיקה, כימיה, מדעי הרוח ומדעי טבע נוספים שנתרמו על ידי כמעט 1000 מומחים ברחבי העולם, רובם פרופסורים, מלמעלה מ-500 מוסדות אקדמיים ב-50 מדינות (ישנם כ-5 חוקרים ישראלים). הבחינה פותחה בשיתוף פעולה על ידי המרכז לבטיחות בינה מלאכותית.[1][2]
רֶקַע
ככל שמודלי השפה, LLM, התפתחו במהירות, הם הצליחו להשיג דיוק של למעלה מ-90% במדדים פופולריים כמו המדד Massive Multitask Language Understanding (MMLU), מה שמגביל את היעילות של מבחנים אלה במדידת יכולות מתקדמות של מודלים חזקים יותר.[דרוש מקור]
לכן, HLE הוצג כדי לספק כלי הערכה מאתגר ומקיף יותר אשר אמור להצליח להבדיל בין המודלים השונים וייקח זמן ארוך יחסית להצליח לפתור אותו באחוזים גבוהים.[דרוש מקור]
עיקר הקושי במודלי השפה הגדולים, LLM, הוא לבחון האם המודל אכן יצירתי ומהי מסוגלתו "לחשוב" ולפתור בעיות מורכבות. מסיבה זו ענף המבחנים (benchmark) למודלי השפה הטבעית הגדולים נמצא כרגע בפיתוח מקיף על ידי מגוון עצום של חוקרים. ישנם מבחני בדיקה רבים מסוגים שונים שבודקים מגוון רחב של תכונות של מודלים אלו.
הרכב מערך הנתונים
מערך הנתונים הוא רב-מודאלי, כאשר כ-10% מהשאלות דורשות הבנת תמונה וטקסט כאחד, בעוד 90% הנותרים מבוססים על טקסט בלבד.[דרוש מקור]
תוצאות
LLMs מתקדמים הוכיחו דיוק נמוך ב-HLE, והדגישו מקום משמעותי לשיפור. לדוגמה, מודלים כמו GPT-4o ו-Grok-2 השיגו דיוקים של 3.3% ו-3.8%, בהתאמה, בעוד ש־o3-mini (גבוה) (מוערך רק על פי טקסט) ו־Deep Research השיגו דיוקים של 13% [3] ו-26.6%, [4] בהתאמה.
הערות שוליים
- ↑ Roose, Kevin (2025-01-23). "When A.I. Passes This Test, Look Out". The New York Times (באנגלית אמריקאית). ISSN 0362-4331. נבדק ב-2025-02-04.
- ↑ Dastin, Jeffrey; Paul, Katie (2024-09-16). "AI experts ready 'Humanity's Last Exam' to stump powerful tech". Reuters.
- ↑ "Humanity's Last Exam". 2025-02-10. אורכב מ-המקור ב-10 בפברואר 2025. נבדק ב-2025-02-10.
{{cite web}}
: (עזרה) - ↑ "Introducing deep research". openai.com (באנגלית אמריקאית). נבדק ב-2025-02-10.
ראו גם
- רשימה של מדדי מודל שפה
קישורים חיצוניים
אתר האינטרנט הרשמי של הבחינה האחרונה של האנושות
- הבחינה האחרונה של האנושות
- פוסט רשמי בבלוג המכריז על הפרויקט
- המאמר ב arxiv
הבחינה האחרונה של האנושות41004087Q132127662