باحثون يصممون اختباراً "مستحيلاً" يكشف حدود الذكاء الاصطناعي الحالي
أمام التفوق المتزايد لنماذج الذكاء الاصطناعي في الاختبارات الأكاديمية التقليدية، اكتشف باحثون أن المعايير الشائعة مثل اختبار MMLU أصبحت سهلة للغاية، مما استدعى ابتكار تقييم جديد مصمم خصيصاً لـ"إسقاط" أحدث التقنيات.
لسد هذه الفجوة، تعاون اتحاد عالمي يضم حوالي 1000 باحث، من بينهم باحثون من جامعة تكساس إيه آند إم، لإنشاء اختبار شامل وصعب للغاية، يرتكز على المعرفة البشرية المتخصصة والعميقة، وهو ما أدى إلى فشل مستمر لأنظمة الذكاء الاصطناعي الحالية في اجتيازه، وفقاً لما نشره موقع "techxplore".
الاختبار الجديد، المسمى "الاختبار الأخير للبشرية" (HLE)، يتألف من 2500 سؤال تغطي مجالات متنوعة تشمل الرياضيات، والعلوم الإنسانية، والعلوم الطبيعية، واللغات القديمة، بالإضافة إلى فروع شديدة التخصص. وقد تم تصميم الأسئلة ومراجعتها بدقة من قبل خبراء لضمان أن لكل سؤال إجابة واحدة واضحة وقابلة للتحقق، ولا يمكن إيجاد حلها بسهولة عبر الإنترنت.
تتراوح الأسئلة من تحليل النقوش التدمرية القديمة، مروراً بتحديد التراكيب التشريحية الدقيقة للطيور، وصولاً إلى تحليل نطق اللغة العبرية التوراتية المعقدة. وقد خضع كل سؤال لاختبار مكثف على نماذج الذكاء الاصطناعي الرائدة؛ فإذا نجح أي نموذج في الإجابة عليه بشكل صحيح، يتم حذفه فوراً من مجموعة الاختبارات، مما يضمن بقاء معيار صعب يفوق القدرات الحالية للذكاء الاصطناعي.
أظهرت النتائج الأولية أن حتى النماذج الأكثر تطوراً واجهت تحديات كبيرة؛ حيث سجل GPT-40 نسبة نجاح بلغت 2.7%، وClaude 3.5 Sonnet حقق 4.1%، بينما وصل نموذج o1 من OpenAI إلى 8% فقط. أما النماذج الأقوى مثل Gemini 3.1 Pro وClaude Opus، فقد تراوحت دقتها بين 40% و50%.
يهدف فريق التطوير إلى جعل اختبار HLE معياراً شفافاً وطويل الأمد لتقييم أنظمة الذكاء الاصطناعي المتقدمة. ولتحقيق ذلك، أتاح الفريق بعض الأسئلة للجمهور، مع الإبقاء على الغالبية العظمى منها سراً لمنع نماذج الذكاء الاصطناعي من "حفظ" الإجابات مسبقاً.







