اختبار ذكاء اصطناعي عام جديد يتحدى نماذج الذكاء الاصطناعي الحالية - نسبة نجاح تتراوح بين ١٪ و١٫٣٪. أما البشر؟ فنسبة نجاحهم حوالي ٦٠٪.
اتضح أن الذكاء الاصطناعي قد لا يزال بحاجة إلى إظهار عمله - مثل الطالب العصبي في يوم الامتحان.
تم إطلاق اختبار جديد يسمى ARC-AGI-2 من قبل مؤسسة Arc Prize Foundation (بقيادة فرانسوا شوليه، وهو نفس العقل المدبر وراء Keras).
هذا ليس معيارًا عاديًا، بل مجموعة ألغاز مُحيرّة مصممة لاختبار قدرة الذكاء الاصطناعي على التفكير، وليس مجرد التنبؤ.
إذن، كيف كان أداء AGI في الاختبار؟
حسنًا، أفضل نماذج الذكاء الاصطناعي من OpenAI وAnthropic وغيرهما... فشلت!
حصل معظمهم على درجات تتراوح بين ١٪ و١٫٣٪، وفي حال تساءلت، حصل البشر على حوالي ٦٠٪. هذه ليست فجوة صغيرة، بل هي اختبار للواقع.
يختلف هذا الاختبار عن أي اختبار آخر تم قياسه. فبدلاً من مطالبة الذكاء الاصطناعي بإكمال جملة أو تلخيص فقرة، يُلقي به في منطقة مجهولة - مشاكل لم يسبق له رؤيتها من قبل، دون بيانات تدريب يعتمد عليها.
إنه يحاول أن يسأل: هل يمكن للذكاء الاصطناعي أن يفكر مثل الإنسان عندما لا يوجهه أحد؟
🧠ما هي نوعية الأسئلة الموجودة في الاختبار؟
نعلم أنك متشوق لمعرفة نوع الأسئلة التي تساعدنا في التمييز بين الذكاء الاصطناعي والإنسان، وما مدى نجاحك لو سُئلت السؤال نفسه. هل ستكون نسبة نجاحك أقرب إلى 60%... أم ماذا؟
لذا، يُقدّم الاختبار ألغازًا منطقية، مُعرَّفة على شكل شبكات صغيرة (كصور من كتل أو أشكال ملونة). على الذكاء الاصطناعي النظر إلى بعض الأمثلة واكتشاف القاعدة الخفية.
على سبيل المثال:
تظهر لك 3 صور:
الصورة 1: مربع أحمر في أعلى اليسار، ودائرة زرقاء في أسفل اليمين
الصورة 2: دائرة زرقاء في أعلى اليمين، ومربع أحمر في أسفل اليسار
الصورة 3: مربع أحمر في أعلى اليمين، ودائرة زرقاء في أسفل اليسار
والآن، يتم سؤالك: ماذا يأتي بعد ذلك؟
💡 التفكير البشري: "أوه، المربع الأحمر يتحرك في اتجاه عقارب الساعة، والدائرة الزرقاء تعكس ذلك."
يتعين على الذكاء الاصطناعي اكتشاف هذا النمط وإنشاء الصورة الصحيحة التالية.
يبدو الأمر بسيطًا، أليس كذلك؟ لكن بالنسبة للذكاء الاصطناعي، يُعدّ هذا بمثابة خدعة ذهنية، خاصةً إذا لم يسبق له أن شهد شيئًا كهذا.
لماذا هذا مهم؟
لأننا لا نزال لا نفهم الذكاء الاصطناعي بشكل كامل كمجتمع وكأفراد.
الذكاء الاصطناعي هو تقنية تم تصميمها لمحاكاة القدرات المعرفية البشرية، ولكن هناك فرق كبير بين ما نسميه ماجستير في القانون وما نتوقعه من الذكاء الاصطناعي العام.
يُظهر هذا الاختبار أن حتى أذكى نماذج الذكاء الاصطناعي اليوم لا تزال تركز على مطابقة الأنماط، وليس التفكير الحقيقي.
التنبؤ بالكلمة التالية شيء، وحل المشكلة من الصفر شيء آخر.
هذا يعيدنا إلى هدف الذكاء الاصطناعي العام: لن يبقى داخل الشاشة، بل سيعيش معنا، محاطًا بالبشر - بشر قد يؤذيهم بسهولة (دون قصد).
ولهذا السبب فإنه يحتاج إلى القدرة على التعامل مع التعقيدات في العالم الحقيقي، بما يتجاوز تدريبه.
إن العيش في بيئة معقدة ومتغيرة باستمرار هو أمر لا يمكن تدريب الذكاء الاصطناعي عليه - بل يتعين عليه التفكير فيه.
وهنا يأتي دور التفكير الحقيقي.
منظور الضوء المتجمد:
لا يتعلق الأمر بالفشل.
يتعلق الأمر بالمعيار الجديد لما هو قادم: البدء في بناء معيار الذكاء الاصطناعي العام الآمن.
نحن ندخل عالمًا حيث لن يقتصر الذكاء الاصطناعي على هاتفك فحسب، بل سيتمكن من المشي والتنظيف والتحدث واتخاذ القرارات في مساحة معيشتك.
نعم، نحن نفهم ذلك - من الرائع أن تحلم بقراءة كتاب بينما يقوم روبوتك بغسل الأطباق.
لكن المهام البسيطة بالنسبة لنا يمكن أن تكون بمثابة ألغاز ضخمة بالنسبة للذكاء الاصطناعي العام.
خذ مسح الأرضية كمثال. يبدو الأمر سهلاً، أليس كذلك؟
لكن انتظر... هل هو خشب؟
لا يمكنك استخدام الماء عليه.
ما هو المنظف الذي تستخدمه؟
هل تكنس أولاً؟ ما نوع القماش الذي تستخدمه؟
أوه - وطفلك يركض حافي القدمين.
أجل، كل جزء مهم. وعلى الذكاء الاصطناعي العام أن يستوعب كل شيء - قبل أن يبدأ بالتنظيف.
وهذا تحول كبير نراقبه جميعًا عن كثب.
لأن عالمنا سوف يتغير بشكل كبير عندما تصبح الذكاء الاصطناعي العام متاحًا.
ليس فقط لأنه من المثير سماع وعود كبيرة من قادة شركات الذكاء الاصطناعي بأنها قادمة قريبًا.
ولكن لأن التأثير سيكون حقيقيا.
ومن وجهة نظرنا، نود تذكير الجميع: ما زلنا نتجادل حول حقوق النشر وقانون الذكاء الاصطناعي - وهذا مع نماذج لا تمتلك حتى جسدًا.
إذن ماذا يحدث عندما يفعلون ذلك؟
هل لديهم قسم شرطة خاص بهم؟ (مزاح. نوعًا ما.)
لكنك فهمت قصدنا.
إن وجود هذا النوع من معايير التنظيم والاختبار سيكون بمثابة البداية لفهم الحد الأدنى الذي يجب أن تتأهل به هذه النماذج.
حتى الآن، كان البائعون فقط هم من يقومون بإجراء هذه المكالمات داخليًا.
ملاحظة شخصية منا
نحن سعداء فعلا أن لدينا الوقت.
حان الوقت لمعرفة الأمور.
حان الوقت للتجربة مع LLMs.
الوقت قبل أن تطرق AGI بابنا - جاهزة لمسح الأرض.
—فريق الضوء المتجمد