يوم آخر، نموذج آخر - وهذا النموذج لم يخرج متأرجحًا.
ظهر أحدث طراز خفيف الوزن من OpenAI، o3، في LMSYS Chatbot Arena، جاهزًا لإثارة الإعجاب.
ولكن بدلًا من التباهي، انقلب بهدوء.
دعونا نكتشف السبب وراء هذا الضجيج (حتى لو لم يكن o3 نفسه كذلك).
ماذا يحدث هنا؟
أطلقت شركة OpenAI نموذج o3 كنموذج خفيف الوزن، من النوع الذي من المفترض أن يكون أسرع وأرخص و"جيدًا بما يكفي" لمعظم المهام.
إنه ليس GPT-4، وهو لا يحاول أن يكون كذلك.
ولكن هذا لم يمنع المختبرين المستقلين من طرحه في الحلبة.
وهنا المفاجأة:
🔹 لقد كان أداؤه ضعيفا.
🔹 حصل على تصنيف أقل من Claude 3 Opus و GPT-4 و Gemini 1.5 Pro.
🔹 في بعض المهام، كان يتخلف حتى عن النماذج القديمة.
في الأساس، تم وضعه على مقاعد البدلاء في أول ظهور له.
ماذا يختبرون في هذه المعايير؟
هذه ليست واحدة من تلك المراجعات الغامضة "ثق بنا، إنه رائع".
هذا اختبار حقيقي - يتم إجراؤه بواسطة فريق LMSYS من خلال Chatbot Arena.
إليك ما تم اختباره على o3:
🧠 الرياضيات والمنطق: هل يمكنه التفكير في المشكلات والألغاز والحسابات؟
👨💻 كتابة التعليمات البرمجية: هل يمكنها كتابة تعليمات برمجية عاملة أو إصلاح البرامج النصية المكسورة؟
✍️ الكتابة الإبداعية: هل يمكنها أن تحكي قصة، أو تطلق نكتة، أو تكتب رسالة حب؟
🌍 معلومات عامة: هل هو أذكى من طالب الصف الخامس؟ أم ويكيبيديا؟
💬 الدردشة متعددة الأدوار: هل يمكنها إجراء محادثة كما لو كانت تتذكر ما قلته؟
🎭 متابعة التعليمات ولعب الأدوار: هل يمكن أن تكون مفيدة، أو غريبة، أو كليهما؟
🌐 الترجمة: هل يفهم لغات أبعد من اللغة الإنجليزية في وادي السيليكون؟
كان كل اختبار عبارة عن مقارنة عمياء وجهاً لوجه.
اختار المستخدمون الحقيقيون إجاباتهم المفضلة دون معرفة النموذج الذي كتبها.
وهكذا انتهى الأمر بشركة o3 إلى الحصول على درجة Elo أقل - وهي النسخة الذكية من بطاقة التقرير.
ماذا يقول OpenAi
ولكي نكون منصفين تجاه OpenAI، فإنهم لم يطلقوا على o3 اسم طفلهم الذهبي مطلقًا.
إنه نموذج خفيف الوزن، وليس من المفترض أن يتنافس مع GPT-4.
الهدف؟ توفير المال على الحوسبة، والتشغيل السريع، مع الحفاظ على جودة الصوت.
ولكن هذا هو الشيء:
حتى المقاتلون ذوو الوزن الخفيف يحتاجون إلى الصمود في الحلبة - وهذا المقاتل تعثر في وقت مبكر.
ماذا يعني ذلك (بالكلمات البشرية)
وهنا ملخص صديق للإنسان:
o3 ليس سيئًا، ولكنه ليس رائعًا أيضًا.
لقد تم تصميمه ليكون أرخص وأسرع، ولكن في محاولته ليكون خفيفًا، فقد كان أيضًا... خفيفًا في الأداء.
يتوقع الناس أن يكون أي شيء من OpenAI مميزًا، وشعرنا أن هذا المنتج مجرد عينة مجانية لم تقنعنا بالشراء.
إذا كنت تستخدم الذكاء الاصطناعي في المنتجات أو سير العمل، فهذه هي نصيحتك:
قد ترغب في اختبار O3 بنفسك قبل استبداله.
إنه مناسب للمهام البسيطة، ولكن إذا كنت بحاجة إلى ذكاء أو ذاكرة أو دقة، فربما عليك الاتصال بكلود أو جيميني.
🔧 ما يمكننا إظهاره في الجدول:
نموذج | تصنيف ELO (ساحة Chatbot) | نقاط القوة | نقاط الضعف | الأفضل لـ |
جي بي تي-4 | 🔵 أفضل 3 | تفكير عام قوي، جيد في البرمجة، لديه ذاكرة متعددة الأدوار | أبطأ، أغلى ثمناً | تطبيقات متميزة ومهام منطقية ثقيلة |
كلود 3 أوبس | 🟣 رقم 1 الآن | أفضل نتيجة إجمالية في تصنيف ELO، واستجابات سلسة، وذاكرة رائعة | مطول قليلا | المساعدون، البحث، المحادثات الطويلة |
جيميني 1.5 برو | 🟢 أفضل 5 | سريع، جيد في تعدد اللغات، تفكير سليم | يمكن أن يخرج عن المسار | تكاملات الفريق متعددة الاستخدامات |
OpenAI o3 | 🟡 الثلث السفلي | رخيص، سريع، جيد في الأساسيات | صراعات مع الفروق الدقيقة والرموز والخطوات المتعددة | تطبيقات خفيفة الوزن، وملخصات، ومسودات |
منظور فريق الضوء المتجمد
يبدو o3 مثل إحدى تلك العينات المجانية الموجودة في السوبر ماركت.
فكرة جميلة، ولكنك لا تضعها في سلة التسوق الخاصة بك.
نحن نعلم أن OpenAI تقوم ببناء نماذج مختلفة لوظائف مختلفة.
ولكن عندما يكون اسمك OpenAI، يتوقع الناس أن يكون كل نموذج من الطلاب المتفوقين.
هكذا نرى الأمر:
هذه ليست كارثة كبيرة.
لكنها تذكير جيد بأن نماذج الذكاء الاصطناعي ليست كلها متشابهة.
يمكن أن تكون النماذج "الخفيفة" رائعة، ولكن فقط إذا كانت لا تزال تؤدي المهمة.
في الوقت الحالي، يعتبر o3 بمثابة متدرب ذكي لا يزال يتعلم.
يمكنك استخدامه للمهام السريعة، ولكنك لا تطلب منه كتابة كتابك التالي.