Un autre jour, un autre modèle, et celui-ci n'a pas été à la hauteur.

Le dernier modèle léger d'OpenAI, o3, est apparu dans l'arène LMSYS Chatbot, prêt à impressionner.
Mais au lieu de fléchir, il s'est affaissé. Silencieusement.
Voyons pourquoi cela fait du bruit (même si o3 lui-même n'en fait pas).

Que se passe-t-il?

OpenAI a lancé o3 comme un modèle léger, le type censé être plus rapide, moins cher et « suffisamment bon » pour la plupart des tâches.

Ce n’est pas GPT-4, et cela n’essaie pas de l’être.
Mais cela n’a pas empêché les testeurs indépendants de le lancer dans l’arène.

Et voici le rebondissement :
🔹 Il a sous-performé.
🔹 Il est classé plus bas que Claude 3 Opus, GPT-4 et Gemini 1.5 Pro.
🔹 Dans certaines tâches, il était même en retard par rapport aux anciens modèles.

En gros, il a été mis sur le banc lors de ses propres débuts.

 

Que testent-ils dans ces benchmarks ?

Il ne s’agit pas d’une de ces mystérieuses critiques du type « faites-nous confiance, c’est génial ».
Il s’agit de tests réels, réalisés par l’équipe LMSYS via leur Chatbot Arena.

Voici sur quoi o3 a été testé :

  • 🧠 Mathématiques et logique : peut-il réfléchir à des problèmes, des énigmes et des calculs ?

  • 👨‍💻 Écriture de code : peut-il écrire du code fonctionnel ou réparer des scripts cassés ?

  • ✍️ Écriture créative : peut-elle raconter une histoire, faire une blague ou écrire une lettre d’amour ?

  • 🌍 Culture générale : Est-ce plus intelligent qu’un élève de CM2 ? Ou Wikipédia ?

  • 💬 Chat multi-tours : peut-il tenir une conversation comme s'il se souvenait de ce que vous avez dit ?

  • 🎭 Suivi des instructions et jeu de rôle : cela peut-il être utile, étrange ou les deux ?

  • 🌐 Traduction : Comprend-il des langues autres que l'anglais de la Silicon Valley ?

Chaque test était une comparaison en aveugle.
Les vrais utilisateurs ont choisi leurs réponses préférées sans savoir quel modèle les a écrites.

C'est ainsi qu'o3 s'est retrouvé avec un score Elo inférieur, la version IA d'un bulletin scolaire.

 

Ce que disent les OpenAi

Pour être juste envers OpenAI, ils n’ont jamais appelé o3 leur enfant chéri.
C'est un modèle léger, qui n'est pas destiné à concurrencer le GPT-4.
L'objectif ? Économiser sur les ressources de calcul, être rapide et avoir un son élégant.

Mais voici le problème :
Même les poids légers doivent tenir leur place sur le ring, et celui-ci a trébuché dès le début.

 

Ce que cela signifie (en termes humains)

Voici le résumé convivial :

  • o3 n'est pas mauvais, mais il n'est pas génial non plus.

  • Il a été conçu pour être moins cher et plus rapide, mais en essayant d'être léger, il est également devenu… léger en termes de performances.

  • Les gens s'attendent à ce que tout ce qui vient d'OpenAI soit de qualité supérieure, et cela ressemblait davantage à un échantillon gratuit qui ne nous a pas convaincus d'acheter.

Si vous utilisez l'IA dans des produits ou des flux de travail, voici ce que vous devez savoir :
Vous souhaiterez peut-être tester o3 vous-même avant de l'échanger.

C'est parfait pour les tâches légères, mais si vous avez besoin d'intelligence, de mémoire ou de subtilité, mieux vaut appeler Claude ou Gemini.

 

🔧 Ce que nous pouvons montrer dans le tableau :

Modèle

Classement Elo (Chatbot Arena)

Points forts

Points faibles

Idéal pour

GPT-4

🔵 Top 3

Raisonnement général solide, bon en programmation, mémoire à travers les tours

Plus lent, plus cher

Applications premium, tâches logiques lourdes

Claude 3 Opus

🟣 #1 en ce moment

Meilleur score Elo global, réponses fluides, excellente mémoire

Légèrement verbeux

Assistants, recherches, longues discussions

Gemini 1.5 Pro

🟢 Top 5

Rapide, bon en multilingue, raisonnement solide

Peut sortir de la piste

Usage mixte, intégrations d'équipe

OpenAI o3

🟡 Tiers inférieur

Bon marché, rapide, correct dans l'essentiel

Lutte avec les nuances, le code et les étapes multiples

Applications légères, résumés, brouillons

 

Point de vue de l'équipe Frozen Light

o3 ressemble à l'un de ces échantillons gratuits au supermarché.
Belle idée, mais vous ne la mettez pas dans votre panier.

Nous savons qu’OpenAI construit différents modèles pour différents emplois.
Mais lorsque votre nom est OpenAI, les gens s’attendent à ce que chaque modèle soit un excellent élève.

Voici comment nous le voyons :

  • Ce n’est pas une grande catastrophe.

  • Mais c’est un bon rappel que tous les modèles d’IA ne sont pas identiques.

  • Les modèles « légers » peuvent être excellents, mais seulement s’ils font toujours le travail.

En ce moment, o3 est comme un stagiaire intelligent qui est encore en train d’apprendre.
Vous pouvez l'utiliser pour des tâches rapides, mais vous ne lui demandez pas d'écrire votre prochain livre.

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.