Un altro giorno, un'altra modella... e questa non è stata all'altezza.
L'ultimo modello leggero di OpenAI, o3, è stato presentato alla LMSYS Chatbot Arena, pronto a stupire.
Ma invece di flettersi, si è accasciato. Silenziosamente.
Cerchiamo di capire perché tutto questo fa rumore (anche se o3 in sé non ne fa).
Cosa sta succedendo?
OpenAI ha lanciato o3 come un modello leggero, pensato per essere più veloce, più economico e "abbastanza buono" per la maggior parte delle attività.
Non è GPT-4 e non ci prova.
Ma questo non ha impedito ai tester indipendenti di provarlo.
Ed ecco il colpo di scena:
🔹 Ha avuto risultati inferiori alle aspettative.
🔹 Si è classificato più in basso di Claude 3 Opus, GPT-4 e Gemini 1.5 Pro.
🔹 In alcuni compiti risultava addirittura inferiore ai modelli più vecchi.
In pratica, è stato messo in panchina al suo debutto.
Cosa stanno testando in questi benchmark?
Questa non è una di quelle misteriose recensioni del tipo "fidatevi, è fantastico".
Si tratta di un test reale, condotto dal team LMSYS tramite la Chatbot Arena.
Ecco su cosa è stato testato o3:
🧠 Matematica e logica: riesce a risolvere problemi, enigmi e calcoli?
👨💻 Scrittura di codice: può scrivere codice funzionante o riparare script non funzionanti?
✍️ Scrittura creativa: può raccontare una storia, fare una barzelletta o scrivere una lettera d'amore?
🌍 Cultura generale: è più intelligente di un bambino di quinta elementare? O di Wikipedia?
💬 Chat multi-turn: riesce a tenere una conversazione come se ricordasse cosa hai detto?
🎭 Seguire le istruzioni e giocare di ruolo: può essere utile, strano o entrambe le cose?
🌐 Traduzione: Comprende lingue diverse dall'inglese della Silicon Valley?
Ogni test consisteva in un confronto cieco testa a testa.
Gli utenti reali hanno scelto le loro risposte preferite senza sapere quale modello le avesse scritte.
Ecco perché o3 ha ottenuto un punteggio Elo più basso: la versione AI di una pagella.
Cosa dice l'OpenAi
Per essere onesti con OpenAI, non hanno mai definito o3 il loro figlio d'oro.
Si tratta di un modello leggero, non concepito per competere con il GPT-4.
L'obiettivo? Risparmiare sui costi di elaborazione, essere più veloci e avere comunque un suono intelligente.
Ma ecco il punto:
Anche i pesi leggeri devono saper dire la loro sul ring, e questo ha avuto un inciampo fin dall'inizio.
Cosa significa (in parole umane)
Ecco un riassunto di facile comprensione:
o3 non è male, ma non è neanche tanto male.
È stato progettato per essere più economico e veloce, ma nel tentativo di essere leggero, ha anche puntato sulle prestazioni.
Le persone si aspettano che qualsiasi cosa da OpenAI abbia un aspetto premium, e questo sembrava più un campione gratuito che non ci ha convinto all'acquisto.
Se utilizzi l'intelligenza artificiale nei prodotti o nei flussi di lavoro, ecco alcuni consigli:
Potresti voler testare tu stesso o3 prima di sostituirlo.
È ottimo per compiti leggeri, ma se hai bisogno di intelligenza, memoria o finezza, forse è meglio chiamare Claude o Gemini.
🔧 Cosa possiamo mostrare nella tabella:
Modello | Classifica Elo (Chatbot Arena) | Punti di forza | Punti deboli | Ideale per |
GPT-4 | 🔵 I primi 3 | Buon ragionamento generale, bravo nel codice, memoria a turni | Più lento, costoso | App premium, compiti logici pesanti |
Claude 3 Opus | 🟣 #1 in questo momento | Miglior punteggio Elo complessivo, risposte fluide, ottima memoria | Leggermente prolisso | Assistenti, ricerca, lunghe chiacchierate |
Gemini 1.5 Pro | 🟢 I primi 5 | Veloce, bravo in multilinguismo, ragionamento solido | Può uscire dalla pista | Integrazioni di team ad uso misto |
OpenAI o3 | 🟡 Terzo inferiore | Economico, veloce, discreto nelle funzioni di base | Problemi con le sfumature, il codice, i passaggi multipli | App leggere, riepiloghi, bozze |
Prospettiva del team di Frozen Light
o3 sembra uno di quei campioni gratuiti al supermercato.
Bella idea, ma non la metti nel carrello.
Sappiamo che OpenAI sta sviluppando modelli diversi per lavori diversi.
Ma quando il tuo nome è OpenAI, la gente si aspetta che ogni modello sia uno studente modello.
Ecco come la vediamo noi:
Non si tratta di un grande disastro.
Ma è utile ricordare che non tutti i modelli di intelligenza artificiale sono uguali.
I modelli "leggeri" possono essere ottimi, ma solo se svolgono comunque il loro compito.
In questo momento, o3 è come uno stagista intelligente che sta ancora imparando.
Potresti usarlo per compiti rapidi, ma non gli stai chiedendo di scrivere il tuo prossimo libro.