Otro día, otro modelo, y este no salió ganando.

El último modelo liviano de OpenAI, o3, apareció en el LMSYS Chatbot Arena, listo para impresionar.
Pero en lugar de flexionarse, se dejó caer. Silenciosamente.
Analicemos por qué esto genera tanto ruido (aunque o3 en sí no lo haga).

¿Qué está sucediendo?

OpenAI lanzó o3 como un modelo liviano, del tipo que se supone que es más rápido, más barato y “suficientemente bueno” para la mayoría de las tareas.

No es GPT-4 y no intenta serlo.
Pero eso no impidió que los probadores independientes lo lanzaran al ruedo.

Y aquí está el giro:
🔹 Tuvo un rendimiento inferior al esperado.
🔹 Obtuvo una clasificación más baja que Claude 3 Opus, GPT-4 y Gemini 1.5 Pro.
🔹 En algunas tareas, incluso quedó por detrás de los modelos más antiguos.

Básicamente, se quedó en la banca en su propio debut.

 

¿Qué están probando en estos puntos de referencia?

Esta no es una de esas misteriosas reseñas del tipo “confíe en nosotros, es genial”.
Esta es una prueba real, realizada por el equipo de LMSYS a través de su Chatbot Arena.

Esto es lo que se probó con o3:

  • 🧠 Matemáticas y lógica: ¿Puede pensar en problemas, rompecabezas y cálculos?

  • 👨‍💻 Escritura de código: ¿Puede escribir código funcional o reparar scripts rotos?

  • ✍️ Escritura creativa: ¿Puede contar una historia, contar un chiste o escribir una carta de amor?

  • 🌍 Conocimientos generales: ¿Es más inteligente que un alumno de quinto? ¿O que Wikipedia?

  • 💬 Chat multiturno: ¿Puede mantener una conversación como si recordara lo que dijiste?

  • 🎭 Seguimiento de instrucciones y juego de roles: ¿puede ser útil, extraño o ambas cosas?

  • 🌐 Traducción: ¿Entiende idiomas más allá del inglés de Silicon Valley?

Cada prueba fue una comparación ciega cara a cara.
Los usuarios reales eligieron sus respuestas favoritas sin saber qué modelo las escribió.

Así fue como o3 terminó con una puntuación Elo más baja (la versión IA de un boletín de calificaciones).

 

Lo que dice OpenAi

Para ser justos con OpenAI, nunca llamaron a o3 su niño dorado.
Es un modelo liviano, no diseñado para competir con GPT-4.
¿El objetivo? Ahorrar recursos, funcionar rápido y seguir sonando bastante inteligente.

Pero aquí está la cuestión:
Incluso los pesos ligeros necesitan defenderse en el ring, y este tropezó al principio.

 

Lo que eso significa (en palabras humanas)

Aquí está el resumen entendible para los humanos:

  • O3 no es malo, pero tampoco es excelente.

  • Está diseñado para ser más barato y más rápido, pero al intentar ser liviano, también perdió... rendimiento.

  • La gente espera que cualquier producto de OpenAI parezca premium, y esto parecía más bien una muestra gratuita que no nos convenció de comprar.

Si utiliza IA en productos o flujos de trabajo, este es su aviso:
Es posible que desees probar el o3 tú mismo antes de cambiarlo.

Es bueno para tareas ligeras, pero si necesitas inteligencia, memoria o sutileza, mejor llama a Claude o a Gemini.

 

🔧Lo que podemos mostrar en la tabla:

Modelo

Clasificación Elo (Chatbot Arena)

Fortalezas

Puntos débiles

Mejor para

GPT-4

🔵 Los 3 mejores

Fuerte razonamiento general, bueno en código, memoria a través de turnos.

Más lento, más caro

Aplicaciones premium, tareas lógicas pesadas

Claude 3 Opus

🟣 #1 ahora mismo

Mejor puntuación general de Elo, respuestas fluidas, gran memoria.

Un poco verboso

Asistentes, investigación, largas charlas.

Géminis 1.5 Pro

🟢 Los 5 mejores

Rápido, bueno en multilingüe, razonamiento sólido.

Puede salirse de la pista

Uso mixto, integraciones de equipos

OpenAI o3

🟡 Tercio inferior

Barato, rápido, bueno en lo básico.

Lucha con los matices, el código y los pasos múltiples.

Aplicaciones ligeras, resúmenes y borradores

 

Perspectiva del equipo Frozen Light

o3 se siente como una de esas muestras gratis en el supermercado.
Bonita idea, pero no la vas a poner en el carrito.

Sabemos que OpenAI está construyendo diferentes modelos para diferentes trabajos.
Pero cuando tu nombre es OpenAI, la gente espera que cada modelo sea un estudiante destacado.

Así es como lo vemos:

  • Esto no es un gran desastre.

  • Pero es un buen recordatorio de que no todos los modelos de IA son iguales.

  • Los modelos “ligeros” pueden ser excelentes, pero solo si cumplen su función.

En este momento, o3 es como un pasante inteligente que todavía está aprendiendo.
Puedes usarlo para tareas rápidas, pero no le estás pidiendo que escriba tu próximo libro.

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.