La nueva prueba de IA general desafía los modelos de IA existentes: obtuvo una puntuación de entre el 1 % y el 1,3 %. ¿Humanos? Alrededor del 60 %.
Resulta que la IA todavía podría necesitar mostrar su trabajo, como un estudiante nervioso el día del examen.
La Fundación Arc Prize (dirigida por François Chollet, el mismo cerebro detrás de Keras) lanzó una nueva prueba llamada ARC-AGI-2.
Este no es un punto de referencia cualquiera. Es un juego de rompecabezas alucinante diseñado para comprobar si la IA puede pensar, no solo predecir.
Entonces, ¿cómo le fue a AGI en la prueba?
Bueno, los mejores modelos de IA de OpenAI, Anthropic y otros... ¡fracasaron!
La mayoría obtuvo puntuaciones entre el 1% y el 1,3%; por si te lo preguntabas, los humanos obtuvieron alrededor del 60%. No es una diferencia pequeña; es una prueba de la realidad.
Esta prueba es diferente a cualquier otra con la que se hayan medido. En lugar de pedirle a la IA que complete una oración o resuma un párrafo, la somete a un terreno desconocido: problemas nunca antes vistos, sin datos de entrenamiento en los que apoyarse.
Intenta preguntar: ¿Puede la IA pensar como un humano cuando nadie la guía?
🧠¿Qué tipo de preguntas hay en el examen?
Sabemos que tienes curiosidad por saber qué tipo de preguntas pueden ayudarnos a diferenciar entre una IA y un humano, y qué tan bien te iría si te preguntaran lo mismo. ¿Estarías más cerca del 60%... o...?
La prueba consiste en presentar acertijos de lógica, mostrados como pequeñas cuadrículas (como imágenes hechas de bloques de colores o formas). La IA debe analizar algunos ejemplos y descifrar la regla oculta.
Por ejemplo:
Se le muestran 3 imágenes:
Imagen 1: un cuadrado rojo en la parte superior izquierda y un círculo azul en la parte inferior derecha
Imagen 2: un círculo azul en la parte superior derecha y un cuadrado rojo en la parte inferior izquierda
Imagen 3: un cuadrado rojo en la parte superior derecha y un círculo azul en la parte inferior izquierda
Ahora te preguntarás: ¿qué viene después?
💡 Pensamiento humano: “Oh, el cuadrado rojo se mueve en el sentido de las agujas del reloj, y el círculo azul lo refleja”.
La IA tiene que detectar ese patrón y generar la siguiente imagen correcta.
Parece sencillo, ¿verdad? Pero para la IA, esto es pura gimnasia mental, sobre todo si nunca ha visto algo así.
¿Por qué es esto importante?
Porque todavía no entendemos plenamente la IA como sociedad y como individuos.
La IA es una tecnología diseñada para imitar las capacidades cognitivas humanas, pero hay una gran diferencia entre lo que llamamos LLM y lo que esperamos de la IAG.
Esta prueba muestra que incluso los modelos de IA más inteligentes actuales todavía se centran en la coincidencia de patrones y no en el razonamiento real.
Una cosa es predecir la siguiente palabra. Otra muy distinta es resolver un problema desde cero.
Esto nos lleva de nuevo al propósito de la IA general: no se quedará dentro de una pantalla. Vivirá con nosotros, rodeada de personas, humanos a los que podría dañar fácilmente (sin intención de dañar).
Por eso necesita la capacidad de manejar la complejidad del mundo real, más allá de su entrenamiento.
Vivir en un entorno complejo y en constante cambio es algo para lo que la IA general no puede entrenarse: tiene que razonar en consecuencia.
Aquí es donde el verdadero razonamiento importa.
Perspectiva de Luz Congelada:
No se trata de un fracaso.
Se trata del nuevo estándar para lo que viene a continuación: comenzar a construir el punto de referencia para una IAG segura.
Estamos entrando en un mundo donde la IA no solo estará en tu teléfono: caminará, limpiará, hablará y tomará decisiones en tu espacio vital.
Sí, lo entendemos: es glamoroso soñar con leer un libro mientras tu robot lava los platos.
Pero las tareas simples para nosotros pueden ser grandes rompecabezas para la IAG.
Tomemos como ejemplo fregar el suelo. Parece fácil, ¿verdad?
Pero espera...¿Es madera?
No puedes usar agua en esto.
¿Qué detergente utilizas?
¿Barres primero? ¿Qué paño usas?
Ah, y tu hijo está corriendo descalzo.
Sí, cada pieza importa. Y la IA necesita comprenderlo todo, incluso antes de empezar a limpiar.
Este es un cambio importante que todos estamos observando con atención.
Porque nuestro mundo cambiará dramáticamente cuando la IAG esté disponible.
No sólo porque es emocionante escuchar grandes promesas de los líderes de empresas de IA de que llegará pronto.
Pero porque el impacto será real.
Desde nuestra perspectiva, queremos recordarle a todo el mundo: todavía estamos discutiendo sobre derechos de autor y la Ley de IA, y eso con modelos que ni siquiera tienen cuerpo.
¿Y entonces qué pasa cuando lo hacen?
¿Tendrán su propio departamento de policía? (Es broma. Más o menos.)
Pero ya entiendes lo que queremos decir.
Contar con este tipo de normativa y estándar de prueba será el inicio para entender el mínimo necesario que deben cumplir estos modelos.
Hasta ahora, sólo los proveedores realizaban esas llamadas internamente.
Una nota personal de nuestra parte
En realidad nos alegramos de tener tiempo.
Es hora de resolver las cosas.
Es hora de experimentar con los LLM.
Es hora de que AGI llame a nuestra puerta, lista para fregar el piso.
—El equipo de Frozen Light