Un nouveau test d'IAG remet en question les modèles d'IA existants – note entre 1 % et 1,3 %. Humains ? Environ 60 %.
Il s’avère que l’IA pourrait encore avoir besoin de montrer son travail, comme un étudiant nerveux le jour de l’examen.
Un nouveau test appelé ARC-AGI-2 a été lancé par la Fondation Arc Prize (dirigée par François Chollet, le même cerveau derrière Keras).
Il ne s'agit pas d'un test standard. Il s'agit d'un casse-tête complexe conçu pour vérifier si l'IA peut réellement penser, et pas seulement prédire.
Alors, comment AGI s'est-il débrouillé au test ?
Eh bien, les meilleurs modèles d’IA d’OpenAI, d’Anthropic et d’autres… ont échoué !
La plupart ont obtenu des résultats compris entre 1 % et 1,3 %, et si vous vous posez la question, les humains ont obtenu des résultats autour de 60 %. Ce n'est pas un mince écart, c'est un rappel à la réalité.
Ce test est différent de tous ceux qui ont été comparés. Au lieu de demander à l'IA de compléter une phrase ou de résumer un paragraphe, elle la plonge dans des territoires inconnus : des problèmes qu'elle n'a jamais rencontrés auparavant, sans aucune donnée d'entraînement sur laquelle s'appuyer.
Il s’agit de se demander : l’IA peut-elle penser comme un humain lorsque personne ne la guide ?
🧠 Quel genre de questions y a-t-il dans le test ?
Nous savons que vous êtes curieux de savoir quelles questions peuvent nous aider à distinguer une IA d'un humain, et quel serait votre score si on vous posait la même question. Seriez-vous plus proche de 60 %… ou ???
Le test présente donc des énigmes logiques, représentées sous forme de petites grilles (comme des images composées de blocs ou de formes colorées). L'IA doit examiner quelques exemples et déchiffrer la règle cachée.
Par exemple:
On vous montre 3 images :
Image 1 : un carré rouge en haut à gauche et un cercle bleu en bas à droite
Image 2 : un cercle bleu en haut à droite et un carré rouge en bas à gauche
Image 3 : un carré rouge en haut à droite et un cercle bleu en bas à gauche
Maintenant, on vous demande : qu'est-ce qui vient ensuite ?
💡 Pensée humaine : « Oh, le carré rouge se déplace dans le sens des aiguilles d’une montre, et le cercle bleu le reflète. »
L’IA doit repérer ce modèle et générer l’image correcte suivante.
Cela paraît simple, non ? Mais pour l'IA, c'est une véritable gymnastique mentale, surtout si elle n'a jamais rien vu de tel auparavant.
Pourquoi est-ce important ?
Parce que nous ne comprenons toujours pas pleinement l’IA en tant que société et en tant qu’individus.
L'IA est une technologie conçue pour imiter les capacités cognitives humaines, mais il existe une grande différence entre ce que nous appelons un LLM et ce que nous attendons de l'AGI.
Ce test montre que même les modèles d’IA les plus intelligents d’aujourd’hui se concentrent encore sur la recherche de modèles et non sur un véritable raisonnement.
C'est une chose de prédire le mot suivant. C'en est une autre de résoudre un problème de A à Z.
Cela nous ramène à l'objectif de l'IAG : elle ne restera pas confinée à un écran. Elle vivra avec nous, entourée de personnes – des humains qu'elle pourrait facilement blesser (sans intention de nuire).
C’est pourquoi il doit être capable de gérer la complexité du monde réel, au-delà de sa formation.
Vivre dans un environnement complexe et en constante évolution est une chose pour laquelle l'AGI ne peut pas être entraînée : elle doit raisonner à travers cela.
C’est là que le vrai raisonnement compte.
Perspective de Frozen Light :
Il ne s’agit pas d’échec.
Il s’agit de la nouvelle norme pour ce qui va suivre : commencer à construire la référence pour une AGI sûre.
Nous entrons dans un monde où l’IA ne sera pas seulement sur votre téléphone : elle marchera, nettoiera, parlera et prendra des décisions dans votre espace de vie.
Oui, nous l’avons compris : c’est glamour de rêver de lire un livre pendant que votre robot fait la vaisselle.
Mais des tâches simples pour nous peuvent être d’énormes casse-têtes pour l’AGI.
Prenons l'exemple du nettoyage du sol. Ça a l'air facile, non ?
Mais attendez... Est-ce du bois ?
Vous ne pouvez pas utiliser d'eau là-dessus.
Quel détergent utilisez-vous ?
Balayez-vous d'abord ? Quel chiffon utilisez-vous ?
Oh, et votre enfant court pieds nus.
Oui, chaque élément compte. Et l'IAG doit tout comprendre, avant même de commencer le nettoyage.
Il s’agit d’un changement majeur que nous observons tous attentivement.
Parce que notre monde va changer radicalement lorsque l’AGI sera disponible.
Pas seulement parce qu’il est passionnant d’entendre de grandes promesses de la part des dirigeants d’entreprises d’IA selon lesquelles cela arrivera bientôt.
Mais parce que l’impact sera réel.
De notre point de vue, nous voulons rappeler à tout le monde que nous sommes toujours en train de débattre du droit d’auteur et de la loi sur l’IA, et ce, avec des modèles qui n’ont même pas de corps.
Alors que se passe-t-il quand ils le font ?
Est-ce qu'ils ont leur propre service de police ? (Je plaisante. En quelque sorte.)
Mais vous comprenez ce que nous voulons dire.
Disposer de ce type de norme de réglementation et de test constituera le début de la compréhension du strict minimum auquel ces modèles devraient être qualifiés.
Jusqu’à présent, seuls les fournisseurs effectuaient ces appels en interne.
Une note personnelle de notre part
En fait, nous sommes heureux d’avoir du temps.
Il est temps de comprendre les choses.
Il est temps d’expérimenter les LLM.
Il est temps qu’AGI frappe à notre porte, prêt à passer la serpillière.
—L'équipe Frozen Light