Il nuovo test AGI sfida i modelli di intelligenza artificiale esistenti: punteggio tra l'1% e l'1,3%. Gli esseri umani? Circa il 60%.
A quanto pare, l'intelligenza artificiale potrebbe ancora dover dimostrare il suo lavoro, come uno studente nervoso il giorno dell'esame.
Un nuovo test chiamato ARC-AGI-2 è stato lanciato dalla Arc Prize Foundation (guidata da François Chollet, la stessa mente dietro Keras).
Questo non è il tuo benchmark medio. È un set di rompicapo strabiliante progettato per verificare se l'intelligenza artificiale può effettivamente pensare, non solo prevedere.
Come si è comportata l'AGI nel test?
Bene, i migliori modelli di intelligenza artificiale di OpenAI, Anthropic e altri... sono stati bocciati!
La maggior parte ha ottenuto un punteggio compreso tra l'1% e l'1,3%, nel caso ve lo stiate chiedendo gli umani hanno ottenuto un punteggio intorno al 60%. Non è un divario piccolo, è un controllo della realtà.
Questo test è diverso da qualsiasi cosa su cui siano stati misurati. Invece di chiedere all'IA di completare una frase o riassumere un paragrafo, la lancia in territorio sconosciuto, problemi mai visti prima, senza dati di addestramento su cui appoggiarsi.
Sta cercando di chiedersi: l'intelligenza artificiale può pensare come un essere umano quando nessuno la guida?
🧠 Che tipo di domande ci sono nel test?
Sappiamo che sei curioso di sapere che tipo di domande possono aiutarci a distinguere tra un'IA e un essere umano, e quanto te la caveresti se ti venisse posta la stessa cosa. Saresti più vicino al 60%... o???
Quindi il test presenta puzzle logici, mostrati come piccole griglie (come immagini fatte di blocchi colorati o forme). L'IA deve guardare alcuni esempi e capire la regola nascosta.
Per esempio:
Ti vengono mostrate 3 immagini:
Immagine 1: un quadrato rosso in alto a sinistra e un cerchio blu in basso a destra
Immagine 2: un cerchio blu in alto a destra e un quadrato rosso in basso a sinistra
Immagine 3: un quadrato rosso in alto a destra e un cerchio blu in basso a sinistra
Ora vi chiederete: cosa succederà dopo?
💡 Pensiero umano: "Oh, il quadrato rosso si muove in senso orario e il cerchio blu lo rispecchia".
L'intelligenza artificiale deve individuare tale schema e generare la successiva immagine corretta.
Sembra semplice, vero? Ma per l'IA, questa è una ginnastica mentale, soprattutto se non ha mai visto niente del genere prima.
Perché è importante?
Perché non comprendiamo ancora appieno l'intelligenza artificiale come società e come individui.
L'intelligenza artificiale è una tecnologia concepita per imitare le capacità cognitive umane, ma c'è una grande differenza tra ciò che chiamiamo LLM e ciò che ci aspettiamo dall'AGI.
Questo test dimostra che anche i modelli di intelligenza artificiale più intelligenti oggigiorno si concentrano ancora sul confronto di schemi e non sul ragionamento vero e proprio.
Una cosa è predire la parola successiva. Un'altra è risolvere un problema da zero.
Ciò ci riporta allo scopo dell'AGI: non resterà dentro uno schermo. Vivrà con noi, circondata da persone, esseri umani che potrebbe facilmente danneggiare (senza alcun danno intenzionale).
Ecco perché, oltre alla formazione, ha bisogno della capacità di gestire la complessità del mondo reale.
L'AGI non può essere addestrata a vivere in un ambiente complesso e in continuo cambiamento: deve saperlo gestire.
È qui che entra in gioco il vero ragionamento.
Prospettiva di Luce Congelata:
Non si tratta di fallimento.
Riguarda il nuovo standard per ciò che verrà dopo: iniziare a costruire il punto di riferimento per un'AGI sicura.
Stiamo entrando in un mondo in cui l'intelligenza artificiale non sarà solo sul tuo telefono: camminerà, pulirà, parlerà e prenderà decisioni nel tuo spazio vitale.
Sì, lo sappiamo: è affascinante sognare di leggere un libro mentre il tuo robot lava i piatti.
Ma i compiti più semplici per noi possono trasformarsi in enormi enigmi per l'AGI.
Prendiamo come esempio il lavaggio del pavimento. Sembra facile, vero?
Ma aspetta... è legno?
Non puoi usare acqua lì.
Che detersivo usi?
Spazzi prima? Che panno usi?
Ah, e il tuo bambino corre in giro a piedi nudi.
Sì, ogni singola parte è importante. E AGI deve capirlo tutto, prima ancora di iniziare a pulire.
Si tratta di un cambiamento importante che stiamo osservando attentamente.
Perché il nostro mondo cambierà radicalmente quando l'AGI sarà disponibile.
Non solo perché è emozionante sentire grandi promesse da parte dei leader delle aziende di intelligenza artificiale, che questa tecnologia arriverà presto.
Ma perché l'impatto sarà reale.
Dal nostro punto di vista, vogliamo ricordare a tutti: stiamo ancora discutendo di copyright e di AI Act, e questo con modelli che non hanno nemmeno un corpo.
E cosa succede quando ciò accade?
Hanno un loro dipartimento di polizia? (Sto scherzando, più o meno.)
Ma il punto è questo.
Avere questo tipo di standard normativo e di test sarà il punto di partenza per comprendere il minimo indispensabile che questi modelli dovrebbero soddisfare.
Finora erano solo i fornitori a effettuare internamente tali chiamate.
Una nota personale da parte nostra
In realtà siamo contenti di avere tempo.
È tempo di capire le cose.
È il momento di sperimentare gli LLM.
Tempo prima che AGI bussi alla nostra porta, pronta a pulire il pavimento.
—Il team di Frozen Light