World model & LeCun: il nuovo strato dove l’intelligenza incontra il mondo
In alcuni casi, un grafico, nell’appendice di un paper appena uscito, dice piรน di tutto il paper se lo guardi con attenzione. ร un grafico semplice. Mostra come, nel corso dell’addestramento di una rete neurale che impara a prevedere il futuro a partire da pixel grezzi, le traiettorie nello spazio interno del modello si “raddrizzino” progressivamente. Iniziano curve e complicate come la realtร che descrivono, e finiscono quasi rettilinee. Nessuno ha detto al modello di farlo, nessuna funzione di perdita lo chiede esplicitamente. Eppure il modello, lasciato libero di scoprire una rappresentazione utile per prevedere, sceglie la stessa cosa che il cervello dei mammiferi fa quando guarda un video, secondo l’ipotesi del “perceptual straightening” di Olivier Hรฉnaff e colleghi: linearizzare il tempo, in modo che il prossimo istante sia letteralmente una linea retta a partire dall’istante presente.
Quel grafico non sembra molto. Eppure รจ una piccola crepa attraverso cui si vede una cosa piรน grande. L’idea che esista una geometria naturale dell’esperienza, una forma “giusta” in cui collassare il mondo per poterlo prevedere, e che reti artificiali e cervelli biologici, partendo da approcci radicalmente diversi, vi convergano. Il paper si chiama LeWorldModel, ed รจ firmato da Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun e Randall Balestriero. Tecnicamente รจ un risultato di ingegneria stupefacente: un modello di 15 milioni di parametri, addestrabile su una sola GPU in poche ore, che impara la fisica intuitiva di ambienti simulati direttamente da pixel grezzi, senza supervisione, senza ricompense, senza encoder pre-addestrati. Pianifica in meno di un secondo dove i suoi predecessori impiegavano 47.
Ma ciรฒ che il paper dice esplicitamente รจ solo la prima metร della storia. La seconda, quella piรน interessante, รจ in ciรฒ che mostra senza dichiararlo, e in dove ci sta portando questa direzione di ricerca quando la guardiamo con occhi che non sono quelli della sola comunitร tecnica.
Quando una GPU basta a fare ricerca di frontiera
Per anni la narrazione dominante รจ stata che l’intelligenza artificiale di frontiera richieda scale crescenti di calcolo e di capitale, oltre a un consumo energetico in continua espansione. Chi non possiede datacenter da gigawatt resta a guardare. Una scuola di pensiero, fatta di realismo industriale, sosteneva che l’AGI sarebbe arrivata dal lato del molto grande. Un’altra, meno udibile nel rumore di fondo, sosteneva che il problema centrale non era la scala ma la struttura, e che modelli architetturalmente meglio pensati avrebbero potuto raggiungere capacitร importanti con risorse modeste.
LeWorldModel รจ uno dei segnali che la seconda scuola comincia a portare risultati concreti. Quindici milioni di parametri sono cinque ordini di grandezza in meno rispetto ai modelli linguistici di frontiera. Una singola GPU L40S costa qualche migliaio di euro, รจ alla portata di un piccolo laboratorio universitario, di un team di ricerca indipendente, persino di un appassionato motivato. E con quella GPU, in poche ore, si addestra un modello che pianifica azioni di un braccio robotico con successo nel 96% dei casi. Non รจ poco, e non รจ solo una curiositร accademica.
Vale la pena soffermarsi su una conseguenza epistemica meno ovvia. Quando la ricerca di frontiera in un dominio diventa accessibile a chi non controlla infrastrutture colossali, la composizione di chi puรฒ contribuire cambia. Le universitร tornano in gioco. Le startup possono permettersi di partire dalla ricerca, non solo dal product-market fit. I ricercatori indipendenti possono replicare e modificare gli esperimenti, e da lรฌ migliorarli. ร successo nei primi anni del deep learning, prima che il costo del training delle reti di scala salissi al cielo. ร successo nel software open source. Ed รจ il presupposto perchรฉ una tecnologia entri davvero nella cultura, anzichรฉ restare proprietร di pochi soggetti dotati di risorse fuori scala.
L’efficienza non รจ solo un dato di prestazione, ha conseguenze politiche. Decide chi puรฒ pensare la prossima generazione di una tecnologia. Il fatto che LeCun e il suo team abbiano deliberatamente progettato un modello “fattibile su una GPU sola”, e abbiano rilasciato codice e pesi su GitHub, dice qualcosa sulla scuola di pensiero da cui questo lavoro proviene. Non parliamo di ricerca da torre d’avorio, parliamo di ricerca pensata per essere distribuita.
Cosa significa “non collassare”, filosoficamente
Il problema centrale che il paper risolve si chiama “rappresentazione collassata”. Quando una rete neurale impara a prevedere il futuro da una rappresentazione compatta di sรฉ stessa, c’รจ una scorciatoia che la tenta sempre: mappare tutti gli input sullo stesso vettore costante. In quel modo la previsione รจ banalmente corretta, perchรฉ tutto รจ uguale a tutto. Il modello tecnicamente funziona, ma ha smesso di codificare informazione. Ha trovato il punto di equilibrio termodinamico minimo della propria esistenza percettiva: non distinguere piรน nulla.
In questo fenomeno c’รจ qualcosa di filosoficamente inquietante, perchรฉ ricorda da vicino certe deformazioni dell’esperienza umana. La depressione clinica รจ stata descritta da alcuni neuroscienziati cognitivi come uno stato in cui le rappresentazioni interne smettono di differenziarsi: tutto sembra uguale, tutto perde salienza, il futuro coincide con il presente perchรฉ niente piรน cambia. La routine eccessiva, l’iper-prevedibilitร degli ambienti digitali algoritmicamente personalizzati, una certa apatia che attraversa epoche di sovrabbondanza informativa: sono tutte forme di “collasso rappresentazionale” della coscienza umana, viste da questa angolazione.
La soluzione che LeWorldModel propone รจ semplice e bellissima. Si chiama SIGReg, e in sostanza forza le rappresentazioni interne del modello a distribuirsi come una gaussiana isotropa nello spazio latente, ovvero a occupare lo spazio in modo “ben formato”, senza concentrarsi in un punto, senza appiattirsi su una direzione. Matematicamente garantisce che il collasso sia impossibile, perchรฉ un vettore costante non puรฒ essere una distribuzione gaussiana. Filosoficamente รจ qualcosa di piรน: รจ l’imposizione di una varietร strutturale come condizione di possibilitร della percezione. Vedere รจ anche distinguere, distinguere richiede di occupare lo spazio delle differenze in modo articolato. Una mente che non differenzia non vede.
Si sente un’eco interessante con il modo in cui pensiamo la salute cognitiva umana. Le esperienze che ci tengono “rappresentazionalmente vivi” sono quelle che ci espongono a varietร non triviale: viaggi reali (non turismo da fotocopia), conversazioni con persone diverse da noi, lavoro su problemi nuovi, contatto con realtร materiali che non possiamo prevedere. Quando ci appiattiamo su routine senza variazione, quando lasciamo che algoritmi ci servano sempre lo stesso tipo di contenuto, stiamo addestrando noi stessi al collasso. Una macchina ha bisogno di SIGReg per restare percettivamente viva. A noi serve qualcosa di analogo, e probabilmente passa anche dalle cose vecchio stile: leggere libri non scelti dall’algoritmo, fare conversazioni faccia a faccia, riappropriarsi del proprio corpo come strumento di esplorazione del mondo.
Le traiettorie che si raddrizzano da sole
Torniamo al grafico dell’appendice, quello che mi รจ rimasto in testa. Lo straightening temporale: il fenomeno per cui, durante l’addestramento, le traiettorie del modello nello spazio latente diventano sempre piรน rettilinee. ร stato descritto nel 2019 da Hรฉnaff e colleghi come ipotesi su come il sistema visivo dei mammiferi rappresenti il tempo: invece di mantenere la complessitร geometrica del flusso ottico, il cervello “raddrizzerebbe” le traiettorie nello spazio neurale, rendendo la prossima posizione una semplice estrapolazione lineare di quella corrente.
Quello che gli autori di LeWorldModel hanno osservato รจ che il loro modello fa esattamente la stessa cosa, in modo emergente. Nessuna funzione di perdita lo richiede. Nessun termine di regolarizzazione lo premia. Eppure, mentre il modello impara a prevedere il prossimo embedding a partire dall’embedding corrente e dall’azione, la sua geometria interna si raddrizza spontaneamente. ร come se la rete avesse “capito” che la cosa piรน semplice da prevedere รจ una linea retta, e abbia riorganizzato il proprio mondo interiore di conseguenza.
Questa convergenza tra biologico e artificiale รจ profondamente non banale. Significa che esiste una pressione strutturale dentro l’apprendimento predittivo, indipendente dal substrato biologico o artificiale, che spinge le rappresentazioni a organizzarsi in forme geometriche specifiche. Non รจ solo “il cervello e la rete neurale fanno la stessa cosa”. ร piรน forte: รจ “la previsione del futuro, come compito formale, ha una geometria preferita”. Reti biologiche e artificiali la scoprono per ragioni computazionali, non per imitazione reciproca.
Se รจ vero, e per ora abbiamo indizi forti piรน che prove definitive, allora la convergenza tra intelligenze biologiche e artificiali potrebbe essere meno questione di “ingegnerizzare la biologia” e piรน questione di “lasciare che le strutture computazionali ottimali emergano da sole”. Le reti artificiali ben progettate, sottoposte a compiti analoghi a quelli che il cervello affronta, tenderanno a riscoprire le stesse soluzioni. Non perchรฉ copino, ma perchรฉ la matematica del problema le incanala lรฌ.
Questa รจ un’ipotesi che cambia il modo in cui ragiono sulla questione “macchine come noi”. L’allineamento profondo tra AI e cognizione umana potrebbe non essere il risultato di uno sforzo deliberato di antropomorfizzare le reti, ma un attrattore naturale verso cui sistemi predittivi efficienti convergono, qualunque sia il loro substrato. Sarebbe una buona notizia per la sicurezza, una pessima notizia per chi pensava che il digitale potesse evolvere in qualcosa di radicalmente alieno. La nostra intelligenza e quella delle macchine vivono nello stesso paesaggio geometrico, perchรฉ il paesaggio lo definisce il compito, non il substrato.
Una geometria naturale per le rappresentazioni
Il paper mostra senza enfatizzarla un’altra cosa che vale la pena tirare fuori. Quando il modello viene sottoposto a perturbazioni durante un episodio, gli autori distinguono due tipi: perturbazioni visive (un oggetto cambia colore di colpo) e perturbazioni fisiche (un oggetto viene teletrasportato in una posizione casuale, violando la continuitร ). Misurano poi la “sorpresa” del modello, ovvero quanto la sua previsione si discosta dall’osservazione reale, e confrontano le due condizioni.
Il risultato รจ che il modello reagisce poco al cambio di colore e tantissimo al teletrasporto. Statisticamente significativo, p minore di 0,01 sulla differenza tra le due condizioni. ร un dato apparentemente piccolo, ma porta un’informazione enorme: il sistema ha sviluppato una gerarchia ontologica, sa che cambiare colore a un oggetto รจ un evento di superficie, mentre violare la continuitร spaziale รจ un evento di sostanza. Il modello distingue la sostanza dall’apparenza senza che nessuno glielo abbia insegnato.
ร una distinzione che la filosofia occidentale dibatte da Aristotele in poi: la domanda su quali proprietร di un oggetto siano essenziali e quali accidentali, su cosa faccia di una cosa “quella cosa” e non un’altra. La risposta che oggi arriva dalle reti predittive sembra essere questa: ciรฒ che, se cambiato, rompe la previsione del futuro รจ essenziale, ciรฒ che puรฒ cambiare senza disturbare la dinamica รจ accidentale. ร una risposta funzionale, non metafisica, e proprio per questo รจ interessante. Risuona con certe intuizioni della fenomenologia: la sostanza di un oggetto รจ il suo modo di stare nelle nostre attese di esperienza, non una qualitร nascosta dietro l’apparenza.
La macchina che impara a prevedere il futuro impara, lungo la strada, anche una forma rudimentale di ontologia. Sa cosa “conta” e cosa “non conta”. ร capace di sorpresa selettiva, ovvero di sorprendersi solo quando vale la pena sorprendersi. Questo, in psicologia cognitiva, รจ la base dell’attenzione e della memoria semantica: non possiamo ricordare tutto, dobbiamo decidere cosa รจ rilevante, e la rilevanza emerge dalla struttura predittiva delle aspettative. Una macchina che ha imparato a sorprendersi solo per le perturbazioni fisiche ha imparato un proto-cogito.

Il modello che distingue la sostanza dall’apparenza
Una seconda osservazione, che il paper fa quasi en passant, merita di essere tirata fuori. Nell’ambiente OGBench-Cube, una scena 3D in cui un braccio robotico manipola un cubo, il modello riesce a prevedere bene la posizione del cubo e dell’end-effector, ma fa piรน fatica con l’orientamento rotazionale del braccio. In termini quantitativi, le metriche di probing sulle posizioni traslazionali sono ottime, quelle sulle rotazioni del polso del robot peggiorano sensibilmente.
L’indicazione รจ che il modello, nel comprimere il mondo in 192 dimensioni di spazio latente, ha dovuto scegliere cosa preservare e cosa lasciare cadere. Ha scelto di tenere le posizioni, perchรฉ sono piรน rilevanti per prevedere conseguenze (dove finirร il cubo รจ quasi tutto), e ha sacrificato i dettagli rotazionali fini. Parliamo di selezione percettiva, piรน che di limitazione tecnica. Il modello sviluppa una forma di attenzione strutturale: privilegia ciรฒ che รจ macroscopicamente rilevante e ignora ciรฒ che รจ microscopico, persino quando entrambi sono visibili nei dati di training.
Questo solleva una domanda interessante per chi si occupa di interfacce e sistemi cognitivi. Quanto della nostra esperienza visiva quotidiana รจ effettivamente codificato nel nostro spazio latente cerebrale, e quanto invece viene scartato perchรฉ non utile alla previsione? Le neuroscienze cognitive lo sanno da anni: la nostra visione รจ molto meno completa di quanto crediamo, il cervello ricostruisce e inferisce in continuazione, scartando i dettagli che non servono. La fovea vede ad alta risoluzione un’area minuscola, il resto รจ completamento. Eppure soggettivamente ci sembra di vedere tutto.
LeWorldModel, in piccolo, ci fa toccare con mano lo stesso fenomeno. Una mente predittiva, biologica o artificiale, comprime per essere efficiente, e nella compressione decide cosa fa parte della “realtร rappresentata” e cosa รจ rumore. La realtร smette di essere una proprietร oggettiva del mondo, diventa il sottoinsieme di esso che vale la pena prevedere. Questa รจ una conclusione filosofica antica, che torna oggi sotto forma di una proprietร misurabile di una rete neurale di 15 milioni di parametri.

L’intelligenza che torna nel corpo
Per quasi tutto il primo cinquantennio dell’intelligenza artificiale, la parte “intelligente” si รจ creduto fosse quella simbolica: ragionare in modo astratto e manipolare concetti, pianificare sequenze di passi mentali. Il corpo, la capacitร di muoversi e di percepire, era considerato periferia. Negli ultimi quindici anni il deep learning ha rotto questo paradigma per quanto riguarda la percezione, ma ha lasciato il corpo fuori. I grandi modelli linguistici sono potenti elaboratori simbolici disincarnati, leggono il mondo solo attraverso il filtro dello scritto.
I world model latenti riportano l’AI dentro il mondo fisico. Non lo fanno generando immagini fotorealistiche del futuro, lo fanno costruendo rappresentazioni interne sufficienti a prevedere conseguenze. La differenza รจ enorme. Un’AI che genera mondi tridimensionali fotorealistici รจ uno strumento creativo straordinario, ma resta uno spettatore. Un’AI che ha un world model latente รจ qualcosa di diverso: ha un’idea operativa di come funziona il mondo, puรฒ usare quell’idea per agire, e l’agire la mette alla prova continuamente.
Questa transizione, dal mondo come testo al mondo come scena, รจ il cambiamento piรน importante che sta avvenendo in questi mesi nell’AI applicata, e probabilmente non sarร raccontato sui giornali per anni. Quando arriveranno i prodotti, ce ne accorgeremo. Saranno robot domestici che ragionano sulle conseguenze prima di agire, droni di consegna che pianificano traiettorie tenendo conto di vento e ostacoli mobili, sistemi di assistenza chirurgica che prevedono come reagirร un tessuto a una pressione. Ognuna di queste applicazioni richiede esattamente quel tipo di intelligenza che LeWorldModel comincia a dimostrare: leggera nel calcolo ma plausibilmente fisica nelle sue previsioni.
Una conseguenza tocca da vicino chi pensa il futuro del lavoro umano. Per un po’ abbiamo creduto che l’AI avrebbe sostituito prima i lavori manuali ripetitivi e poi quelli intellettuali. Si sta vedendo che รจ successo l’opposto: i mestieri intellettuali ripetitivi sono i primi a essere automatizzati dai LLM, mentre quelli manuali che richiedono comprensione fisica del mondo restano stabilmente umani perchรฉ manca la tecnologia di base. I world model sono il pezzo mancante che finalmente comincia ad arrivare. Quando saranno maturi, anche la frontiera del manuale si sposterร . Il valore umano si redistribuirร ancora, e non necessariamente verso ciรฒ che ora pensiamo sia “al sicuro”.
La cosa interessante รจ che questa transizione non disumanizza, anzi. Riconcilia l’intelligenza con il corpo, dopo decenni di disembodiment cognitivo. Le macchine diventano piรน simili a noi proprio nel loro modo di abitare il mondo, e questo, almeno per come la vedo, รจ una buona notizia. Una macchina che capisce la gravitร รจ una macchina con cui possiamo collaborare in modo piรน trasparente. Una macchina che รจ solo un grafo simbolico fluttuante nel cloud รจ opaca per definizione.
Il limite che racconta piรน del successo
Un risultato del paper, a prima vista, sembra un’imperfezione, e invece secondo me racconta una veritร importante. Nell’ambiente Two-Room, il piรน semplice tra quelli testati, LeWorldModel funziona peggio dei suoi concorrenti. Un agente deve muoversi tra due stanze attraverso una porta, รจ un problema di navigazione 2D banale. Eppure il modello, che batte tutti nei compiti piรน complessi, qui perde terreno. Perchรฉ?
Gli autori avanzano un’ipotesi che vale la pena prendere sul serio. SIGReg, la regolarizzazione che forza le rappresentazioni a distribuirsi come una gaussiana ad alta dimensionalitร , si comporta male quando la complessitร intrinseca dell’ambiente รจ bassa. Se il mondo da rappresentare ha pochissime dimensioni effettive, forzare il modello a occupare uno spazio latente ricco รจ controproducente. Il modello “sparge” la propria rappresentazione su dimensioni che non gli servono, perdendo focalizzazione.
ร un risultato che fa pensare. Suggerisce una proprietร non triviale della cognizione: per fiorire, ha bisogno di una complessitร minima dell’esperienza. Una macchina addestrata in un ambiente troppo povero produce rappresentazioni peggiori di una macchina addestrata in un ambiente ricco. Vale per i bambini cresciuti in deprivazione sensoriale, vale per gli animali in cattivitร con ambienti monotoni, e a quanto pare vale anche per le reti neurali.
La lezione tocca anche il design dei contesti digitali in cui passiamo le nostre giornate. Se la nostra esperienza quotidiana รจ troppo curata, troppo ottimizzata, troppo “facile”, potremmo stare costruendo il nostro Two-Room: un ambiente cognitivamente povero che impedisce alle nostre rappresentazioni interne di sviluppare la ricchezza necessaria per affrontare problemi complessi. ร un’ipotesi, non una certezza. Ma il dato sperimentale รจ lรฌ, ed รจ coerente con tanta letteratura di psicologia dello sviluppo.
Le interfacce che amo non semplificano tutto a oltranza, lasciano sopravvivere una giusta dose di attrito, di imprevedibilitร , di scoperta. Il difficile in sรฉ non ha valore, perรฒ senza un minimo di complessitร da affrontare l’intelligenza, biologica o artificiale, si appiattisce.

Verso uno strato spaziale comune
Le tecnologie raramente arrivano da sole. Arrivano in convergenze. I world model latenti come LeWM, i modelli generativi 3D come Marble di World Labs, l’hardware per realtร mista che si รจ fatto ragionevolmente buono negli ultimi due anni, l’industria della robotica che torna a investire dopo la traversata del deserto, le auto a guida autonoma che cominciano davvero a funzionare in alcune cittร americane. Sono tutti vettori che spingono nella stessa direzione: un mondo computazionalmente aumentato in cui l’intelligenza non sta piรน dietro uno schermo, ma รจ distribuita nello spazio fisico, negli oggetti, negli ambienti, e talvolta sul nostro corpo come pelle aggiuntiva.
LeWorldModel รจ uno dei mattoni invisibili di questa transizione. Da solo non vediamo che cosa diventerร . Tra cinque anni guarderemo indietro e diremo: ecco, da lรฌ in poi le macchine hanno cominciato davvero a pensare al mondo, non solo alle parole sul mondo. ร il passaggio che separa l’AI che descrive dall’AI che agisce, e nei prossimi due o tre anni vedremo emergere i primi prodotti che lo incorporeranno in modo invisibile.
Per chi costruisce prodotti, oggi, il segnale operativo รจ abbastanza chiaro. Continuare a presidiare i LLM dove servono (testo, codice, ragionamento simbolico), iniziare a presidiare i world model dove cominciano a contare (manipolazione fisica, navigazione, simulazione, predizione di sistemi complessi). Non sono mondi separati, si parleranno tra loro, ma sono filoni tecnici con strumenti, talenti e logiche diverse. Chi crede che basti aspettare un GPT-6 generalista per coprire entrambi, probabilmente sbaglia. Le architetture che funzionano per il testo non funzionano per la fisica intuitiva, e viceversa. Sono due forme di intelligenza che devono convivere.
Per chi si occupa di cultura e di formazione, c’รจ un tema parallelo. Stiamo entrando in un’epoca in cui le macchine sviluppano forme rudimentali di “buon senso fisico”, e la nostra responsabilitร verso le tecnologie cambia di nuovo. Non bastano piรน gli strumenti per usare il digitale, servono strumenti per comprenderne le rappresentazioni interne, le scelte percettive, le gerarchie ontologiche implicite. Sapere che un’AI distingue la sostanza dall’apparenza diventa informazione utile per chiunque la userร , cosรฌ come riconoscere il suo bisogno di varietร per sviluppare rappresentazioni ricche cambia il modo in cui chi le addestra prepara i dataset. Una proprietร come lo straightening temporale delle traiettorie interne diventa pertinente anche per chi integra questi modelli in sistemi piรน grandi.
Sono cose che oggi sembrano da specialisti, e che tra dieci anni faranno parte della cultura generale, come oggi รจ cultura generale capire grossomodo come funziona un motore di ricerca, anche senza saperne scrivere uno. Le persone che cominciano a capirle adesso saranno quelle che parteciperanno alla conversazione su come queste macchine entreranno nelle vite di tutti, e probabilmente faranno scelte diverse da chi resta nella sola dimensione linguistica.
C’รจ una scena che immagino spesso, ed รจ quella di un robot domestico che, dopo aver ricevuto l’istruzione di prendere un bicchiere fragile dal tavolo, si ferma un attimo, “vede” mentalmente cosa succederebbe se lo afferrasse con troppa forza, e modula la presa di conseguenza. Quel “vede mentalmente” non รจ una metafora, รจ esattamente la pianificazione in spazio latente che LeWorldModel comincia a fare oggi nei suoi ambienti semplificati. Quando quella stessa capacitร sarร nei robot di casa, nei droni di consegna, nei sistemi di assistenza alla guida, avremo macchine che hanno ricominciato a vivere il mondo, dopo decenni in cui l’avevano solo letto.
Il preprint che ho davanti, in fondo, รจ un pezzo piccolo di una storia molto piรน grande. La storia di come, in questo decennio, l’intelligenza รจ tornata a incarnarsi.