World model & LeCun: il nuovo strato dove l’intelligenza incontra il mondo

In alcuni casi, un grafico, nell’appendice di un paper appena uscito, dice piรน di tutto il paper se lo guardi con attenzione. รˆ un grafico semplice. Mostra come, nel corso dell’addestramento di una rete neurale che impara a prevedere il futuro a partire da pixel grezzi, le traiettorie nello spazio interno del modello si “raddrizzino” progressivamente. Iniziano curve e complicate come la realtร  che descrivono, e finiscono quasi rettilinee. Nessuno ha detto al modello di farlo, nessuna funzione di perdita lo chiede esplicitamente. Eppure il modello, lasciato libero di scoprire una rappresentazione utile per prevedere, sceglie la stessa cosa che il cervello dei mammiferi fa quando guarda un video, secondo l’ipotesi del “perceptual straightening” di Olivier Hรฉnaff e colleghi: linearizzare il tempo, in modo che il prossimo istante sia letteralmente una linea retta a partire dall’istante presente.

Quel grafico non sembra molto. Eppure รจ una piccola crepa attraverso cui si vede una cosa piรน grande. L’idea che esista una geometria naturale dell’esperienza, una forma “giusta” in cui collassare il mondo per poterlo prevedere, e che reti artificiali e cervelli biologici, partendo da approcci radicalmente diversi, vi convergano. Il paper si chiama LeWorldModel, ed รจ firmato da Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun e Randall Balestriero. Tecnicamente รจ un risultato di ingegneria stupefacente: un modello di 15 milioni di parametri, addestrabile su una sola GPU in poche ore, che impara la fisica intuitiva di ambienti simulati direttamente da pixel grezzi, senza supervisione, senza ricompense, senza encoder pre-addestrati. Pianifica in meno di un secondo dove i suoi predecessori impiegavano 47.

Ma ciรฒ che il paper dice esplicitamente รจ solo la prima metร  della storia. La seconda, quella piรน interessante, รจ in ciรฒ che mostra senza dichiararlo, e in dove ci sta portando questa direzione di ricerca quando la guardiamo con occhi che non sono quelli della sola comunitร  tecnica.

Quando una GPU basta a fare ricerca di frontiera

Per anni la narrazione dominante รจ stata che l’intelligenza artificiale di frontiera richieda scale crescenti di calcolo e di capitale, oltre a un consumo energetico in continua espansione. Chi non possiede datacenter da gigawatt resta a guardare. Una scuola di pensiero, fatta di realismo industriale, sosteneva che l’AGI sarebbe arrivata dal lato del molto grande. Un’altra, meno udibile nel rumore di fondo, sosteneva che il problema centrale non era la scala ma la struttura, e che modelli architetturalmente meglio pensati avrebbero potuto raggiungere capacitร  importanti con risorse modeste.

LeWorldModel รจ uno dei segnali che la seconda scuola comincia a portare risultati concreti. Quindici milioni di parametri sono cinque ordini di grandezza in meno rispetto ai modelli linguistici di frontiera. Una singola GPU L40S costa qualche migliaio di euro, รจ alla portata di un piccolo laboratorio universitario, di un team di ricerca indipendente, persino di un appassionato motivato. E con quella GPU, in poche ore, si addestra un modello che pianifica azioni di un braccio robotico con successo nel 96% dei casi. Non รจ poco, e non รจ solo una curiositร  accademica.

Vale la pena soffermarsi su una conseguenza epistemica meno ovvia. Quando la ricerca di frontiera in un dominio diventa accessibile a chi non controlla infrastrutture colossali, la composizione di chi puรฒ contribuire cambia. Le universitร  tornano in gioco. Le startup possono permettersi di partire dalla ricerca, non solo dal product-market fit. I ricercatori indipendenti possono replicare e modificare gli esperimenti, e da lรฌ migliorarli. รˆ successo nei primi anni del deep learning, prima che il costo del training delle reti di scala salissi al cielo. รˆ successo nel software open source. Ed รจ il presupposto perchรฉ una tecnologia entri davvero nella cultura, anzichรฉ restare proprietร  di pochi soggetti dotati di risorse fuori scala.

L’efficienza non รจ solo un dato di prestazione, ha conseguenze politiche. Decide chi puรฒ pensare la prossima generazione di una tecnologia. Il fatto che LeCun e il suo team abbiano deliberatamente progettato un modello “fattibile su una GPU sola”, e abbiano rilasciato codice e pesi su GitHub, dice qualcosa sulla scuola di pensiero da cui questo lavoro proviene. Non parliamo di ricerca da torre d’avorio, parliamo di ricerca pensata per essere distribuita.

Cosa significa “non collassare”, filosoficamente

Il problema centrale che il paper risolve si chiama “rappresentazione collassata”. Quando una rete neurale impara a prevedere il futuro da una rappresentazione compatta di sรฉ stessa, c’รจ una scorciatoia che la tenta sempre: mappare tutti gli input sullo stesso vettore costante. In quel modo la previsione รจ banalmente corretta, perchรฉ tutto รจ uguale a tutto. Il modello tecnicamente funziona, ma ha smesso di codificare informazione. Ha trovato il punto di equilibrio termodinamico minimo della propria esistenza percettiva: non distinguere piรน nulla.

In questo fenomeno c’รจ qualcosa di filosoficamente inquietante, perchรฉ ricorda da vicino certe deformazioni dell’esperienza umana. La depressione clinica รจ stata descritta da alcuni neuroscienziati cognitivi come uno stato in cui le rappresentazioni interne smettono di differenziarsi: tutto sembra uguale, tutto perde salienza, il futuro coincide con il presente perchรฉ niente piรน cambia. La routine eccessiva, l’iper-prevedibilitร  degli ambienti digitali algoritmicamente personalizzati, una certa apatia che attraversa epoche di sovrabbondanza informativa: sono tutte forme di “collasso rappresentazionale” della coscienza umana, viste da questa angolazione.

La soluzione che LeWorldModel propone รจ semplice e bellissima. Si chiama SIGReg, e in sostanza forza le rappresentazioni interne del modello a distribuirsi come una gaussiana isotropa nello spazio latente, ovvero a occupare lo spazio in modo “ben formato”, senza concentrarsi in un punto, senza appiattirsi su una direzione. Matematicamente garantisce che il collasso sia impossibile, perchรฉ un vettore costante non puรฒ essere una distribuzione gaussiana. Filosoficamente รจ qualcosa di piรน: รจ l’imposizione di una varietร  strutturale come condizione di possibilitร  della percezione. Vedere รจ anche distinguere, distinguere richiede di occupare lo spazio delle differenze in modo articolato. Una mente che non differenzia non vede.

 

Si sente un’eco interessante con il modo in cui pensiamo la salute cognitiva umana. Le esperienze che ci tengono “rappresentazionalmente vivi” sono quelle che ci espongono a varietร  non triviale: viaggi reali (non turismo da fotocopia), conversazioni con persone diverse da noi, lavoro su problemi nuovi, contatto con realtร  materiali che non possiamo prevedere. Quando ci appiattiamo su routine senza variazione, quando lasciamo che algoritmi ci servano sempre lo stesso tipo di contenuto, stiamo addestrando noi stessi al collasso. Una macchina ha bisogno di SIGReg per restare percettivamente viva. A noi serve qualcosa di analogo, e probabilmente passa anche dalle cose vecchio stile: leggere libri non scelti dall’algoritmo, fare conversazioni faccia a faccia, riappropriarsi del proprio corpo come strumento di esplorazione del mondo.

Le traiettorie che si raddrizzano da sole

Torniamo al grafico dell’appendice, quello che mi รจ rimasto in testa. Lo straightening temporale: il fenomeno per cui, durante l’addestramento, le traiettorie del modello nello spazio latente diventano sempre piรน rettilinee. รˆ stato descritto nel 2019 da Hรฉnaff e colleghi come ipotesi su come il sistema visivo dei mammiferi rappresenti il tempo: invece di mantenere la complessitร  geometrica del flusso ottico, il cervello “raddrizzerebbe” le traiettorie nello spazio neurale, rendendo la prossima posizione una semplice estrapolazione lineare di quella corrente.

Quello che gli autori di LeWorldModel hanno osservato รจ che il loro modello fa esattamente la stessa cosa, in modo emergente. Nessuna funzione di perdita lo richiede. Nessun termine di regolarizzazione lo premia. Eppure, mentre il modello impara a prevedere il prossimo embedding a partire dall’embedding corrente e dall’azione, la sua geometria interna si raddrizza spontaneamente. รˆ come se la rete avesse “capito” che la cosa piรน semplice da prevedere รจ una linea retta, e abbia riorganizzato il proprio mondo interiore di conseguenza.

Questa convergenza tra biologico e artificiale รจ profondamente non banale. Significa che esiste una pressione strutturale dentro l’apprendimento predittivo, indipendente dal substrato biologico o artificiale, che spinge le rappresentazioni a organizzarsi in forme geometriche specifiche. Non รจ solo “il cervello e la rete neurale fanno la stessa cosa”. รˆ piรน forte: รจ “la previsione del futuro, come compito formale, ha una geometria preferita”. Reti biologiche e artificiali la scoprono per ragioni computazionali, non per imitazione reciproca.

Se รจ vero, e per ora abbiamo indizi forti piรน che prove definitive, allora la convergenza tra intelligenze biologiche e artificiali potrebbe essere meno questione di “ingegnerizzare la biologia” e piรน questione di “lasciare che le strutture computazionali ottimali emergano da sole”. Le reti artificiali ben progettate, sottoposte a compiti analoghi a quelli che il cervello affronta, tenderanno a riscoprire le stesse soluzioni. Non perchรฉ copino, ma perchรฉ la matematica del problema le incanala lรฌ.

Questa รจ un’ipotesi che cambia il modo in cui ragiono sulla questione “macchine come noi”. L’allineamento profondo tra AI e cognizione umana potrebbe non essere il risultato di uno sforzo deliberato di antropomorfizzare le reti, ma un attrattore naturale verso cui sistemi predittivi efficienti convergono, qualunque sia il loro substrato. Sarebbe una buona notizia per la sicurezza, una pessima notizia per chi pensava che il digitale potesse evolvere in qualcosa di radicalmente alieno. La nostra intelligenza e quella delle macchine vivono nello stesso paesaggio geometrico, perchรฉ il paesaggio lo definisce il compito, non il substrato.

Una geometria naturale per le rappresentazioni

Il paper mostra senza enfatizzarla un’altra cosa che vale la pena tirare fuori. Quando il modello viene sottoposto a perturbazioni durante un episodio, gli autori distinguono due tipi: perturbazioni visive (un oggetto cambia colore di colpo) e perturbazioni fisiche (un oggetto viene teletrasportato in una posizione casuale, violando la continuitร ). Misurano poi la “sorpresa” del modello, ovvero quanto la sua previsione si discosta dall’osservazione reale, e confrontano le due condizioni.

Il risultato รจ che il modello reagisce poco al cambio di colore e tantissimo al teletrasporto. Statisticamente significativo, p minore di 0,01 sulla differenza tra le due condizioni. รˆ un dato apparentemente piccolo, ma porta un’informazione enorme: il sistema ha sviluppato una gerarchia ontologica, sa che cambiare colore a un oggetto รจ un evento di superficie, mentre violare la continuitร  spaziale รจ un evento di sostanza. Il modello distingue la sostanza dall’apparenza senza che nessuno glielo abbia insegnato.

รˆ una distinzione che la filosofia occidentale dibatte da Aristotele in poi: la domanda su quali proprietร  di un oggetto siano essenziali e quali accidentali, su cosa faccia di una cosa “quella cosa” e non un’altra. La risposta che oggi arriva dalle reti predittive sembra essere questa: ciรฒ che, se cambiato, rompe la previsione del futuro รจ essenziale, ciรฒ che puรฒ cambiare senza disturbare la dinamica รจ accidentale. รˆ una risposta funzionale, non metafisica, e proprio per questo รจ interessante. Risuona con certe intuizioni della fenomenologia: la sostanza di un oggetto รจ il suo modo di stare nelle nostre attese di esperienza, non una qualitร  nascosta dietro l’apparenza.

La macchina che impara a prevedere il futuro impara, lungo la strada, anche una forma rudimentale di ontologia. Sa cosa “conta” e cosa “non conta”. รˆ capace di sorpresa selettiva, ovvero di sorprendersi solo quando vale la pena sorprendersi. Questo, in psicologia cognitiva, รจ la base dell’attenzione e della memoria semantica: non possiamo ricordare tutto, dobbiamo decidere cosa รจ rilevante, e la rilevanza emerge dalla struttura predittiva delle aspettative. Una macchina che ha imparato a sorprendersi solo per le perturbazioni fisiche ha imparato un proto-cogito.

Grafico dello straightening temporale delle traiettorie nello spazio latente di LeWorldModel

Il modello che distingue la sostanza dall’apparenza

Una seconda osservazione, che il paper fa quasi en passant, merita di essere tirata fuori. Nell’ambiente OGBench-Cube, una scena 3D in cui un braccio robotico manipola un cubo, il modello riesce a prevedere bene la posizione del cubo e dell’end-effector, ma fa piรน fatica con l’orientamento rotazionale del braccio. In termini quantitativi, le metriche di probing sulle posizioni traslazionali sono ottime, quelle sulle rotazioni del polso del robot peggiorano sensibilmente.

L’indicazione รจ che il modello, nel comprimere il mondo in 192 dimensioni di spazio latente, ha dovuto scegliere cosa preservare e cosa lasciare cadere. Ha scelto di tenere le posizioni, perchรฉ sono piรน rilevanti per prevedere conseguenze (dove finirร  il cubo รจ quasi tutto), e ha sacrificato i dettagli rotazionali fini. Parliamo di selezione percettiva, piรน che di limitazione tecnica. Il modello sviluppa una forma di attenzione strutturale: privilegia ciรฒ che รจ macroscopicamente rilevante e ignora ciรฒ che รจ microscopico, persino quando entrambi sono visibili nei dati di training.

Questo solleva una domanda interessante per chi si occupa di interfacce e sistemi cognitivi. Quanto della nostra esperienza visiva quotidiana รจ effettivamente codificato nel nostro spazio latente cerebrale, e quanto invece viene scartato perchรฉ non utile alla previsione? Le neuroscienze cognitive lo sanno da anni: la nostra visione รจ molto meno completa di quanto crediamo, il cervello ricostruisce e inferisce in continuazione, scartando i dettagli che non servono. La fovea vede ad alta risoluzione un’area minuscola, il resto รจ completamento. Eppure soggettivamente ci sembra di vedere tutto.

LeWorldModel, in piccolo, ci fa toccare con mano lo stesso fenomeno. Una mente predittiva, biologica o artificiale, comprime per essere efficiente, e nella compressione decide cosa fa parte della “realtร  rappresentata” e cosa รจ rumore. La realtร  smette di essere una proprietร  oggettiva del mondo, diventa il sottoinsieme di esso che vale la pena prevedere. Questa รจ una conclusione filosofica antica, che torna oggi sotto forma di una proprietร  misurabile di una rete neurale di 15 milioni di parametri.

Schema della gerarchia ontologica appresa dal modello: perturbazioni visive vs perturbazioni fisiche

L’intelligenza che torna nel corpo

Per quasi tutto il primo cinquantennio dell’intelligenza artificiale, la parte “intelligente” si รจ creduto fosse quella simbolica: ragionare in modo astratto e manipolare concetti, pianificare sequenze di passi mentali. Il corpo, la capacitร  di muoversi e di percepire, era considerato periferia. Negli ultimi quindici anni il deep learning ha rotto questo paradigma per quanto riguarda la percezione, ma ha lasciato il corpo fuori. I grandi modelli linguistici sono potenti elaboratori simbolici disincarnati, leggono il mondo solo attraverso il filtro dello scritto.

I world model latenti riportano l’AI dentro il mondo fisico. Non lo fanno generando immagini fotorealistiche del futuro, lo fanno costruendo rappresentazioni interne sufficienti a prevedere conseguenze. La differenza รจ enorme. Un’AI che genera mondi tridimensionali fotorealistici รจ uno strumento creativo straordinario, ma resta uno spettatore. Un’AI che ha un world model latente รจ qualcosa di diverso: ha un’idea operativa di come funziona il mondo, puรฒ usare quell’idea per agire, e l’agire la mette alla prova continuamente.

Questa transizione, dal mondo come testo al mondo come scena, รจ il cambiamento piรน importante che sta avvenendo in questi mesi nell’AI applicata, e probabilmente non sarร  raccontato sui giornali per anni. Quando arriveranno i prodotti, ce ne accorgeremo. Saranno robot domestici che ragionano sulle conseguenze prima di agire, droni di consegna che pianificano traiettorie tenendo conto di vento e ostacoli mobili, sistemi di assistenza chirurgica che prevedono come reagirร  un tessuto a una pressione. Ognuna di queste applicazioni richiede esattamente quel tipo di intelligenza che LeWorldModel comincia a dimostrare: leggera nel calcolo ma plausibilmente fisica nelle sue previsioni.

Una conseguenza tocca da vicino chi pensa il futuro del lavoro umano. Per un po’ abbiamo creduto che l’AI avrebbe sostituito prima i lavori manuali ripetitivi e poi quelli intellettuali. Si sta vedendo che รจ successo l’opposto: i mestieri intellettuali ripetitivi sono i primi a essere automatizzati dai LLM, mentre quelli manuali che richiedono comprensione fisica del mondo restano stabilmente umani perchรฉ manca la tecnologia di base. I world model sono il pezzo mancante che finalmente comincia ad arrivare. Quando saranno maturi, anche la frontiera del manuale si sposterร . Il valore umano si redistribuirร  ancora, e non necessariamente verso ciรฒ che ora pensiamo sia “al sicuro”.

La cosa interessante รจ che questa transizione non disumanizza, anzi. Riconcilia l’intelligenza con il corpo, dopo decenni di disembodiment cognitivo. Le macchine diventano piรน simili a noi proprio nel loro modo di abitare il mondo, e questo, almeno per come la vedo, รจ una buona notizia. Una macchina che capisce la gravitร  รจ una macchina con cui possiamo collaborare in modo piรน trasparente. Una macchina che รจ solo un grafo simbolico fluttuante nel cloud รจ opaca per definizione.

Il limite che racconta piรน del successo

Un risultato del paper, a prima vista, sembra un’imperfezione, e invece secondo me racconta una veritร  importante. Nell’ambiente Two-Room, il piรน semplice tra quelli testati, LeWorldModel funziona peggio dei suoi concorrenti. Un agente deve muoversi tra due stanze attraverso una porta, รจ un problema di navigazione 2D banale. Eppure il modello, che batte tutti nei compiti piรน complessi, qui perde terreno. Perchรฉ?

Gli autori avanzano un’ipotesi che vale la pena prendere sul serio. SIGReg, la regolarizzazione che forza le rappresentazioni a distribuirsi come una gaussiana ad alta dimensionalitร , si comporta male quando la complessitร  intrinseca dell’ambiente รจ bassa. Se il mondo da rappresentare ha pochissime dimensioni effettive, forzare il modello a occupare uno spazio latente ricco รจ controproducente. Il modello “sparge” la propria rappresentazione su dimensioni che non gli servono, perdendo focalizzazione.

รˆ un risultato che fa pensare. Suggerisce una proprietร  non triviale della cognizione: per fiorire, ha bisogno di una complessitร  minima dell’esperienza. Una macchina addestrata in un ambiente troppo povero produce rappresentazioni peggiori di una macchina addestrata in un ambiente ricco. Vale per i bambini cresciuti in deprivazione sensoriale, vale per gli animali in cattivitร  con ambienti monotoni, e a quanto pare vale anche per le reti neurali.

La lezione tocca anche il design dei contesti digitali in cui passiamo le nostre giornate. Se la nostra esperienza quotidiana รจ troppo curata, troppo ottimizzata, troppo “facile”, potremmo stare costruendo il nostro Two-Room: un ambiente cognitivamente povero che impedisce alle nostre rappresentazioni interne di sviluppare la ricchezza necessaria per affrontare problemi complessi. รˆ un’ipotesi, non una certezza. Ma il dato sperimentale รจ lรฌ, ed รจ coerente con tanta letteratura di psicologia dello sviluppo.

Le interfacce che amo non semplificano tutto a oltranza, lasciano sopravvivere una giusta dose di attrito, di imprevedibilitร , di scoperta. Il difficile in sรฉ non ha valore, perรฒ senza un minimo di complessitร  da affrontare l’intelligenza, biologica o artificiale, si appiattisce.

Diagramma dei due strati dell'intelligenza artificiale: linguistico e fisico, LLM e world model

Verso uno strato spaziale comune

Le tecnologie raramente arrivano da sole. Arrivano in convergenze. I world model latenti come LeWM, i modelli generativi 3D come Marble di World Labs, l’hardware per realtร  mista che si รจ fatto ragionevolmente buono negli ultimi due anni, l’industria della robotica che torna a investire dopo la traversata del deserto, le auto a guida autonoma che cominciano davvero a funzionare in alcune cittร  americane. Sono tutti vettori che spingono nella stessa direzione: un mondo computazionalmente aumentato in cui l’intelligenza non sta piรน dietro uno schermo, ma รจ distribuita nello spazio fisico, negli oggetti, negli ambienti, e talvolta sul nostro corpo come pelle aggiuntiva.

LeWorldModel รจ uno dei mattoni invisibili di questa transizione. Da solo non vediamo che cosa diventerร . Tra cinque anni guarderemo indietro e diremo: ecco, da lรฌ in poi le macchine hanno cominciato davvero a pensare al mondo, non solo alle parole sul mondo. รˆ il passaggio che separa l’AI che descrive dall’AI che agisce, e nei prossimi due o tre anni vedremo emergere i primi prodotti che lo incorporeranno in modo invisibile.

Per chi costruisce prodotti, oggi, il segnale operativo รจ abbastanza chiaro. Continuare a presidiare i LLM dove servono (testo, codice, ragionamento simbolico), iniziare a presidiare i world model dove cominciano a contare (manipolazione fisica, navigazione, simulazione, predizione di sistemi complessi). Non sono mondi separati, si parleranno tra loro, ma sono filoni tecnici con strumenti, talenti e logiche diverse. Chi crede che basti aspettare un GPT-6 generalista per coprire entrambi, probabilmente sbaglia. Le architetture che funzionano per il testo non funzionano per la fisica intuitiva, e viceversa. Sono due forme di intelligenza che devono convivere.

Per chi si occupa di cultura e di formazione, c’รจ un tema parallelo. Stiamo entrando in un’epoca in cui le macchine sviluppano forme rudimentali di “buon senso fisico”, e la nostra responsabilitร  verso le tecnologie cambia di nuovo. Non bastano piรน gli strumenti per usare il digitale, servono strumenti per comprenderne le rappresentazioni interne, le scelte percettive, le gerarchie ontologiche implicite. Sapere che un’AI distingue la sostanza dall’apparenza diventa informazione utile per chiunque la userร , cosรฌ come riconoscere il suo bisogno di varietร  per sviluppare rappresentazioni ricche cambia il modo in cui chi le addestra prepara i dataset. Una proprietร  come lo straightening temporale delle traiettorie interne diventa pertinente anche per chi integra questi modelli in sistemi piรน grandi.

Sono cose che oggi sembrano da specialisti, e che tra dieci anni faranno parte della cultura generale, come oggi รจ cultura generale capire grossomodo come funziona un motore di ricerca, anche senza saperne scrivere uno. Le persone che cominciano a capirle adesso saranno quelle che parteciperanno alla conversazione su come queste macchine entreranno nelle vite di tutti, e probabilmente faranno scelte diverse da chi resta nella sola dimensione linguistica.

C’รจ una scena che immagino spesso, ed รจ quella di un robot domestico che, dopo aver ricevuto l’istruzione di prendere un bicchiere fragile dal tavolo, si ferma un attimo, “vede” mentalmente cosa succederebbe se lo afferrasse con troppa forza, e modula la presa di conseguenza. Quel “vede mentalmente” non รจ una metafora, รจ esattamente la pianificazione in spazio latente che LeWorldModel comincia a fare oggi nei suoi ambienti semplificati. Quando quella stessa capacitร  sarร  nei robot di casa, nei droni di consegna, nei sistemi di assistenza alla guida, avremo macchine che hanno ricominciato a vivere il mondo, dopo decenni in cui l’avevano solo letto.

Il preprint che ho davanti, in fondo, รจ un pezzo piccolo di una storia molto piรน grande. La storia di come, in questo decennio, l’intelligenza รจ tornata a incarnarsi.

Lโ€™AI inizia ad immaginare il mondo

Negli ultimi mesi il termine world model รจ entrato con forza nel lessico dellโ€™intelligenza artificiale. Ho giร  scritto altrove che cosa sia, perchรฉ se ne parli adesso e perchรฉ non vada confuso con lโ€™ennesima etichetta passeggera: un world model รจ, in sostanza, un modello capace di simulare la dinamica di un ambiente, di prevederne lโ€™evoluzione e di stimare come le azioni di un agente ne modifichino lo stato. Non si limita a classificare o a generare. Prova a costruire un simulatore interno del mondo, o di una sua porzione, per capire che cosa potrebbe accadere dopo.

E qui รจ necessaria una riflessione, perchรจ sta arrivando quello di cui ho parlato spesso.

Per anni abbiamo osservato lโ€™AI eccellere nel linguaggio. Abbiamo chiesto ai modelli di completare frasi, sintetizzare testi, produrre codice, sostenere conversazioni, dare forma plausibile a una risposta. Un large language model, per quanto sofisticato, resta centrato sulla previsione della sequenza simbolica successiva. Un world model sposta il baricentro. Non guarda solo alla frase che viene dopo, ma allo stato del mondo che viene dopo. Dentro questa differenza, che puรฒ sembrare sottile, si apre uno scarto enorme: entrano in scena spazio, tempo, causalitร , persistenza, interazione, conseguenze. Entrano in scena le condizioni stesse dellโ€™agire.

Che cosa succede quando la macchina non prova piรน soltanto a completare un testo, ma tenta di completare un mondo? Succede che lโ€™intelligenza artificiale esce dal recinto del linguaggio e incontra la struttura del reale, o almeno la sua approssimazione operativa. Per questo sotto la stessa etichetta oggi convivono modelli dinamici latenti, modelli video che cercano coerenza fisica e temporale, modelli spaziali e 3D che si misurano con navigabilitร , geometria e consistenza dellโ€™ambiente. Parlare di world model, quindi, non significa indicare una categoria unica e giร  stabilizzata. Significa indicare una direzione di ricerca che punta a dare allโ€™AI una forma di simulazione del mondo utile a prevedere, pianificare e agire.

La pelle digitale, quando smette di essere soltanto sensibile

รˆ qui che, a mio avviso, il tema smette di essere solo tecnico e inizia a diventare culturale. In Pelle Digitale ho descritto la convergenza tra AI, IoT, edge computing, sensori, dispositivi connessi e ambient intelligence come la formazione di un sistema nervoso invisibile che avvolge il pianeta. Una pelle digitale, appunto, fatta di impulsi, dati, rilevazione, orchestrazione, adattamento. Ogni sensore, ogni dispositivo, ogni algoritmo partecipa a questa rete come un neurone distribuito dentro unโ€™infrastruttura che percepisce, reagisce, coordina.

La scena รจ giร  sotto i nostri occhi. Nel silenzio di una casa le luci si regolano, il caffรจ parte, il termostato si adatta, un lampione si spegne, un wearable segnala una presenza, un assistente si mette in ascolto. Nessuno ha impartito un comando esplicito. Lโ€™ambiente reagisce perchรฉ ha raccolto segnali, li ha correlati, li ha trasformati in risposta. Questo รจ il cuore dellโ€™intelligenza invisibile: non la presenza di un dispositivo isolato, ma lโ€™orchestrazione di molti dispositivi che agiscono sotto la soglia dellโ€™attenzione cosciente.

Ma una pelle che sente non รจ ancora una pelle che immagina. Puรฒ essere molto efficace nel rilevare e reagire. Puรฒ essere meno capace nel prefigurare. E qui i world model diventano il tassello che, almeno in prospettiva, cambia la natura di questa infrastruttura. Aggiungono alla pelle digitale una dimensione anticipatoria. La rete non si limita piรน a sentire il presente; prova a costruire unโ€™ipotesi sul prossimo stato del mondo. Passa dal rilevare al simulare. Dal reagire al prevedere. รˆ un salto silenzioso, ma decisivo.

In Pelle Digitale ho insistito molto sul fatto che lโ€™interazione si stia spostando dal comando esplicito al contesto, e dal contesto allโ€™intenzione. I sistemi intelligenti osservano segnali ambientali, tono di voce, presenza, comportamento passato, parametri biometrici, e su questa base anticipano bisogni e modulano risposte. รˆ ciรฒ che viene chiamato anticipatory design: ridurre lo sforzo dellโ€™utente tentando di arrivare un passo prima della sua richiesta. Un world model, letto in questa chiave, รจ il motore cognitivo di questa promessa. Per anticipare davvero non basta registrare pattern. Serve simulare esiti. Serve costruire una teoria implicita di ciรฒ che potrebbe accadere.

Lo spatial shift richiede una grammatica interna

รˆ lo stesso motivo per cui i world model si intrecciano cosรฌ bene con ciรฒ che in Spatial Shift ho chiamato passaggio verso lo spatial computing. Lรฌ il punto era chiaro: il computing sta uscendo dal rettangolo dello schermo e si sta distribuendo nello spazio, dentro oggetti, superfici, ambienti, gesti, sguardi, coordinate, contesti. Non parliamo piรน di una tecnologia che consultiamo soltanto attraverso pannelli e app. Parliamo di unโ€™informatica tridimensionale che percepisce, analizza e interagisce con il mondo fisico in tre dimensioni, integrando sensori, computer vision, AI, dati spaziali, XR e nuove forme di interfaccia.

Quando questo passaggio accelera, cambia la natura stessa dellโ€™interfaccia. In Pelle Digitale ho scritto che il mondo sta diventando interfaccia e che lo schermo, progressivamente, si dissolve. I contenuti digitali non restano piรน confinati in una cornice. Possono fluttuare nello spazio, appoggiarsi agli oggetti, comparire nel punto in cui sono rilevanti, emergere accanto a un luogo, a un percorso, a una persona, a una superficie. Lo spazio smette di essere sfondo. Diventa supporto semantico. Diventa display distribuito. Diventa superficie informativa.

Ma se il mondo diventa interfaccia, la macchina deve poterne costruire un modello interno sufficientemente coerente. Non basta vedere. Deve comprendere relazioni spaziali, profonditร , persistenza, vincoli fisici, possibilitร  dโ€™azione, continuitร  tra prima e dopo. Deve sapere che un oggetto รจ lรฌ, che cosa puรฒ diventare, come puรฒ essere manipolato, quale effetto produce il mio gesto nel contesto che sto abitando. In questo senso il world model รจ la grammatica interna dello spatial shift. รˆ ciรฒ che consente allo spazio di diventare computabile non solo come immagine, ma come campo di simulazione operativa.

Questo vale per un visore, per un robot, per un veicolo, per un ambiente industriale, per un punto vendita, per un assistente spaziale. In Spatial Shift ho richiamato piรน volte lโ€™idea che lo spatial computing unisca GPS, GIS, sensori di profonditร , NeRFs, sistemi di localizzazione, visione artificiale, robotica e AI per costruire esperienze in cui fisico e digitale si fondono. Tutto questo, perรฒ, resta parziale se il sistema non dispone anche di una capacitร  di previsione delle dinamiche. La mappatura dice dove siamo. Il world model prova a dire che cosa puรฒ succedere da qui a un istante.

รˆ qui che si capisce anche il legame con la spatial AI. In Spatial Shift ho richiamato lโ€™idea di una intelligenza capace di comprendere e analizzare relazioni spaziali, di integrare dati geospaziali, sensori, immagini e modelli per eseguire compiti nel mondo fisico. I world model si innestano precisamente in questo territorio, perchรฉ portano la comprensione spaziale oltre la fotografia del presente e verso la simulazione del suo sviluppo. In altri termini, aggiungono una profonditร  temporale alla profonditร  spaziale.

Dal gemello digitale al simulatore operativo

Su questo terreno entra anche un tema che mi interessa molto: il rapporto tra world model e digital twin. In altri articoli che scritto su diverse tesstate ho distinto con attenzione le due cose. Il digital twin รจ, in genere, la replica virtuale di un prodotto, di un impianto, di un processo, di un asset fisico o organizzativo. Serve a monitorare, confrontare, visualizzare, misurare. รˆ una rappresentazione. Il world model, invece, tenta di diventare un modello predittivo data-driven che non si limita a riflettere un sistema, ma prova a immaginarne lโ€™evoluzione in risposta alle azioni. รˆ piรน vicino alla logica del planning che a quella della sola osservazione.

I due piani non sono in conflitto. Possono convergere, e in molti casi convergeranno. Un digital twin puรฒ offrire struttura, dati, contesto di dominio, vincoli. Un world model puรฒ aggiungere la capacitร  di sperimentare scenari, testare politiche, valutare traiettorie, anticipare conseguenze. Questa distinzione รจ importante perchรฉ ci evita un equivoco frequente: pensare che basti avere una replica digitale per avere anche intelligenza predittiva. Non รจ cosรฌ. La replica non coincide con la simulazione. E la simulazione non coincide ancora con la comprensione piena.

Questo spiega anche perchรฉ il tema interessi robotica, physical AI, logistica, formazione, progettazione industriale, mobilitร , retail. Un world model puรฒ ridurre il costo dellโ€™errore, testare una manovra prima di eseguirla, stressare un processo prima di toccare lโ€™operativitร , generare dati sintetici, costruire ambienti controllati per lโ€™addestramento, immaginare configurazioni alternative di uno spazio o di un servizio. In tutti questi casi non serve soltanto una macchina che risponda bene. Serve una macchina che sappia ragionare sulle conseguenze.

Estendere la mente, esternalizzare la simulazione

A questo punto, perรฒ, il discorso cambia scala. In Pelle Digitale il tema della mente estesa รจ centrale. Ho ripreso lโ€™idea per cui il confine della mente non coincide piรน soltanto con la scatola cranica: esternalizziamo memoria, orientamento, accesso alla conoscenza, coordinamento, attenzione. Lo smartphone รจ diventato la nostra protesi cognitiva permanente. I wearable, gli assistenti, i sistemi connessi e gli ambienti intelligenti spingono ancora oltre questa dinamica, fino a rendere sempre piรน difficile separare interno ed esterno, corpo e infrastruttura, soggetto e supporto.

Se guardo ai world model attraverso questa lente, vedo qualcosa di ancora piรน delicato: non stiamo solo esternalizzando la memoria. Stiamo iniziando a esternalizzare la simulazione. Non deleghiamo piรน soltanto la conservazione delle informazioni o il recupero del dato giusto nel momento giusto. Deleghiamo una parte crescente della facoltร  di provare il futuro in anticipo. รˆ un passaggio sottile, ma radicale. Significa spostare fuori da noi non solo ciรฒ che sappiamo, ma una porzione della nostra capacitร  di anticipare.

Questo puรฒ essere utile. Molto utile. Puรฒ liberarci da errori ripetitivi, supportare decisioni complesse, aumentare la sicurezza, migliorare lโ€™ergonomia dellโ€™esperienza, ridurre il carico cognitivo in ambienti saturi di variabili. In Pelle Digitale ho scritto che lโ€™AI puรฒ diventare filtro intelligente, regolatore del traffico mentale, sistema capace di modulare notifiche e stimoli in base al contesto. Ma la stessa logica che alleggerisce puรฒ anche addestrarci alla passivitร , alla fiducia automatica nellโ€™opzione suggerita, alla riduzione della deviazione, della sperimentazione, del dubbio. La scorciatoia piรน fluida non coincide sempre con la scelta piรน libera.

Per questo il problema dei world model non riguarda solo ciรฒ che la macchina sa prevedere, ma ciรฒ che noi rischiamo di disimparare. In Pelle Digitale ho richiamato il tema del cognitive offloading, dellโ€™amnesia digitale, dellโ€™attenzione parziale continua, della pressione esercitata dagli ambienti pervasivi sulla nostra autoregolazione cognitiva. Se aggiungiamo a questo ecosistema modelli che simulano per noi il probabile stato successivo del mondo, il rischio non รจ solo tecnico. รˆ antropologico. Riguarda la postura mentale dellโ€™umano dentro ambienti che iniziano a prevedere, filtrare e suggerire prima che noi formuliamo con chiarezza unโ€™intenzione.

Dallโ€™input allโ€™intenzione

Da anni sostengo che il vero spostamento in corso sia quello dallโ€™interfaccia allโ€™intenzione. In Pelle Digitale ho scritto che il click perde centralitร , che le interfacce tendono a dissolversi e che lโ€™esperienza si sposta su segnali piรน sottili: voce, sguardo, gesto, prossimitร , stato emotivo, dati ambientali, contesto. Lโ€™utente non dialoga piรน solo con pulsanti e menu, ma con sistemi che osservano, interpretano e agiscono. Lโ€™ambiente stesso diventa interfaccia. E quando lโ€™ambiente diventa interfaccia, chi progetta il comportamento dellโ€™ambiente sta di fatto progettando il comportamento possibile dellโ€™utente.

I world model si collocano esattamente qui, perchรฉ sono lo strumento che rende questa interazione piรน contestuale, piรน predittiva e piรน agentica. Se un agente deve operare a partire da un obiettivo generale, non da una sequenza di istruzioni dettagliate, ha bisogno di simulare passi intermedi, valutare esiti, correggere la rotta, mantenere una rappresentazione del contesto nel tempo. In Pelle Digitale ho scritto che il design dellโ€™era agentica non riguarda piรน il disegno di schermate, ma il disegno di comportamenti. Ecco: un world model รจ il substrato che rende possibile questo passaggio, perchรฉ fornisce la scena interna su cui lโ€™agente prova le proprie mosse prima di compierle.

Ma proprio qui la questione si complica. Per anticipare lโ€™utente, un sistema deve costruire unโ€™ipotesi sulla sua intenzione. Deve selezionare quali segnali contano, quali ignorare, quale esito considerare desiderabile, quale deviazione trattare come rumore, quale come eccezione significativa. Non รจ un dettaglio progettuale. รˆ una presa di posizione sul rapporto tra comportamento osservato e libertร  del soggetto. In unโ€™economia dellโ€™intenzione, il confine tra assistenza e indirizzamento si assottiglia molto in fretta.

Il punto critico: opacitร , agency, responsabilitร 

Qui conviene restare sobri. Un mondo plausibile non equivale a un mondo compreso. Lโ€™ho giร  scritto nel pezzo per AI4Business: il fatto che un sistema produca video coerenti, ambienti navigabili o simulazioni convincenti non garantisce affatto che possieda una rappresentazione robusta di causalitร , controllo, fisica, lungo periodo. Gli errori restano, e restano anche i costi computazionali, la fragilitร  della controllabilitร , lโ€™immaturitร  delle metriche e il rischio di confondere la spettacolaritร  della demo con la soliditร  del modello.

La seduzione visiva non basta.

Il punto piรน delicato, perรฒ, non รจ soltanto ingegneristico. In Pelle Digitale ho insistito sulla necessitร  di trasparenza operativa, intervenibilitร , reversibilitร  della delega, privacy by design, accountability ambientale. Unโ€™intelligenza invisibile puรฒ essere comoda, ma non deve diventare incontestabile. Unโ€™azione automatica deve poter essere compresa; una decisione deve poter essere spiegata; una delega deve poter essere revocata; un dato intimo deve poter restare proporzionato, protetto, ispezionabile. Senza queste condizioni, la promessa di fluiditร  scivola facilmente verso lโ€™opacitร  del controllo.

Questo vale a maggior ragione per i world model, perchรฉ quando un modello simula per agire non si limita a descrivere il mondo. Decide quali stati sono rilevanti, quali traiettorie sono preferibili, quali esiti sono desiderabili, quale livello di rischio รจ accettabile, quanto spazio concedere allโ€™imprevisto. In ambienti distribuiti, sensorizzati, aumentati, questa selezione non resta confinata in un laboratorio. Entra nella casa, nel negozio, nel veicolo, nella fabbrica, nello spazio pubblico, nel corpo, nella relazione. Qui la questione tecnica incontra quella politica.

Chi scrive il simulatore

Alla fine, รจ questa la domanda che mi interessa davvero. Chi scrive il simulatore? Chi decide quali ipotesi sul mondo verranno incorporate in questi modelli? Chi stabilisce che cosa conta come comportamento normale, come deviazione, come rischio, come ottimizzazione, come efficienza? Se la pelle digitale รจ il sistema nervoso invisibile del mondo, i world model rischiano di diventarne il layer cognitivo piรน delicato: quello che non si limita a sentire e reagire, ma prova a immaginare e orientare.

Per questo continuo a pensare che il tema non sia lโ€™ennesima corsa a una sigla. Il tema รจ lโ€™alfabetizzazione futura. รˆ la capacitร  di leggere le logiche che governano gli ambienti intelligenti, di capire come gli algoritmi prendono decisioni, di mantenere una distanza critica da ciรฒ che appare naturale solo perchรฉ รจ diventato invisibile. In Pelle Digitale ho definito questo orizzonte come un umanesimo aumentato: una postura in cui lโ€™umano resta al centro della gravitร  tecnologica, non come nodo da ottimizzare, ma come misura di senso, autonomia, creativitร  e benessere collettivo.

I world model, allora, mi interessano per una ragione molto semplice. Segnano il passaggio da unโ€™AI che descrive il mondo a unโ€™AI che prova a immaginarne lโ€™evoluzione prima di intervenire. E nel momento in cui questa capacitร  si intreccia con sensori, agenti, spazi aumentati, digital twin, interfacce invisibili e infrastrutture distribuite, non stiamo piรน parlando solo di modelli. Stiamo parlando della forma della mediazione che si porrร  tra noi e il reale. Stiamo parlando di chi avrร  il diritto di scrivere la simulazione dentro cui prenderemo decisioni, ci muoveremo, lavoreremo, compreremo, apprenderemo e vivremo.

รˆ qui che si giocherร  la partita.

Non nei benchmark, da soli. Nella qualitร  della relazione tra previsione, autonomia e responsabilitร . Nella capacitร  di costruire sistemi che non ci sostituiscano nel compito di attribuire significato al mondo, ma ci aiutino a farlo con piรน luciditร . Perchรฉ la pelle digitale continuerร  a crescere, e lo spatial shift continuerร  ad avanzare. La vera domanda non รจ se avremo world model sempre piรน sofisticati. La vera domanda รจ se sapremo governarli senza consegnare a essi, insieme alla fatica della decisione, anche il diritto di decidere chi stiamo diventando.