World model & LeCun: il nuovo strato dove l’intelligenza incontra il mondo

In alcuni casi, un grafico, nell’appendice di un paper appena uscito, dice più di tutto il paper se lo guardi con attenzione. È un grafico semplice. Mostra come, nel corso dell’addestramento di una rete neurale che impara a prevedere il futuro a partire da pixel grezzi, le traiettorie nello spazio interno del modello si “raddrizzino” progressivamente. Iniziano curve e complicate come la realtà che descrivono, e finiscono quasi rettilinee. Nessuno ha detto al modello di farlo, nessuna funzione di perdita lo chiede esplicitamente. Eppure il modello, lasciato libero di scoprire una rappresentazione utile per prevedere, sceglie la stessa cosa che il cervello dei mammiferi fa quando guarda un video, secondo l’ipotesi del “perceptual straightening” di Olivier Hénaff e colleghi: linearizzare il tempo, in modo che il prossimo istante sia letteralmente una linea retta a partire dall’istante presente.

Quel grafico non sembra molto. Eppure è una piccola crepa attraverso cui si vede una cosa più grande. L’idea che esista una geometria naturale dell’esperienza, una forma “giusta” in cui collassare il mondo per poterlo prevedere, e che reti artificiali e cervelli biologici, partendo da approcci radicalmente diversi, vi convergano. Il paper si chiama LeWorldModel, ed è firmato da Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun e Randall Balestriero. Tecnicamente è un risultato di ingegneria stupefacente: un modello di 15 milioni di parametri, addestrabile su una sola GPU in poche ore, che impara la fisica intuitiva di ambienti simulati direttamente da pixel grezzi, senza supervisione, senza ricompense, senza encoder pre-addestrati. Pianifica in meno di un secondo dove i suoi predecessori impiegavano 47.

Ma ciò che il paper dice esplicitamente è solo la prima metà della storia. La seconda, quella più interessante, è in ciò che mostra senza dichiararlo, e in dove ci sta portando questa direzione di ricerca quando la guardiamo con occhi che non sono quelli della sola comunità tecnica.

Quando una GPU basta a fare ricerca di frontiera

Per anni la narrazione dominante è stata che l’intelligenza artificiale di frontiera richieda scale crescenti di calcolo e di capitale, oltre a un consumo energetico in continua espansione. Chi non possiede datacenter da gigawatt resta a guardare. Una scuola di pensiero, fatta di realismo industriale, sosteneva che l’AGI sarebbe arrivata dal lato del molto grande. Un’altra, meno udibile nel rumore di fondo, sosteneva che il problema centrale non era la scala ma la struttura, e che modelli architetturalmente meglio pensati avrebbero potuto raggiungere capacità importanti con risorse modeste.

LeWorldModel è uno dei segnali che la seconda scuola comincia a portare risultati concreti. Quindici milioni di parametri sono cinque ordini di grandezza in meno rispetto ai modelli linguistici di frontiera. Una singola GPU L40S costa qualche migliaio di euro, è alla portata di un piccolo laboratorio universitario, di un team di ricerca indipendente, persino di un appassionato motivato. E con quella GPU, in poche ore, si addestra un modello che pianifica azioni di un braccio robotico con successo nel 96% dei casi. Non è poco, e non è solo una curiosità accademica.

Vale la pena soffermarsi su una conseguenza epistemica meno ovvia. Quando la ricerca di frontiera in un dominio diventa accessibile a chi non controlla infrastrutture colossali, la composizione di chi può contribuire cambia. Le università tornano in gioco. Le startup possono permettersi di partire dalla ricerca, non solo dal product-market fit. I ricercatori indipendenti possono replicare e modificare gli esperimenti, e da lì migliorarli. È successo nei primi anni del deep learning, prima che il costo del training delle reti di scala salissi al cielo. È successo nel software open source. Ed è il presupposto perché una tecnologia entri davvero nella cultura, anziché restare proprietà di pochi soggetti dotati di risorse fuori scala.

L’efficienza non è solo un dato di prestazione, ha conseguenze politiche. Decide chi può pensare la prossima generazione di una tecnologia. Il fatto che LeCun e il suo team abbiano deliberatamente progettato un modello “fattibile su una GPU sola”, e abbiano rilasciato codice e pesi su GitHub, dice qualcosa sulla scuola di pensiero da cui questo lavoro proviene. Non parliamo di ricerca da torre d’avorio, parliamo di ricerca pensata per essere distribuita.

Cosa significa “non collassare”, filosoficamente

Il problema centrale che il paper risolve si chiama “rappresentazione collassata”. Quando una rete neurale impara a prevedere il futuro da una rappresentazione compatta di sé stessa, c’è una scorciatoia che la tenta sempre: mappare tutti gli input sullo stesso vettore costante. In quel modo la previsione è banalmente corretta, perché tutto è uguale a tutto. Il modello tecnicamente funziona, ma ha smesso di codificare informazione. Ha trovato il punto di equilibrio termodinamico minimo della propria esistenza percettiva: non distinguere più nulla.

In questo fenomeno c’è qualcosa di filosoficamente inquietante, perché ricorda da vicino certe deformazioni dell’esperienza umana. La depressione clinica è stata descritta da alcuni neuroscienziati cognitivi come uno stato in cui le rappresentazioni interne smettono di differenziarsi: tutto sembra uguale, tutto perde salienza, il futuro coincide con il presente perché niente più cambia. La routine eccessiva, l’iper-prevedibilità degli ambienti digitali algoritmicamente personalizzati, una certa apatia che attraversa epoche di sovrabbondanza informativa: sono tutte forme di “collasso rappresentazionale” della coscienza umana, viste da questa angolazione.

La soluzione che LeWorldModel propone è semplice e bellissima. Si chiama SIGReg, e in sostanza forza le rappresentazioni interne del modello a distribuirsi come una gaussiana isotropa nello spazio latente, ovvero a occupare lo spazio in modo “ben formato”, senza concentrarsi in un punto, senza appiattirsi su una direzione. Matematicamente garantisce che il collasso sia impossibile, perché un vettore costante non può essere una distribuzione gaussiana. Filosoficamente è qualcosa di più: è l’imposizione di una varietà strutturale come condizione di possibilità della percezione. Vedere è anche distinguere, distinguere richiede di occupare lo spazio delle differenze in modo articolato. Una mente che non differenzia non vede.

 

Si sente un’eco interessante con il modo in cui pensiamo la salute cognitiva umana. Le esperienze che ci tengono “rappresentazionalmente vivi” sono quelle che ci espongono a varietà non triviale: viaggi reali (non turismo da fotocopia), conversazioni con persone diverse da noi, lavoro su problemi nuovi, contatto con realtà materiali che non possiamo prevedere. Quando ci appiattiamo su routine senza variazione, quando lasciamo che algoritmi ci servano sempre lo stesso tipo di contenuto, stiamo addestrando noi stessi al collasso. Una macchina ha bisogno di SIGReg per restare percettivamente viva. A noi serve qualcosa di analogo, e probabilmente passa anche dalle cose vecchio stile: leggere libri non scelti dall’algoritmo, fare conversazioni faccia a faccia, riappropriarsi del proprio corpo come strumento di esplorazione del mondo.

Le traiettorie che si raddrizzano da sole

Torniamo al grafico dell’appendice, quello che mi è rimasto in testa. Lo straightening temporale: il fenomeno per cui, durante l’addestramento, le traiettorie del modello nello spazio latente diventano sempre più rettilinee. È stato descritto nel 2019 da Hénaff e colleghi come ipotesi su come il sistema visivo dei mammiferi rappresenti il tempo: invece di mantenere la complessità geometrica del flusso ottico, il cervello “raddrizzerebbe” le traiettorie nello spazio neurale, rendendo la prossima posizione una semplice estrapolazione lineare di quella corrente.

Quello che gli autori di LeWorldModel hanno osservato è che il loro modello fa esattamente la stessa cosa, in modo emergente. Nessuna funzione di perdita lo richiede. Nessun termine di regolarizzazione lo premia. Eppure, mentre il modello impara a prevedere il prossimo embedding a partire dall’embedding corrente e dall’azione, la sua geometria interna si raddrizza spontaneamente. È come se la rete avesse “capito” che la cosa più semplice da prevedere è una linea retta, e abbia riorganizzato il proprio mondo interiore di conseguenza.

Questa convergenza tra biologico e artificiale è profondamente non banale. Significa che esiste una pressione strutturale dentro l’apprendimento predittivo, indipendente dal substrato biologico o artificiale, che spinge le rappresentazioni a organizzarsi in forme geometriche specifiche. Non è solo “il cervello e la rete neurale fanno la stessa cosa”. È più forte: è “la previsione del futuro, come compito formale, ha una geometria preferita”. Reti biologiche e artificiali la scoprono per ragioni computazionali, non per imitazione reciproca.

Se è vero, e per ora abbiamo indizi forti più che prove definitive, allora la convergenza tra intelligenze biologiche e artificiali potrebbe essere meno questione di “ingegnerizzare la biologia” e più questione di “lasciare che le strutture computazionali ottimali emergano da sole”. Le reti artificiali ben progettate, sottoposte a compiti analoghi a quelli che il cervello affronta, tenderanno a riscoprire le stesse soluzioni. Non perché copino, ma perché la matematica del problema le incanala lì.

Questa è un’ipotesi che cambia il modo in cui ragiono sulla questione “macchine come noi”. L’allineamento profondo tra AI e cognizione umana potrebbe non essere il risultato di uno sforzo deliberato di antropomorfizzare le reti, ma un attrattore naturale verso cui sistemi predittivi efficienti convergono, qualunque sia il loro substrato. Sarebbe una buona notizia per la sicurezza, una pessima notizia per chi pensava che il digitale potesse evolvere in qualcosa di radicalmente alieno. La nostra intelligenza e quella delle macchine vivono nello stesso paesaggio geometrico, perché il paesaggio lo definisce il compito, non il substrato.

Una geometria naturale per le rappresentazioni

Il paper mostra senza enfatizzarla un’altra cosa che vale la pena tirare fuori. Quando il modello viene sottoposto a perturbazioni durante un episodio, gli autori distinguono due tipi: perturbazioni visive (un oggetto cambia colore di colpo) e perturbazioni fisiche (un oggetto viene teletrasportato in una posizione casuale, violando la continuità). Misurano poi la “sorpresa” del modello, ovvero quanto la sua previsione si discosta dall’osservazione reale, e confrontano le due condizioni.

Il risultato è che il modello reagisce poco al cambio di colore e tantissimo al teletrasporto. Statisticamente significativo, p minore di 0,01 sulla differenza tra le due condizioni. È un dato apparentemente piccolo, ma porta un’informazione enorme: il sistema ha sviluppato una gerarchia ontologica, sa che cambiare colore a un oggetto è un evento di superficie, mentre violare la continuità spaziale è un evento di sostanza. Il modello distingue la sostanza dall’apparenza senza che nessuno glielo abbia insegnato.

È una distinzione che la filosofia occidentale dibatte da Aristotele in poi: la domanda su quali proprietà di un oggetto siano essenziali e quali accidentali, su cosa faccia di una cosa “quella cosa” e non un’altra. La risposta che oggi arriva dalle reti predittive sembra essere questa: ciò che, se cambiato, rompe la previsione del futuro è essenziale, ciò che può cambiare senza disturbare la dinamica è accidentale. È una risposta funzionale, non metafisica, e proprio per questo è interessante. Risuona con certe intuizioni della fenomenologia: la sostanza di un oggetto è il suo modo di stare nelle nostre attese di esperienza, non una qualità nascosta dietro l’apparenza.

La macchina che impara a prevedere il futuro impara, lungo la strada, anche una forma rudimentale di ontologia. Sa cosa “conta” e cosa “non conta”. È capace di sorpresa selettiva, ovvero di sorprendersi solo quando vale la pena sorprendersi. Questo, in psicologia cognitiva, è la base dell’attenzione e della memoria semantica: non possiamo ricordare tutto, dobbiamo decidere cosa è rilevante, e la rilevanza emerge dalla struttura predittiva delle aspettative. Una macchina che ha imparato a sorprendersi solo per le perturbazioni fisiche ha imparato un proto-cogito.

Grafico dello straightening temporale delle traiettorie nello spazio latente di LeWorldModel

Il modello che distingue la sostanza dall’apparenza

Una seconda osservazione, che il paper fa quasi en passant, merita di essere tirata fuori. Nell’ambiente OGBench-Cube, una scena 3D in cui un braccio robotico manipola un cubo, il modello riesce a prevedere bene la posizione del cubo e dell’end-effector, ma fa più fatica con l’orientamento rotazionale del braccio. In termini quantitativi, le metriche di probing sulle posizioni traslazionali sono ottime, quelle sulle rotazioni del polso del robot peggiorano sensibilmente.

L’indicazione è che il modello, nel comprimere il mondo in 192 dimensioni di spazio latente, ha dovuto scegliere cosa preservare e cosa lasciare cadere. Ha scelto di tenere le posizioni, perché sono più rilevanti per prevedere conseguenze (dove finirà il cubo è quasi tutto), e ha sacrificato i dettagli rotazionali fini. Parliamo di selezione percettiva, più che di limitazione tecnica. Il modello sviluppa una forma di attenzione strutturale: privilegia ciò che è macroscopicamente rilevante e ignora ciò che è microscopico, persino quando entrambi sono visibili nei dati di training.

Questo solleva una domanda interessante per chi si occupa di interfacce e sistemi cognitivi. Quanto della nostra esperienza visiva quotidiana è effettivamente codificato nel nostro spazio latente cerebrale, e quanto invece viene scartato perché non utile alla previsione? Le neuroscienze cognitive lo sanno da anni: la nostra visione è molto meno completa di quanto crediamo, il cervello ricostruisce e inferisce in continuazione, scartando i dettagli che non servono. La fovea vede ad alta risoluzione un’area minuscola, il resto è completamento. Eppure soggettivamente ci sembra di vedere tutto.

LeWorldModel, in piccolo, ci fa toccare con mano lo stesso fenomeno. Una mente predittiva, biologica o artificiale, comprime per essere efficiente, e nella compressione decide cosa fa parte della “realtà rappresentata” e cosa è rumore. La realtà smette di essere una proprietà oggettiva del mondo, diventa il sottoinsieme di esso che vale la pena prevedere. Questa è una conclusione filosofica antica, che torna oggi sotto forma di una proprietà misurabile di una rete neurale di 15 milioni di parametri.

Schema della gerarchia ontologica appresa dal modello: perturbazioni visive vs perturbazioni fisiche

L’intelligenza che torna nel corpo

Per quasi tutto il primo cinquantennio dell’intelligenza artificiale, la parte “intelligente” si è creduto fosse quella simbolica: ragionare in modo astratto e manipolare concetti, pianificare sequenze di passi mentali. Il corpo, la capacità di muoversi e di percepire, era considerato periferia. Negli ultimi quindici anni il deep learning ha rotto questo paradigma per quanto riguarda la percezione, ma ha lasciato il corpo fuori. I grandi modelli linguistici sono potenti elaboratori simbolici disincarnati, leggono il mondo solo attraverso il filtro dello scritto.

I world model latenti riportano l’AI dentro il mondo fisico. Non lo fanno generando immagini fotorealistiche del futuro, lo fanno costruendo rappresentazioni interne sufficienti a prevedere conseguenze. La differenza è enorme. Un’AI che genera mondi tridimensionali fotorealistici è uno strumento creativo straordinario, ma resta uno spettatore. Un’AI che ha un world model latente è qualcosa di diverso: ha un’idea operativa di come funziona il mondo, può usare quell’idea per agire, e l’agire la mette alla prova continuamente.

Questa transizione, dal mondo come testo al mondo come scena, è il cambiamento più importante che sta avvenendo in questi mesi nell’AI applicata, e probabilmente non sarà raccontato sui giornali per anni. Quando arriveranno i prodotti, ce ne accorgeremo. Saranno robot domestici che ragionano sulle conseguenze prima di agire, droni di consegna che pianificano traiettorie tenendo conto di vento e ostacoli mobili, sistemi di assistenza chirurgica che prevedono come reagirà un tessuto a una pressione. Ognuna di queste applicazioni richiede esattamente quel tipo di intelligenza che LeWorldModel comincia a dimostrare: leggera nel calcolo ma plausibilmente fisica nelle sue previsioni.

Una conseguenza tocca da vicino chi pensa il futuro del lavoro umano. Per un po’ abbiamo creduto che l’AI avrebbe sostituito prima i lavori manuali ripetitivi e poi quelli intellettuali. Si sta vedendo che è successo l’opposto: i mestieri intellettuali ripetitivi sono i primi a essere automatizzati dai LLM, mentre quelli manuali che richiedono comprensione fisica del mondo restano stabilmente umani perché manca la tecnologia di base. I world model sono il pezzo mancante che finalmente comincia ad arrivare. Quando saranno maturi, anche la frontiera del manuale si sposterà. Il valore umano si redistribuirà ancora, e non necessariamente verso ciò che ora pensiamo sia “al sicuro”.

La cosa interessante è che questa transizione non disumanizza, anzi. Riconcilia l’intelligenza con il corpo, dopo decenni di disembodiment cognitivo. Le macchine diventano più simili a noi proprio nel loro modo di abitare il mondo, e questo, almeno per come la vedo, è una buona notizia. Una macchina che capisce la gravità è una macchina con cui possiamo collaborare in modo più trasparente. Una macchina che è solo un grafo simbolico fluttuante nel cloud è opaca per definizione.

Il limite che racconta più del successo

Un risultato del paper, a prima vista, sembra un’imperfezione, e invece secondo me racconta una verità importante. Nell’ambiente Two-Room, il più semplice tra quelli testati, LeWorldModel funziona peggio dei suoi concorrenti. Un agente deve muoversi tra due stanze attraverso una porta, è un problema di navigazione 2D banale. Eppure il modello, che batte tutti nei compiti più complessi, qui perde terreno. Perché?

Gli autori avanzano un’ipotesi che vale la pena prendere sul serio. SIGReg, la regolarizzazione che forza le rappresentazioni a distribuirsi come una gaussiana ad alta dimensionalità, si comporta male quando la complessità intrinseca dell’ambiente è bassa. Se il mondo da rappresentare ha pochissime dimensioni effettive, forzare il modello a occupare uno spazio latente ricco è controproducente. Il modello “sparge” la propria rappresentazione su dimensioni che non gli servono, perdendo focalizzazione.

È un risultato che fa pensare. Suggerisce una proprietà non triviale della cognizione: per fiorire, ha bisogno di una complessità minima dell’esperienza. Una macchina addestrata in un ambiente troppo povero produce rappresentazioni peggiori di una macchina addestrata in un ambiente ricco. Vale per i bambini cresciuti in deprivazione sensoriale, vale per gli animali in cattività con ambienti monotoni, e a quanto pare vale anche per le reti neurali.

La lezione tocca anche il design dei contesti digitali in cui passiamo le nostre giornate. Se la nostra esperienza quotidiana è troppo curata, troppo ottimizzata, troppo “facile”, potremmo stare costruendo il nostro Two-Room: un ambiente cognitivamente povero che impedisce alle nostre rappresentazioni interne di sviluppare la ricchezza necessaria per affrontare problemi complessi. È un’ipotesi, non una certezza. Ma il dato sperimentale è lì, ed è coerente con tanta letteratura di psicologia dello sviluppo.

Le interfacce che amo non semplificano tutto a oltranza, lasciano sopravvivere una giusta dose di attrito, di imprevedibilità, di scoperta. Il difficile in sé non ha valore, però senza un minimo di complessità da affrontare l’intelligenza, biologica o artificiale, si appiattisce.

Diagramma dei due strati dell'intelligenza artificiale: linguistico e fisico, LLM e world model

Verso uno strato spaziale comune

Le tecnologie raramente arrivano da sole. Arrivano in convergenze. I world model latenti come LeWM, i modelli generativi 3D come Marble di World Labs, l’hardware per realtà mista che si è fatto ragionevolmente buono negli ultimi due anni, l’industria della robotica che torna a investire dopo la traversata del deserto, le auto a guida autonoma che cominciano davvero a funzionare in alcune città americane. Sono tutti vettori che spingono nella stessa direzione: un mondo computazionalmente aumentato in cui l’intelligenza non sta più dietro uno schermo, ma è distribuita nello spazio fisico, negli oggetti, negli ambienti, e talvolta sul nostro corpo come pelle aggiuntiva.

LeWorldModel è uno dei mattoni invisibili di questa transizione. Da solo non vediamo che cosa diventerà. Tra cinque anni guarderemo indietro e diremo: ecco, da lì in poi le macchine hanno cominciato davvero a pensare al mondo, non solo alle parole sul mondo. È il passaggio che separa l’AI che descrive dall’AI che agisce, e nei prossimi due o tre anni vedremo emergere i primi prodotti che lo incorporeranno in modo invisibile.

Per chi costruisce prodotti, oggi, il segnale operativo è abbastanza chiaro. Continuare a presidiare i LLM dove servono (testo, codice, ragionamento simbolico), iniziare a presidiare i world model dove cominciano a contare (manipolazione fisica, navigazione, simulazione, predizione di sistemi complessi). Non sono mondi separati, si parleranno tra loro, ma sono filoni tecnici con strumenti, talenti e logiche diverse. Chi crede che basti aspettare un GPT-6 generalista per coprire entrambi, probabilmente sbaglia. Le architetture che funzionano per il testo non funzionano per la fisica intuitiva, e viceversa. Sono due forme di intelligenza che devono convivere.

Per chi si occupa di cultura e di formazione, c’è un tema parallelo. Stiamo entrando in un’epoca in cui le macchine sviluppano forme rudimentali di “buon senso fisico”, e la nostra responsabilità verso le tecnologie cambia di nuovo. Non bastano più gli strumenti per usare il digitale, servono strumenti per comprenderne le rappresentazioni interne, le scelte percettive, le gerarchie ontologiche implicite. Sapere che un’AI distingue la sostanza dall’apparenza diventa informazione utile per chiunque la userà, così come riconoscere il suo bisogno di varietà per sviluppare rappresentazioni ricche cambia il modo in cui chi le addestra prepara i dataset. Una proprietà come lo straightening temporale delle traiettorie interne diventa pertinente anche per chi integra questi modelli in sistemi più grandi.

Sono cose che oggi sembrano da specialisti, e che tra dieci anni faranno parte della cultura generale, come oggi è cultura generale capire grossomodo come funziona un motore di ricerca, anche senza saperne scrivere uno. Le persone che cominciano a capirle adesso saranno quelle che parteciperanno alla conversazione su come queste macchine entreranno nelle vite di tutti, e probabilmente faranno scelte diverse da chi resta nella sola dimensione linguistica.

C’è una scena che immagino spesso, ed è quella di un robot domestico che, dopo aver ricevuto l’istruzione di prendere un bicchiere fragile dal tavolo, si ferma un attimo, “vede” mentalmente cosa succederebbe se lo afferrasse con troppa forza, e modula la presa di conseguenza. Quel “vede mentalmente” non è una metafora, è esattamente la pianificazione in spazio latente che LeWorldModel comincia a fare oggi nei suoi ambienti semplificati. Quando quella stessa capacità sarà nei robot di casa, nei droni di consegna, nei sistemi di assistenza alla guida, avremo macchine che hanno ricominciato a vivere il mondo, dopo decenni in cui l’avevano solo letto.

Il preprint che ho davanti, in fondo, è un pezzo piccolo di una storia molto più grande. La storia di come, in questo decennio, l’intelligenza è tornata a incarnarsi.

L’AI inizia ad immaginare il mondo

Negli ultimi mesi il termine world model è entrato con forza nel lessico dell’intelligenza artificiale. Ho già scritto altrove che cosa sia, perché se ne parli adesso e perché non vada confuso con l’ennesima etichetta passeggera: un world model è, in sostanza, un modello capace di simulare la dinamica di un ambiente, di prevederne l’evoluzione e di stimare come le azioni di un agente ne modifichino lo stato. Non si limita a classificare o a generare. Prova a costruire un simulatore interno del mondo, o di una sua porzione, per capire che cosa potrebbe accadere dopo.

E qui è necessaria una riflessione, perchè sta arrivando quello di cui ho parlato spesso.

Per anni abbiamo osservato l’AI eccellere nel linguaggio. Abbiamo chiesto ai modelli di completare frasi, sintetizzare testi, produrre codice, sostenere conversazioni, dare forma plausibile a una risposta. Un large language model, per quanto sofisticato, resta centrato sulla previsione della sequenza simbolica successiva. Un world model sposta il baricentro. Non guarda solo alla frase che viene dopo, ma allo stato del mondo che viene dopo. Dentro questa differenza, che può sembrare sottile, si apre uno scarto enorme: entrano in scena spazio, tempo, causalità, persistenza, interazione, conseguenze. Entrano in scena le condizioni stesse dell’agire.

Che cosa succede quando la macchina non prova più soltanto a completare un testo, ma tenta di completare un mondo? Succede che l’intelligenza artificiale esce dal recinto del linguaggio e incontra la struttura del reale, o almeno la sua approssimazione operativa. Per questo sotto la stessa etichetta oggi convivono modelli dinamici latenti, modelli video che cercano coerenza fisica e temporale, modelli spaziali e 3D che si misurano con navigabilità, geometria e consistenza dell’ambiente. Parlare di world model, quindi, non significa indicare una categoria unica e già stabilizzata. Significa indicare una direzione di ricerca che punta a dare all’AI una forma di simulazione del mondo utile a prevedere, pianificare e agire.

La pelle digitale, quando smette di essere soltanto sensibile

È qui che, a mio avviso, il tema smette di essere solo tecnico e inizia a diventare culturale. In Pelle Digitale ho descritto la convergenza tra AI, IoT, edge computing, sensori, dispositivi connessi e ambient intelligence come la formazione di un sistema nervoso invisibile che avvolge il pianeta. Una pelle digitale, appunto, fatta di impulsi, dati, rilevazione, orchestrazione, adattamento. Ogni sensore, ogni dispositivo, ogni algoritmo partecipa a questa rete come un neurone distribuito dentro un’infrastruttura che percepisce, reagisce, coordina.

La scena è già sotto i nostri occhi. Nel silenzio di una casa le luci si regolano, il caffè parte, il termostato si adatta, un lampione si spegne, un wearable segnala una presenza, un assistente si mette in ascolto. Nessuno ha impartito un comando esplicito. L’ambiente reagisce perché ha raccolto segnali, li ha correlati, li ha trasformati in risposta. Questo è il cuore dell’intelligenza invisibile: non la presenza di un dispositivo isolato, ma l’orchestrazione di molti dispositivi che agiscono sotto la soglia dell’attenzione cosciente.

Ma una pelle che sente non è ancora una pelle che immagina. Può essere molto efficace nel rilevare e reagire. Può essere meno capace nel prefigurare. E qui i world model diventano il tassello che, almeno in prospettiva, cambia la natura di questa infrastruttura. Aggiungono alla pelle digitale una dimensione anticipatoria. La rete non si limita più a sentire il presente; prova a costruire un’ipotesi sul prossimo stato del mondo. Passa dal rilevare al simulare. Dal reagire al prevedere. È un salto silenzioso, ma decisivo.

In Pelle Digitale ho insistito molto sul fatto che l’interazione si stia spostando dal comando esplicito al contesto, e dal contesto all’intenzione. I sistemi intelligenti osservano segnali ambientali, tono di voce, presenza, comportamento passato, parametri biometrici, e su questa base anticipano bisogni e modulano risposte. È ciò che viene chiamato anticipatory design: ridurre lo sforzo dell’utente tentando di arrivare un passo prima della sua richiesta. Un world model, letto in questa chiave, è il motore cognitivo di questa promessa. Per anticipare davvero non basta registrare pattern. Serve simulare esiti. Serve costruire una teoria implicita di ciò che potrebbe accadere.

Lo spatial shift richiede una grammatica interna

È lo stesso motivo per cui i world model si intrecciano così bene con ciò che in Spatial Shift ho chiamato passaggio verso lo spatial computing. Lì il punto era chiaro: il computing sta uscendo dal rettangolo dello schermo e si sta distribuendo nello spazio, dentro oggetti, superfici, ambienti, gesti, sguardi, coordinate, contesti. Non parliamo più di una tecnologia che consultiamo soltanto attraverso pannelli e app. Parliamo di un’informatica tridimensionale che percepisce, analizza e interagisce con il mondo fisico in tre dimensioni, integrando sensori, computer vision, AI, dati spaziali, XR e nuove forme di interfaccia.

Quando questo passaggio accelera, cambia la natura stessa dell’interfaccia. In Pelle Digitale ho scritto che il mondo sta diventando interfaccia e che lo schermo, progressivamente, si dissolve. I contenuti digitali non restano più confinati in una cornice. Possono fluttuare nello spazio, appoggiarsi agli oggetti, comparire nel punto in cui sono rilevanti, emergere accanto a un luogo, a un percorso, a una persona, a una superficie. Lo spazio smette di essere sfondo. Diventa supporto semantico. Diventa display distribuito. Diventa superficie informativa.

Ma se il mondo diventa interfaccia, la macchina deve poterne costruire un modello interno sufficientemente coerente. Non basta vedere. Deve comprendere relazioni spaziali, profondità, persistenza, vincoli fisici, possibilità d’azione, continuità tra prima e dopo. Deve sapere che un oggetto è lì, che cosa può diventare, come può essere manipolato, quale effetto produce il mio gesto nel contesto che sto abitando. In questo senso il world model è la grammatica interna dello spatial shift. È ciò che consente allo spazio di diventare computabile non solo come immagine, ma come campo di simulazione operativa.

Questo vale per un visore, per un robot, per un veicolo, per un ambiente industriale, per un punto vendita, per un assistente spaziale. In Spatial Shift ho richiamato più volte l’idea che lo spatial computing unisca GPS, GIS, sensori di profondità, NeRFs, sistemi di localizzazione, visione artificiale, robotica e AI per costruire esperienze in cui fisico e digitale si fondono. Tutto questo, però, resta parziale se il sistema non dispone anche di una capacità di previsione delle dinamiche. La mappatura dice dove siamo. Il world model prova a dire che cosa può succedere da qui a un istante.

È qui che si capisce anche il legame con la spatial AI. In Spatial Shift ho richiamato l’idea di una intelligenza capace di comprendere e analizzare relazioni spaziali, di integrare dati geospaziali, sensori, immagini e modelli per eseguire compiti nel mondo fisico. I world model si innestano precisamente in questo territorio, perché portano la comprensione spaziale oltre la fotografia del presente e verso la simulazione del suo sviluppo. In altri termini, aggiungono una profondità temporale alla profondità spaziale.

Dal gemello digitale al simulatore operativo

Su questo terreno entra anche un tema che mi interessa molto: il rapporto tra world model e digital twin. In altri articoli che scritto su diverse tesstate ho distinto con attenzione le due cose. Il digital twin è, in genere, la replica virtuale di un prodotto, di un impianto, di un processo, di un asset fisico o organizzativo. Serve a monitorare, confrontare, visualizzare, misurare. È una rappresentazione. Il world model, invece, tenta di diventare un modello predittivo data-driven che non si limita a riflettere un sistema, ma prova a immaginarne l’evoluzione in risposta alle azioni. È più vicino alla logica del planning che a quella della sola osservazione.

I due piani non sono in conflitto. Possono convergere, e in molti casi convergeranno. Un digital twin può offrire struttura, dati, contesto di dominio, vincoli. Un world model può aggiungere la capacità di sperimentare scenari, testare politiche, valutare traiettorie, anticipare conseguenze. Questa distinzione è importante perché ci evita un equivoco frequente: pensare che basti avere una replica digitale per avere anche intelligenza predittiva. Non è così. La replica non coincide con la simulazione. E la simulazione non coincide ancora con la comprensione piena.

Questo spiega anche perché il tema interessi robotica, physical AI, logistica, formazione, progettazione industriale, mobilità, retail. Un world model può ridurre il costo dell’errore, testare una manovra prima di eseguirla, stressare un processo prima di toccare l’operatività, generare dati sintetici, costruire ambienti controllati per l’addestramento, immaginare configurazioni alternative di uno spazio o di un servizio. In tutti questi casi non serve soltanto una macchina che risponda bene. Serve una macchina che sappia ragionare sulle conseguenze.

Estendere la mente, esternalizzare la simulazione

A questo punto, però, il discorso cambia scala. In Pelle Digitale il tema della mente estesa è centrale. Ho ripreso l’idea per cui il confine della mente non coincide più soltanto con la scatola cranica: esternalizziamo memoria, orientamento, accesso alla conoscenza, coordinamento, attenzione. Lo smartphone è diventato la nostra protesi cognitiva permanente. I wearable, gli assistenti, i sistemi connessi e gli ambienti intelligenti spingono ancora oltre questa dinamica, fino a rendere sempre più difficile separare interno ed esterno, corpo e infrastruttura, soggetto e supporto.

Se guardo ai world model attraverso questa lente, vedo qualcosa di ancora più delicato: non stiamo solo esternalizzando la memoria. Stiamo iniziando a esternalizzare la simulazione. Non deleghiamo più soltanto la conservazione delle informazioni o il recupero del dato giusto nel momento giusto. Deleghiamo una parte crescente della facoltà di provare il futuro in anticipo. È un passaggio sottile, ma radicale. Significa spostare fuori da noi non solo ciò che sappiamo, ma una porzione della nostra capacità di anticipare.

Questo può essere utile. Molto utile. Può liberarci da errori ripetitivi, supportare decisioni complesse, aumentare la sicurezza, migliorare l’ergonomia dell’esperienza, ridurre il carico cognitivo in ambienti saturi di variabili. In Pelle Digitale ho scritto che l’AI può diventare filtro intelligente, regolatore del traffico mentale, sistema capace di modulare notifiche e stimoli in base al contesto. Ma la stessa logica che alleggerisce può anche addestrarci alla passività, alla fiducia automatica nell’opzione suggerita, alla riduzione della deviazione, della sperimentazione, del dubbio. La scorciatoia più fluida non coincide sempre con la scelta più libera.

Per questo il problema dei world model non riguarda solo ciò che la macchina sa prevedere, ma ciò che noi rischiamo di disimparare. In Pelle Digitale ho richiamato il tema del cognitive offloading, dell’amnesia digitale, dell’attenzione parziale continua, della pressione esercitata dagli ambienti pervasivi sulla nostra autoregolazione cognitiva. Se aggiungiamo a questo ecosistema modelli che simulano per noi il probabile stato successivo del mondo, il rischio non è solo tecnico. È antropologico. Riguarda la postura mentale dell’umano dentro ambienti che iniziano a prevedere, filtrare e suggerire prima che noi formuliamo con chiarezza un’intenzione.

Dall’input all’intenzione

Da anni sostengo che il vero spostamento in corso sia quello dall’interfaccia all’intenzione. In Pelle Digitale ho scritto che il click perde centralità, che le interfacce tendono a dissolversi e che l’esperienza si sposta su segnali più sottili: voce, sguardo, gesto, prossimità, stato emotivo, dati ambientali, contesto. L’utente non dialoga più solo con pulsanti e menu, ma con sistemi che osservano, interpretano e agiscono. L’ambiente stesso diventa interfaccia. E quando l’ambiente diventa interfaccia, chi progetta il comportamento dell’ambiente sta di fatto progettando il comportamento possibile dell’utente.

I world model si collocano esattamente qui, perché sono lo strumento che rende questa interazione più contestuale, più predittiva e più agentica. Se un agente deve operare a partire da un obiettivo generale, non da una sequenza di istruzioni dettagliate, ha bisogno di simulare passi intermedi, valutare esiti, correggere la rotta, mantenere una rappresentazione del contesto nel tempo. In Pelle Digitale ho scritto che il design dell’era agentica non riguarda più il disegno di schermate, ma il disegno di comportamenti. Ecco: un world model è il substrato che rende possibile questo passaggio, perché fornisce la scena interna su cui l’agente prova le proprie mosse prima di compierle.

Ma proprio qui la questione si complica. Per anticipare l’utente, un sistema deve costruire un’ipotesi sulla sua intenzione. Deve selezionare quali segnali contano, quali ignorare, quale esito considerare desiderabile, quale deviazione trattare come rumore, quale come eccezione significativa. Non è un dettaglio progettuale. È una presa di posizione sul rapporto tra comportamento osservato e libertà del soggetto. In un’economia dell’intenzione, il confine tra assistenza e indirizzamento si assottiglia molto in fretta.

Il punto critico: opacità, agency, responsabilità

Qui conviene restare sobri. Un mondo plausibile non equivale a un mondo compreso. L’ho già scritto nel pezzo per AI4Business: il fatto che un sistema produca video coerenti, ambienti navigabili o simulazioni convincenti non garantisce affatto che possieda una rappresentazione robusta di causalità, controllo, fisica, lungo periodo. Gli errori restano, e restano anche i costi computazionali, la fragilità della controllabilità, l’immaturità delle metriche e il rischio di confondere la spettacolarità della demo con la solidità del modello.

La seduzione visiva non basta.

Il punto più delicato, però, non è soltanto ingegneristico. In Pelle Digitale ho insistito sulla necessità di trasparenza operativa, intervenibilità, reversibilità della delega, privacy by design, accountability ambientale. Un’intelligenza invisibile può essere comoda, ma non deve diventare incontestabile. Un’azione automatica deve poter essere compresa; una decisione deve poter essere spiegata; una delega deve poter essere revocata; un dato intimo deve poter restare proporzionato, protetto, ispezionabile. Senza queste condizioni, la promessa di fluidità scivola facilmente verso l’opacità del controllo.

Questo vale a maggior ragione per i world model, perché quando un modello simula per agire non si limita a descrivere il mondo. Decide quali stati sono rilevanti, quali traiettorie sono preferibili, quali esiti sono desiderabili, quale livello di rischio è accettabile, quanto spazio concedere all’imprevisto. In ambienti distribuiti, sensorizzati, aumentati, questa selezione non resta confinata in un laboratorio. Entra nella casa, nel negozio, nel veicolo, nella fabbrica, nello spazio pubblico, nel corpo, nella relazione. Qui la questione tecnica incontra quella politica.

Chi scrive il simulatore

Alla fine, è questa la domanda che mi interessa davvero. Chi scrive il simulatore? Chi decide quali ipotesi sul mondo verranno incorporate in questi modelli? Chi stabilisce che cosa conta come comportamento normale, come deviazione, come rischio, come ottimizzazione, come efficienza? Se la pelle digitale è il sistema nervoso invisibile del mondo, i world model rischiano di diventarne il layer cognitivo più delicato: quello che non si limita a sentire e reagire, ma prova a immaginare e orientare.

Per questo continuo a pensare che il tema non sia l’ennesima corsa a una sigla. Il tema è l’alfabetizzazione futura. È la capacità di leggere le logiche che governano gli ambienti intelligenti, di capire come gli algoritmi prendono decisioni, di mantenere una distanza critica da ciò che appare naturale solo perché è diventato invisibile. In Pelle Digitale ho definito questo orizzonte come un umanesimo aumentato: una postura in cui l’umano resta al centro della gravità tecnologica, non come nodo da ottimizzare, ma come misura di senso, autonomia, creatività e benessere collettivo.

I world model, allora, mi interessano per una ragione molto semplice. Segnano il passaggio da un’AI che descrive il mondo a un’AI che prova a immaginarne l’evoluzione prima di intervenire. E nel momento in cui questa capacità si intreccia con sensori, agenti, spazi aumentati, digital twin, interfacce invisibili e infrastrutture distribuite, non stiamo più parlando solo di modelli. Stiamo parlando della forma della mediazione che si porrà tra noi e il reale. Stiamo parlando di chi avrà il diritto di scrivere la simulazione dentro cui prenderemo decisioni, ci muoveremo, lavoreremo, compreremo, apprenderemo e vivremo.

È qui che si giocherà la partita.

Non nei benchmark, da soli. Nella qualità della relazione tra previsione, autonomia e responsabilità. Nella capacità di costruire sistemi che non ci sostituiscano nel compito di attribuire significato al mondo, ma ci aiutino a farlo con più lucidità. Perché la pelle digitale continuerà a crescere, e lo spatial shift continuerà ad avanzare. La vera domanda non è se avremo world model sempre più sofisticati. La vera domanda è se sapremo governarli senza consegnare a essi, insieme alla fatica della decisione, anche il diritto di decidere chi stiamo diventando.