L’AI inizia ad immaginare il mondo - Fabio Lalli

Negli ultimi mesi il termine world model è entrato con forza nel lessico dell’intelligenza artificiale. Ho già scritto altrove che cosa sia, perché se ne parli adesso e perché non vada confuso con l’ennesima etichetta passeggera: un world model è, in sostanza, un modello capace di simulare la dinamica di un ambiente, di prevederne l’evoluzione e di stimare come le azioni di un agente ne modifichino lo stato. Non si limita a classificare o a generare. Prova a costruire un simulatore interno del mondo, o di una sua porzione, per capire che cosa potrebbe accadere dopo.

E qui è necessaria una riflessione, perchè sta arrivando quello di cui ho parlato spesso.

Per anni abbiamo osservato l’AI eccellere nel linguaggio. Abbiamo chiesto ai modelli di completare frasi, sintetizzare testi, produrre codice, sostenere conversazioni, dare forma plausibile a una risposta. Un large language model, per quanto sofisticato, resta centrato sulla previsione della sequenza simbolica successiva. Un world model sposta il baricentro. Non guarda solo alla frase che viene dopo, ma allo stato del mondo che viene dopo. Dentro questa differenza, che può sembrare sottile, si apre uno scarto enorme: entrano in scena spazio, tempo, causalità, persistenza, interazione, conseguenze. Entrano in scena le condizioni stesse dell’agire.

Che cosa succede quando la macchina non prova più soltanto a completare un testo, ma tenta di completare un mondo? Succede che l’intelligenza artificiale esce dal recinto del linguaggio e incontra la struttura del reale, o almeno la sua approssimazione operativa. Per questo sotto la stessa etichetta oggi convivono modelli dinamici latenti, modelli video che cercano coerenza fisica e temporale, modelli spaziali e 3D che si misurano con navigabilità, geometria e consistenza dell’ambiente. Parlare di world model, quindi, non significa indicare una categoria unica e già stabilizzata. Significa indicare una direzione di ricerca che punta a dare all’AI una forma di simulazione del mondo utile a prevedere, pianificare e agire.

La pelle digitale, quando smette di essere soltanto sensibile

È qui che, a mio avviso, il tema smette di essere solo tecnico e inizia a diventare culturale. In Pelle Digitale ho descritto la convergenza tra AI, IoT, edge computing, sensori, dispositivi connessi e ambient intelligence come la formazione di un sistema nervoso invisibile che avvolge il pianeta. Una pelle digitale, appunto, fatta di impulsi, dati, rilevazione, orchestrazione, adattamento. Ogni sensore, ogni dispositivo, ogni algoritmo partecipa a questa rete come un neurone distribuito dentro un’infrastruttura che percepisce, reagisce, coordina.

La scena è già sotto i nostri occhi. Nel silenzio di una casa le luci si regolano, il caffè parte, il termostato si adatta, un lampione si spegne, un wearable segnala una presenza, un assistente si mette in ascolto. Nessuno ha impartito un comando esplicito. L’ambiente reagisce perché ha raccolto segnali, li ha correlati, li ha trasformati in risposta. Questo è il cuore dell’intelligenza invisibile: non la presenza di un dispositivo isolato, ma l’orchestrazione di molti dispositivi che agiscono sotto la soglia dell’attenzione cosciente.

Ma una pelle che sente non è ancora una pelle che immagina. Può essere molto efficace nel rilevare e reagire. Può essere meno capace nel prefigurare. E qui i world model diventano il tassello che, almeno in prospettiva, cambia la natura di questa infrastruttura. Aggiungono alla pelle digitale una dimensione anticipatoria. La rete non si limita più a sentire il presente; prova a costruire un’ipotesi sul prossimo stato del mondo. Passa dal rilevare al simulare. Dal reagire al prevedere. È un salto silenzioso, ma decisivo.

In Pelle Digitale ho insistito molto sul fatto che l’interazione si stia spostando dal comando esplicito al contesto, e dal contesto all’intenzione. I sistemi intelligenti osservano segnali ambientali, tono di voce, presenza, comportamento passato, parametri biometrici, e su questa base anticipano bisogni e modulano risposte. È ciò che viene chiamato anticipatory design: ridurre lo sforzo dell’utente tentando di arrivare un passo prima della sua richiesta. Un world model, letto in questa chiave, è il motore cognitivo di questa promessa. Per anticipare davvero non basta registrare pattern. Serve simulare esiti. Serve costruire una teoria implicita di ciò che potrebbe accadere.

Lo spatial shift richiede una grammatica interna

È lo stesso motivo per cui i world model si intrecciano così bene con ciò che in Spatial Shift ho chiamato passaggio verso lo spatial computing. Lì il punto era chiaro: il computing sta uscendo dal rettangolo dello schermo e si sta distribuendo nello spazio, dentro oggetti, superfici, ambienti, gesti, sguardi, coordinate, contesti. Non parliamo più di una tecnologia che consultiamo soltanto attraverso pannelli e app. Parliamo di un’informatica tridimensionale che percepisce, analizza e interagisce con il mondo fisico in tre dimensioni, integrando sensori, computer vision, AI, dati spaziali, XR e nuove forme di interfaccia.

Quando questo passaggio accelera, cambia la natura stessa dell’interfaccia. In Pelle Digitale ho scritto che il mondo sta diventando interfaccia e che lo schermo, progressivamente, si dissolve. I contenuti digitali non restano più confinati in una cornice. Possono fluttuare nello spazio, appoggiarsi agli oggetti, comparire nel punto in cui sono rilevanti, emergere accanto a un luogo, a un percorso, a una persona, a una superficie. Lo spazio smette di essere sfondo. Diventa supporto semantico. Diventa display distribuito. Diventa superficie informativa.

Ma se il mondo diventa interfaccia, la macchina deve poterne costruire un modello interno sufficientemente coerente. Non basta vedere. Deve comprendere relazioni spaziali, profondità, persistenza, vincoli fisici, possibilità d’azione, continuità tra prima e dopo. Deve sapere che un oggetto è lì, che cosa può diventare, come può essere manipolato, quale effetto produce il mio gesto nel contesto che sto abitando. In questo senso il world model è la grammatica interna dello spatial shift. È ciò che consente allo spazio di diventare computabile non solo come immagine, ma come campo di simulazione operativa.

Questo vale per un visore, per un robot, per un veicolo, per un ambiente industriale, per un punto vendita, per un assistente spaziale. In Spatial Shift ho richiamato più volte l’idea che lo spatial computing unisca GPS, GIS, sensori di profondità, NeRFs, sistemi di localizzazione, visione artificiale, robotica e AI per costruire esperienze in cui fisico e digitale si fondono. Tutto questo, però, resta parziale se il sistema non dispone anche di una capacità di previsione delle dinamiche. La mappatura dice dove siamo. Il world model prova a dire che cosa può succedere da qui a un istante.

È qui che si capisce anche il legame con la spatial AI. In Spatial Shift ho richiamato l’idea di una intelligenza capace di comprendere e analizzare relazioni spaziali, di integrare dati geospaziali, sensori, immagini e modelli per eseguire compiti nel mondo fisico. I world model si innestano precisamente in questo territorio, perché portano la comprensione spaziale oltre la fotografia del presente e verso la simulazione del suo sviluppo. In altri termini, aggiungono una profondità temporale alla profondità spaziale.

Dal gemello digitale al simulatore operativo

Su questo terreno entra anche un tema che mi interessa molto: il rapporto tra world model e digital twin. In altri articoli che scritto su diverse tesstate ho distinto con attenzione le due cose. Il digital twin è, in genere, la replica virtuale di un prodotto, di un impianto, di un processo, di un asset fisico o organizzativo. Serve a monitorare, confrontare, visualizzare, misurare. È una rappresentazione. Il world model, invece, tenta di diventare un modello predittivo data-driven che non si limita a riflettere un sistema, ma prova a immaginarne l’evoluzione in risposta alle azioni. È più vicino alla logica del planning che a quella della sola osservazione.

I due piani non sono in conflitto. Possono convergere, e in molti casi convergeranno. Un digital twin può offrire struttura, dati, contesto di dominio, vincoli. Un world model può aggiungere la capacità di sperimentare scenari, testare politiche, valutare traiettorie, anticipare conseguenze. Questa distinzione è importante perché ci evita un equivoco frequente: pensare che basti avere una replica digitale per avere anche intelligenza predittiva. Non è così. La replica non coincide con la simulazione. E la simulazione non coincide ancora con la comprensione piena.

Questo spiega anche perché il tema interessi robotica, physical AI, logistica, formazione, progettazione industriale, mobilità, retail. Un world model può ridurre il costo dell’errore, testare una manovra prima di eseguirla, stressare un processo prima di toccare l’operatività, generare dati sintetici, costruire ambienti controllati per l’addestramento, immaginare configurazioni alternative di uno spazio o di un servizio. In tutti questi casi non serve soltanto una macchina che risponda bene. Serve una macchina che sappia ragionare sulle conseguenze.

Estendere la mente, esternalizzare la simulazione

A questo punto, però, il discorso cambia scala. In Pelle Digitale il tema della mente estesa è centrale. Ho ripreso l’idea per cui il confine della mente non coincide più soltanto con la scatola cranica: esternalizziamo memoria, orientamento, accesso alla conoscenza, coordinamento, attenzione. Lo smartphone è diventato la nostra protesi cognitiva permanente. I wearable, gli assistenti, i sistemi connessi e gli ambienti intelligenti spingono ancora oltre questa dinamica, fino a rendere sempre più difficile separare interno ed esterno, corpo e infrastruttura, soggetto e supporto.

Se guardo ai world model attraverso questa lente, vedo qualcosa di ancora più delicato: non stiamo solo esternalizzando la memoria. Stiamo iniziando a esternalizzare la simulazione. Non deleghiamo più soltanto la conservazione delle informazioni o il recupero del dato giusto nel momento giusto. Deleghiamo una parte crescente della facoltà di provare il futuro in anticipo. È un passaggio sottile, ma radicale. Significa spostare fuori da noi non solo ciò che sappiamo, ma una porzione della nostra capacità di anticipare.

Questo può essere utile. Molto utile. Può liberarci da errori ripetitivi, supportare decisioni complesse, aumentare la sicurezza, migliorare l’ergonomia dell’esperienza, ridurre il carico cognitivo in ambienti saturi di variabili. In Pelle Digitale ho scritto che l’AI può diventare filtro intelligente, regolatore del traffico mentale, sistema capace di modulare notifiche e stimoli in base al contesto. Ma la stessa logica che alleggerisce può anche addestrarci alla passività, alla fiducia automatica nell’opzione suggerita, alla riduzione della deviazione, della sperimentazione, del dubbio. La scorciatoia più fluida non coincide sempre con la scelta più libera.

Per questo il problema dei world model non riguarda solo ciò che la macchina sa prevedere, ma ciò che noi rischiamo di disimparare. In Pelle Digitale ho richiamato il tema del cognitive offloading, dell’amnesia digitale, dell’attenzione parziale continua, della pressione esercitata dagli ambienti pervasivi sulla nostra autoregolazione cognitiva. Se aggiungiamo a questo ecosistema modelli che simulano per noi il probabile stato successivo del mondo, il rischio non è solo tecnico. È antropologico. Riguarda la postura mentale dell’umano dentro ambienti che iniziano a prevedere, filtrare e suggerire prima che noi formuliamo con chiarezza un’intenzione.

Dall’input all’intenzione

Da anni sostengo che il vero spostamento in corso sia quello dall’interfaccia all’intenzione. In Pelle Digitale ho scritto che il click perde centralità, che le interfacce tendono a dissolversi e che l’esperienza si sposta su segnali più sottili: voce, sguardo, gesto, prossimità, stato emotivo, dati ambientali, contesto. L’utente non dialoga più solo con pulsanti e menu, ma con sistemi che osservano, interpretano e agiscono. L’ambiente stesso diventa interfaccia. E quando l’ambiente diventa interfaccia, chi progetta il comportamento dell’ambiente sta di fatto progettando il comportamento possibile dell’utente.

I world model si collocano esattamente qui, perché sono lo strumento che rende questa interazione più contestuale, più predittiva e più agentica. Se un agente deve operare a partire da un obiettivo generale, non da una sequenza di istruzioni dettagliate, ha bisogno di simulare passi intermedi, valutare esiti, correggere la rotta, mantenere una rappresentazione del contesto nel tempo. In Pelle Digitale ho scritto che il design dell’era agentica non riguarda più il disegno di schermate, ma il disegno di comportamenti. Ecco: un world model è il substrato che rende possibile questo passaggio, perché fornisce la scena interna su cui l’agente prova le proprie mosse prima di compierle.

Ma proprio qui la questione si complica. Per anticipare l’utente, un sistema deve costruire un’ipotesi sulla sua intenzione. Deve selezionare quali segnali contano, quali ignorare, quale esito considerare desiderabile, quale deviazione trattare come rumore, quale come eccezione significativa. Non è un dettaglio progettuale. È una presa di posizione sul rapporto tra comportamento osservato e libertà del soggetto. In un’economia dell’intenzione, il confine tra assistenza e indirizzamento si assottiglia molto in fretta.

Il punto critico: opacità, agency, responsabilità

Qui conviene restare sobri. Un mondo plausibile non equivale a un mondo compreso. L’ho già scritto nel pezzo per AI4Business: il fatto che un sistema produca video coerenti, ambienti navigabili o simulazioni convincenti non garantisce affatto che possieda una rappresentazione robusta di causalità, controllo, fisica, lungo periodo. Gli errori restano, e restano anche i costi computazionali, la fragilità della controllabilità, l’immaturità delle metriche e il rischio di confondere la spettacolarità della demo con la solidità del modello.

La seduzione visiva non basta.

Il punto più delicato, però, non è soltanto ingegneristico. In Pelle Digitale ho insistito sulla necessità di trasparenza operativa, intervenibilità, reversibilità della delega, privacy by design, accountability ambientale. Un’intelligenza invisibile può essere comoda, ma non deve diventare incontestabile. Un’azione automatica deve poter essere compresa; una decisione deve poter essere spiegata; una delega deve poter essere revocata; un dato intimo deve poter restare proporzionato, protetto, ispezionabile. Senza queste condizioni, la promessa di fluidità scivola facilmente verso l’opacità del controllo.

Questo vale a maggior ragione per i world model, perché quando un modello simula per agire non si limita a descrivere il mondo. Decide quali stati sono rilevanti, quali traiettorie sono preferibili, quali esiti sono desiderabili, quale livello di rischio è accettabile, quanto spazio concedere all’imprevisto. In ambienti distribuiti, sensorizzati, aumentati, questa selezione non resta confinata in un laboratorio. Entra nella casa, nel negozio, nel veicolo, nella fabbrica, nello spazio pubblico, nel corpo, nella relazione. Qui la questione tecnica incontra quella politica.

Chi scrive il simulatore

Alla fine, è questa la domanda che mi interessa davvero. Chi scrive il simulatore? Chi decide quali ipotesi sul mondo verranno incorporate in questi modelli? Chi stabilisce che cosa conta come comportamento normale, come deviazione, come rischio, come ottimizzazione, come efficienza? Se la pelle digitale è il sistema nervoso invisibile del mondo, i world model rischiano di diventarne il layer cognitivo più delicato: quello che non si limita a sentire e reagire, ma prova a immaginare e orientare.

Per questo continuo a pensare che il tema non sia l’ennesima corsa a una sigla. Il tema è l’alfabetizzazione futura. È la capacità di leggere le logiche che governano gli ambienti intelligenti, di capire come gli algoritmi prendono decisioni, di mantenere una distanza critica da ciò che appare naturale solo perché è diventato invisibile. In Pelle Digitale ho definito questo orizzonte come un umanesimo aumentato: una postura in cui l’umano resta al centro della gravità tecnologica, non come nodo da ottimizzare, ma come misura di senso, autonomia, creatività e benessere collettivo.

I world model, allora, mi interessano per una ragione molto semplice. Segnano il passaggio da un’AI che descrive il mondo a un’AI che prova a immaginarne l’evoluzione prima di intervenire. E nel momento in cui questa capacità si intreccia con sensori, agenti, spazi aumentati, digital twin, interfacce invisibili e infrastrutture distribuite, non stiamo più parlando solo di modelli. Stiamo parlando della forma della mediazione che si porrà tra noi e il reale. Stiamo parlando di chi avrà il diritto di scrivere la simulazione dentro cui prenderemo decisioni, ci muoveremo, lavoreremo, compreremo, apprenderemo e vivremo.

È qui che si giocherà la partita.

Non nei benchmark, da soli. Nella qualità della relazione tra previsione, autonomia e responsabilità. Nella capacità di costruire sistemi che non ci sostituiscano nel compito di attribuire significato al mondo, ma ci aiutino a farlo con più lucidità. Perché la pelle digitale continuerà a crescere, e lo spatial shift continuerà ad avanzare. La vera domanda non è se avremo world model sempre più sofisticati. La vera domanda è se sapremo governarli senza consegnare a essi, insieme alla fatica della decisione, anche il diritto di decidere chi stiamo diventando.