Pelle Digitale: quando il mondo diventa interfaccia e l’intelligenza diventa ambiente

Ci sono libri che nascono per spiegare una tecnologia. “Pelle Digitale” pubblicato con EGEA nasce per spiegare una condizione. Una nuova condizione dell’umano, che non riguarda solo chi “lavora nel tech”, ma chiunque viva in un ambiente sempre più intelligente, sensorizzato e predittivo.

L’idea centrale è questa: stiamo entrando in un’era in cui l’intelligenza smette di essere un software che consultiamo e diventa un’atmosfera che respiriamo. Un’infrastruttura invisibile che collega sensori IoT, edge device, algoritmi e modelli in una rete globale. I dati diventano impulsi. Gli oggetti smettono di essere “cose” separate e diventano organi di un ecosistema più grande.

In apertura del libro parlo di transizione profonda: non un upgrade, ma un cambio di paradigma. La tecnologia non si sovrappone più al mondo: si radica nel mondo. Lo spazio diventa interfaccia. L’esperienza diventa persistente e contestuale. La relazione tra fisico e digitale non è più una “connessione”: è una dissoluzione del confine.

Il catalizzatore di questa metamorfosi ha un nome chiave: spatial computing. Non è “solo” AR/VR. È un principio operativo che rende ogni luogo un potenziale punto di accesso: casa, città, oggetti, corpo. È la trasformazione della realtà in un layer interpretato, aumentato e governato da modelli. E quando la realtà diventa un layer, la domanda non è più “quale app userò?”, ma “quale realtà sto abitando?”.

Per raccontare questa trasformazione ho scelto una struttura in otto pilastri, perché lo shift non è monodimensionale: è simultaneo e sistemico. Questi sono i capitoli del viaggio:

  1. L’intelligenza invisibile: la rete globale che unifica dispositivi, dati e decisioni.

  2. La nuova grammatica dell’interazione: come cambiano i linguaggi tra umani, interfacce e sistemi.

  3. Il mondo come interfaccia: la città e lo spazio come UI diffusa.

  4. Il corpo e la mente estesa: quando la tecnologia non è “fuori”, ma diventa parte della cognizione.

  5. Relazioni aumentate: socialità, identità, presenza e mediazione algoritmica.

  6. L’economia dell’attenzione e dell’intenzione: la competizione non è più solo per il tempo, ma per il “volere”.

  7. Il paradosso dell’opacità: più sistemi intelligenti, meno comprensione del “perché” dietro le scelte.

  8. L’umanesimo aumentato: la necessità di una nuova alleanza tra innovazione e valori umani.

Questa sequenza è intenzionale: parte dall’infrastruttura e arriva alla responsabilità. Perché, a un certo punto, non basta più descrivere il fenomeno. Serve prendere posizione.

Uno degli snodi del libro è il conflitto tra promessa e ombra. Da un lato: un mondo più efficiente, sicuro, personalizzato, capace di anticipare bisogni e amplificare capacità. Dall’altro: controllo pervasivo, delega cognitiva, perdita di autonomia, complessità indecifrabile. La pelle digitale può essere un esoscheletro che ci rende migliori o una gabbia elegante che ci rende docili

Per questo “Pelle Digitale” non si chiude con una sintesi, ma con un Manifesto per un umanesimo aumentato. L’idea è semplice: il futuro non è qualcosa che “ci capita”. È qualcosa che progettiamo, decisione dopo decisione, interazione dopo interazione. E se siamo co-creatori di questo sistema nervoso invisibile, allora siamo anche responsabili della sua direzione.

Quando dico “umanesimo aumentato” non intendo un ottimismo ingenuo. Intendo un compito: riportare l’uomo al centro non come slogan, ma come criterio di design. Vuol dire chiedersi quali valori devono guidare lo sviluppo e l’adozione delle tecnologie; come preservare autenticità dell’esperienza umana in un mondo mediato; come evitare che l’innovazione invisibile diventi un automatismo economico privo di etica.

Come si usa, concretamente, questo libro?

Si usa come lente: per rileggere prodotti, servizi e piattaforme non per feature, ma per impatto sul comportamento e sulla percezione. Si usa come mappa: per capire dove stiamo mettendo intelligenza (e dove stiamo togliendo agency). Si usa come strumento di conversazione: perché lo shift non va affrontato da soli, ma dentro organizzazioni, scuole, istituzioni, famiglie.

Se “Pelle Digitale” ha un obiettivo, è questo: rendere visibile l’invisibile. Dare parole e struttura a ciò che spesso percepiamo solo come ansia diffusa o entusiasmo confuso. E trasformare quella percezione in scelta consapevole: non subire la pelle digitale, ma diventare architetti del modo in cui ci avvolgerà.

DeepMind Genie 3: svolta epocale per l’addestramento robotico?

DeepMind ha presentato Genie 3, un modello generativo di world simulation che, dato un prompt testuale (o un’immagine), costruisce in tempo reale un ambiente virtuale interattivo e persistente. In pratica, digitando una descrizione si materializza un mondo navigabile, non il solito video di pochi secondi, ma uno spazio “videoludico” esplorabile a piacimento.

La cosa si fa davvero interessante unendolo a SIMA, un agente AI generalista in grado di apprendere compiti in una varietà di giochi 3D: il primo può generare infiniti scenari di training, il secondo può imparare al loro interno. Questa combinazione apre prospettive inedite per la robotica, il sim-to-real e la generalizzazione dell’intelligenza artificiale.

Dalle parole ai mondi 3D interattivi

La maggior parte dei generatori di immagini o video AI oggi produce contenuti brevi e non interattivi. Genie 3, invece, fa un salto di categoria: trasforma un input testuale in un mondo tridimensionale navigabile in prima persona, con coerenza fisica e visiva su orizzonti temporali ben più lunghi del classico clip di 8 secondi. Digitando una descrizione, ad esempio “un sentiero di lava ai piedi di un vulcano attivo” , il sistema renderizza una scena 3D a 24 frame al secondo e risoluzione 720p, in cui l’utente può muoversi liberamente con controlli da videogame.

L’ambiente reagisce in tempo reale ai movimenti e ai comandi: se giri la telecamera o avanzi, il panorama cambia fluidamente; se aggiungi via testo un evento (“inizia a piovere”), Genie 3 modifica al volo le condizioni meteo nella simulazione. In demos, il team DeepMind ha mostrato scenari estremamente diversi tra loro, dall’aspro paesaggio vulcanico a una costa flagellata da un uragano, fino a un villaggio incantato di funghi giganti – tutti generati e manipolabili istantaneamente dall’AI.

Quello che rende questi mondi sorprendenti è il livello di coerenza spazio-temporale: oggetti e paesaggi rimangono stabili anche cambiando inquadratura o tornando in un luogo già visitato, grazie a una sorta di “memoria” interna che si estende fino a circa un minuto. In altre parole, Genie 3 ricorda dove ha messo le montagne o gli alberi, evitando salti logici o apparizioni/disparizioni incoerenti man mano che l’utente esplora.

Un aspetto particolarmente interessante è la possibilità di partire non solo da testo ma anche da immagini. I ricercatori hanno mostrato che Genie 3 può essere iniziato con un singolo fotogramma (ad esempio la foto di un dipinto famoso) e “gonfiare” quella scena in un ambiente tridimensionale navigabile.

Immaginate di scattare una foto o dipingere un bozzetto, e poi poterci entrare dentro: ad esempio camminare tra i cipressi sullo sfondo di un quadro o esplorare l’interno di una concept art. Questo apre possibilità creative enormi. Un artista può dipingere uno scenario surreale e poi usarlo come livello di gioco; un designer può importare schizzi o foto di riferimento e ottenere uno stage 3D immediatamente pronto da esplorare. Allo stesso modo, un filmmaker che oggi si scontra col “muro degli 8 secondi” nei video generativi, con Genie 3 vede crollare quel limite: essendo un world model persistente, permette di scegliere inquadrature e traiettorie di camera a piacere, estendendo le sequenze fin dove lo consentono la fantasia (e il budget computazionale) senza degradare subito in noise. In sintesi, Genie 3 trasforma la generazione AI da contenuto passivo a esperienza interattiva: non più immagini da guardare, ma mondi vivi da esplorare. È come se dessimo un tovagliolo a Bob Ross per uno schizzo estemporaneo e subito dopo potessimo fare due passi dentro il paesaggio che ha dipinto.

Dal punto di vista tecnico, raggiungere questo risultato non è banale. Genie 3 utilizza un’architettura auto-regressiva simile a quella dei grandi modelli linguistici, generando ogni nuovo frame in base ai frame precedenti e all’azione corrente dell’utente. Questo significa garantire coerenza frame-to-frame senza però appoggiarsi a un’esplicita modellazione 3D sottostante: a differenza di approcci come NeRF o gaussian splatting che costruiscono una mappa geometrica per avere consistenza, qui la solidità della scena “emerge” dall’aver previsto correttamente la sequenza di pixel nel tempo. È un approccio più flessibile, perché consente di alterare liberamente il mondo in corso d’opera (aggiungere oggetti, cambiare ambiente) senza dover rigenerare un intero modello geometrico; tuttavia è computazionalmente pesante, dato che il modello deve “ricordare” e ri-renderizzare ad ogni frame tutto ciò che conta della traiettoria passata. DeepMind sottolinea che Genie 3 rappresenta il primo modello di world generation capace di interazione in tempo reale, migliorando al contempo realismo e coerenza rispetto al precedente Genie 2. In appena otto mesi, infatti, il salto da Genie 2 a Genie 3 è notevole: Genie 2 (fine 2024) manteneva la scena per ~10 secondi prima di “dimenticare” e rigenerare incoerentemente, mentre Genie 3 regge diversi minuti di esplorazione continua prima che la memoria svanisca. Inoltre Genie 2 richiedeva di fornirgli a priori la sequenza di azioni (movimenti) che l’utente avrebbe fatto, poi generava il video risultante; Genie 3 invece reagisce live agli input dell’utente come un vero motore grafico. Siamo insomma davanti a un prototipo di motore generativo per mondi virtuali. Google DeepMind è probabilmente il primo laboratorio AI a spingersi così avanti su questo fronte, considerandolo un tassello strategico verso l’AGI (Artificial General Intelligence).

Naturalmente, siamo ancora in fase di ricerca (Genie 3 per ora è distribuito solo come anteprima limitata a pochi accademici e creator selezionati). Eppure le capacità dimostrate, per quanto imperfette, hanno già fatto gridare a molti che “questo è il più vicino che siamo arrivati all’Holodeck di Star Trek”. Prima di discutere sfide e limiti, vediamo perché un sistema come Genie 3 potrebbe rivoluzionare l’addestramento degli agenti AI e dei robot, e come si inserisce nelle tendenze più ampie dell’informatica spaziale e dell’UX nel mondo dell’AI.

Un nuovo terreno di gioco per agenti AI e robotica

DeepMind definisce Genie 3 un general purpose world model, ovvero un modello capace di simulare dinamicamente ambienti diversi utilizzando la sua comprensione del mondo Perché questo conta? Perché fornisce alle intelligenze artificiali un campo di addestramento illimitato e sicuro. Invece di imparare in condizioni reali (costose o rischiose) o su dati statici, gli agenti possono esercitarsi in compiti complessi dentro simulazioni realistiche e sempre nuove. In altre parole, i world model come Genie offrono all’AI “mondi-giocattolo” dove sperimentare, fallire e riprovare, il tutto a velocità accelerata e senza causare danni nel mondo vero. Non a caso DeepMind vede questi sistemi come fondamentali sulla strada verso agenti in grado di agire nel mondo reale.

Proprio qui entra in scena SIMA, l’altro pezzo del puzzle. SIMA (acronimo di Scalable, Instructable Multiworld Agent) è un agente AI generalista presentato sempre da DeepMind quest’anno, progettato per muoversi e seguire istruzioni in una vasta gamma di ambienti virtuali 3D. A differenza degli agenti specializzati in un singolo videogioco o simulazione, SIMA è stato addestrato su 9 giochi diversi (in collaborazione con 8 studi di videogame) più alcuni ambienti di ricerca, imparando centinaia di abilità di base – dal navigare e raccogliere oggetti fino al pilotare un’astronave, ed è capace di capire comandi in linguaggio naturale e tradurli in azioni (mouse e tastiera virtuali). L’obiettivo non era battere record di punti, ma seguire istruzioni varie in mondi sempre diversi, un po’ come farebbe un umano che prova tanti giochi nuovi.

Il risultato notevole è che l’agente “generalista” ha superato gli specialisti: nei test, un singolo modello SIMA addestrato su tutti e 9 i giochi ha ottenuto prestazioni migliori in ciascun gioco rispetto a modelli addestrati solo su quel gioco. Non solo – quando un agente SIMA veniva allenato su 8 giochi su 9, se la cavava quasi allo stesso livello di un agente dedicato nel 9° gioco mai visto prima. Questo è un fatto cruciale: indica un’ottima capacità di generalizzazione e trasferimento delle competenze. In pratica, l’AI che “ha visto un po’ di tutto” riesce a orientarsi anche in situazioni nuove, talvolta meglio di un’AI che ha grindato un solo compito in modo ossessivo. È un risultato controintuitivo ma che rispecchia un principio umano: saper imparare ad imparare da contesti vari può essere più potente che ottimizzarsi in un singolo dominio.

Ora, se colleghiamo i puntini, l’accoppiata Genie 3 + SIMA appare formidabile. Il punto di forza di Genie 3 – generare mondi sempre diversi a richiesta – è esattamente ciò di cui hanno bisogno agenti tipo SIMA per diventare ancora più versatili. DeepMind stesso ha già iniziato a testare i due in tandem: hanno generato con Genie 3 alcuni mondi di prova e ci hanno immerso una versione recente dell’agente SIMA, istruendolo a perseguire vari obiettivi all’interno di quei mondi. SIMA interagiva con Genie 3 mandandogli comandi di navigazione (es. vai avanti, gira a destra, prendi l’oggetto) e Genie reagiva aggiornando l’ambiente, il tutto senza avere conoscenza “interna” dello scopo dell’agente – simula semplicemente il risultato delle sue azioni.

Il fatto notevole è che Genie 3, mantenendo coerenza per minuti e supportando sequenze di azioni più lunghe rispetto al passato, permette ora all’agente di completare compiti più complessi senza reset dell’ambiente. DeepMind vede questa tecnologia come un ingrediente chiave verso sistemi più generali e infine l’AGI, dove agenti simulati giocano un ruolo crescente nello sviluppo e test di capacità prima di applicarle al mondo reale.

Perché è importante per la robotica?

Oggi per addestrare robot si fa largo uso di simulazioni e di tecniche come la domain randomization: in pratica, si creano tante varianti di un ambiente (ad es. decine di cucine virtuali con colori, illuminazioni e arredi diversi) e ci si allena il robot, così quando lo si trasferisce in una cucina reale che non ha mai visto, è più probabile che generalizzi bene senza rimanere spiazzato da un dettaglio fuori posto.

Genie 3 porta questo concetto all’estremo: invece di variare manualmente alcuni parametri in un simulatore, genera da zero mondi completamente nuovi, con fisiche, oggetti, texture e layout ogni volta differenti. Il robot quindi non impara solo su “tutti i tipi di cucina”, ma su ambienti che vanno ben oltre la sua missione specifica, costringendolo a sviluppare capacità di adattamento più profonde. Come ha scritto Ben Dickson, di fronte alla scarsità inevitabile di dati reali per addestrare robot in ogni scenario possibile, avere infiniti mondi sintetici da esplorare potrebbe consentire agli agenti di scoprire soluzioni del tutto nuove ai problemi. Non sappiamo ancora quale sarà la killer application di Genie 3 – nemmeno DeepMind può prevederlo con certezza – ma scommette che dentro questa “scatola magica” ci sia un potenziale enorme da sbloccare col giusto approccio.

Le ricadute pratiche vanno oltre il classico robot domestico. Pensiamo alle operazioni autonome in settori come logistica, manifattura, costruzioni, trasporti: poter simulare a piacere migliaia di scenari rari o pericolosi – un guasto improvviso a un macchinario, un ostacolo inatteso sul percorso di un veicolo, condizioni meteo estreme in cantiere – e addestrare agenti AI ad affrontarli, prima di metterli in campo, sarebbe di enorme aiuto. Con Genie 3 è teoricamente possibile ”mintare” (coniarsi) infiniti mondi con combinazioni diverse di fattori di disturbo, molto oltre ciò che si potrebbe progettare manualmente. Inoltre, il fatto che un modello generativo possa valutare il comportamento di un altro agente in simulazione (vedi SIMA) apre alla possibilità di usare l’AI non solo per training ma anche per testing: Genie può funzionare da banco di prova per vedere dove il robot sbaglia più spesso, quali condizioni lo mandano in tilt, e quindi aiutare gli ingegneri a identificare le debolezze di un sistema prima che sia fuori nel mondo. DeepMind evidenzia proprio questo aspetto: Genie 3 fornisce un vasto spazio dove addestrare agenti come robot o sistemi autonomi, ma anche dove valutarne le prestazioni e sondarne i limiti in sicurezza.

Va detto che già oggi simulatori avanzati e digital twin vengono usati in ambito industriale, ad esempio per ottimizzare linee produttive o testare robotica mobile nei magazzini. Tuttavia, creare e mantenere a mano queste simulazioni è costoso e richiede aggiornamenti continui per riflettere la realtà. Un sistema come Genie 3 lascia intravedere un futuro in cui molte di queste esperienze virtuali possano essere generate on-demand dall’AI, semplicemente descrivendo la situazione desiderata. Certo, non è garantito che la simulazione generata sia perfettamente accurata in ogni dettaglio (anzi, come vedremo a breve, al momento non lo è). Ma potrebbe bastare a coprire casi “long tail” difficilmente programmabili a mano.

Elon Musk ha commentato di aspettarsi già dall’anno prossimo videogiochi generati interamente dall’AI, dinamici e imprevedibili, “potrai letteralmente descrivere il gioco che vuoi e lui prenderà vita”. Al di là dell’hype, è chiaro che se questa tecnologia matura, avrà impatto anche nell’industria dei videogame e della simulazione formativa: scenari unici per ogni partita, NPC (personaggi) comportamentialmente generati, missioni che si adattano sul momento. Siamo ai primissimi passi, ma Genie 3 indica la strada verso mondi virtuali plasmati dalla creatività dell’utente insieme all’intelligenza della macchina, più che da un team di sviluppatori che pre-scrive tutto.

Verso lo Spatial Computing: il mondo diventa l’interfaccia

La comparsa di modelli come Genie 3 si inserisce in una trasformazione più ampia del rapporto fra digitale e reale, quello che dall’uscita del mio libro Spatial Shift ho definito The Shift verso lo spatial computing. Per decenni abbiamo interagito con la tecnologia attraverso schermi bidimensionali: monitor, smartphone, tablet. Le informazioni stavano dietro un “vetro”, separate dal mondo fisico. Ora quella barriera si sta dissolvendo. Come ho detto e scritto più volte  lo spazio intorno a noi sta diventando l’interfaccia.

In altre parole, invece di portare noi verso i contenuti sullo schermo, le nuove tecnologie portano contenuti e intelligenza dentro il nostro contesto fisico. Lo spatial computing e l’AI insieme fanno “uscire” l’informazione dagli schermi, integrandola nell’ambiente che viviamo. Genie 3, pur operando ancora in un dominio virtuale su monitor, incarna perfettamente questa filosofia: prende conoscenza (da testi, immagini, dati) e la incarna in un mondo digitale concreto con cui possiamo interagire quasi fosse reale. È il concetto di ambiente che prevale su quello di interfaccia: l’utente non clicca bottoni su un menu, ma si muove dentro uno spazio e vive l’esperienza.

Si intravede qui una convergenza con la realtà aumentata e virtuale. Prodotti come Apple Vision Pro, Meta Quest o Magic Leap sono i primi spiragli verso un computing immersivo, in cui contenuti 3D compaiono intorno a noi integrandosi con il mondo reale. DeepMind Genie 3 spinge in avanti il lato AI di questa equazione: mondi 3D generati a comando, personalizzati al volo.

Non è difficile immaginare un futuro in cui indossando un visore AR/VR si possa letteralmente “spawnare” ambienti tramite AI generativa: per training, per intrattenimento o per creatività. Un tecnico potrebbe, stando nel proprio ufficio, chiedere al computer di mostrargli una ricostruzione virtuale della fabbrica in scala 1:1 e provare a interagirci; un progettista potrebbe visualizzare e modificare prototipi di veicoli o edifici come ologrammi spaziali generati dall’AI. In generale, l’AI unita allo spatial computing promette di far dissolvere l’interfaccia fino a renderla trasparente: “non sarà il prossimo gadget, ma il contesto il vero protagonista”, come sintetizza Darunte.

Quando l’intelligenza vive nello spazio intorno a noi, i flussi di lavoro possono diventare così naturali da non accorgerci nemmeno della “tecnologia”, vediamo solo il compito che stiamo svolgendo, arricchito da informazioni contestuali. L’informatica ambientale (ambient computing) è proprio questo: intelligenza diffusa, attivata dalla nostra presenza e dalle nostre intenzioni, più che da click o tap su uno schermo.

Genie 3 può essere visto come un precursore di un “sistema operativo spaziale” generativo. Oggi genera mondi di fantasia su uno schermo, ma concettualmente ci sta dicendo che possiamo chiedere a un’AI di creare ambienti completi in cui poi entriamo e compiamo azioni. È una sorta di Holodeck a bassa risoluzione: uno spazio virtuale creato dall’intelligenza artificiale su cui abbiamo un certo controllo. Se guardiamo avanti di qualche anno, possiamo immaginare di avere ambienti generati in real time non solo nel computer ma nelle stanze intorno a noi – proiettati via occhiali AR o tramite installazioni immersive – dove persone e agenti virtuali coesistono.

Ad esempio, potremmo mescolare ambienti reali e simulati: un robot potrebbe allenarsi metà del tempo in VR su scenari generati, e l’altra metà spostarsi nel nostro mondo fisico, portandosi dietro l’esperienza accumulata. Già ora alcune aziende fanno addestramento in VR per operatori (come simulatori di impianti industriali): un modello come Genie renderebbe la creazione di questi scenari molto più rapida e dinamica, magari anche interattiva con l’utente (lo scenario che si adatta alle azioni del tirocinante in VR).

C’è poi l’aspetto dell’esperienza utente (UX) e del design in era di AI generativa. Tradizionalmente, progettare un’esperienza significava definire ogni stato dell’interfaccia, ogni possibile percorso utente, in modo deterministico. Se invece l’ambiente o l’interfaccia vengono creati on-the-fly da un’AI in base a una richiesta, come si garantisce una buona UX? Si apre un nuovo campo in cui i designer dovranno definire vincoli, regole e linee guida per l’output generativo, piuttosto che progettare ogni pixel.

Ad esempio, come faccio a dire a Genie 3 cosa non deve fare? Come inserisco dei punti fermi (es. un oggetto che deve assolutamente essere presente e funzionare in un certo modo) senza soffocare la creatività spontanea del modello? Nel contesto gaming, gli sviluppatori potrebbero voler generare livelli con Genie, ma vorranno anche controllare difficoltà, obiettivi e comportamenti dei NPC (non-player characters).

Insomma, serviranno strumenti di directability e scripting capaci di dialogare con il modello generativo. Alcuni progetti nascenti (es. la startup Intangible AI fondata da ex-Unity) puntano proprio a iniettare maggior controllabilità in questi mondi generati proceduralmente. Si profila il ruolo di un “AI experience designer”: una figura che non disegna schermate, ma allena e modula i modelli perché producano esperienze utente coerenti, sicure e piacevoli. È un cambio di paradigma nel design: dall’essere creatori dei contenuti a essere curatori di sistemi generativi. Chi saprà padroneggiare quest’arte, definire vincoli creativi all’AI senza bloccarne l’inventiva – avrà un enorme vantaggio.

La sfida non è più costruire prodotti, ma progettare ambienti intelligenti e context-aware in cui gli utenti vivono. 

La UX diventa quasi regia di un’esperienza dinamica, più che statico design di interfacce.

Sfide aperte e passi necessari

Nonostante l’entusiasmo per Genie 3, ci sono diversi limiti e questioni aperte da affrontare perché questa tecnologia possa avere impatti concreti su larga scala. Anzitutto, le limitazioni tecniche attuali: la versione di ricerca di Genie 3 può sostenere solo pochi minuti di interazione continua prima che la coerenza inizi a degradare.

Non siamo quindi vicini a mondi persistenti per ore o giorni di simulazione; tuttavia, il trend di miglioramento dal Genie 2 suggerisce che la finestra temporale potrà estendersi con modelli più grandi e ottimizzati. Altra limitazione è la fisica imperfetta: sebbene il modello mostri comprensione di concetti fisici base (gravità, illuminazione, dinamiche di fluidi in modo qualitativo), può produrre fenomeni bizzarri o poco accurati. Sono stati osservati, ad esempio, personaggi che camminano all’indietro senza motivo, o oggetti che compenetrano altri oggetti – insomma glitch nel rispetto delle leggi fisiche. Questo pone un problema se l’obiettivo è usare queste simulazioni per addestrare robot: come garantire che un robot impari il comportamento giusto se il mondo virtuale talvolta “bara” sulla fisica? I ricercatori stessi riconoscono che, allo stato attuale, mondi così non sono affidabili al punto da garantire che un agente addestrato lì si comporterà correttamente nel mondo reale. Semmai, possono essere utili per far emergere casi in cui l’agente fallisce (dentro la simulazione stessa) e quindi indicare che non sarebbe ancora pronto per la realtà.

In altre parole, per adesso possiamo usare Genie 3 più come stress test per agenti che come oracolo definitivo di validazione.

Un altro vincolo è l’azione limitata dell’agente all’interno di Genie 3: attualmente può inviare comandi di navigazione (muoversi nello spazio), ma non può ad esempio afferrare oggetti, premere pulsanti o costruire cose dettagliate nel mondo generato. L’interazione fisica complessa e la presenza di più agenti indipendenti nello stesso ambiente sono frontiere ancora aperte nella ricerca. Inoltre, al momento Genie 3 accetta soltanto prompt testuali come input iniziale, non immaginib,  la possibilità di partire da una foto o da uno screenshot di un videogioco e “entrarci” resta per ora un intrigante demo, ma non è supportata out-of-the-box nell’anteprima attuale. Su questo punto, curiosamente, il predecessore Genie 2 consentiva input misti testo+immagine, mentre Genie 3 pare aver sacrificato questa flessibilità per concentrarsi sulla generazione interattiva in tempo reale. Non è detto che in futuro non si riacquisti anche la semina visiva (anzi, si parla già di esperimenti per fornire video di input in Genie 3, ad esempio per continuare scene dal mondo reale).

Oltre ai limiti tecnici, ci sono sfide pratiche di adozione. Questi modelli sono enormemente affamati di calcolo: generare grafica 3D fotorealistica via AI frame dopo frame richiede potenza computazionale molto maggiore rispetto a riprodurre scene con un tradizionale motore 3D basato su assets predefiniti. Genie 3 per ora gira su infrastrutture specializzate; portarli in applicazioni consumer o nei flussi di lavoro quotidiani richiederà ottimizzazioni e probabilmente nuovo hardware (es. i progressi di NVIDIA nel settore fanno pensare che GPU dedicate a AI world generation diventeranno realtà).

C’è anche un tema di tooling e integrazione: i creativi e sviluppatori dovranno avere strumenti intuitivi per collaborare con questi generatori di mondi. Non basta rilasciare un’API che sputa fuori ambienti: serviranno interfacce per editare, correggere, salvare e versionare i mondi generati. In ambito professionale, uno studio vorrà poter dire “ok, la versione 3 del livello generato ieri era quasi buona, la riprendo e la modifico un po’ invece di rigenerarla da capo oggi”. Questo implica capacità di controllo fine sui contenuti generati, memorizzazione di seed o parametri per riprodurre ambienti, e magari funzioni di esportazione verso formati standard (immagini, mesh 3D, ecc.) per rifinire il lavoro con software tradizionali. La qualità grezza dei modelli generativi da sola non basta: l’esperienza utente per i creator sarà cruciale quanto i progressi dell’AI.

Vanno considerati aspetti di sicurezza e responsabilità. DeepMind, ben conscia della natura aperta e “magica” di Genie 3, sta procedendo con cautela: il modello è distribuito a un piccolo gruppo in forma di ricerca controllata, proprio per studiarne i rischi e mitigare usi impropri. Un mondo generato in cui l’utente può vagare pone sfide nuove per la moderazione dei contenuti: cosa impedisce che un prompt generi scene violente, o traumatizzanti, o implicitamente offensive? Bisognerà incorporare vincoli e filtri robusti nei modelli, perché un conto è generare un’immagine sgradevole (già problematico), un altro è trovarsi immersi in una scena sgradevole. Anche la proprietà intellettuale è un tema: usare dipinti famosi come “seed” per mondi 3D è affascinante, ma bisognerà chiarire i diritti su quelle creazioni derivate.

Se un utente crea un livello ispirato a un artwork esistente, quell’artista andrebbe compensato? E se il mondo generato contiene marchi o elementi riconoscibili, di chi è la responsabilità? Sono dilemmi già sollevati con la generazione di immagini e musica da parte delle AI, ma nel caso di mondi complessi si aggiunge la difficoltà di monitorare ogni dettaglio generato. Serviranno quindi policy di utilizzo e controlli accurati prima di un rilascio pubblico più ampio. DeepMind dichiara di voler sviluppare Genie in modo responsabile, con feedback interdisciplinare, proprio per capirne le implicazioni e i potenziali impatti negativi.

La scelta di limitare l’accesso e raccogliere le prospettive di eticisti, creatori e ricercatori fa parte di questo approccio prudente

Designed to Be Lived : quando l’interazione smette di essere visiva e diventa spaziale.

Dallo schermo allo spazio digitale da abitare

The Shift In Focus

Apple ha appena reso il testo più difficile da leggere. E no, non è un errore: è un cambio di prospettiva. Con l’introduzione dell’interfaccia “Liquid Glass” su visionOS 2 per il visore Vision Pro, molti utenti si sono sentiti spaesati e hanno reagito con perplessità (e le solite polemiche) prima ancora di comprenderne il senso. Caratteri meno leggibili, trasparenze ovunque, elementi dell’interfaccia sospesi nell’aria: non è solo una scelta estetica ardita, ma una fase di training invisibile con cui Apple prepara il terreno. L’azienda sta addestrando il nostro sguardo a una nuova grammatica del vedere: un’interfaccia che non blocca più la realtà ma la lascia filtrare, uno spazio digitale che non compete col mondo fisico ma vi convive. In altre parole, l’interfaccia non è più qualcosa da osservare su uno schermo piatto – diventa qualcosa da abitare intorno a noi.

Questa transizione rappresenta uno shift percettivo profondo: si passa dalle interazioni bidimensionali su display, mediate da tocchi e swipe, a interazioni immersive in un ambiente che integra reale e virtuale. Il design dello spazio diventa esso stesso interfaccia. Non a caso, il tema centrale di questa edizione è proprio il Spatial Shift: il passaggio dai tradizionali schermi 2D alle interfacce immersive, percettive e ambientali che ci circondano. Apple, con Vision Pro e la nuova interfaccia “Liquid Glass”, sta inaugurando quella che potremmo chiamare una fase di allenamento cognitivo degli utenti verso questo futuro di interazioni spaziali. Il focus si sposta dall’esperienza utente su schermo (UX) a una esperienza spaziale (“SX”) pervasiva. È uno spostamento che coinvolge tecnologia, design e comportamenti umani – uno shift da tenere bene a fuoco.

Educare l’utente a un nuovo paradigma percettivo

Understanding the Shift

Per capire la portata di questo cambiamento, conviene osservare la strategia ricorrente di Apple nell’introdurre nuove interfacce. In passato è già successo: la rimozione del tasto Home dall’iPhone fu inizialmente vissuta come un fastidio; i nuovi gesti parevano poco intuitivi e la curva di apprendimento era scoraggiante. Eppure in breve tempo quei gesti sono diventati la norma, tanto che oggi un iPhone col tasto fisico ci sembra archeologia tecnologica. Lo stesso copione si è visto con l’eliminazione improvvisa del jack audio per le cuffie (accolta da proteste feroci) che ha però spianato la strada al paradigma wireless-first, e ancor prima con l’addio alla tastiera fisica sui telefoni, spazzata via in favore del touchscreen. Ogni cambiamento ha seguito lo stesso iter: disorientamento iniziale, adattamento rapido, standardizzazione definitiva. Prima ci lamentiamo, poi ci abituiamo, infine non vogliamo più tornare indietro.

Questa ripetuta trasformazione non è solo una questione tecnica, ma di psicologia dell’utente. Apple da sempre progetta non solo prodotti, ma comportamenti: esercita una sottile pedagogia tecnologica abituando gradualmente le persone a nuovi paradigmi. Anche stavolta, con Vision Pro e visionOS, la scelta di un’interfaccia semi-trasparente e “difficile” è una leva gentile che spinge a guardare in modo diverso. L’utente è costretto a non fissare più elementi grafici netti su uno schermo, bensì a prestare attenzione a contenuti digitali che si fondono con l’ambiente. Apple sta di fatto educando il nostro modo di vedere: prepara un futuro in cui interagiremo attraverso occhiali AR, o magari lenti a contatto intelligenti e micro-proiettori ambientali, dove sarà la realtà stessa il canvas di informazioni. Per arrivarci, l’interfaccia deve cominciare già oggi a perdere opacità e a uscire dai suoi confini tradizionali. Nel silenzio, Apple sta già dicendo addio al concetto stesso di “display” come lo conosciamo, inaugurando un paradigma in cui lo schermo non c’è più – perché l’interazione avviene tutto intorno a noi.

In questo contesto, Vision Pro non va visto solo come un nuovo gadget, ma come un vero punto di rottura cognitivo. Indossare un computer spaziale modifica la nostra postura e la nostra attenzione, cambia perfino la nozione di “app” e di notifica: in un ambiente tridimensionale, una notifica non è più un semplice alert, ma una presenza accanto a noi; un gesto nell’aria diventa linguaggio espressivo, mentre lo sguardo funge da puntatore e focus semantico. Insomma, Apple sta ribaltando assunti decennali di interazione uomo-computer. E lo fa con la consueta determinazione: non chiederà il permesso di cambiare, ma cambierà – con pazienza e precisione, forte di una visione che spesso è chiara solo col senno di poi. Noi utenti, come sempre, inizialmente ci lamenteremo; poi ci adatteremo; infine chiameremo tutto ciò progresso. Capire questo processo è fondamentale per comprendere lo shift in atto: Apple sta allenando la nostra percezione oggi per prepararci alle interfacce di domani.

Interfacce percettive e la fine del display tradizionale

The Core

Al centro di questa evoluzione c’è un’idea dirompente: l’interfaccia del futuro non sarà progettata per essere guardata, ma per essere vissuta. Non più una Graphical User Interface confinata in una finestra luminosa, bensì una “interfaccia percettiva” diffusa nello spazio attorno a noi. È un cambiamento radicale di paradigma. Per decenni abbiamo misurato il progresso in pollici di schermo, densità di pixel e brillantezza dei display. Ora il display è destinato a dissolversi nell’ambiente: il futuro non è un nuovo schermo, è l’assenza di schermo. I contenuti e le funzioni digitali verranno distribuiti tra diversi elementi: forse un bracciale smart per il controllo interattivo, un device in tasca per la potenza di calcolo, un paio di occhiali (o lenti a contatto) per la visualizzazione. Il dispositivo non starà più “di fronte” a noi, ma su di noi e intorno a noi. In breve, l’esperienza sarà ambientale, invisibile, continua.

Questa prospettiva richiama un principio noto nel design: il buon design tende a diventare invisibile. Come osserva Don Norman (guru dell’usabilità), un prodotto ben progettato si adatta talmente bene ai nostri bisogni da risultare quasi impercettibile nella sua funzione. Un’interfaccia perfetta non attira attenzione su di sé, ma ci permette di svolgere compiti e vivere esperienze in modo naturale. È ciò a cui mira il paradigma spaziale: tecnologie così integrate nel contesto da non sembrare neppure “tecnologia” nel senso tradizionale. Del resto, già nel 1991 il visionario Mark Weiser scriveva che “le tecnologie più profonde sono quelle che scompaiono. Si intrecciano nel tessuto della vita quotidiana fino a diventare indistinguibili da essa”. Oggi quella profezia sembra realizzarsi: l’interfaccia si dissolve nell’ambiente, lo spazio stesso diventa l’interfaccia.

Pensiamo alle implicazioni di questa dissoluzione del display. Per gli utenti significa meno barriere tra mondo digitale e fisico: le informazioni ci “vengono incontro” negli spazi che abitiamo, anziché costringerci a piegare la testa su uno schermo. Ciò potrebbe rendere la tecnologia più umana e a misura dei nostri sensi, restituendo centralità al nostro modo naturale di percepire lo spazio. Non a caso si parla di “spatial computing”: un calcolo computazionale che non vive più dentro uno scatolo luminoso, ma si espande nell’ambiente. In termini di progettazione, questo richiede un cambio di mentalità: dal design di interfacce 2D si passa al design di esperienze tridimensionali, dove entrano in gioco la prospettiva, la distanza, il tatto, il sonoro e persino la cinestetica del corpo. Si passa dalla classica UX alla SX (Spatial Experience), una disciplina ancora in definizione che combina principi di UX design con architettura, psicologia ambientale e design sensoriale.

In sintesi, il cuore dello shift in atto è la trasformazione dell’interfaccia da elemento visibile e separato, a ambiente invisibile e incorporato nella nostra realtà. È una nuova era in cui “lo spazio è il nuovo schermo”. Chi progetta tecnologie dovrà pensare meno a pixel e pannelli, più a esperienze situate nello spazio dell’utente. E l’utente, da parte sua, dovrà sviluppare nuovi alfabeti percettivi per interagire con informazioni che si presentano nel mondo reale invece che su un vetro. È un cambio di core paradigm paragonabile a quello introdotto dallo smartphone, se non più grande: allora il telefono divenne una finestra universale sul digitale; ora quella finestra si spalanca e scompare, perché il digitale permea direttamente la stanza in cui siamo.

Oltre Apple: tentativi, fallimenti e visioni ambientali

The Broader Shift

Sebbene Apple stia guidando con Vision Pro questa transizione, il paradigma delle interfacce ambientali è nell’aria da tempo e coinvolge l’intero settore tecnologico. Da anni si parla di ambient computing, cioè di un computing ubiquo che ci assiste ovunque in modo naturale, senza dover fissare uno schermo. Google, per esempio, descrive la sua missione hardware proprio in termini di ambient computing: tecnologie sempre presenti nella vita quotidiana, pronte all’uso “in qualsiasi momento, in modo che sembri naturale”. L’idea è di interagire con l’ambiente e avere i servizi digitali che rispondono ai nostri gesti, voce e bisogni, invece di farci concentrare su un dispositivo specifico.

Tuttavia, realizzare davvero questa visione si sta rivelando complesso. Alcuni prodotti recenti che provavano ad anticipare il futuro post-schermo hanno incontrato difficoltà e fallimenti, dimostrando che il timing e l’UX devono essere maturi. Ad esempio, il Rabbit R1 (nella foto, a sinistra) e il Humane AI Pin (a destra) sono due dispositivi lanciati con l’obiettivo di superare lo smartphone tradizionale. Il Rabbit R1, presentato nel 2024, è un piccolo gadget tascabile con schermo da 2,9 pollici e un assistente AI integrato, concepito per svolgere in autonomia molte funzioni oggi legate al telefono. Il suo fondatore lo ha descritto come un dispositivo AI-native talmente ambizioso da poter sostituire lo smartphone (prima o poi) – “solo non subito”, ammise realisticamente. Nelle intenzioni, il R1 avrebbe dovuto essere un tuttofare intelligente, un coltellino svizzero digitale capace di usare le nostre app per noi attraverso un modello di AI chiamato “Large Action Model”. In pratica però, già dai primi test è parso chiaro che l’idea superava le capacità concrete del prodotto: l’R1 non è abbastanza potente per rimpiazzare un telefono e finisce per sembrare più che altro un assistente vocale evoluto con un piccolo schermo aggiunto. La visione di Rabbit – per quanto intrigante – è risultata poco definita e prematura rispetto alla tecnologia attuale. Non a caso, di recente Jony Ive (storico designer di Apple) ha liquidato sia il Rabbit R1 che l’AI Pin come “prodotti molto scadenti”, criticando la mancanza di reale innovazione in quelle proposte.

Ancora più emblematica è la parabola del Humane AI Pin, una sorta di spilla intelligente progettata da ex-dirigenti Apple per offrire un’esperienza computing senza schermo. Humane presentava il Pin come l’inizio di un futuro post-smartphone, in cui passeremo meno tempo con la testa chinata sugli schermi e più tempo di nuovo nel mondo reale. L’AI Pin, lanciato a fine 2023, si agganciava agli abiti e combinava fotocamera, micro-proiettore laser e un’assistente AI (sistema operativo CosmOS) per rispondere a comandi vocali ed eseguire varie operazioni al volo. Nelle promesse, doveva fare da filtrato intelligente tra noi e il mondo digitale: niente app da aprire, niente display da toccare – bastava chiedere all’assistente per telefonare, mandare messaggi, tradurre conversazioni o ottenere informazioni sugli oggetti intorno a noi. In teoria, un computer indossabile che “non è un telefono, ma neanche non lo è”, completamente basato sull’intelligenza ambientale.

Purtroppo, tra la visione e la realtà si è aperto un divario. Al debutto, il Pin si è rivelato acerbo e malfunzionante su molti fronti: dalla batteria misera (2-3 ore di autonomia) ai ritardi nelle risposte vocali, dall’interazione tramite proiezione sul palmo (affascinante ma problematica in ambienti luminosi e scomoda nei gesti) fino a funzioni base mancanti. Il verdetto dei recensori è stato impietoso – “promette di liberarti dallo smartphone, ma c’è un problema: semplicemente non funziona titolava The Verge. Dopo un debutto costellato di bug e limiti, Humane ha visto sfumare rapidamente l’entusiasmo: nel giro di pochi mesi l’azienda ha cercato acquirenti e infine è stata venduta a HP, che ha spento il progetto e ritirato dal mercato tutti gli AI Pin già venduti. Un epilogo amaro per un dispositivo lanciato a $699 più abbonamento mensile, che avrebbe dovuto mostrare la via di una “ambient intelligence” indossabile ma si è scontrato con la realtà di un’esperienza utente frustrante e tecnologie non all’altezza.

Casi come Rabbit R1 e Humane AI Pin evidenziano quanto sia difficile anticipare il paradigma giusto al momento giusto. Spesso l’idea può essere valida (meno schermi, più presenza nel mondo reale) ma la maturità dell’ecosistema e dell’UX risulta ancora insufficiente. Queste sperimentazioni però non sono vane: indicano una direzione. Come scriveva un commentatore, il Pin di Humane prometteva un futuro oltre lo smartphone “di gran lunga oltre ciò che la sua tecnologia può fare nel presente” – un po’ come accadde negli anni ’90 a General Magic con il suo Magic Link (un antesignano PDA creato da ex Apple, rivelatosi troppo avanti per l’epoca). I fallimenti insegnano che serve tempo per colmare il gap fra visione e realtà. E insegnano anche che certe idee richiedono un ecosistema integrato per prosperare: proprio ciò in cui Apple tradizionalmente eccelle. Infatti, come notava Fast Company, spesso i prodotti Apple hanno successo perché possono contare su reti di sviluppatori e contenuti che li rendono utili e appetibili, mentre startup come Humane hanno tentato di imporre hardware radicalmente nuovo senza un adeguato parco di applicazioni e servizi di terze parti pronti all’uso.

Dal punto di vista culturale, questa transizione porta con sé anche riflessioni profonde. Il filosofo Byung-Chul Han osserva come la nostra società digitale abbia trasformato gli oggetti in “non-cose”, sostituendo la tangibilità degli oggetti cari con esperienze fugaci e swipe effimeri su schermi. In altre parole, molta della “magia” degli oggetti fisici si è persa in favore di interazioni digitali disincarnate. L’idea di un’interfaccia percettiva ambientale potrebbe rappresentare un tentativo di ricucire lo strappo: riportare il digitale dal regno disincarnato dello schermo a una presenza più concreta nel nostro spazio, ridando corpo e contesto alle informazioni. Anche Don Norman, con la sua enfasi sul design umano-centrico, indirettamente ci ricorda che la tecnologia dovrebbe adattarsi ai comportamenti naturali delle persone e non viceversa – e un computing ubiquitario, integrato nell’ambiente, promette proprio di rispettare maggiormente le nostre abitudini sensoriali e sociali. L’obiettivo ultimo, condiviso da molti innovatori, è un futuro in cui l’informatica sia pervasiva ma discreta, potente ma invisibile, costantemente disponibile ma quasi impercettibile nella routine quotidiana. Arrivarci richiede conquiste sia tecniche (miniaturizzazione, AI sempre più intelligente, nuove interfacce neuronali magari) sia di design ed ergonomia (nuovi linguaggi d’interazione intuitivi, rispetto per l’attenzione e i limiti cognitivi umani). Siamo, in definitiva, di fronte a uno shift non solo tecnologico ma anche di mindset collettivo: reimmaginare il rapporto uomo-macchina in termini più simbiotici e meno mediati da artefatti visibili.

Scenari futuri e opportunità all’orizzonte

What’s Next

Guardando avanti, la domanda non è più se questo spatial shift accadrà, ma quando e come si compirà. Apple sembra seguire un piano ben preciso. Il Vision Pro in uscita (per ora un dispositivo costoso rivolto a sviluppatori e early adopter) è probabilmente solo il primo passo: una sorta di fondamenta su cui costruire un ecosistema di applicazioni spaziali e abituare gli sviluppatori al nuovo paradigma. Già l’anno prossimo o entro un paio d’anni, possiamo aspettarci un’evoluzione verso hardware più compatto – magari un Apple Glass leggero, occhiali AR pensati per il grande pubblico – una volta superate le attuali sfide di produzione e autonomia. Nel frattempo Apple ha iniziato a seminare concetti e interfacce (come il Liquid Glass di visionOS 2) che fungono da ponte cognitivo: ci abitua a testi semi-trasparenti oggi, così domani saremo pronti a indossare un display sugli occhi senza trovare strano vedere il mondo attraverso l’informazione digitale.

In parallelo, l’intero settore tech si muove verso l’immersivo e il percettivo. Meta sta investendo nella sua visione di realtà mista (gli ultimi Quest e prototipi di occhiali AR), Google continua la ricerca su occhiali e sensori ambientali (puntando a realizzare la promessa dell’ambient computing integrato nei suoi servizi cloud), e persino nuove collaborazioni emergono: ad esempio Jony Ive e Sam Altman (OpenAI) hanno annunciato di lavorare insieme a un dispositivo AI innovativo per il 2026 – segno che l’idea di un gadget personale potenziato dall’AI e privo di interfaccia tradizionale è tutt’altro che tramontata, anzi alletta i protagonisti della scena tecnologica. Possiamo aspettarci quindi una proliferazione di esperimenti nei prossimi anni: dagli assistenti personali ambientali (in auto, in casa, integrati nell’IoT) a interfacce neuronali più dirette (Neuralink e affini), fino a piattaforme software che ridefiniscono il concetto di “app” in chiave spaziale e contestuale.

Dal punto di vista del business, si apre una nuova frontiera di opportunità. Chi saprà definire gli standard delle interfacce spaziali – linguaggi gestuali, formati per contenuti AR, protocolli per oggetti intelligenti – potrebbe dominare il prossimo ecosistema come Apple e Google hanno dominato l’era smartphone con iOS e Android. Immaginiamo nuovi servizi: mappe che non si guardano sul telefono ma compaiono direttamente lungo il nostro percorso in strada, e-commerce che materializza schede prodotto in forma di ologrammi nel salotto prima dell’acquisto, assistenti AI che ci sussurrano consigli nell’orecchio contestualmente a ciò che stiamo guardando. Interi settori (dal retail all’education, dalla sanità all’intrattenimento) verranno ripensati in chiave di esperienze miste fisico-digitali. Aziende di design dovranno unire competenze di UX, realtà aumentata e persino architettura d’interni per progettare spazi interattivi. E sul piano culturale e sociale, dovremo monitorare attentamente l’impatto: queste tecnologie potrebbero renderci più liberi dagli schermi, più presenti nella vita reale – o, se mal gestite, creare una nuova ondata di sovrastimolazione e dipendenza, stavolta distribuita ovunque andiamo. La differenza la farà un approccio etico e human-centric: come garantire che l’AR non diventi una continua distrazione invasiva? Come proteggere la privacy in un mondo di sensori ambientali? Come mantenere un controllo consapevole sui flussi informativi che ci raggiungono in realtà aumentata? Queste sono sfide aperte, di design, di regolamentazione e di educazione all’uso.

Quel che è certo, riprendendo le parole del mio libro “Spatial Shift”, è che siamo all’alba di un cambiamento epocale nel nostro modo di vivere, pensare e relazionarci. Un cambiamento paragonabile a ciò che fu l’introduzione dell’iPhone, ma amplificato dalla convergenza simultanea di più tecnologie mature: intelligenza artificiale sempre più avanzata, sensori ambientali diffusi, realtà mista e 3D, connettività pervasiva. Questa convergenza sta preparando il terreno per riscrivere radicalmente le regole dell’interazione uomo-macchina e, di conseguenza, tanti modelli di business e di uso quotidiano. Siamo in un momento di rara energia innovativa, in cui device come Vision Pro o esperimenti come l’AI Pin fanno parlare di una nuova entusiasmante fase del tech come non succedeva da anni. Ma – come sempre accade nelle grandi transizioni – l’hype iniziale dovrà tradursi in adozione reale e valore pratico. La strada dei prossimi anni vedrà iterazioni continue: prototipi, versioni beta, successi sorprendenti e flop clamorosi. È un processo di learning by doing collettivo, dove ogni tentativo (anche fallito) contribuisce ad avvicinarci all’obiettivo finale: un computing realmente invisibile, naturale e potenziante.

Dentro lo shift, verso un futuro da abitare

The Shift Continues

In conclusione, lo shift continua. Siamo solo alle prime pagine di questa nuova storia tecnologica: come hanno ammesso i fondatori di Humane, “oggi non siamo nemmeno al primo capitolo, ma alla prima pagina” di un futuro in cui l’AI ambientale e le interfacce spaziali ridisegneranno la nostra relazione con la tecnologia. Ogni giorno che passa aggiungiamo un tassello – una riga di codice in visionOS, un nuovo sensore indossabile, un gesto che diventa standard – e ci spingiamo un po’ più in là verso l’era dell’interfaccia diffusa. All’inizio potrà sembrare strano, scomodo o prematuro (come tutte le grandi rivoluzioni all’inizio sembrano). Ma se la storia recente ci insegna qualcosa è che ci abituiamo in fretta ai nuovi paradigmi, quando questi risolvono problemi reali o migliorano la qualità della vita. E a quel punto, voltandoci indietro, ci chiederemo come potevamo vivere chiusi dentro gli schermi senza abitare anche il lato digitale del nostro spazio.

Questo numero di InsideTheShift ha voluto esplorare il passaggio dalle interfacce da osservare a quelle da vivere, dai pixel ai luoghi aumentati, dagli oggetti alle esperienze. È uno shift che coinvolge tecnologia, business, cultura e design in egual misura. Continueremo a seguirne gli sviluppi nelle prossime edizioni, analizzando come evolvono i dispositivi, le piattaforme e – soprattutto – le abitudini delle persone. Come sempre, restiamo dentro lo shift per coglierne per tempo le opportunità e le sfide. Ci aspetta un futuro in cui l’interazione uomo-macchina sarà tanto pervasiva quanto trasparente, un futuro da costruire con visione ma anche con responsabilità. Il viaggio continua: la spatial shift è iniziata, e saremo qui a raccontarla passo dopo passo.

Stay Inside the Shift.

Il resto dei Toolbox, delle risorse linkate e dei takeaway lo trovate qui su Substack InsideTheShift in inglese.

Ho tolto il visore, ma l’ombra è rimasta. Afterimage Mentale.

Ci sono esperienze che non ti accorgi di vivere fino a quando finiscono. Ti restano dentro come un riflesso, come un gesto che fai senza pensare. Ed in questo caso, il mio è stato semplice: alzare lo sguardo verso la parete del soggiorno alla mia destra, cercando il widget con le informazioni dei timer “pomodoro” che avevo messo li. Ma lì non c’era niente. E non perché fosse scomparso dal sistema. Semplicemente, non indossavo più il visore.

Uso Vision Pro da mesi, in realtà ne ho due, come ho raccontato più volte. È parte del mio quotidiano ormai. Non più solo per test o demo, ma per lavorare: scrivere, fare call, rivedere documenti, organizzare task, rispondere a mail, senza necessità di portare il mac, ma avendo la potenzialità di schermi, tutto intorno a me.

In questi ultimi giorni, con l’aggiornamento a visionOS 26, ho voluto spingere l’esperimento oltre. Ho “arredato” il mio spazio domestico, nello specifico il mio studio, il soggiorno e lo spazio in veranda, con widget persistenti: elementi informativi digitali ancorati nello spazio reale. Orologi, cruscotti, alert di borsa, piccoli moduli API che si aggiornano in tempo reale che sto implementando per sperimentazioni. E soprattutto: posizionati con cura, in funzione della loro utilità (le note della spesa e della dieta, sul frigorifero sono una bomba atomica).

Integrazione di luci, ombre, materiali. Nessuna sensazione di intrusione. Solo presenza.

Poi, dopo due ore abbondanti (per adesso è il tempo che mi sono dato), ho tolto il visore. Ed è lì che è successo qualcosa.

Quel gesto dello sguardo, istintivo, naturale, mi ha fatto capire che quei widget non erano solo overlay digitali. Non erano semplici “finestrine fluttuanti”. Erano diventati oggetti cognitivi. Parte del mio ambiente. Ancorati non solo al muro, ma alla mia memoria spaziale.

Il nostro cervello funziona così: lega informazioni allo spazio. Ricordi dov’è la chiave di casa, anche se non ci pensi. Ti muovi in un ambiente buio perché ne conosci la struttura. Allo stesso modo, inizi a sapere che quell’informazione specifica, la prossima riunione, l’andamento di un titolo, una nota lasciata a metà sta lì, in quel punto preciso dello spazio aumentato. E anche quando togli il visore, il cervello si aspetta che sia ancora lì.

Quel momento non è stato un momento di confusione. È stato un afterimage mentale.

Ci sono oggetti fisici che cerchiamo per abitudine. Il telecomando. Il telefono. Le chiavi. Ma quando non trovi un oggetto virtuale, la sensazione è diversa: non è perso, è stato rimosso. E se era ancorato al tuo spazio, è come se qualcuno lo avesse cancellato dalla realtà, ma ai la sensazione che sia rimasto un alone in quel punto.

Il paradosso è che più queste informazioni diventano persistenti, più diventano “reali”. E quando non ci sono più, non le percepisci come assenti. Le percepisci come mancanti. Come una lacuna nel mondo. Un’assenza che ti destabilizza, anche solo per un attimo.

E allora ti accorgi che quello che chiamavamo “digitale” ha iniziato a lasciare ombre nel reale. Letteralmente.

In un contesto lavorativo, questi widget aumentano efficienza, chiarezza, focus. Ti danno un ambiente organizzato, dinamico, su misura e iperpersonalizzato. Nessuna interfaccia da aprire o chiudere: tutto è lì, dove serve, quando serve. Una forma nuova di “ambient computing”, visiva e contestuale.

Ma c’è un’altra faccia della medaglia.

L’aumento continuo, se costante, se invisibile, rischia di diventare il nuovo default. E quando viene meno, il mondo torna nudo. Scarico. L’ambiente non è più neutro: è deprivato. Un po’ come accendere una stanza con luce naturale e poi spegnere di colpo. Non è solo buio: è impoverimento percettivo.

E allora ti chiedi: quanto il reale è ancora sufficiente, se non è aumentato?

Per anni abbiamo parlato di disconnessione come antidoto alla sovraesposizione da schermo. Di detox digitale, di staccare. Ma ora il problema si sposta. Il vero tema non sarà più “staccarsi dallo smartphone”, ma dal layer.

Disconnettersi significherà rinunciare a qualcosa che è dentro il nostro spazio. Che è diventato parte del nostro orientamento, della nostra organizzazione. Del nostro pensiero. E farlo non sarà solo difficile. Sarà controintuitivo.

Come spegnere la luce artificiale e scegliere di restare al buio. Sapendo che puoi riaccenderla in ogni momento.

Ecco perché il gesto che ho fatto, alzare lo sguardo verso un widget che non c’era più, mi è rimasto addosso. Perché quel vuoto non era virtuale. Era reale. Era mio.

Stiamo vivendo un momento in cui l’informazione non è più una cosa che andiamo a cercare. È qualcosa che ci sta accanto. Che si materializza con noi, e per noi. E che in molti casi ci cerca e ci raggiunge. Ma quando ci abitueremo a un mondo così aumentato, quanto sarà difficile non aumentarlo?

E se il vero problema non sarà più “avere accesso” alle informazioni, visto che saremo immersi e interagiremo con le informazioni anche senza volerlo, forse il punto vero di riflessione sarà capire come saperle lasciare andare?

Il prossimo confine non sarà la realtà virtuale, ma la realtà vuota. E dovremo imparare ad abitarla di nuovo. Anche solo per ricordarci com’era, prima di essere aumentata.

4D Gaussian Splatting: la tecnologia 4DV.ai di Jiaming Sun che rende i video immersivi

Negli ultimi anni la ricerca sulla visualizzazione volumetrica 3D/4D ha compiuto passi da gigante. Il giovane ricercatore cinese Jiaming Sun, fondatore della startup 4DV.ai, è tra i protagonisti di questa rivoluzione. Sun descrive la missione di 4DV.ai come “inventare la prossima generazione di media visivi – interattivi, volumetrici e veramente fotorealistici”. In pratica, parliamo di video che non si limitano a essere riprodotti su uno schermo bidimensionale, ma che possono essere esplorati liberamente nello spazio (e nel tempo) dall’utente, come fossero “ologrammi” interattivi. Al cuore di questa innovazione c’è una tecnica avanzata chiamata 4D Gaussian Splatting, oggetto di pubblicazioni accademiche e demo impressionanti visibili sul sito di 4DV.ai. Vediamo di cosa si tratta, come funziona e perché molti la considerano un salto di qualità rispetto a tecnologie precedenti come i NeRF e le soluzioni di aziende come Luma AI.

Come funziona il 4D Gaussian Splatting

Il termine Gaussian Splatting potrebbe suonare ostico, ma il concetto di base è intuibile: invece di rappresentare una scena 3D con i tradizionali poligoni o mesh, la si rappresenta come un insieme denso di punti volumetrici “sfumati” (le Gaussiane) nello spazio. Immaginiamo ogni punto come una piccola nuvola tridimensionale con una distribuzione di colore e trasparenza a forma di campana (da cui il nome Gaussiana). Migliaia o milioni di queste “macchie” opportunamente distribuite possono approssimare qualsiasi scena reale in modo fotorealistico, senza bisogno di superfici poligonali esplicite.

Per costruire queste rappresentazioni, il sistema parte tipicamente da fotografie o video ripresi da più angolazioni intorno alla scena (ad esempio con diverse videocamere, oppure con uno smartphone in movimento). Attraverso algoritmi di computer vision, si ricostruisce inizialmente una nuvola di punti grossolana della scena. A ciascun punto viene poi associata una “splat” Gaussiana, definita dai suoi parametri fondamentali: posizione nello spazio (coordinate XYZ), dimensioni e forma (descritte da una matrice di covarianza 3×3 che indica come il punto è esteso/elongato nelle varie direzioni), colore (valori RGB) e un coefficiente di trasparenza α. Nel caso del 4D Gaussian Splatting, a questi parametri spaziali si aggiunge anche una dimensione temporale: le Gaussiane possono variare nel tempo o esser presenti solo in certi istanti, permettendo così di rappresentare scene dinamiche (in movimento) all’interno di un unico modello volumetrico 4D.

Renderizzazione volumetrica e view-dependent rendering

Come si ottiene un’immagine da questa “nuvola” di Gaussiane? Il processo di rendering avviene per splatting, ossia proiettando ogni Gaussiana sul piano dell’immagine della camera virtuale e fondendo (blending) i contributi di tutte le Gaussiane visibili. In pratica, per ogni pixel dell’inquadratura calcolata, il sistema accumula il colore di tutte le Gaussiane che si trovano lungo il corrispondente raggio visivo, attenuato dalla trasparenza e dalla profondità (un principio simile all’equazione di rendering volumetrico usata nei NeRF). La grande differenza è che, mentre un NeRF campiona decine di punti lungo ogni raggio passando i dati in una rete neurale pesante da eseguire, il Gaussian Splatting lavora direttamente sui punti espliciti: proietta le Gaussiane una volta sola e combina i loro contributi in modo ordinato (dal più vicino al più lontano) con un efficiente algoritmo di rasterizzazione. Questo significa che la generazione di ogni frame è molto più leggera computazionalmente, abbastanza da poter avvicinare o raggiungere il tempo reale – un vantaggio cruciale rispetto ai metodi neuronali puri.

Un altro aspetto chiave è la gestione dei riflessi, luci e altri effetti dipendenti dal punto di vista (view-dependent). Nei NeRF originali, questi effetti venivano appresi dalla rete neurale in funzione della direzione di vista, mentre nelle rappresentazioni a splatting si ottiene risultato analogo assegnando a ciascuna Gaussiana dei coefficienti aggiuntivi che modulano il colore in base all’angolo di osservazione (spesso tramite espansioni in armoniche sferiche). In sostanza, ogni splat può avere un colore base diffuso e una componente “speculare” o variabile, consentendo di riprodurre fedelmente bagliori, riflessi e cambi di illuminazione mentre l’utente muove la visuale. Sun e colleghi, ad esempio, hanno progettato un modello di appearance compatto che mescola Gaussiane diffuse e Gaussiane view-dependent per mantenere alta la qualità visiva riducendo al contempo la quantità di dati da memorizzare.

Dai video 2D alla scena 4D: l’innovazione delle Gaussiane dinamiche

La vera sfida affrontata da 4DV.ai è portare questa tecnologia dal caso statico 3D a quello dinamico 4D, cioè ai volumetric videos (video volumetrici) in cui la scena evolve nel tempo. Rappresentare un’intera sequenza temporale come volume 4D significa tecnicamente ottimizzare Gaussiane che vivono in uno spazio a quattro dimensioni (x, y, z più t per il tempo). Questo approccio, chiamato proprio 4D Gaussian Splatting (4DGS), è stato proposto di recente in letteratura come metodo promettente per catturare variazioni spaziali e temporali ad alta fedeltà. Il vantaggio è poter ottenere ricostruzioni 3D di scene in movimento (persone che si muovono, oggetti in azione, ecc.) con qualità fotorealistica e consistenza temporale elevata, producendo in pratica un “ologramma” animato navigabile.

Sun, che nel frattempo continua a contribuire alla ricerca accademica in collaborazione con l’Università di Zhejiang, è co-autore di alcuni studi pionieristici sul 4DGS. In una pubblicazione del 2024, ad esempio, il suo team ha affrontato uno dei limiti del 4DGS puro: l’elevato costo computazionale e di memoria di rappresentare tutto in 4D, anche le parti statiche della scena. La soluzione proposta è un approccio ibrido e gerarchico: identificare le regioni statiche che non cambiano nel tempo e trattarle con Gaussiane 3D standard, riservando invece le Gaussiane 4D solo agli elementi dinamici. Inoltre, introducono una gerarchia temporale: la scena viene descritta a diversi livelli di dettaglio temporale, riutilizzando gli stessi punti Gaussiani per rappresentare intervalli in cui nulla cambia, e aggiungendo invece punti extra solo dove avvengono movimenti rapidi. In questo modo si riduce drasticamente il numero totale di Gaussiane necessarie, rendendo la rappresentazione molto più compatta. La struttura “ad albero” risultante permette di scalare a minuti di video mantenendo l’uso di memoria video quasi costante indipendentemente dalla durata.

I risultati riportati sono impressionanti: grazie a questa Temporal Gaussian Hierarchy, il sistema di Sun e colleghi riesce a gestire volumi 4D lunghi 18.000 frame (diverse decine di secondi di video) con circa 17 GB di VRAM, laddove metodi precedenti andavano fuori memoria già a 300 frame su una GPU da 24 GB. Il loro metodo mantiene qualità di rendering all’avanguardia e supporta frame rate elevati (fino a centinaia di FPS a 1080p su GPU di fascia alta), aprendo la strada a video volumetrici lunghi fruibili in tempo reale. Si tratta di progressi documentati in peer review che attestano la validità scientifica della tecnologia 4DV.ai.

Confronto con NeRF, Luma AI e altri approcci alla scena 3D/4D

Vale la pena contestualizzare il Gaussian Splatting rispetto alle tecniche affini. I Neural Radiance Fields (NeRF), introdotti nel 2020 da Mildenhall et al., hanno inaugurato l’era del neural rendering consentendo la sintesi di viste novel-view fotorealistiche da immagini 2D. Un NeRF rappresenta la scena come una funzione neurale implicita appresa (una rete che, dato un punto 3D e una direzione, restituisce colore e densità), e genera immagini per integrazione lungo i raggi visivi. La qualità ottenibile è elevata, comprensiva di riflessi e illuminazione realistici, come ha dimostrato la startup Luma AI portando NeRF su smartphone per catturare oggetti e ambienti reali. Luma, ad esempio, permette di scansionare in 3D scene reali con un iPhone e condividerle sul web come scene interattive, sfruttando reti neurali di radiance field per riprodurre dettagli intricati, riflessi e giochi di luce da ogni angolo. Questo ha reso la fotogrammetria neurale accessibile al grande pubblico per oggetti statici e piccoli ambienti.

Tuttavia, i NeRF presentano anche limiti chiari. Prestazioni: l’inferenza di una rete NeRF è onerosa, inizialmente richiedeva secondi o minuti per frame; solo con ottimizzazioni come Instant NGP si è ridotto il tempo, ma rimanendo lontani dal vero tempo reale per scene complesse. Addestramento: ogni nuova scena richiede un costoso processo di ottimizzazione (training) della rete che può durare da minuti a ore, mentre i metodi a splatting ottimizzano direttamente punti espliciti con convergenza più rapida. Rappresentazione implicita: la natura “black box” della rete rende difficile modificare o integrare la scena dopo il fatto (ad es. rimuovere un oggetto, unire scene) – operazioni invece più semplici se si dispone di un insieme esplicito di punti/gaussiane su cui si può intervenire direttamente.

Il 3D Gaussian Splatting (3DGS) di Kerbl et al. (SIGGRAPH 2023) è emerso proprio come un’alternativa interessante perché concilia qualità e velocità. Invece di sampleare un volume con una MLP, 3DGS usa primitve gaussiane esplicite e una rasterizzazione efficiente: il risultato sono rendering in tempo reale con qualità paragonabile o superiore ai NeRF pesanti. In letteratura si riportano miglioramenti sia in fedeltà che in frame rate: “il 3DGS offre qualità migliorata e capacità di rendering real-time, a differenza di NeRF che si basa su rappresentazioni implicite e su un costoso rendering volumetrico”. In pratica NeRF rimane più compute-intensive, mentre Gaussian Splatting sfrutta al meglio l’hardware grafico come fosse una nuvola di punti intelligente.

È indicativo che la stessa Luma AI abbia recentemente aggiunto il supporto all’export in formato Gaussian Splatting accanto ai NeRF neurali. Questo suggerisce che anche nell’industria si riconosce il valore di combinare i due approcci: usare le reti neurali fin dove servono (es. per stimare geometria e colori iniziali da input fotografici), ma poi passare a una rappresentazione esplicita di Gaussiane per la fruizione finale interattiva. In ambienti come Unity o Unreal Engine esistono già plugin sperimentali per importare Gaussian Splats e utilizzarli nei giochi o applicazioni XR, cosa che i developer vedono con entusiasmo per ottenere grafica fotorealistica a frame rate elevati anche su hardware non estremi.

In termini di soluzioni alternative per scene dinamiche, oltre ai NeRF estesi (come NR-NeRF, DNerf e altri che introducono embedding temporali o voxel 4D ma soffrono in efficienza), ci sono approcci come i light field videos e i sistemi volumetrici multi-camera usati in produzioni cinematografiche o sportive. Ad esempio, studi come Microsoft Mixed Reality Capture (holostudio) usano decine di telecamere per ricostruire soggetti umani in 3D animato, ma generano mesh o point cloud frame-by-frame con costi elevati. La differenza chiave del metodo di 4DV.ai è che punta a ottenere un risultato simile (un video navigabile a 6 gradi di libertà) senza camera rig proprietari, con input potenzialmente alla portata di chiunque (perfino un normale video 2D, secondo alcune demo teaser) e con un formato dati snello, streammabile via web. Siamo dunque di fronte a un game changer che unisce la flessibilità dei modelli neurali alla concretezza modificabile dei dati espliciti.

Applicazioni: dal consumo di contenuti all’enterprise e all’AI

Le potenziali applicazioni dei video 4D volumetrici sono vaste e in parte ancora da esplorare. Possiamo suddividerle in diversi ambiti:

  • Consumer e Intrattenimento: Immaginiamo i ricordi personali in 3D – invece di un semplice video sul telefono, rivivere un momento (una festa, una vacanza) potendosi muovere liberamente nella scena con un visore VR o sullo schermo. Oppure i concerti e eventi sportivi immersivi, dove lo spettatore da casa diventa regista e può “camminare” virtualmente sul palco o sul campo da gioco. L’industria dei videogiochi e degli effetti speciali potrebbe utilizzare il Gaussian Splatting per creare ambienti 3D realistici integrando attori reali digitalizzati, riducendo costi di green screen e permettendo inquadrature impossibili con le tecniche tradizionali. Anche cinema e serie TV potrebbero beneficiare di virtual production più flessibile: ad esempio girare una scena e poi decidere in post-produzione qualsiasi movimento di camera, grazie al set ricostruito volumetricamente.
  • Enterprise, Digital Twin e Realtà Aumentata: Aziende come Siemens, Microsoft, Meta vedono un enorme potenziale nei digital twin: copie digitali di luoghi, impianti industriali o città intere, da ispezionare e monitorare a distanza. Il Gaussian Splatting permette di ottenere visualizzazioni 3D fotorealistiche di ambienti complessi (fabbriche, infrastrutture, cantieri) in cui muoversi e interagire, utili per manutenzione da remoto, formazione di personale, pianificazione di modifiche architettoniche, ecc. Rispetto ai modelli CAD tradizionali, una cattura 4D offre sia realismo (per valutare illuminazione, materiali, ecc.) sia aggiornamento continuo nel tempo (monitoraggio di progressi, cambiamenti o anomalie). In ambito urban planning, poter simulare lo sviluppo di un quartiere visualizzando un modello di città vivo e pulsante in 4D (con traffico, pedoni, illuminazione variabile nell’arco del giorno) sarebbe uno strumento di enorme impatto. Anche il settore real estate può trarre vantaggio: visite virtuali di immobili dove l’acquirente può esplorare a 360° come se fosse sul posto, con una fedeltà tale da ridurre sorprese e incomprensioni (vedendo reali proporzioni, materiali, viste dalle finestre in diversi orari, ecc.).
  • Telepresenza e Comunicazione: Collegato ai punti sopra c’è il tema della telepresenza immersiva. In futuro, una videochiamata potrebbe trasformarsi in un’esperienza in cui la persona remota è catturata volumetricamente in tempo reale e appare nel nostro spazio attraverso AR/VR. Sun stesso crede molto in questa direzione, vedendo VR/AR come la prossima interfaccia uomo-macchina ubiqua che rivoluzionerà la comunicazione (al pari di ciò che furono i touchscreen). Perché ciò si realizzi, servono tecnologie di cattura e rendering efficienti: 4DGS potrebbe permettere di trasmettere “ologrammi” dal vivo comprimendo i dati in modo intelligente (inviando solo i parametri delle Gaussiane aggiornati ogni frame anziché nuvole dense di punti grezzi) e renderizzandoli sul dispositivo dell’utente in tempo reale.
  • Intelligenza Artificiale e Generazione Contenuti: C’è un interessante incrocio tra Gaussian Splatting e AI. Da un lato, modelli 3D espliciti come questi possono fornire dati di addestramento per sistemi di visione artificiale: ad esempio, un’AI per la guida autonoma o la robotica può allenarsi in mondi virtuali fotorealistici generati con splatting, testando la capacità di percepire profondità e riconoscere oggetti in scenari simulati ma realistici. Dall’altro lato, i modelli generativi stessi possono integrarsi con rappresentazioni a Gaussiana: alcuni ricercatori propongono di usare le scene Gaussian Splatting come base strutturata su cui applicare modelli generativi 2D/3D, ottenendo video generati dall’AI ma con coerenza spaziale e temporale molto maggiore. In pratica, un modello di diffusione potrebbe generare i dettagli visivi su una griglia di Gaussiane già consistente in 3D, evitando sfarfallii e deformazioni fotogramma per fotogramma. Strumenti come Runway stanno esplorando la generazione video condizionata, e disporre di “punti di ancoraggio” 3D (splat) potrebbe essere la chiave per fare il salto verso video generati dall’AI davvero credibili e stabili. Inoltre, la velocità di rendering delle Gaussiane consente iterazioni rapide nel training di modelli AI (ad esempio per fare data augmentation on-the-fly con scenari variati).

Accessibilità e potenzialità creative di 4DV.ai

Uno degli aspetti più entusiasmanti della tecnologia sviluppata da Jiaming Sun è la sua enfasi sull’accessibilità. Tradizionalmente, i contenuti volumetrici 3D di alta qualità erano appannaggio di laboratori specializzati, con array di decine di telecamere sincronizzate e infrastrutture di calcolo notevoli. Ora si profilano soluzioni capaci di trasformare anche input più semplici (come un normale video 2D o pochi video amatoriali) in esperienze 4D immersive. La startup 4DV.ai ha mostrato demo in cui da filmati convenzionali viene ottenuto un output esplorabile a 6DoF, completo di audio sincronizzato. Il loro viewer web permette già di caricare un file .4dv precomputato e navigarlo direttamente nel browser – un fatto straordinario se pensiamo alla complessità del rendering coinvolto. Con un PC moderno e una scheda grafica adeguata, l’utente può fruire da browser di questi contenuti volumetrici con qualità regolabile e persino in modalità VR (il player supporta visori come Meta Quest o Apple Vision Pro). In altre parole, la barriera all’ingresso per godere (e creare) media volumetrici si sta abbassando: niente più app pesanti da installare o hardware esotico, basta un link su Chrome/Edge e si entra nella scena.

Dal punto di vista creativo, questo schiude possibilità enormi. Registi, artisti e designer possono iniziare a pensare a nuove forme di storytelling dove lo spettatore diventa parte attiva della narrazione, libero di scegliere prospettiva e ritmo. Si potrebbe realizzare un documentario storico ricostruendo ambienti d’epoca in 4D: lo spettatore cammina tra le rovine dell’Antica Roma o rivive una battaglia, decidendo cosa osservare più da vicino. Oppure pensiamo ai videoclip musicali volumetrici, dove l’utente può muoversi tra i performer sul palco; o installazioni museali interattive, in cui opere d’arte e ambientazioni vengono scannerizzate in Gaussian Splats per un’esperienza immersiva e didattica.

Il fatto che le scene a Gaussiane siano editabili con relativa facilità apre a mash-up e remix: un creatore potrebbe eliminare elementi da una scena acquisita (essendo punti separati, si possono filtrare/rimuovere) o combinarne due insieme, o ancora applicare effetti artistici alterando i colori/trasparenze delle Gaussiane per ottenere look stilizzati. Tutto ciò sarebbe molto più complicato con un NeRF “annidato” nei pesi di una rete neurale. In sintesi, siamo di fronte a un medium nascente che combina fotorealismo e libertà interattiva in un modo mai visto prima.

Guardando oltre

La tecnologia di Jiaming Sun e 4DV.ai sul 4D Gaussian Splatting rappresenta un importante avanzamento nel campo della visione e grafica computazionale. Le pubblicazioni accademiche di Sun – ad esempio sul metodo di Gerarchia Gaussiana Temporale – ne confermano la solidità scientifica e le prestazioni rivoluzionarie nel rappresentare scene dinamiche. Rispetto ai precedenti approcci (NeRF e simili), i vantaggi in termini di efficienza, qualità e manipolabilità sono notevoli, e stanno spingendo l’intero settore verso soluzioni più esplicite e real-time.

Siamo solo agli inizi di quello che potrebbe diventare un nuovo formato standard per i media immersivi – una sorta di “JPEG del 4D”. L’ecosistema si sta muovendo velocemente: dai progetti open source ai primi tool commerciali che integrano lo splatting (come Luma), fino all’interesse dei colossi tech per applicazioni in metaverso, smart city e oltre. Per il pubblico generalista, tutto ciò si tradurrà in esperienze più ricche: dai social media di prossima generazione dove condividere “momenti 4D”, fino ai contenuti di intrattenimento e formazione che sfumeranno il confine tra reale e virtuale.

La visione di 4DV.ai di un medium interattivo, volumetrico e fotorealistico sembra sempre meno fantascienza e sempre più una concreta evoluzione del modo in cui creeremo e fruiremo dei video nell’era post-schermo. L’innovazione di Sun evidenzia come dall’unione di ricerca accademica e spirito imprenditoriale possano nascere nuove forme di arte e comunicazione, accessibili a tutti attraverso le tecnologie che usiamo ogni giorno. Le Gaussiane 4D potrebbero davvero diventare i pixel del futuro.

Beyond Virtual: come lo Spatial Computing sta ridisegnando il futuro del gaming

Ieri ho partecipato all’Italian Gaming Expo a Roma con uno speech dal titolo “Beyond Virtual: Spatial Computing and XR for the Future of Gaming”. Un’occasione utile per mettere a fuoco un tema che seguo da tempo con passione e studio, e che ho affrontato anche nel mio libro Spatial Shift: la convergenza tra intelligenza artificiale, tecnologie immersive e nuovi ambienti digitali.

Questa volta ho voluto declinare quei concetti sul settore del gaming, che forse più di altri sta già vivendo una trasformazione profonda, non tanto nel linguaggio estetico o nella logica del gameplay, ma nel modo in cui esperienze, ambienti e contenuti si relazionano allo spazio fisico e alla nostra presenza nel mondo reale.

Il punto di partenza è semplice quanto radicale: stiamo entrando in una nuova fase del computing. Dopo l’epoca desktop, quella mobile e quella cloud, oggi siamo nell’alba di un’era spatial, dove l’interazione con i contenuti digitali si libera dallo schermo e si distribuisce nell’ambiente che ci circonda. Lo chiamiamo spatial computing, ed è molto più di un’estensione dell’AR o della VR. È un cambio di paradigma nel modo in cui il digitale “vive” nello spazio.

Spatial computing: dal dispositivo all’ambiente

In questa nuova fase non interagiamo più con il contenuto “guardando dentro” un device. Il contenuto si proietta fuori. Lo spazio intorno a noi diventa un canvas digitale su cui appaiono elementi immersivi, persistenti, personalizzati. Non è solo una questione di effetto wow: è una trasformazione sistemica del nostro rapporto con l’informazione, la narrazione e il gioco.

Come sottolinea Cathy Hackl, una delle voci più lucide su questi temi, “spatial computing isn’t about devices, it’s about context”. È il contesto che conta. È lì che si gioca la sfida: capire come, dove e quando interagiamo. E soprattutto: chi costruisce questi contesti?

Nel gaming questa transizione è già visibile. Giochi come Pokémon GO hanno mostrato per primi la possibilità di costruire esperienze ludiche sovrapposte al mondo reale. Ma oggi siamo ben oltre: visori come Meta Quest 3 o Apple Vision Pro ci permettono di trasformare il salotto in uno spazio ibrido dove avatar, elementi digitali e oggetti fisici convivono. Il gioco non si svolge più in una finestra digitale, ma intorno a noi, in tempo reale, connesso a ciò che facciamo, vediamo e sentiamo.

Il gioco entra nel mondo reale

Questo shift ha due implicazioni molto forti per chi progetta e costruisce contenuti ludici.

La prima è che l’ambiente stesso diventa parte integrante dell’esperienza. Non parliamo più di livelli predefiniti da navigare con un controller, ma di spazi reali in cui ci si muove fisicamente e in cui ogni elemento – un muro, una sedia, una finestra – può diventare parte attiva della narrazione. L’ambiente non è più lo sfondo, è il gameplay.

La seconda è che il corpo torna ad essere centrale. Il corpo non come ostacolo, ma come interfaccia. Con la computer vision, l’eye tracking, il motion sensing e il feedback aptico, il giocatore non è più “fuori dal gioco” ma dentro, presente, immerso e co-autore dell’esperienza.

In questo scenario, il design cambia pelle. Non si tratta più di scrivere regole per un mondo chiuso, ma di orchestrare esperienze in ambienti aperti, dinamici, interattivi e spesso condivisi. Il confine tra gaming, fitness, socialità, formazione o comunicazione diventa sempre più sottile.

AI, generazione procedurale e ambienti intelligenti

Un’altra variabile che sta accelerando tutto questo è l’intelligenza artificiale.

Non è un’esagerazione dire che la convergenza tra AI e spatial computing sta ridisegnando le fondamenta stesse dell’intrattenimento.

L’AI generativa consente oggi di creare NPC autonomi e realistici, mondi generati dinamicamente, missioni che si adattano in tempo reale al comportamento del giocatore. Ma soprattutto, permette a ogni esperienza di essere personalizzata e situata. Un gioco spatial può cambiare non solo in base al tuo livello o alle tue scelte, ma in base al luogo in cui sei, all’ora del giorno, a chi hai intorno.

Stiamo passando da ambienti digitali “chiusi” a ecosistemi intelligenti in grado di leggere, interpretare e rispondere. La logica stessa della progettazione cambia: da una narrativa predefinita a una co-costruita, dove il giocatore entra in relazione attiva con il contesto. È un salto concettuale e tecnico, ma è anche una grande opportunità per re-immaginare il concetto stesso di gioco.

Il gaming come infrastruttura esperienziale

Molti considerano il gaming un sottoinsieme dell’intrattenimento. In realtà, oggi sta diventando sempre più una piattaforma culturale, un’infrastruttura esperienziale. Lo vediamo nei mondi persistenti di Fortnite o Roblox, dove i confini tra gioco, socialità, evento e commercio si fondono. Lo vediamo nella logica dei digital twin, nei training simulator in XR, nei giochi educativi in MR. Il linguaggio ludico sta diventando la grammatica con cui interpreteremo una parte crescente della realtà aumentata che abiteremo nei prossimi anni.

Il gioco non è più uno spazio-tempo separato. È un layer aggiuntivo che si sovrappone alla vita. Può accendersi durante una camminata in città, durante una sessione di allenamento, o mentre esploriamo un museo. Diventa strumento di coinvolgimento, apprendimento, relazione.

Opportunità e nuove domande

Tutto questo apre scenari enormi per chi sviluppa prodotti, contenuti e strategie in ambito gaming e tech. Si apre un nuovo mercato, con nuovi modelli di business e nuove filiere. Ma emergono anche domande nuove, profonde, che non possiamo ignorare.

Chi possiede lo spazio virtuale sovrapposto a quello fisico? Come si tutelano la privacy, i dati ambientali, i comportamenti biometrici raccolti dai dispositivi XR? Come si regolamenta l’accesso, la moderazione, la sicurezza in un gioco che si svolge nel mondo reale, tra persone vere?

Sono le domande che iniziano ad affiorare oggi, ma che saranno centrali domani, quando milioni di persone inizieranno ad abitare queste esperienze spatial ogni giorno.

Oltre il virtuale

Lo spatial computing non è una moda passeggera. È un cambio di fase.

E il gaming non è semplicemente uno dei primi settori a esserne toccato: è il motore culturale che può guidarne l’evoluzione.

Come ha detto Tim Sweeney, CEO di Epic Games:

“AR glasses will become the entertainment platform of the future, replacing smartphones, tablets, and maybe even TVs.”

Non è più questione di se, ma di quando.

E soprattutto, di come costruire esperienze che non si limitino a stupire, ma che abbiano valore, coerenza e impatto.

Per questo credo che oggi più che mai sia il momento di pensare oltre il virtuale – e iniziare a progettare quello che viene dopo.

Spatial Intelligence: l’immersività-tangibile tra AI e Robotica

La robotica sta vivendo una trasformazione radicale. E di questo forse ne abbiamo già preso coscienza ultimamente guardando diversi video di Boston Dynamics e similari, in cui robot quadrupedi o androidi bipedi fanno cose incredibili.

Nell’era della convergenza di diverse tecnologie, tema che ho raccontato nel libro Spatial Shift, ognuna delle evoluzioni tecnico-tecnologiche che stiamo vivendo influenza e potenzia altre tecnologie, abilitandole di nuove possibilità. La convergenza dell’Intelligenza artificiale e della robotica, che prende il nome di “Spatial Intelligence” è forse quello che potenzialmente più spaventa e allo stesso tempo affascina per gli impatti che potrebbe avere sull’umanità.

Investitori come Khosla Ventures, Andreessen Horowitz, e General Catalyst stanno supportando una serie di startup che sviluppano robot capaci di ragionamento avanzato e elaborazione dei dati visivi, a dimostrazione che l’interesse sul tema è già piuttosto avanzato e soprattutto di progetti in fase di sviluppo con risultati già validati ce ne sono.

La spatial intelligence permette ai robot di navigare e interagire con l’ambiente in modo più efficiente, migliorando la precisione e l’adattabilità nei compiti complessi, migliorare efficacia ed efficienza e soprattutto come questo segmento possa potenziare l’uomo veramente.

Evoluzione della robotica e della Spatial Intelligence

Fin dagli anni ’60, i robot sono stati utilizzati principalmente per compiti ripetitivi in ambienti controllati, dove la variabilità era minima. La mancanza di “intelligenza” limitava la capacità dei robot di adattarsi a situazioni inaspettate. Con l’avvento della spatial intelligence, la robotica sta passando ad una nuova generazione di macchine che possono percepire, vedere, prendere decisioni e agire in base agli obiettivi e all’ambiente circostante.

Questa evoluzione è paragonabile alla rivoluzione portata dagli smartphone, trasformando dispositivi semplici in strumenti potenti e versatili che hanno negli anni di fatto esteso le potenzialità del singolo utente.

Applicazioni della Spatial Intelligence

La spatial intelligence sta trovando già applicazione in numerosi ambiti e settori, nei quali, in modo più o meno impattante sta già ridefinendo il modo in cui i robot vengono utilizzati. Tra le aree più promettenti e nelle quali stanno già entrando capitali e investimenti ci sono:

  • logistica e automazione industriale: i robot dotati di spatial intelligence possono navigare autonomamente nei magazzini, identificare e raccogliere oggetti, e consegnare pacchi con una precisione incredibile. Startup come Waabi stanno sviluppando camion autonomi, mentre Vayu sta creando robot per la consegna dell’ultimo miglio che utilizzano piste ciclabili.
  • sanità: in campo medico, i robot dotati di intelligenza spaziale possono assistere nelle procedure chirurgiche, fornendo supporto preciso e adattabile in tempo reale. Questo non solo migliora l’efficienza, ma riduce anche il rischio di errori umani e supporta il processo decisionale in determinati momenti, fortemente time critical. Un esempio innovativo è l’uso di robot che eseguono compiti come la sutura di ferite con precisione millimetrica.
  • agricoltura: Carbon Robotics utilizza laser intelligenti per eliminare le erbacce e piante infestanti nei campi, migliorando l’efficienza, riducendo l’uso di erbicidi, e mitigando l’impatto di utilizzo di componenti chimiche eccessive . Questa tecnologia già da tempo sta accelerando la gestione agricola, rendendola più sostenibile e produttiva
  • servizi di consegna: robot autonomi possono essere utilizzati per consegnare pacchi e cibo in ambienti urbani, adattandosi alle condizioni stradali e alle esigenze dei clienti in tempo reale Ovviamente sono solo primi esempi di ambiti in cui questa adozione è già avanzata ed i primi impatti sono già visibili.
  • superhuman: il potenziamento delle persone con gap, e non solo. La spatial intelligence ha il potenziale inoltre a mio avviso per supportare significativamente il potenziamento delle persone, specialmente quelle con handicap, malformazioni o menomazioni: protesi intelligenti: AI, robotica e sensoristica possono essere integrate in protesi avanzate che possono dotare la persona di una gamma di movimenti e funzioni molto più ampia rispetto alle protesi tradizionali e normali capacità. Queste protesi, in grado di adattarsi dinamicamente all’ambiente, possono non solo migliorare l’autonomia e la qualità della vita delle persone, ma possono aumentarne le capacità.
  • supporto alla mobilità: esoscheletri e dispositivi di supporto alla mobilità dotati di spatial intelligence possono aiutare le persone con difficoltà motorie a camminare e muoversi con maggiore sicurezza e autonomia. In questo caso dispositivi di questo tipo possono esser utilizzati per rilevare dinamicamente il contesto e adattarsi al terreno e alle superfici, prevenendo cadute e riducendo il rischio di incidenti interazione migliorata: La capacità dei robot di percepire e comprendere l’ambiente può essere utilizzata per sviluppare assistenti domestici intelligenti che aiutano le persone con disabilità a svolgere compiti quotidiani. Un esempio che gira in rete già da qualche mese è un assistente robotico che può aiutare preparare pasti, pulire la casa o ricordare appuntamenti importanti, erogare medicinali e supportare l’assistito nella gestione e pianificazione
  • riabilitazione e terapia: automi con spatial intelligence possono essere utilizzati in programmi di riabilitazione personalizzati, garantendo precisione e specificità di esercizi ed il monitoraggio dell’esecuzione e dei progressi in tempo reale. Questi sistemi possono adattare i programmi di riabilitazione in base alle esigenze individuali, modellare il piano in funzione del miglioramento del singolo utente, e accelerando il recupero e migliorando i risultati complessivi. Oltre al fatto che l’analisi del comportamento dei singoli può gradualmente creare la condizione di apprendimento progressivo dell’intelligenza stessa.
  • interfacciamento con mondo esterno: con l’avvento di dispositivi come i Vision Pro, dotati di telecamere avanzate, intelligenza artificiale e interfacce conversazionali, possiamo già immaginare un futuro (attuale) in cui le persone saranno dotate “vista aumentata”. Questi visori, in grado di interpretare ed interagire con informazioni in tempo reale, possono abilitare persone non vedenti o ipovedenti, a nuove possibilità di mobilità, movimento nello spazio, assistenza e supporto.

Verso una Immersività-Tangibile

Nello shift spaziale, la Spatial Intelligence sta iniziando il processo di ridefinizione di quella che io chiamo la fase dell’Immersività-Tangibile. Questa integrazione perfetta tra i mondi fisico e digitale permette ai robot non solo di eseguire compiti complessi con precisione, ma anche di interagire con l’ambiente e le persone in modo intuitivo e naturale. Allo stesso tempo, le persone, potenziate da nuove tecnologie e immerse in un contesto aumentato grazie all’uso di sensori avanzati, AI ed estensioni robotiche, possono non solo connettersi a un livello di realtà aumentata ma anche toccarla, sentirla e percepirla come reale. L’immersività-tangibile implica una trasformazione delle esperienze visive, cognitive e sensoriali.

Da un lato, l’esperienza visiva e cognitiva viene potenziata, permettendo alle persone di vedere dati e informazioni sovrapposte al mondo reale, facilitando una comprensione immediata e approfondita di ciò che le circonda. Un esempio, già attuale, è quello di un chirurgo che può vedere proiezioni tridimensionali di immagini mediche direttamente sul paziente, migliorando la precisione e la sicurezza delle operazioni.

Dall’altro lato, l’aspetto tangibile e sensoriale rende questa immersione ancora più profonda. Grazie a tecnologie aptiche e feedback sensoriali avanzati, le persone possono percepire fisicamente la presenza e le caratteristiche degli oggetti virtuali. Immaginiamo di poter “toccare” un modello virtuale di un oggetto in fase di progettazione, sentire la sua superficie e consistenza. Questa combinazione di immersione visiva, cognitiva e sensoriale crea un’esperienza totale, dove il confine tra reale e virtuale si dissolve.

La tecnologia non è più solo uno strumento, ma diventa un’estensione del corpo e della mente umana, migliorando la capacità di percepire, creare, interagire e comprendere il mondo in modi che prima erano inimmaginabili. L’immersività-tangibile rappresenta quindi non solo un avanzamento tecnologico, ma una vera e propria evoluzione del modo in cui viviamo e percepiamo la realtà.

Futuro della Spatial Intelligence

Nei prossimi anni, considerata la velocità a cui stiamo viaggiando, mi aspetto di vedere una diffusione più ampia della Spatial Intelligence in molti settori. Innovazioni come l’integrazione con la realtà aumentata e virtuale, nonché l’uso di reti neurali avanzate, guideranno ulteriormente questa evoluzione.

La combinazione di intelligenza artificiale, computing edge e 5G permetterà ai robot di operare con maggiore efficienza e reattività, trasformando radicalmente il nostro modo di vivere e lavorare e per quanto brutto il pensiero possa sembrare, farci compagnia.

La spatial intelligence, oggi ancora tema poco noto, rappresenta senza dubbio in questa convergenza ed evoluzione un ulteriore frontiera evolutiva dell’uomo, e grazie alla sua capacità di combinare il mondo fisico, digitale e virtuale, si rivelerà sempre più un elemento chiave per il futuro della robotica e delle tecnologie immersive.

Il futuro dell’Immersività nello Sport: intervista in università parlando di tecnologia, spatial computing e fan engagement

Nel mondo dello sport, le tecnologie immersive come la realtà aumentata (AR) e la realtà virtuale (VR) stanno rivoluzionando l’esperienza dei tifosi e l’ottimizzazione delle prestazioni degli atleti. Ho presentato qualche giorno fa il libro “Spatial Shift” che ho recentemente scritto, partecipando a un’intervista con un’università per discutere del futuro dello sport e dell’immersività.

In questa intervista, che riporto, ho condiviso la mia visione su come queste tecnologie vengono sfruttate oggi nell’NBA, le loro potenzialità future e l’apertura delle società sportive all’adozione di queste innovazioni. Scopriamo insieme come AR e VR stanno trasformando il panorama sportivo e quali prospettive ci attendono. Ho anche annunciato la prossima uscita del libro “Sport Tech, una nuova era dello sport business e della trasformazione digitale.”

Come vengono sfruttate queste tecnologie al giorno d’oggi? C’è o ci sarà secondo Lei un’apertura da parte di tutte le società sportive all’utilizzo di esse? Le nuove tecnologie, come la realtà aumentata (AR) e la realtà virtuale (VR), sono già ampiamente sfruttate nell’NBA per migliorare l’esperienza dei tifosi e ottimizzare le performance dei giocatori. Le applicazioni includono la trasmissione di partite in VR per una visione immersiva (da punti in cui sono situate camere 360), l’uso di sensori e analisi avanzate per monitorare e migliorare le prestazioni degli atleti (ed i cui dati sono poi utilizzati per ambiti di simulazione immersiva), e la creazione di contenuti interattivi per i social media che coinvolgono i fan in modo più profondo (AI, Video Recognition, Image Recognition). Credo fermamente che tutte le società sportive seguiranno questa tendenza, poiché l’adozione di queste tecnologie può offrire vantaggi competitivi significativi, sia in termini di ingaggio del pubblico che di miglioramento delle prestazioni sportive e diventerà una condizione necessaria anche di sopravvivenza a tendere in termini di possibili forme di ricavo.

Come si possono coinvolgere sempre più emotivamente le persone rispetto ad una partita live vista con i propri occhi? Per coinvolgere emotivamente le persone in modo paragonabile a una partita live, le tecnologie immersive come la VR possono giocare un ruolo cruciale. Offrendo esperienze che replicano la sensazione di essere presenti fisicamente all’evento, si può creare un legame emotivo più forte. Ad esempio, trasmettere le partite in VR permetterà ai tifosi di vivere l’emozione del gioco da diverse prospettive, come se fossero seduti a bordo campo. L’uso di AR per fornire statistiche in tempo reale, replay e angolazioni esclusive arricchisce l’esperienza visiva e mantiene l’attenzione del pubblico. Il tutto poi deve esser sempre corredato di servizi a valore aggiunto, come loyalty, reward e accesso ad esclusività differenziante. Se prima del covid il fisico era ormai commodity ed il digitale l’opportunità derivante dalla novità, ora stiamo vivendo un processo inverso in cui il digitale è l’elemento di commodity in cui avvengono naturalmente fruizioni, interazioni e servizi all’utente con contenuti esclusivi per il digitale, ed il fisico è la componente dell’esperienza in cui viene creato un valore unico e raro per l’utente.

Come si possono “convincere” le persone scettiche a provare ad indossare un visore per provare un’esperienza immersiva del genere? Per convincere le persone scettiche a provare i visori VR, è fondamentale offrire dimostrazioni gratuite e esperienze pilota che mostrino chiaramente i vantaggi di queste tecnologie. Questo nella fase educativa, senza dubbio. Eventi promozionali in cui i tifosi possono sperimentare la VR senza costi iniziali potrebbero essere molto efficaci. Dopodiché, passata la fase di evangelizzazione, l’utilizzo di testimonianze di celebrità e atleti che raccontano le loro esperienze positive attraverso l’uso dell’extended reality, possono aumentare l’interesse e ridurre le riserve. Non c’è dubbio che per migliorare l’esperienza ed accelerare poi l’adozione del visore ci siano tre condizioni che devono verificarsi nello stesso momento (e ci siamo quasi)

  • ergonomia, semplicità d’uso e user experience del device
  • abbattimento del prezzo dei device consumer per la massa
  • creazione di contenuto esclusivo e unico fruibile da device (come sta facendo AppleTV con MLS e contenuti solo visibili in vision pro)

Secondo Lei siamo solo all’inizio, o già con quello che accade in NBA siamo ad un buon punto rispetto all’utilizzo di a.r. e v.r. in campo sportivo? Ritengo che siamo ancora agli inizi di un lungo percorso evolutivo nell’uso della AR e VR nello sport e delle nuove tecnologie convergenti (AI e Blockchain incluse). Sebbene l’NBA stia facendo passi significativi nell’adozione di queste tecnologie, sia per temi di cultura, budget e approccio, c’è ancora un ampio margine per l’innovazione e la diffusione. Le possibilità offerte dal computing spaziale e dall’intelligenza artificiale, come discusso nel mio libro, promettono di trasformare ulteriormente l’esperienza sportiva e di renderla sempre più coinvolgente e personalizzata oltre che generare nuove opportunità per brand e partner in termini di forme di nuova monetizzazione.

Secondo Lei i visori quando potranno cominciare ad essere accessibili ai più in termini di prezzo e di “comodità” d’utilizzo? Prevedo che i visori VR diventeranno accessibili al grande pubblico nei prossimi 3-5 anni. La rapida evoluzione tecnologica e la competizione tra i produttori stanno già portando a una riduzione dei costi e a miglioramenti significativi nella comodità d’uso. La miniaturizzazione dei componenti, l’aumento della durata della batteria e il miglioramento dell’ergonomia sono tutti fattori che contribuiranno a rendere questi dispositivi più attraenti e accessibili. L’avvento del Vision pro ha accelerato già il contesto di competizione: se da una parte Meta ha iniziato ad adeguare ed evolvere il proprio sistema operativo nella direzione introdotta da Apple con lo Spatial Computing, dall’altra altri competitor di device hardware hanno capito che diminuzione della dimensione, l’integrazione di sensori, camere e display e la progettazione ergonomica per creare accessibilità e inclusività sono elementi progettuali necessari.

Molte persone si rifiutano di provare la realtà virtuale solo perché devono indossare un caschetto, quindi i visori anche se diventeranno sempre più piccoli e accessibili potranno sostituire gli smartphone? O le persone si rifiuteranno perché si tratta di “indossare” qualcosa sulla propria testa? È vero che molte persone sono riluttanti a indossare un caschetto VR ed in generale per persone sono poco predisposte a modificare il proprio visus se non hanno una reale necessità (problemi di vista per capirci…). Con il continuo miglioramento del design e la riduzione delle dimensioni dei visori, ritengo che questa resistenza diminuirà trasformando il visore da maschera / caschetto ad occhiale, indossabile tutti i giorni (esattamente la strada che sta facendo Meta e Luxottica). Anche se i visori VR potrebbero non sostituire completamente gli smartphone, diventeranno probabilmente un complemento importante per determinate esperienze immersive che non possono essere replicate su uno schermo piatto. La chiave sarà offrire valore aggiunto che giustifichi l’uso di un dispositivo indossabile, in determinate circostanze. Sono dell’idea che non avremo mai un uso costante di un occhiale in testa, ma utilizzi specifici e fortemente contestualizzate e caratterizzanti in cui saremo ben predisposti a farlo.

Attualmente negli sport, da parte delle società è più utilizzata la realtà aumentata o la realtà virtuale? Attualmente, la realtà aumentata è più utilizzata rispetto alla realtà virtuale, soprattutto per le sue applicazioni immediate e facilmente integrabili nelle trasmissioni televisive e nelle app mobili o nei siti internet attraverso la WebAR. La AR è utilizzata per sovrapporre grafici, statistiche e replay durante le partite, o per mostrare asset tridimensionali e contestualizzati nello spazio fisico, migliorando l’esperienza visiva senza la necessità di attrezzature speciali. La VR sta guadagnando terreno, soprattutto per le esperienze immersive, simulazioni e allenamenti degli atleti.

Nel calcio l’utilizzo di queste tecnologie è ancora un miraggio? L’utilizzo della v.r. nella finale di Copa América è un approccio o gli esperimenti attualmente si fermeranno a quella partita? Nel calcio, l’adozione delle tecnologie AR e VR sta crescendo. L’uso della VR nella finale di Copa América rappresenta un passo importante verso l’integrazione di queste tecnologie, ma è ancora in fase sperimentale. Ritengo che con i successi iniziali e il feedback positivi di queste inizaitive, si creerà l’effetto “follower” e vedremo un’adozione più ampia e sistematica nel prossimo futuro, non solo limitata a eventi singoli ma integrata regolarmente nelle competizioni sportive. Il tema dei diritti da sbloccare è in corso, e questo sarà inoltre un abbattimento enorme di barriere.

In quanto tempo si potrebbe arrivare all’utilizzo totale di queste tecnologie in tutti gli sport? L’adozione totale di AR e VR in tutti gli sport potrebbe avvenire entro i prossimi 5-10 anni. Questo dipenderà dall’evoluzione tecnologica, dalla riduzione dei costi e dall’accettazione da parte del pubblico e degli atleti. Man mano che le tecnologie diventano più avanzate e accessibili, e i benefici diventano più evidenti, la loro integrazione nei vari sport diventerà inevitabile. Questa è una valutazione “lineare” ma non ho dubbi sul fatto che potremmo vedere una accelerazione di adozione come successo con il mobile.

Potrebbero capitare casi in futuro di spettatori presenti solo virtualmente allo stadio e non fisicamente? È plausibile e a mio avviso inevitabile, che in futuro vedremo spettatori che partecipano agli eventi sportivi esclusivamente tramite realtà virtuale. Questo permetterà ai fan (e non solo) di tutto il mondo di “essere presenti” a una partita senza dover viaggiare, offrendo un’esperienza simile a quella dal vivo, permettendo l’estensione del business per il brand e le opportunità di coinvolgere una nuova utenza. L’esperienza fisica – quella di andare allo stadio – manterrà sempre un fascino unico e anzi, il ruolo di esclusività / rarità di posti e unicità, renderà il fisico ancora più attraente e probabilmente vedremo un’integrazione di entrambe le modalità, fisica e virtuale, per soddisfare le diverse esigenze e preferenze dei tifosi.

La convergenza: AI, Blockchain e Spatial Computing

Stiamo vivendo un momento di convergenza senza precedenti tra intelligenza artificiale (AI), blockchain e spatial computing, una trasformazione che promette di ridefinire i processi in molti settori, influenzando la trasparenza, la sicurezza e l’efficienza in tempi brevi.

Recentemente ho avuto modo di approfondire un paper pubblicato dall’AI & Blockchain Convergences Task Force in collaborazione con esperti internazionali del settore. Questo studio esamina in dettaglio come queste tecnologie stiano convergendo e offre una panoramica delle implicazioni per il futuro. I razionali del lavoro includono un’analisi approfondita degli sviluppi tecnologici e delle loro applicazioni reali, con contributi di vari esperti come Mariana de la Roche, Erwin Voloder, e altri professionisti provenienti da organizzazioni come Cheqd, Hyperledger Foundation e UNJSPF.

Questi esperti hanno unito le loro competenze per delineare un quadro chiaro di come l’integrazione di AI e blockchain possa rivoluzionare vari settori.

Anche nel mio libro Spatial Shift, ho esplorato come la convergenza tecnologica stia trasformando il nostro mondo, e ho trovato molteplici punti di contatto con quanto trattato nel paper. Innanzitutto, la combinazione di AI e blockchain crea un nuovo paradigma nella gestione dei dati, noto come “dataconomy“. La Blockchain offre una piattaforma sicura e immutabile per la gestione dei dati, garantendo che i dati utilizzati dagli algoritmi di AI siano autentici e di alta qualità. Questo approccio migliora la trasparenza e l’integrità dei dati, affrontando problemi di accesso e sicurezza.

La decentralizzazione offerta dalla blockchain potrà ridurre i bias nei modelli di AI, distribuendo il controllo e le decisioni su una rete di nodi piuttosto che concentrarle in un’unica entità. Questo aumenterà la sicurezza e la trasparenza dei processi decisionali, rendendo l’AI più equa e affidabile. Inoltre, l’addestramento distribuito dei modelli di AI su una rete blockchain permette di accelerare i tempi di elaborazione e migliorare l’efficienza dei modelli su larga scala. La decentralizzazione del calcolo distribuisce il carico su più nodi, riducendo i colli di bottiglia e migliorando la scalabilità dei modelli di AI.

Gli smart contracts basati su blockchain possono automatizzare la gestione del consenso e la revoca dell’accesso ai dati. Questi contratti intelligenti potranno (e possono già) garantire che i dati vengano utilizzati solo per gli scopi autorizzati, aumentando la fiducia degli utenti e rispettando la privacy. Inoltre, l’AI migliora la sicurezza delle reti blockchain monitorando e rilevando comportamenti anomali in tempo reale. Questo permetterà di prevenire attività fraudolente come hacking e riciclaggio di denaro, garantendo la protezione delle risorse digitali.

La convergenza di AI, blockchain e spatial computing sta trasformando anche le esperienze di realtà mista (Mixed Reality, MR). L’AI crea ambienti virtuali più realistici e interattivi in tempo reale attraverso la sua capacità generativa e predittiva, mentre la blockchain gestisce la proprietà e le transazioni di asset digitali, assicurando autenticità e tracciabilità. Questa combinazione renderà sempre più le esperienze di MR coinvolgenti e sicure, permettendo agli utenti di interagire in modo naturale e protetto.

L’integrazione di AI e blockchain sarà inoltre il boost di miglioramento alla sostenibilità e l’autenticità delle operazioni in vari settori. Per esempio, nella gestione delle catene di approvvigionamento, l’AI potrà prevedere le complessità logistiche, mentre la blockchain garantirà la trasparenza e l’autenticità dei prodotti, promuovendo pratiche sostenibili e responsabili. Un esempio pratico che ho trattato nel libro riguarda il settore agricolo, dove la blockchain sarà la base su cui tracciare l’intero ciclo di vita di un prodotto agricolo, dall’origine alla tavola del consumatore, mentre l’AI può ottimizzare la gestione delle risorse e prevedere le condizioni meteorologiche per migliorare la resa delle colture e lo spatial computing sarà l’elemento di visualizzazione immersiva.

Nel campo della sanità, la blockchain, già oggi utilizzata in alcuni progetti, potrà gestire le credenziali digitali portatili dei pazienti, mantenendo la loro storia medica sicura e sotto il controllo del paziente. L’IA potrà invece analizzare questi dati per prevedere tendenze di salute o epidemie, mentre la blockchain assicurerà che i dati rimangano immutabili e tracciabili. Nel mio libro, discuto anche di un caso studio in cui un sistema basato su blockchain e AI ha migliorato la gestione delle malattie croniche, permettendo ai pazienti di condividere i propri dati con i ricercatori in cambio di incentivi sotto forma di token, promuovendo così la ricerca medica senza compromettere la privacy.

La convergenza di queste tecnologie si sta estendendo a diversi settori, tra cui anche quello finanziario, dove l’AI verrà sempre più utilizzata per creare strategie di trading automatizzate e personalizzate, di asset allocation, di analisi dinamica dei parametri finanziari, mentre la blockchain assicurerà a tutte le transazioni la trasparenza e la verificabilità. Questo non solo migliorerà l’efficienza, ma ridurrà anche il rischio di frodi e manipolazioni ed introdurrà modalità nuove per lo sviluppo degli investimenti.

Infine, uno dei temi più discussi ultimamente – e attualmente fuori hype – trattati nel paper è l’applicazione delle tecnologie convergenti nel contesto del metaverso. L’IA come già visto in una fase ancora immatura sar utilizzata per creare avatar realistici e ambienti interattivi, mentre la blockchain garantirà che gli asset digitali all’interno del metaverso siano autentici, posseduti dagli utenti, realmente visualizzati in un determinato contesto e garantirà inoltre la veridicità delle informazioni a cui l’utente sarà esposto in termini di sollecitazioni visive. Questo apre una nuova strada a nuove forme di interazione sociale e economica, in cui gli utenti potranno possedere, scambiare e monetizzare beni digitali, ma soprattutto “collegare” alla realtà un layer virtuale sicuro e trasparente, e condivisibile.

Questa convergenza tecnologica non solo sta rendendo le esperienze digitali più coinvolgenti e sicure, ma sta mettendo le basi per promuovere una fase nuovo del web (il “famoso” web3) e un ambiente di sviluppo e utilizzo più inclusivo e collaborativo.

L’integrazione di AI, blockchain e spatial computing sta costruendo le fondamenta per un futuro in cui il digitale, il fisico e il virtuale si fondono armoniosamente, offrendo soluzioni innovative e sostenibili per le sfide globali.

Per approfondire questi temi e capire come queste tecnologie stanno rivoluzionando il nostro mondo, vi invito a leggere il mio libro Spatial Shift, disponibile su Amazon.

SPATIAL SHIFT : La convergenza tecnologica di Computing, Mixed Reality, Artificial Intelligence e Blockchain

Quando nel 2007 Steve Jobs presentò al mondo l’iPhone, pochi potevano immaginare l’impatto rivoluzionario che questo dispositivo avrebbe avuto sulle nostre vite. In quel momento storico, non solo assistevamo alla nascita di un nuovo prodotto, ma eravamo testimoni dell’alba di un’era completamente nuova: l’era dello smartphone, un’epoca in cui la tecnologia mobile avrebbe ridefinito il modo in cui comunichiamo, ci connettiamo, lavoriamo, giochiamo e viviamo.

Oggi, mentre scrivo queste righe, sento un senso di déjà vu, una sensazione che l’”iPhone moment” sta per arrivare di nuovo, ma per una tecnologia diversa, o forse meglio, per una convergenza di diverse tecnologie che stanno arrivando ad una fase di maturità, tutte nello stesso momento. Forse come non è mai successo in modo così impattante. Un momento che sta preparando il terreno per una trasformazione altrettanto monumentale e che appunto non riguarda solo una tecnologia come successe con il mobile, ma riguarda l’intelligenza artificiale, la blockchain, la mixed reality e diverse altre tecnologie come la sensoristica, la connettività e che stanno definendo la nuova fase di internet.

Una fase che viene battezzata come web3 e che porta internet dal bidimensionale (2D) al tridimensionale (3D) integrando in questo processo di transizione una serie di nuovi paradigmi legati all’ownership delle informazioni, la decentralizzazione, l’intelligenza artificiale ed una nuova capacità computazionale e capacità di interazione.

Il cambiamento introdotto da questa convergenza tecnologica e lo sviluppo di nuovi dispositivi che stanno entrando sul mercato stanno consentendo la crescita di un altro trend che prende il nome di Spatial Computing. Il computing spaziale, con la sua promessa di unire il mondo fisico e quello virtuale in un continuum senza percezione di discontinuità, insieme all’AI che offre capacità di comprensione, previsione e personalizzazione a livelli prima inimmaginabili, rappresenta un ulteriore cambio di paradigma nell’interazione uomo-macchina.

Stiamo percorrendo la strada che ci porterà a un futuro in cui l’estensione della realtà diventerà la norma, i nostri ambienti di vita e di lavoro saranno arricchiti da informazioni e interazioni virtuali, rendendo la nostra quotidianità più connessa, intuitiva e più avanzata tecnologicamente e potenzialmente più umana. L’impatto che queste tecnologie potranno avere, in particolare lo Spatial Computing, sulla società moderna è enorme ed abbraccia non solo la sfera personale ed empatica, ma anche quella professionale e la sua efficacia ed efficienza. Se da una parte avremo accesso ad informazioni in una modalità nuova, dall’altra avremo strumenti di interazione, nuove forme di apprendimento e di lavoro.

Se il pensiero, mentre si leggono queste prime righe di libro, è che il mondo stia andando verso un contesto distopico in cui avremo permanentemente un casco in testa o una maschera sul volto, come nelle visioni fantascientifiche di serie Tv e film iconici come Black mirror o Ready Player One, beh no, lo dico subito, non credo in questo tipo mondo. Ma soprattutto lo spero dal più profondo del cuore.

Il motivo per cui ho deciso di scrivere questo libro, e di cui ringrazio #Egea per la fiducia, “Spatial Shift, la convergenza tecnologica di Computing, Mixed Reality, Artificial Intelligence e Blockchain“, nasce da una convinzione profonda che il momento che stiamo vivendo è un punto di svolta per la nostra società, paragonabile appunto all’uscita dell’iPhone e lo sviluppo degli smartphone nella direzione come la conosciamo oggi.

La recente introduzione di dispositivi come il Vision Pro, l’aggiornamento del Quest 3 e l’evoluzione di altri dispositivi e smart glass, insieme agli sviluppi nell’intelligenza artificiale generativa, stanno alimentando un hype ed un entusiasmo che non vedevamo da anni nel settore tecnologico. Tuttavia, questo entusiasmo non è infondato; è il preludio a un cambiamento epocale nel modo in cui interagiamo con le informazioni, gli ambienti e tra di noi.

Il percorso che ho fatto in questi anni e che mi ha portato a scrivere questo libro è stato tanto personale quanto professionale. Negli ultimi anni, ho avuto il privilegio di lavorare a stretto contatto con persone brillanti nell’ambito del design, della user Experience e dello sviluppo di nuove tecnologie, collaborando con aziende, progetti ed eventi che spingevano i confini del possibile, nel loro ambito, sempre al limite. Ho visto da vicino cosa significa progettare progetti di mixed reality in contesti ed industrie differenti, tra successi incredibili e le sfide impreviste che hanno portato anche al fallimento di progetti che apparentemente sembrano eterni. Ho inoltre avuto modo di sperimentar l’entusiasmo di vedere un progetto passare da un’idea su carta a un’applicazione reale e poi vedere l’impatto che questo ha avuto sulle persone, sul come interagiscono con il mondo intorno a loro e come sono cambiate alcune abitudini.

Quando recentemente poi ho avuto modo di provare due nuovi strumenti Quest3, VisionPro e trovarmi a sperimentare con sistemi di Intelligenza Artificiale Generativa in modo diretto, mi sono reso conto che esisteva un vuoto. Mancava un testo che da una parte esplorasse le potenzialità tecniche e le applicazioni del computing spaziale e dell’AI, ma che considerasse anche le implicazioni più ampie di queste tecnologie, tra modalità di progettazione e riflessioni più etiche.

Come questo Spatial Shift influenzerà il nostro modo di vivere, di pensare, di relazionarci? Quali sfide progettuali, tecniche, etiche e sociali dobbiamo anticipare e affrontare? E, forse più pressante di tutto, come possiamo assicurarci che queste tecnologie siano utilizzate in modo corretto nel suo complesso, piuttosto che trasformarci in esseri completamente isolati e assuefatti da stimoli digitali e virtuali?

Queste domande mi hanno stimolato nella ricerca e la stesura di questo libro. Ho voluto creare una testo che fosse una prima guida ed un punto di partenza per coloro che sono nuovi a questi concetti, e anche una punto di unione di diversi concetti per coloro che, come me, sono immersi in questi temi da anni.

Spatial Shift, la convergenza tecnologica di Computing, Mixed Reality, Artificial Intelligence e Blockchain” non è quindi solo un titolo; è una dichiarazione d’intenti. In queste pagine, esploreremo insieme un po’ di storia della realtà aumentata, la convergenza tecnologica che ci ha portato fino ad oggi, termini, contesti e ambiti in cui lo spatial computing e l’intelligenza non sono (e non saranno) solo strumenti nelle nostre mani, ma fondamenti di una nuova realtà. In modo non del tutto esteso, anche perché siamo all’inizio di questo viaggio, vedremo come queste tecnologie potranno avere un impatto trasformativo in diverse industrie, dalla sanità all’educazione, dal retail all’intrattenimento, e di come stiano riscrivendo le regole del gioco in termini di interazione umana, produttività e creatività.

Attraverso questo libro, mi auguro di trasmettere non solo la conoscenza e la comprensione di queste potenti tecnologie, ma anche di ispirare una riflessione su come possiamo utilizzarle per creare un futuro in cui la tecnologia arricchisce le nostre vite senza sopraffarle. Un futuro in cui la convergenza tra il mondo fisico e quello digitale ci porta a nuove altezze di innovazione e intimità umana, senza perdere di vista i valori che ci rendono veramente umani.

Benvenuti in un viaggio verso il futuro.

Per acquistarlo