Pelle Digitale: quando il mondo diventa interfaccia e l’intelligenza diventa ambiente

Ci sono libri che nascono per spiegare una tecnologia. “Pelle Digitale” pubblicato con EGEA nasce per spiegare una condizione. Una nuova condizione dell’umano, che non riguarda solo chi “lavora nel tech”, ma chiunque viva in un ambiente sempre più intelligente, sensorizzato e predittivo.

L’idea centrale è questa: stiamo entrando in un’era in cui l’intelligenza smette di essere un software che consultiamo e diventa un’atmosfera che respiriamo. Un’infrastruttura invisibile che collega sensori IoT, edge device, algoritmi e modelli in una rete globale. I dati diventano impulsi. Gli oggetti smettono di essere “cose” separate e diventano organi di un ecosistema più grande.

In apertura del libro parlo di transizione profonda: non un upgrade, ma un cambio di paradigma. La tecnologia non si sovrappone più al mondo: si radica nel mondo. Lo spazio diventa interfaccia. L’esperienza diventa persistente e contestuale. La relazione tra fisico e digitale non è più una “connessione”: è una dissoluzione del confine.

Il catalizzatore di questa metamorfosi ha un nome chiave: spatial computing. Non è “solo” AR/VR. È un principio operativo che rende ogni luogo un potenziale punto di accesso: casa, città, oggetti, corpo. È la trasformazione della realtà in un layer interpretato, aumentato e governato da modelli. E quando la realtà diventa un layer, la domanda non è più “quale app userò?”, ma “quale realtà sto abitando?”.

Per raccontare questa trasformazione ho scelto una struttura in otto pilastri, perché lo shift non è monodimensionale: è simultaneo e sistemico. Questi sono i capitoli del viaggio:

  1. L’intelligenza invisibile: la rete globale che unifica dispositivi, dati e decisioni.

  2. La nuova grammatica dell’interazione: come cambiano i linguaggi tra umani, interfacce e sistemi.

  3. Il mondo come interfaccia: la città e lo spazio come UI diffusa.

  4. Il corpo e la mente estesa: quando la tecnologia non è “fuori”, ma diventa parte della cognizione.

  5. Relazioni aumentate: socialità, identità, presenza e mediazione algoritmica.

  6. L’economia dell’attenzione e dell’intenzione: la competizione non è più solo per il tempo, ma per il “volere”.

  7. Il paradosso dell’opacità: più sistemi intelligenti, meno comprensione del “perché” dietro le scelte.

  8. L’umanesimo aumentato: la necessità di una nuova alleanza tra innovazione e valori umani.

Questa sequenza è intenzionale: parte dall’infrastruttura e arriva alla responsabilità. Perché, a un certo punto, non basta più descrivere il fenomeno. Serve prendere posizione.

Uno degli snodi del libro è il conflitto tra promessa e ombra. Da un lato: un mondo più efficiente, sicuro, personalizzato, capace di anticipare bisogni e amplificare capacità. Dall’altro: controllo pervasivo, delega cognitiva, perdita di autonomia, complessità indecifrabile. La pelle digitale può essere un esoscheletro che ci rende migliori o una gabbia elegante che ci rende docili

Per questo “Pelle Digitale” non si chiude con una sintesi, ma con un Manifesto per un umanesimo aumentato. L’idea è semplice: il futuro non è qualcosa che “ci capita”. È qualcosa che progettiamo, decisione dopo decisione, interazione dopo interazione. E se siamo co-creatori di questo sistema nervoso invisibile, allora siamo anche responsabili della sua direzione.

Quando dico “umanesimo aumentato” non intendo un ottimismo ingenuo. Intendo un compito: riportare l’uomo al centro non come slogan, ma come criterio di design. Vuol dire chiedersi quali valori devono guidare lo sviluppo e l’adozione delle tecnologie; come preservare autenticità dell’esperienza umana in un mondo mediato; come evitare che l’innovazione invisibile diventi un automatismo economico privo di etica.

Come si usa, concretamente, questo libro?

Si usa come lente: per rileggere prodotti, servizi e piattaforme non per feature, ma per impatto sul comportamento e sulla percezione. Si usa come mappa: per capire dove stiamo mettendo intelligenza (e dove stiamo togliendo agency). Si usa come strumento di conversazione: perché lo shift non va affrontato da soli, ma dentro organizzazioni, scuole, istituzioni, famiglie.

Se “Pelle Digitale” ha un obiettivo, è questo: rendere visibile l’invisibile. Dare parole e struttura a ciò che spesso percepiamo solo come ansia diffusa o entusiasmo confuso. E trasformare quella percezione in scelta consapevole: non subire la pelle digitale, ma diventare architetti del modo in cui ci avvolgerà.

Dal “perché” al “come”: tre libri per orientarsi tra pelle digitale, AI locale e agenti autonomi

Negli ultimi mesi ho lavorato su tre testi diversi, ma legati da un filo unico: capire cosa sta diventando il digitale quando smette di essere “uno schermo” e diventa ambiente, infrastruttura e, soprattutto, comportamento. “Pelle Digitale” prova a nominare il cambiamento (e le sue implicazioni umane). La guida su LocalAI spiega come costruire un ecosistema di AI privata e controllabile. La guida su OpenClaw porta tutto sul piano operativo: un assistente che non si limita a rispondere, ma agisce.

 


Negli ultimi mesi sono usciti tre miei lavori che, a prima vista, sembrano parlare a pubblici diversi: un saggio, due guide pratiche. In realtà, sono tre capitoli della stessa domanda: cosa succede quando la tecnologia smette di essere un “mezzo” e diventa uno “strato” della realtà? Uno strato che ci avvolge, ci legge, ci anticipa, ci indirizza. E che, proprio per questo, va capito prima ancora che usato.

Il primo punto è semplice e scomodo: non stiamo vivendo un’ennesima ondata di innovazione. Stiamo attraversando un cambio di postura dell’umano. Il digitale non è più un luogo separato (il web, l’app, la piattaforma). È un sistema nervoso diffuso fatto di sensori, modelli, agenti, edge, interfacce spaziali. Una “intelligenza invisibile” che diventa infrastruttura del quotidiano, mentre noi continuiamo a raccontarcela come una serie di prodotti e feature.

Da qui nasce “Pelle Digitale”: un tentativo di dare un nome alla convergenza tra AI e mondo fisico, e di ragionare sul prezzo (e sul valore) di questa simbiosi. Perché se la tecnologia migra “dalla tasca alla pelle”, cambiano le regole dell’esperienza, della percezione, della relazione e del potere. Non è un libro sulle tendenze: è una mappa per non subire lo shift.

Il secondo punto è operativo: se l’AI diventa una componente strutturale, allora serve una scelta di architettura. E la scelta non è solo tecnica: è politica, economica, culturale. “AI locale” significa, prima di tutto, riprendersi controllo su dati, costi, personalizzazione e continuità operativa. È una forma di sovranità digitale: non delegare tutto al cloud per abitudine, ma decidere dove vive la tua intelligenza, con quali vincoli, con quali garanzie. 

È il senso della “Guida completa a LocalAI, LocalAGI e LocalRecall”: un percorso pratico per costruire un ecosistema privato (LLM, memoria, agenti) su hardware consumer, con strumenti open-source e API compatibili. Non è un manuale “da laboratorio”: è una guida pensata per chi vuole capire davvero cosa sta installando e perché, e per chi vuole passare dalla demo al sistema.

Il terzo punto è l’ultimo miglio: quando l’AI smette di essere solo conversazione e diventa azione. Qui entrano gli agenti autonomi e la nuova categoria degli “assistenti che fanno cose”: non solo risposte, ma task, workflow, automazioni, verifiche, iterazioni. “OpenClaw: La Guida Completa all’Assistente AI Personale” nasce per spiegare come funziona (davvero) un agente che interagisce con sistema operativo, browser e strumenti quotidiani, e soprattutto come lo si governa in sicurezza.

Se devo sintetizzare il filo rosso, è questo: stiamo costruendo un mondo in cui il digitale diventa ambiente. Un ambiente può essere accogliente o ostile. Può amplificare autonomia o erodere libertà. Può rendere le persone più capaci o più dipendenti. E la differenza la fanno design, governance e responsabilità.

Per questo i tre libri, scritti nel primo trimestre del 2026, possono essere letti come una sequenza naturale, dal senso all’implementazione:

  1. “Pelle Digitale” per capire il contesto: cosa sta succedendo al rapporto tra corpo, spazio, interfacce e intelligenza.
  2. “LocalAI” per costruire la base: un’infrastruttura AI privata (inferenza, memoria, agenti) sotto il tuo controllo.
  3. “OpenClaw” per passare all’azione: un assistente agentico, con architettura modulare e una disciplina di sicurezza “prima dei superpoteri”.

E se invece vuoi una lettura “per ruolo”, ecco tre percorsi possibili.

Se guidi un’azienda, un team, un prodotto: parti da “Pelle Digitale” per mettere ordine nelle implicazioni (attenzione, opacità, relazioni aumentate, umanesimo aumentato) e poi scendi su LocalAI per capire cosa significa progettare sistemi AI sostenibili, non solo esperimenti.

Se sei tecnico (dev, data, IT, security): parti da LocalAI per costruire stack, costi e privacy; poi OpenClaw per capire come si traduce l’AI in agenti “operativi” e quali sono i rischi reali quando un modello può toccare file, browser e credenziali.

Se sei curioso e vuoi un quadro completo: parti da “Pelle Digitale”, ma tieni LocalAI e OpenClaw come “laboratori”: ti aiutano a trasformare concetti in oggetti, e oggetti in pratiche.

Il punto, per me, non è aggiungere contenuti al rumore. È offrire tre strumenti di orientamento: una mappa concettuale, una guida infrastrutturale, una guida agentica. Perché la vera domanda non è “cosa può fare l’AI?”. La domanda è “che tipo di mondo stiamo costruendo quando la rendiamo ovunque?”.

Interfacce Neurali-Spaziali – Riscrivere l’Interazione nell’Era dello Spatial Computing

Le interfacce neurali-spaziali rappresentano una svolta epocale nell’interazione uomo-macchina: uniscono l’intelligenza artificiale multimodale, il computing spaziale (AR/VR) e gli input neurali o sensoriali (BCI) per fondere il digitale con il mondo fisico. Questo numero di InsideTheShift esplora come questa convergenza stia creando un nuovo patto tra il corpo umano, lo spazio che ci circonda e i sistemi intelligenti che ci assistono. Esamineremo le implicazioni di interfacce sempre più “invisibili” e integrate nella realtà, i collegamenti con i trend già trattati (dalle cognitive interfaces alla computational intuition) e come questa frontiera tecnologica stia riscrivendo le regole del design, dell’accessibilità e della nostra esperienza quotidiana con la tecnologia.

The Shift in Focus

Nel 2024 una dimostrazione all’apparenza discreta in una conferenza tech ha segnalato un cambiamento epocale: un’interfaccia in realtà aumentata controllata tramite segnali neurali anziché dispositivi fisici. Nei suoi laboratori, Meta ha mostrato un braccialetto EMG capace di leggere i minuscoli impulsi elettrici che dal cervello viaggiano verso i muscoli della mano, “leggendo nel pensiero” l’intenzione di sfogliare o afferrare un oggetto digitale e traducendola in azione. In pratica, questo significa far scorrere un menu in AR semplicemente pensando di muovere il dito. Questa tecnologia potrebbe rendere obsoleti goffi controller fisici, ampliando il potenziale dello spatial computing fino a eliminare l’intermediario tra noi e il contenuto digitale. È uno scorcio di futuro in cui pensieri e gesti impercettibili interagiscono direttamente con i sistemi digitali.

Questo cambio di prospettiva – dai dispositivi esterni ai segnali interni – ridefinisce il concetto stesso di interfaccia. Così come il Vision Pro di Apple ha introdotto al grande pubblico lo spatial computing (fondere contenuti digitali e spazio fisico in tempo reale), le tecnologie di interfaccia neurale promettono di fare un passo ulteriore. L’approccio di Apple con Vision Pro si affida a input “naturali” come lo sguardo e il gesto di pinch, mantenendoci presenti nell’ambiente. Ma il salto successivo, prefigurato dalle interfacce neurali, potrebbe rendere quasi invisibile il confine tra intenzione e azione. Un’interfaccia non deve più essere qualcosa che tocchiamo o vediamo: può diventare qualcosa che indossiamo o addirittura parte di noi. Il sistema nervoso umano stesso si sta trasformando in un dispositivo di input. In questo numero ci concentriamo su questa idea trasformativa: il design dell’interazione si sta spostando sotto la pelle e tutt’intorno a noi, portando concetti da fantascienza ai prototipi – e presto, nelle esperienze quotidiane.

Understanding the Shift

Lo spatial computing è il paradigma nascente in cui i contenuti digitali non sono confinati a uno schermo, ma si integrano senza soluzione di continuità con l’ambiente fisico. Simon Greenwold lo definì nel 2003 come “interazione umana con una macchina in cui la macchina mantiene e manipola riferimenti a oggetti e spazi reali”. In parole povere, il computing spaziale si riferisce a AR/VR e dispositivi ricchi di sensori che permettono ai computer di comprendere e aumentare lo spazio reale: dalle app AR sullo smartphone ai visori di mixed reality immersiva. Questa tecnologia “fonde il mondo fisico e le esperienze virtuali usando un’ampia gamma di tecnologie”, permettendo nuovi modi di interagire con le macchine e dando alle macchine la capacità di navigare e capire l’ambiente attorno a no. Innovazioni recenti come Apple Vision Pro – che Apple significativamente chiama un “computer spaziale” – evidenziano questo cambiamento: le interfacce non sono più solo finestre (schermi) attraverso cui guardiamo, ma spazi dentro cui viviamo.

In parallelo, abbiamo le interfacce neurali – spesso sinonimo di interfacce cervello-computer (Brain-Computer Interface, BCI) – che collegano il sistema nervoso umano ai computer. Queste vanno da impianti invasivi (come il chip Neuralink di Elon Musk, o il celebre Utah array usato nelle neuroscienze) a wearable non invasivi (come fasce EEG o braccialetti EMG). In tutti i casi, captano segnali bioelettrici (onde cerebrali, impulsi muscolari, ecc.) e li traducono in comandi interpretabili dalle macchine. Sebbene i BCI siano nati nei laboratori di ricerca e in ambito clinico, oggi li vediamo spingersi verso applicazioni consumer. Una distinzione chiave è che le interfacce non invasive, che non richiedono chirurgia, sono al centro delle applicazioni mainstream. Ad esempio, il prototipo di bracciale neurale di Meta utilizza sensori EMG sul braccio per rilevare i segnali elettrici dei movimenti muscolari intenzionati dal cervello, senza bisogno di impianti né addirittura di telecamere. In sostanza, ascolta i segnali nervosi che il cervello invia già alla mano. Questa tecnologia si basa su decenni di ricerche BCI che hanno dimostrato la possibilità di operare computer con il solo pensiero: dai primi esperimenti in cui scimmie controllavano bracci robotici, fino a pazienti umani che muovevano cursori sullo schermo con la mente. Oggi, sensori migliorati e algoritmi di AI per il decoding stanno aumentando la precisione, rendendo possibile usare tali input neurali nelle interfacce di tutti i giorni. Come ha osservato James Landay dello Stanford HAI, ci aspettiamo “modelli più grandi e multimodali” con nuove capacità entusiasmanti – e interpretare segnali neurali è intrinsecamente una sfida multimodale (che combina elaborazione del segnale, visione artificiale per il contesto, comprensione del linguaggio, ecc.). La convergenza di questi trend prepara il terreno per le interfacce neurali-spaziali.

Interfacce neurali-spaziali è dunque ciò che otteniamo all’incrocio di questi due ambiti: ambienti di spatial computing che possiamo controllare – o che si adattano – tramite input neurali. Questa convergenza oggi è possibile perché l’AI è divenuta abile nel fondere flussi multipli di dati – quella che chiamiamo AI multimodale. Gli avanzati sistemi di AI attuali sanno analizzare in parallelo dati visivi, comandi vocali e segnali biometrici, trovandovi schemi e significati. Ad esempio, un sistema di AI potrebbe prendere segnali EEG da un visore, dati di eye-tracking da un display AR e informazioni sul contesto ambientale dell’utente, sintetizzando il tutto per inferire cosa l’utente desidera o di cosa ha bisogno. Aumenta così in modo esponenziale la larghezza di banda della comunicazione tra umano e macchina. Invece di affidarci a un singolo canale (come solo il tocco o solo la voce), ne abbiamo molti aperti: segnali cerebrali, gesti, sguardo, voce e contesto ambientale simultaneamente. La fusione dei BCI con AR/VR, come osservano i ricercatori su Frontiers in Human Neuroscience, “può fornire canali di comunicazione aggiuntivi aumentando la banda dell’interazione umano-AR/VR”, sia attraverso comandi attivi che tramite monitoraggio passivo dello stato dell’utente. In altre parole, le interfacce neurali-spaziali promettono interazioni più ricche e naturali. Un utente immerso in un’esperienza di spatial computing potrebbe impartire un comando senza muovere un dito, e al contempo il sistema potrebbe contemporaneamente percepire il carico cognitivo o lo stato emotivo dell’utente e adattarsi di conseguenza. In pratica, stiamo insegnando ai computer a cogliere l’atmosfera – e a leggere l’utente – allo stesso tempo.

The Core

Al cuore di questo cambiamento vi è un nuovo tipo di simbiosi uomo-macchina. Spesso parliamo di interfacce “naturali” o “senza soluzione di continuità” – ebbene, le interfacce neurali-spaziali promettono proprio questo, cancellando le cuciture tra il nostro corpo, l’ambiente e il sistema computazionale. L’interfaccia non è più un oggetto distinto (uno schermo, una tastiera, un pulsante); si dissolve nel mondo intorno a noi e dentro di noi. Nel numero #7 di InsideTheShift – Designed to be Lived abbiamo esplorato il passaggio “da interfacce pensate per essere guardate a quelle progettate per essere vissute”, evidenziando come gli strati digitali possano coesistere con la realtà fisica anziché farle concorrenza. Le interfacce neurali-spaziali incarnano questa filosofia: la progettazione dello spazio diventa progettazione dell’interfaccia, e il corpo umano diventa un elemento attivo del sistema. Stiamo passando “da interfacce basate su schermo a esperienze prive di interfaccia, incorporate nello spazio”, come descrive un lavoro accademico. I confini tra utente e computer sfumano – la nostra intenzione diventa input, e l’ambiente intorno a noi diventa la tela per l’output.

Riflettiamo su cosa significhi tutto ciò per il design dell’interazione. Anziché cliccare menu o toccare icone, potremmo semplicemente guardare un oggetto in AR e pensare “apri” – e quello si apre. Invece di controllare un avatar virtuale con joystick, potrebbe essere il nostro sistema nervoso e i biosensori a guidarlo: il nostro livello di stress, misurato via EEG e frequenza cardiaca, potrebbe modulare in tempo reale la difficoltà di un videogioco; i movimenti oculari potrebbero pilotare un drone virtuale in modo naturale come girare lo sguardo. In sostanza, l’intenzione diventa il nuovo click. È un’estensione radicale di quanto discusso nel numero #2 di InsideTheShift – Cognitive Interfaces, dove l’AI iniziava a interpretare l’intento dell’utente dal linguaggio naturale e dal contesto. Ora quella interpretazione si estende ai segnali neurali e fisiologici. L’unità di interazione non è più il movimento di un mouse o il tap su uno schermo – è una combinazione di sguardo, pattern di onde cerebrali, micro-movimenti muscolari e parole pronunciate, tutti orchestrati insieme. Stiamo avvicinandoci a ciò che InsideTheShift #13 ha descritto come Computational Intuition: interfacce così intelligenti da capire ciò che vogliamo senza comandi espliciti, sfruttando segnali sottili e un vasto contesto. Un’interfaccia neurale-spaziale dotata di AI multimodale può sviluppare una sorta di sesto senso riguardo all’utente – un’intuizione computazionale che anticipa bisogni o rileva problemi (ad esempio notando dai segnali cerebrali un calo di attenzione o un sovraccarico, e offrendo aiuto in modo proattivo).

Fondamentalmente, questo nuovo paradigma ridefinisce la relazione tra umano e macchina. Non è più un modello dell’utensile (dove diciamo esplicitamente al computer cosa fare), bensì un modello di partnership. L’interfaccia diventa un’estensione dell’utente. In effetti, quando ben realizzata, l’interfaccia quasi scompare. Mark Weiser, pioniere dell’ubiquitous computing, disse notoriamente che “le tecnologie più profonde sono quelle che scompaiono… si integrano nel tessuto della vita quotidiana fino a diventare indistinguibili da essa.” Le interfacce neurali-spaziali puntano esattamente a questo ideale. I tuoi occhiali AR, i tuoi auricolari intelligenti o i futuri cerchietti neurali dovrebbero sembrare parte naturale dei sistemi di feedback del tuo corpo – quotidiani quanto la vista o la propriocezione. Nel numero #5 di InsideTheShift – Integrated Intelligence, abbiamo immaginato un’intelligenza intessuta nei nostri ambienti e prodotti. Ora vediamo quella visione prendere forma: un’intelligenza integrata non solo attorno a noi, ma dentro di noi (attraverso link neurali) e tra noi e il mondo (attraverso il computing spaziale). Il nocciolo di questo cambiamento è un nuovo patto uomo-macchina: noi concediamo alla tecnologia un accesso più intimo a noi stessi (i nostri dati neurali, il nostro spazio fisico) e in cambio essa fornisce assistenza che si percepisce quasi come un’estensione della nostra mente e dei nostri sensi. È una visione affascinante, che può potenziare le capacità umane e forse amplificare la nostra cognizione – in pratica la realizzazione high-tech dell’antico sogno di fondere senza soluzione di continuità mente, corpo e strumento.

The Broader Shift

Gli effetti a cascata delle interfacce neurali-spaziali potrebbero essere vastissimi. Prima di tutto, c’è il potenziale per un’enorme accessibilità e inclusività. Per persone con mobilità limitata o disabilità, il poter controllare dispositivi con segnali neurali è rivoluzionario. Chi non può usare le mani non sarebbe più escluso da un’esperienza di spatial computing – potrebbe navigare un ambiente aumentato o comunicare tramite un’interfaccia cerebrale. La stessa tecnologia di interfaccia neurale “potrebbe trasformare l’accessibilità della tecnologia”, nota XR Today, permettendo a persone con paralisi o disabilità motorie di interagire con contenuti digitali in modo avanzato. Un visore che legge i movimenti oculari, o un impianto cerebrale che traduce i pensieri in movimenti di un cursore, possono aprire il mondo informatico a chi finora gli strumenti tradizionali l’hanno precluso. In senso più ampio, man mano che le interfacce diventano più adattive (ad es. regolando la dimensione dei font o le modalità di input basandosi sui feedback neurali dell’utente), la tecnologia potrà personalizzarsi sui bisogni e sul contesto di ciascuno.

Da grandi poteri derivano grandi responsabilità – e rischi. L’idea di una tecnologia che attinge direttamente ai nostri cervelli e corpi solleva questioni cruciali. Una è la privacy: i dati neurali sono estremamente personali. Se i nostri dispositivi possono letteralmente leggere i nostri pensieri (anche solo a livello di intenzioni o stati emotivi), come proteggere quella privacy mentale? Gli studiosi hanno già iniziato a discutere di “neurodiritti” – il diritto alla libertà cognitiva e alla riservatezza dei dati cerebrali. Il mondo medico e gli eticisti avvertono che man mano che i BCI entrano nell’uso reale, dovremo prevenire usi impropri dei dati neurali. C’è chi teme un futuro in cui le pubblicità si adattino alle reazioni inconsce, o in cui i datori di lavoro monitorino l’attenzione dei dipendenti tramite metriche cerebrali. Questi scenari rendono fondamentale integrare da subito la privacy by design nelle interfacce neurali. Un altro tema è la sicurezza: un’interfaccia cerebrale violata da un hacker sarebbe l’incubo cibernetico per eccellenza. Anche il caso più semplice di interfacce non invasive – poniamo un visore AR che influenza i tuoi sensi – va protetto da manipolazioni malevole. Dobbiamo poi considerare l’etica del design: affidando più agenzia all’AI (per esempio un sistema che auto-regola l’ambiente o filtra informazioni in base allo stato mentale rilevato), chi mantiene il controllo? Eliminare tastiere e schermi può potenziare gli utenti, ma anche disorientare o ridurre la scelta consapevole se gestito male. Mantenere la sovranità umana in questo circuito è fondamentale – un tema che abbiamo toccato in diversi numeri passati. Il sistema deve ampliare, non prevaricare, le nostre intenzioni.

Dobbiamo anche considerare i cambiamenti sociali e culturali. Man mano che la tecnologia si sposta sotto la pelle, il confine tra ciò che è “umano” e ciò che è “macchina” si fa sfumato, ponendo questioni di accettazione. Le persone saranno disposte a indossare dispositivi neurali quotidianamente? I segnali iniziali sono incoraggianti: la società sta gradualmente normalizzando i wearable come gli smartwatch che tracciano costantemente le nostre biometrie, e gli occhiali AR sono sul punto di una più ampia adozione. Tuttavia, qualsiasi passo falso (per esempio uno scandalo legato alla privacy o un dispositivo che causa danni) potrebbe innescare reazioni pubbliche negative, simili alla vicenda di Google Glass. Dunque design e implementazione dovranno essere human-centered e trasparenti, per guadagnare fiducia. Sul piano culturale, potremmo vedere nuove forme di espressione digitale – immaginiamo condividere uno “stato neuro” oppure designer che creano esperienze responsive ai pattern cerebrali collettivi di una folla. Arte, intrattenimento, istruzione – tutti potrebbero trasformarsi. Una classe, ad esempio, potrebbe usare la mixed reality con BCI passivi per capire quando gli studenti sono confusi o annoiati e adeguare dinamicamente la lezione. I luoghi di lavoro potrebbero impiegare interfacce spaziali per potenziare la collaborazione, con mediatori AI che percepiscono quando qualcuno ha un’idea sulla punta della lingua ma esita a esprimerla. Queste possibilità si ricollegano al concetto trattato in InsideTheShift #10 Temporal Interfaces – la tecnologia che riconfigura come viviamo il tempo e i ritmi. Le interfacce neurali-spaziali potrebbero, ad esempio, aiutarci a gestire i nostri tempi cognitivi (ricordandoci di fare una pausa quando viene rilevata stanchezza mentale, o catturando idee nel momento in cui emergono). Potrebbero registrare flussi di esperienza per rivederli in seguito (una sorta di memoria esternalizzata), mescolando ulteriormente passato e presente nel nostro modo di lavorare. In sintesi, lo shift più ampio ci porta verso un mondo in cui tecnologia e vita sono intrecciate più che mai, con un potenziale sia di empowerment sia di sfide nel ridefinire i confini.

What’s Next

Guardando al futuro, il percorso delle interfacce neurali-spaziali probabilmente si dispiegherà per fasi. Nel breve termine vedremo più esperimenti e prodotti pionieristici che lasciano intravedere il possibile. Aziende come Meta hanno segnalato che l’AR senza controller è nei loro piani (gli occhiali Orion, attesi nei prossimi anni, puntano a basarsi su input neurali da polso). Il visore Galea di OpenBCI – che integra EEG, EMG, EDA e altro in headset VR/XR di fascia alta – sta entrando in beta e probabilmente stimolerà una serie di ricerche e sviluppo indie. Possiamo aspettarci che laboratori accademici e startup affineranno gli algoritmi per decodificare i segnali neurali, usando modelli di AI avanzati (potenzialmente arrivando a integrare architetture stile large language model per interpretare i complessi dati cerebrali). Sarà cruciale la collaborazione tra discipline: neuroscienziati, esperti di AI, designer AR ed eticisti che lavorano assieme per risolvere gli ostacoli tecnici e definire linee guida. All’orizzonte, forse fra 5-10 anni, potremmo vedere occhiali AR mainstream (da Apple, Meta, Snapchat o altri) integrare discretamente capacità di interfaccia neurale – magari iniziando con semplici elettrodi EMG o EEG incorporati in fascette o auricolari. Potrebbe essere qualcosa di sottile, come il tuo auricolare AR che legge l’attività cerebrale per capire se stai prestando attenzione a una riunione virtuale. Proprio come gli assistenti vocali sono passati da curiosità a funzionalità standard degli smartphone, gli input neurali potrebbero fare il salto da sperimentali a attesi.

Standard ed etica dovranno tenere il passo rapidamente. L’IEEE, ad esempio, ha lanciato un’iniziativa sullo Spatial Computing per il Metaverso focalizzandosi su HMI (interfacce uomo-macchina) e “brain-machine interface, occhiali AR e tecnologie HMD”, con l’obiettivo di sviluppare linee guida per compatibilità e sicurezza degli utenti. Gli enti regolatori potrebbero iniziare a redigere normative specifiche sul neurotech (potremmo vedere qualcosa di simile al GDPR ma per i dati cerebrali). Sul fronte tecnico, per l’adozione sarà fondamentale risolvere le questioni di comfort dei sensori e calibrazione – nessuno vuole un’interfaccia che richieda gel appiccicosi sul cuoio capelluto o continue ricalibrazioni. Dobbiamo quindi aspettarci progressi in termini di indossabilità (dispositivi più comodi ed eleganti) e usabilità (auto-calibrazione, personalizzazione tramite AI). Un altro trend probabile: le interfacce ibride. Anziché puntare su un solo canale, i futuri sistemi combineranno input cerebrale con eye-tracking, voce e gesto nel mix che funziona meglio. I primi studi sugli utenti indicano già che l’interazione multimodale migliora l’affidabilità – ad esempio, se il segnale cerebrale è rumoroso, uno sguardo veloce o un battito di ciglia di conferma possono disambiguare l’intenzione.

A più lungo termine, il confine tra potenziare e aumentare potrebbe sfumare. Oggi le interfacce neurali mirano ad assistere o ripristinare (aiutare una persona disabile a comunicare, o permettere a un utente AR di controllare i menu più velocemente). Ma gli sviluppi futuri potrebbero spingersi nel campo del miglioramento cognitivo – usare queste interfacce per potenziare effettivamente memoria, attenzione o altre funzioni mentali attraverso un’integrazione stretta con l’AI. Ciò solleva questioni profonde (ed echi da fantascienza): se avessimo un co-processore AI per il cervello, cosa significherebbe per il pensiero individuale e la creatività? Sebbene tali scenari siano speculativi, non sono più pura fantasia. Potremmo davvero vedere prime forme di “protesi digitali” per la mente nella nostra vita. Immaginiamo una lente a contatto AR che non solo mostri informazioni ma stimoli determinati pattern neurali per migliorare apprendimento o umore. Il passo ancora successivo potrebbe essere interfacce bi-direzionali: non solo leggere l’attività neurale ma anche scriverla (alcuni laboratori già lavorano su loop di neurofeedback e perfino protesi visive rudimentali che inviano immagini al cervello). Le implicazioni sarebbero immense – dal curare la depressione con stimolazione neurale su misura, fino forse un giorno a condividere pensieri direttamente da cervello a cervello. Ognuno di questi passi richiederà che la società valuti attentamente benefici e rischi. Ma se la storia insegna qualcosa, il momentum del progresso tecnologico è difficile da rallentare. Le interfacce neurali-spaziali stanno arrivando, gradualmente ma inesorabilmente, e rappresentano una frontiera che dobbiamo approcciare con entusiasmo ma anche con prudenza.

Takeaways

  • Le interfacce neurali-spaziali fondono AI multimodale, computing spaziale (AR/VR) e input neurali, creando interazioni digitali immersive guidate da gesti sottili e segnali cerebrali.

  • L’interfaccia diventa “invisibile”: il corpo e lo spazio fisico sono ora parte integrante del sistema di interazione. Intenzioni, sguardi e stati mentali possono attivare comandi senza bisogno di touch screen o controller.

  • Queste tecnologie promettono maggiore accessibilità: persone con disabilità motorie potranno controllare interfacce complesse col pensiero o piccoli movimenti, aprendo nuovi orizzonti di inclusione

  • Le interfacce neurali-spaziali abilitano esperienze adattive e contestuali: sistemi in grado di “percepire” il carico cognitivo o l’emozione dell’utente e modificare l’esperienza di conseguenza (ad es. adattando la difficoltà di un compito in tempo reale).

  • Servono però approcci ethics-first: tutela dei dati neurali personali (neurorights), sicurezza contro abusi o hacking, e design centrato sull’uomo per mantenere controllo e fiducia dell’utente.

  • A breve vedremo più dispositivi wearable con sensori neurali (braccialetti EMG, cerotti EEG) integrati in occhiali AR o auricolari. La multimodalità (voce+sguardo+BCI) sarà fondamentale per affidabilità e usabilità

  • Standardizzazione e linee guida (es. iniziative IEEE) saranno cruciali per garantire compatibilità hardware/software e un ecosistema aperto e sicuro

  • Nel lungo termine, le interfacce neurali potrebbero evolvere in potenziamenti cognitivi e comunicazione diretta cervello-cervello, ponendo sfide senza precedenti ma ampliando le possibilità umane.

  • Questo shift prosegue temi già trattati: dalle cognitive interfaces (interfacce AI conversazionali) alle integrated intelligence (AI diffusa nell’ambiente) fino alla computational intuition (sistemi che intuiscono bisogni). Le interfacce neurali-spaziali sono la naturale estensione di questi trend.

  • Siamo all’alba di un nuovo patto tra uomo e tecnologia: più profondo, pervasivo e intimo. Il corpo diventa la nuova periferica, lo spazio il nuovo schermo, l’intelligenza artificiale il nuovo intermediario. Sta a noi guidarne lo sviluppo in modo responsabile.

The Shift Continues

La storia della tecnologia è una storia di distanze che si accorciano sempre di più – tra noi e i nostri strumenti, tra le nostre intenzioni e la loro realizzazione. Le interfacce neurali-spaziali sono forse il passo più audace in questo viaggio, nel quale molta della frizione residua viene eliminata. In questo diciassettesimo numero di InsideTheShift abbiamo visto come fili un tempo separati – AI, AR, wearables, tecnologie neurali – si stiano intrecciando in un nuovo tessuto esperienziale. È un tessuto in cui digitale e fisico, mente e macchina si interconnettono. Ma, come in ogni grande tessitura, siamo anche i tessitori. Le scelte di design, le decisioni etiche e i salti creativi che compiamo ora daranno forma a come questo arazzo si dispiegherà. Ci darà potere e includerà tutti, o ci avvolgerà in nuovi dilemmi? Probabilmente entrambe le cose, e il nostro compito è orientarlo verso la prima possibilità.

Ripensando alle edizioni precedenti – dalle interfacce cognitive, alle dimensioni temporali, fino ai sistemi intuitivi – emerge un fil rouge chiaro: la spinta verso una tecnologia sempre più human-centric, che si adatta a noi invece di costringerci ad adattarci ad essa. Le interfacce neurali-spaziali sono un apice di questo trend, ma al contempo un nuovo inizio. Ci spingono a ridefinire concetti fondamentali: cosa significa comunicare quando persino il silenzio parla (attraverso segnali cerebrali)? Cosa significa progettare quando l’“interfaccia” è ovunque e in nessun luogo? Come preservare dignità e autonomia umana quando persino i nostri pattern neurali potrebbero far parte del flusso di input/output?

Sono domande impegnative, ma affrontarle con lucidità è proprio ciò che entusiasma la comunità di innovatori e pensatori che InsideTheShift riunisce. Lo shift che stiamo vivendo non è un singolo balzo, ma un’evoluzione costante – una che richiede curiosità, spirito critico e visione in egual misura.

Man mano che questo shift continua, vi invito a immaginarne le possibilità senza perdere di vista i principi. Figuriamoci un anziano che ritrova autonomia grazie a un assistente domestico controllato col pensiero; un gruppo di amici in città diverse che condivide uno spazio di realtà mista che reagisce al loro umore collettivo; o una AI che non solo risponde alle tue domande ma percepisce l’istante stesso in cui ne stai formulando una. Futuri del genere sono a portata di mano. Sta a noi guidare questa tecnologia affinché accresca la nostra umanità, e non la offuschi.

La convergenza fra interfacce neurali e spatial computing sta riscrivendo il linguaggio dell’interazione. Un linguaggio che diventerà intimamente personale, riccamente multimodale e, si spera, universalmente abilitante. Insieme, come sempre, continueremo a decifrare questo linguaggio e a scriverne il futuro. Lo shift va avanti – e tutti noi, in un certo senso, ne siamo gli autori.

DeepMind Genie 3: svolta epocale per l’addestramento robotico?

DeepMind ha presentato Genie 3, un modello generativo di world simulation che, dato un prompt testuale (o un’immagine), costruisce in tempo reale un ambiente virtuale interattivo e persistente. In pratica, digitando una descrizione si materializza un mondo navigabile, non il solito video di pochi secondi, ma uno spazio “videoludico” esplorabile a piacimento.

La cosa si fa davvero interessante unendolo a SIMA, un agente AI generalista in grado di apprendere compiti in una varietà di giochi 3D: il primo può generare infiniti scenari di training, il secondo può imparare al loro interno. Questa combinazione apre prospettive inedite per la robotica, il sim-to-real e la generalizzazione dell’intelligenza artificiale.

Dalle parole ai mondi 3D interattivi

La maggior parte dei generatori di immagini o video AI oggi produce contenuti brevi e non interattivi. Genie 3, invece, fa un salto di categoria: trasforma un input testuale in un mondo tridimensionale navigabile in prima persona, con coerenza fisica e visiva su orizzonti temporali ben più lunghi del classico clip di 8 secondi. Digitando una descrizione, ad esempio “un sentiero di lava ai piedi di un vulcano attivo” , il sistema renderizza una scena 3D a 24 frame al secondo e risoluzione 720p, in cui l’utente può muoversi liberamente con controlli da videogame.

L’ambiente reagisce in tempo reale ai movimenti e ai comandi: se giri la telecamera o avanzi, il panorama cambia fluidamente; se aggiungi via testo un evento (“inizia a piovere”), Genie 3 modifica al volo le condizioni meteo nella simulazione. In demos, il team DeepMind ha mostrato scenari estremamente diversi tra loro, dall’aspro paesaggio vulcanico a una costa flagellata da un uragano, fino a un villaggio incantato di funghi giganti – tutti generati e manipolabili istantaneamente dall’AI.

Quello che rende questi mondi sorprendenti è il livello di coerenza spazio-temporale: oggetti e paesaggi rimangono stabili anche cambiando inquadratura o tornando in un luogo già visitato, grazie a una sorta di “memoria” interna che si estende fino a circa un minuto. In altre parole, Genie 3 ricorda dove ha messo le montagne o gli alberi, evitando salti logici o apparizioni/disparizioni incoerenti man mano che l’utente esplora.

Un aspetto particolarmente interessante è la possibilità di partire non solo da testo ma anche da immagini. I ricercatori hanno mostrato che Genie 3 può essere iniziato con un singolo fotogramma (ad esempio la foto di un dipinto famoso) e “gonfiare” quella scena in un ambiente tridimensionale navigabile.

Immaginate di scattare una foto o dipingere un bozzetto, e poi poterci entrare dentro: ad esempio camminare tra i cipressi sullo sfondo di un quadro o esplorare l’interno di una concept art. Questo apre possibilità creative enormi. Un artista può dipingere uno scenario surreale e poi usarlo come livello di gioco; un designer può importare schizzi o foto di riferimento e ottenere uno stage 3D immediatamente pronto da esplorare. Allo stesso modo, un filmmaker che oggi si scontra col “muro degli 8 secondi” nei video generativi, con Genie 3 vede crollare quel limite: essendo un world model persistente, permette di scegliere inquadrature e traiettorie di camera a piacere, estendendo le sequenze fin dove lo consentono la fantasia (e il budget computazionale) senza degradare subito in noise. In sintesi, Genie 3 trasforma la generazione AI da contenuto passivo a esperienza interattiva: non più immagini da guardare, ma mondi vivi da esplorare. È come se dessimo un tovagliolo a Bob Ross per uno schizzo estemporaneo e subito dopo potessimo fare due passi dentro il paesaggio che ha dipinto.

Dal punto di vista tecnico, raggiungere questo risultato non è banale. Genie 3 utilizza un’architettura auto-regressiva simile a quella dei grandi modelli linguistici, generando ogni nuovo frame in base ai frame precedenti e all’azione corrente dell’utente. Questo significa garantire coerenza frame-to-frame senza però appoggiarsi a un’esplicita modellazione 3D sottostante: a differenza di approcci come NeRF o gaussian splatting che costruiscono una mappa geometrica per avere consistenza, qui la solidità della scena “emerge” dall’aver previsto correttamente la sequenza di pixel nel tempo. È un approccio più flessibile, perché consente di alterare liberamente il mondo in corso d’opera (aggiungere oggetti, cambiare ambiente) senza dover rigenerare un intero modello geometrico; tuttavia è computazionalmente pesante, dato che il modello deve “ricordare” e ri-renderizzare ad ogni frame tutto ciò che conta della traiettoria passata. DeepMind sottolinea che Genie 3 rappresenta il primo modello di world generation capace di interazione in tempo reale, migliorando al contempo realismo e coerenza rispetto al precedente Genie 2. In appena otto mesi, infatti, il salto da Genie 2 a Genie 3 è notevole: Genie 2 (fine 2024) manteneva la scena per ~10 secondi prima di “dimenticare” e rigenerare incoerentemente, mentre Genie 3 regge diversi minuti di esplorazione continua prima che la memoria svanisca. Inoltre Genie 2 richiedeva di fornirgli a priori la sequenza di azioni (movimenti) che l’utente avrebbe fatto, poi generava il video risultante; Genie 3 invece reagisce live agli input dell’utente come un vero motore grafico. Siamo insomma davanti a un prototipo di motore generativo per mondi virtuali. Google DeepMind è probabilmente il primo laboratorio AI a spingersi così avanti su questo fronte, considerandolo un tassello strategico verso l’AGI (Artificial General Intelligence).

Naturalmente, siamo ancora in fase di ricerca (Genie 3 per ora è distribuito solo come anteprima limitata a pochi accademici e creator selezionati). Eppure le capacità dimostrate, per quanto imperfette, hanno già fatto gridare a molti che “questo è il più vicino che siamo arrivati all’Holodeck di Star Trek”. Prima di discutere sfide e limiti, vediamo perché un sistema come Genie 3 potrebbe rivoluzionare l’addestramento degli agenti AI e dei robot, e come si inserisce nelle tendenze più ampie dell’informatica spaziale e dell’UX nel mondo dell’AI.

Un nuovo terreno di gioco per agenti AI e robotica

DeepMind definisce Genie 3 un general purpose world model, ovvero un modello capace di simulare dinamicamente ambienti diversi utilizzando la sua comprensione del mondo Perché questo conta? Perché fornisce alle intelligenze artificiali un campo di addestramento illimitato e sicuro. Invece di imparare in condizioni reali (costose o rischiose) o su dati statici, gli agenti possono esercitarsi in compiti complessi dentro simulazioni realistiche e sempre nuove. In altre parole, i world model come Genie offrono all’AI “mondi-giocattolo” dove sperimentare, fallire e riprovare, il tutto a velocità accelerata e senza causare danni nel mondo vero. Non a caso DeepMind vede questi sistemi come fondamentali sulla strada verso agenti in grado di agire nel mondo reale.

Proprio qui entra in scena SIMA, l’altro pezzo del puzzle. SIMA (acronimo di Scalable, Instructable Multiworld Agent) è un agente AI generalista presentato sempre da DeepMind quest’anno, progettato per muoversi e seguire istruzioni in una vasta gamma di ambienti virtuali 3D. A differenza degli agenti specializzati in un singolo videogioco o simulazione, SIMA è stato addestrato su 9 giochi diversi (in collaborazione con 8 studi di videogame) più alcuni ambienti di ricerca, imparando centinaia di abilità di base – dal navigare e raccogliere oggetti fino al pilotare un’astronave, ed è capace di capire comandi in linguaggio naturale e tradurli in azioni (mouse e tastiera virtuali). L’obiettivo non era battere record di punti, ma seguire istruzioni varie in mondi sempre diversi, un po’ come farebbe un umano che prova tanti giochi nuovi.

Il risultato notevole è che l’agente “generalista” ha superato gli specialisti: nei test, un singolo modello SIMA addestrato su tutti e 9 i giochi ha ottenuto prestazioni migliori in ciascun gioco rispetto a modelli addestrati solo su quel gioco. Non solo – quando un agente SIMA veniva allenato su 8 giochi su 9, se la cavava quasi allo stesso livello di un agente dedicato nel 9° gioco mai visto prima. Questo è un fatto cruciale: indica un’ottima capacità di generalizzazione e trasferimento delle competenze. In pratica, l’AI che “ha visto un po’ di tutto” riesce a orientarsi anche in situazioni nuove, talvolta meglio di un’AI che ha grindato un solo compito in modo ossessivo. È un risultato controintuitivo ma che rispecchia un principio umano: saper imparare ad imparare da contesti vari può essere più potente che ottimizzarsi in un singolo dominio.

Ora, se colleghiamo i puntini, l’accoppiata Genie 3 + SIMA appare formidabile. Il punto di forza di Genie 3 – generare mondi sempre diversi a richiesta – è esattamente ciò di cui hanno bisogno agenti tipo SIMA per diventare ancora più versatili. DeepMind stesso ha già iniziato a testare i due in tandem: hanno generato con Genie 3 alcuni mondi di prova e ci hanno immerso una versione recente dell’agente SIMA, istruendolo a perseguire vari obiettivi all’interno di quei mondi. SIMA interagiva con Genie 3 mandandogli comandi di navigazione (es. vai avanti, gira a destra, prendi l’oggetto) e Genie reagiva aggiornando l’ambiente, il tutto senza avere conoscenza “interna” dello scopo dell’agente – simula semplicemente il risultato delle sue azioni.

Il fatto notevole è che Genie 3, mantenendo coerenza per minuti e supportando sequenze di azioni più lunghe rispetto al passato, permette ora all’agente di completare compiti più complessi senza reset dell’ambiente. DeepMind vede questa tecnologia come un ingrediente chiave verso sistemi più generali e infine l’AGI, dove agenti simulati giocano un ruolo crescente nello sviluppo e test di capacità prima di applicarle al mondo reale.

Perché è importante per la robotica?

Oggi per addestrare robot si fa largo uso di simulazioni e di tecniche come la domain randomization: in pratica, si creano tante varianti di un ambiente (ad es. decine di cucine virtuali con colori, illuminazioni e arredi diversi) e ci si allena il robot, così quando lo si trasferisce in una cucina reale che non ha mai visto, è più probabile che generalizzi bene senza rimanere spiazzato da un dettaglio fuori posto.

Genie 3 porta questo concetto all’estremo: invece di variare manualmente alcuni parametri in un simulatore, genera da zero mondi completamente nuovi, con fisiche, oggetti, texture e layout ogni volta differenti. Il robot quindi non impara solo su “tutti i tipi di cucina”, ma su ambienti che vanno ben oltre la sua missione specifica, costringendolo a sviluppare capacità di adattamento più profonde. Come ha scritto Ben Dickson, di fronte alla scarsità inevitabile di dati reali per addestrare robot in ogni scenario possibile, avere infiniti mondi sintetici da esplorare potrebbe consentire agli agenti di scoprire soluzioni del tutto nuove ai problemi. Non sappiamo ancora quale sarà la killer application di Genie 3 – nemmeno DeepMind può prevederlo con certezza – ma scommette che dentro questa “scatola magica” ci sia un potenziale enorme da sbloccare col giusto approccio.

Le ricadute pratiche vanno oltre il classico robot domestico. Pensiamo alle operazioni autonome in settori come logistica, manifattura, costruzioni, trasporti: poter simulare a piacere migliaia di scenari rari o pericolosi – un guasto improvviso a un macchinario, un ostacolo inatteso sul percorso di un veicolo, condizioni meteo estreme in cantiere – e addestrare agenti AI ad affrontarli, prima di metterli in campo, sarebbe di enorme aiuto. Con Genie 3 è teoricamente possibile ”mintare” (coniarsi) infiniti mondi con combinazioni diverse di fattori di disturbo, molto oltre ciò che si potrebbe progettare manualmente. Inoltre, il fatto che un modello generativo possa valutare il comportamento di un altro agente in simulazione (vedi SIMA) apre alla possibilità di usare l’AI non solo per training ma anche per testing: Genie può funzionare da banco di prova per vedere dove il robot sbaglia più spesso, quali condizioni lo mandano in tilt, e quindi aiutare gli ingegneri a identificare le debolezze di un sistema prima che sia fuori nel mondo. DeepMind evidenzia proprio questo aspetto: Genie 3 fornisce un vasto spazio dove addestrare agenti come robot o sistemi autonomi, ma anche dove valutarne le prestazioni e sondarne i limiti in sicurezza.

Va detto che già oggi simulatori avanzati e digital twin vengono usati in ambito industriale, ad esempio per ottimizzare linee produttive o testare robotica mobile nei magazzini. Tuttavia, creare e mantenere a mano queste simulazioni è costoso e richiede aggiornamenti continui per riflettere la realtà. Un sistema come Genie 3 lascia intravedere un futuro in cui molte di queste esperienze virtuali possano essere generate on-demand dall’AI, semplicemente descrivendo la situazione desiderata. Certo, non è garantito che la simulazione generata sia perfettamente accurata in ogni dettaglio (anzi, come vedremo a breve, al momento non lo è). Ma potrebbe bastare a coprire casi “long tail” difficilmente programmabili a mano.

Elon Musk ha commentato di aspettarsi già dall’anno prossimo videogiochi generati interamente dall’AI, dinamici e imprevedibili, “potrai letteralmente descrivere il gioco che vuoi e lui prenderà vita”. Al di là dell’hype, è chiaro che se questa tecnologia matura, avrà impatto anche nell’industria dei videogame e della simulazione formativa: scenari unici per ogni partita, NPC (personaggi) comportamentialmente generati, missioni che si adattano sul momento. Siamo ai primissimi passi, ma Genie 3 indica la strada verso mondi virtuali plasmati dalla creatività dell’utente insieme all’intelligenza della macchina, più che da un team di sviluppatori che pre-scrive tutto.

Verso lo Spatial Computing: il mondo diventa l’interfaccia

La comparsa di modelli come Genie 3 si inserisce in una trasformazione più ampia del rapporto fra digitale e reale, quello che dall’uscita del mio libro Spatial Shift ho definito The Shift verso lo spatial computing. Per decenni abbiamo interagito con la tecnologia attraverso schermi bidimensionali: monitor, smartphone, tablet. Le informazioni stavano dietro un “vetro”, separate dal mondo fisico. Ora quella barriera si sta dissolvendo. Come ho detto e scritto più volte  lo spazio intorno a noi sta diventando l’interfaccia.

In altre parole, invece di portare noi verso i contenuti sullo schermo, le nuove tecnologie portano contenuti e intelligenza dentro il nostro contesto fisico. Lo spatial computing e l’AI insieme fanno “uscire” l’informazione dagli schermi, integrandola nell’ambiente che viviamo. Genie 3, pur operando ancora in un dominio virtuale su monitor, incarna perfettamente questa filosofia: prende conoscenza (da testi, immagini, dati) e la incarna in un mondo digitale concreto con cui possiamo interagire quasi fosse reale. È il concetto di ambiente che prevale su quello di interfaccia: l’utente non clicca bottoni su un menu, ma si muove dentro uno spazio e vive l’esperienza.

Si intravede qui una convergenza con la realtà aumentata e virtuale. Prodotti come Apple Vision Pro, Meta Quest o Magic Leap sono i primi spiragli verso un computing immersivo, in cui contenuti 3D compaiono intorno a noi integrandosi con il mondo reale. DeepMind Genie 3 spinge in avanti il lato AI di questa equazione: mondi 3D generati a comando, personalizzati al volo.

Non è difficile immaginare un futuro in cui indossando un visore AR/VR si possa letteralmente “spawnare” ambienti tramite AI generativa: per training, per intrattenimento o per creatività. Un tecnico potrebbe, stando nel proprio ufficio, chiedere al computer di mostrargli una ricostruzione virtuale della fabbrica in scala 1:1 e provare a interagirci; un progettista potrebbe visualizzare e modificare prototipi di veicoli o edifici come ologrammi spaziali generati dall’AI. In generale, l’AI unita allo spatial computing promette di far dissolvere l’interfaccia fino a renderla trasparente: “non sarà il prossimo gadget, ma il contesto il vero protagonista”, come sintetizza Darunte.

Quando l’intelligenza vive nello spazio intorno a noi, i flussi di lavoro possono diventare così naturali da non accorgerci nemmeno della “tecnologia”, vediamo solo il compito che stiamo svolgendo, arricchito da informazioni contestuali. L’informatica ambientale (ambient computing) è proprio questo: intelligenza diffusa, attivata dalla nostra presenza e dalle nostre intenzioni, più che da click o tap su uno schermo.

Genie 3 può essere visto come un precursore di un “sistema operativo spaziale” generativo. Oggi genera mondi di fantasia su uno schermo, ma concettualmente ci sta dicendo che possiamo chiedere a un’AI di creare ambienti completi in cui poi entriamo e compiamo azioni. È una sorta di Holodeck a bassa risoluzione: uno spazio virtuale creato dall’intelligenza artificiale su cui abbiamo un certo controllo. Se guardiamo avanti di qualche anno, possiamo immaginare di avere ambienti generati in real time non solo nel computer ma nelle stanze intorno a noi – proiettati via occhiali AR o tramite installazioni immersive – dove persone e agenti virtuali coesistono.

Ad esempio, potremmo mescolare ambienti reali e simulati: un robot potrebbe allenarsi metà del tempo in VR su scenari generati, e l’altra metà spostarsi nel nostro mondo fisico, portandosi dietro l’esperienza accumulata. Già ora alcune aziende fanno addestramento in VR per operatori (come simulatori di impianti industriali): un modello come Genie renderebbe la creazione di questi scenari molto più rapida e dinamica, magari anche interattiva con l’utente (lo scenario che si adatta alle azioni del tirocinante in VR).

C’è poi l’aspetto dell’esperienza utente (UX) e del design in era di AI generativa. Tradizionalmente, progettare un’esperienza significava definire ogni stato dell’interfaccia, ogni possibile percorso utente, in modo deterministico. Se invece l’ambiente o l’interfaccia vengono creati on-the-fly da un’AI in base a una richiesta, come si garantisce una buona UX? Si apre un nuovo campo in cui i designer dovranno definire vincoli, regole e linee guida per l’output generativo, piuttosto che progettare ogni pixel.

Ad esempio, come faccio a dire a Genie 3 cosa non deve fare? Come inserisco dei punti fermi (es. un oggetto che deve assolutamente essere presente e funzionare in un certo modo) senza soffocare la creatività spontanea del modello? Nel contesto gaming, gli sviluppatori potrebbero voler generare livelli con Genie, ma vorranno anche controllare difficoltà, obiettivi e comportamenti dei NPC (non-player characters).

Insomma, serviranno strumenti di directability e scripting capaci di dialogare con il modello generativo. Alcuni progetti nascenti (es. la startup Intangible AI fondata da ex-Unity) puntano proprio a iniettare maggior controllabilità in questi mondi generati proceduralmente. Si profila il ruolo di un “AI experience designer”: una figura che non disegna schermate, ma allena e modula i modelli perché producano esperienze utente coerenti, sicure e piacevoli. È un cambio di paradigma nel design: dall’essere creatori dei contenuti a essere curatori di sistemi generativi. Chi saprà padroneggiare quest’arte, definire vincoli creativi all’AI senza bloccarne l’inventiva – avrà un enorme vantaggio.

La sfida non è più costruire prodotti, ma progettare ambienti intelligenti e context-aware in cui gli utenti vivono. 

La UX diventa quasi regia di un’esperienza dinamica, più che statico design di interfacce.

Sfide aperte e passi necessari

Nonostante l’entusiasmo per Genie 3, ci sono diversi limiti e questioni aperte da affrontare perché questa tecnologia possa avere impatti concreti su larga scala. Anzitutto, le limitazioni tecniche attuali: la versione di ricerca di Genie 3 può sostenere solo pochi minuti di interazione continua prima che la coerenza inizi a degradare.

Non siamo quindi vicini a mondi persistenti per ore o giorni di simulazione; tuttavia, il trend di miglioramento dal Genie 2 suggerisce che la finestra temporale potrà estendersi con modelli più grandi e ottimizzati. Altra limitazione è la fisica imperfetta: sebbene il modello mostri comprensione di concetti fisici base (gravità, illuminazione, dinamiche di fluidi in modo qualitativo), può produrre fenomeni bizzarri o poco accurati. Sono stati osservati, ad esempio, personaggi che camminano all’indietro senza motivo, o oggetti che compenetrano altri oggetti – insomma glitch nel rispetto delle leggi fisiche. Questo pone un problema se l’obiettivo è usare queste simulazioni per addestrare robot: come garantire che un robot impari il comportamento giusto se il mondo virtuale talvolta “bara” sulla fisica? I ricercatori stessi riconoscono che, allo stato attuale, mondi così non sono affidabili al punto da garantire che un agente addestrato lì si comporterà correttamente nel mondo reale. Semmai, possono essere utili per far emergere casi in cui l’agente fallisce (dentro la simulazione stessa) e quindi indicare che non sarebbe ancora pronto per la realtà.

In altre parole, per adesso possiamo usare Genie 3 più come stress test per agenti che come oracolo definitivo di validazione.

Un altro vincolo è l’azione limitata dell’agente all’interno di Genie 3: attualmente può inviare comandi di navigazione (muoversi nello spazio), ma non può ad esempio afferrare oggetti, premere pulsanti o costruire cose dettagliate nel mondo generato. L’interazione fisica complessa e la presenza di più agenti indipendenti nello stesso ambiente sono frontiere ancora aperte nella ricerca. Inoltre, al momento Genie 3 accetta soltanto prompt testuali come input iniziale, non immaginib,  la possibilità di partire da una foto o da uno screenshot di un videogioco e “entrarci” resta per ora un intrigante demo, ma non è supportata out-of-the-box nell’anteprima attuale. Su questo punto, curiosamente, il predecessore Genie 2 consentiva input misti testo+immagine, mentre Genie 3 pare aver sacrificato questa flessibilità per concentrarsi sulla generazione interattiva in tempo reale. Non è detto che in futuro non si riacquisti anche la semina visiva (anzi, si parla già di esperimenti per fornire video di input in Genie 3, ad esempio per continuare scene dal mondo reale).

Oltre ai limiti tecnici, ci sono sfide pratiche di adozione. Questi modelli sono enormemente affamati di calcolo: generare grafica 3D fotorealistica via AI frame dopo frame richiede potenza computazionale molto maggiore rispetto a riprodurre scene con un tradizionale motore 3D basato su assets predefiniti. Genie 3 per ora gira su infrastrutture specializzate; portarli in applicazioni consumer o nei flussi di lavoro quotidiani richiederà ottimizzazioni e probabilmente nuovo hardware (es. i progressi di NVIDIA nel settore fanno pensare che GPU dedicate a AI world generation diventeranno realtà).

C’è anche un tema di tooling e integrazione: i creativi e sviluppatori dovranno avere strumenti intuitivi per collaborare con questi generatori di mondi. Non basta rilasciare un’API che sputa fuori ambienti: serviranno interfacce per editare, correggere, salvare e versionare i mondi generati. In ambito professionale, uno studio vorrà poter dire “ok, la versione 3 del livello generato ieri era quasi buona, la riprendo e la modifico un po’ invece di rigenerarla da capo oggi”. Questo implica capacità di controllo fine sui contenuti generati, memorizzazione di seed o parametri per riprodurre ambienti, e magari funzioni di esportazione verso formati standard (immagini, mesh 3D, ecc.) per rifinire il lavoro con software tradizionali. La qualità grezza dei modelli generativi da sola non basta: l’esperienza utente per i creator sarà cruciale quanto i progressi dell’AI.

Vanno considerati aspetti di sicurezza e responsabilità. DeepMind, ben conscia della natura aperta e “magica” di Genie 3, sta procedendo con cautela: il modello è distribuito a un piccolo gruppo in forma di ricerca controllata, proprio per studiarne i rischi e mitigare usi impropri. Un mondo generato in cui l’utente può vagare pone sfide nuove per la moderazione dei contenuti: cosa impedisce che un prompt generi scene violente, o traumatizzanti, o implicitamente offensive? Bisognerà incorporare vincoli e filtri robusti nei modelli, perché un conto è generare un’immagine sgradevole (già problematico), un altro è trovarsi immersi in una scena sgradevole. Anche la proprietà intellettuale è un tema: usare dipinti famosi come “seed” per mondi 3D è affascinante, ma bisognerà chiarire i diritti su quelle creazioni derivate.

Se un utente crea un livello ispirato a un artwork esistente, quell’artista andrebbe compensato? E se il mondo generato contiene marchi o elementi riconoscibili, di chi è la responsabilità? Sono dilemmi già sollevati con la generazione di immagini e musica da parte delle AI, ma nel caso di mondi complessi si aggiunge la difficoltà di monitorare ogni dettaglio generato. Serviranno quindi policy di utilizzo e controlli accurati prima di un rilascio pubblico più ampio. DeepMind dichiara di voler sviluppare Genie in modo responsabile, con feedback interdisciplinare, proprio per capirne le implicazioni e i potenziali impatti negativi.

La scelta di limitare l’accesso e raccogliere le prospettive di eticisti, creatori e ricercatori fa parte di questo approccio prudente

Designed to Be Lived : quando l’interazione smette di essere visiva e diventa spaziale.

Dallo schermo allo spazio digitale da abitare

The Shift In Focus

Apple ha appena reso il testo più difficile da leggere. E no, non è un errore: è un cambio di prospettiva. Con l’introduzione dell’interfaccia “Liquid Glass” su visionOS 2 per il visore Vision Pro, molti utenti si sono sentiti spaesati e hanno reagito con perplessità (e le solite polemiche) prima ancora di comprenderne il senso. Caratteri meno leggibili, trasparenze ovunque, elementi dell’interfaccia sospesi nell’aria: non è solo una scelta estetica ardita, ma una fase di training invisibile con cui Apple prepara il terreno. L’azienda sta addestrando il nostro sguardo a una nuova grammatica del vedere: un’interfaccia che non blocca più la realtà ma la lascia filtrare, uno spazio digitale che non compete col mondo fisico ma vi convive. In altre parole, l’interfaccia non è più qualcosa da osservare su uno schermo piatto – diventa qualcosa da abitare intorno a noi.

Questa transizione rappresenta uno shift percettivo profondo: si passa dalle interazioni bidimensionali su display, mediate da tocchi e swipe, a interazioni immersive in un ambiente che integra reale e virtuale. Il design dello spazio diventa esso stesso interfaccia. Non a caso, il tema centrale di questa edizione è proprio il Spatial Shift: il passaggio dai tradizionali schermi 2D alle interfacce immersive, percettive e ambientali che ci circondano. Apple, con Vision Pro e la nuova interfaccia “Liquid Glass”, sta inaugurando quella che potremmo chiamare una fase di allenamento cognitivo degli utenti verso questo futuro di interazioni spaziali. Il focus si sposta dall’esperienza utente su schermo (UX) a una esperienza spaziale (“SX”) pervasiva. È uno spostamento che coinvolge tecnologia, design e comportamenti umani – uno shift da tenere bene a fuoco.

Educare l’utente a un nuovo paradigma percettivo

Understanding the Shift

Per capire la portata di questo cambiamento, conviene osservare la strategia ricorrente di Apple nell’introdurre nuove interfacce. In passato è già successo: la rimozione del tasto Home dall’iPhone fu inizialmente vissuta come un fastidio; i nuovi gesti parevano poco intuitivi e la curva di apprendimento era scoraggiante. Eppure in breve tempo quei gesti sono diventati la norma, tanto che oggi un iPhone col tasto fisico ci sembra archeologia tecnologica. Lo stesso copione si è visto con l’eliminazione improvvisa del jack audio per le cuffie (accolta da proteste feroci) che ha però spianato la strada al paradigma wireless-first, e ancor prima con l’addio alla tastiera fisica sui telefoni, spazzata via in favore del touchscreen. Ogni cambiamento ha seguito lo stesso iter: disorientamento iniziale, adattamento rapido, standardizzazione definitiva. Prima ci lamentiamo, poi ci abituiamo, infine non vogliamo più tornare indietro.

Questa ripetuta trasformazione non è solo una questione tecnica, ma di psicologia dell’utente. Apple da sempre progetta non solo prodotti, ma comportamenti: esercita una sottile pedagogia tecnologica abituando gradualmente le persone a nuovi paradigmi. Anche stavolta, con Vision Pro e visionOS, la scelta di un’interfaccia semi-trasparente e “difficile” è una leva gentile che spinge a guardare in modo diverso. L’utente è costretto a non fissare più elementi grafici netti su uno schermo, bensì a prestare attenzione a contenuti digitali che si fondono con l’ambiente. Apple sta di fatto educando il nostro modo di vedere: prepara un futuro in cui interagiremo attraverso occhiali AR, o magari lenti a contatto intelligenti e micro-proiettori ambientali, dove sarà la realtà stessa il canvas di informazioni. Per arrivarci, l’interfaccia deve cominciare già oggi a perdere opacità e a uscire dai suoi confini tradizionali. Nel silenzio, Apple sta già dicendo addio al concetto stesso di “display” come lo conosciamo, inaugurando un paradigma in cui lo schermo non c’è più – perché l’interazione avviene tutto intorno a noi.

In questo contesto, Vision Pro non va visto solo come un nuovo gadget, ma come un vero punto di rottura cognitivo. Indossare un computer spaziale modifica la nostra postura e la nostra attenzione, cambia perfino la nozione di “app” e di notifica: in un ambiente tridimensionale, una notifica non è più un semplice alert, ma una presenza accanto a noi; un gesto nell’aria diventa linguaggio espressivo, mentre lo sguardo funge da puntatore e focus semantico. Insomma, Apple sta ribaltando assunti decennali di interazione uomo-computer. E lo fa con la consueta determinazione: non chiederà il permesso di cambiare, ma cambierà – con pazienza e precisione, forte di una visione che spesso è chiara solo col senno di poi. Noi utenti, come sempre, inizialmente ci lamenteremo; poi ci adatteremo; infine chiameremo tutto ciò progresso. Capire questo processo è fondamentale per comprendere lo shift in atto: Apple sta allenando la nostra percezione oggi per prepararci alle interfacce di domani.

Interfacce percettive e la fine del display tradizionale

The Core

Al centro di questa evoluzione c’è un’idea dirompente: l’interfaccia del futuro non sarà progettata per essere guardata, ma per essere vissuta. Non più una Graphical User Interface confinata in una finestra luminosa, bensì una “interfaccia percettiva” diffusa nello spazio attorno a noi. È un cambiamento radicale di paradigma. Per decenni abbiamo misurato il progresso in pollici di schermo, densità di pixel e brillantezza dei display. Ora il display è destinato a dissolversi nell’ambiente: il futuro non è un nuovo schermo, è l’assenza di schermo. I contenuti e le funzioni digitali verranno distribuiti tra diversi elementi: forse un bracciale smart per il controllo interattivo, un device in tasca per la potenza di calcolo, un paio di occhiali (o lenti a contatto) per la visualizzazione. Il dispositivo non starà più “di fronte” a noi, ma su di noi e intorno a noi. In breve, l’esperienza sarà ambientale, invisibile, continua.

Questa prospettiva richiama un principio noto nel design: il buon design tende a diventare invisibile. Come osserva Don Norman (guru dell’usabilità), un prodotto ben progettato si adatta talmente bene ai nostri bisogni da risultare quasi impercettibile nella sua funzione. Un’interfaccia perfetta non attira attenzione su di sé, ma ci permette di svolgere compiti e vivere esperienze in modo naturale. È ciò a cui mira il paradigma spaziale: tecnologie così integrate nel contesto da non sembrare neppure “tecnologia” nel senso tradizionale. Del resto, già nel 1991 il visionario Mark Weiser scriveva che “le tecnologie più profonde sono quelle che scompaiono. Si intrecciano nel tessuto della vita quotidiana fino a diventare indistinguibili da essa”. Oggi quella profezia sembra realizzarsi: l’interfaccia si dissolve nell’ambiente, lo spazio stesso diventa l’interfaccia.

Pensiamo alle implicazioni di questa dissoluzione del display. Per gli utenti significa meno barriere tra mondo digitale e fisico: le informazioni ci “vengono incontro” negli spazi che abitiamo, anziché costringerci a piegare la testa su uno schermo. Ciò potrebbe rendere la tecnologia più umana e a misura dei nostri sensi, restituendo centralità al nostro modo naturale di percepire lo spazio. Non a caso si parla di “spatial computing”: un calcolo computazionale che non vive più dentro uno scatolo luminoso, ma si espande nell’ambiente. In termini di progettazione, questo richiede un cambio di mentalità: dal design di interfacce 2D si passa al design di esperienze tridimensionali, dove entrano in gioco la prospettiva, la distanza, il tatto, il sonoro e persino la cinestetica del corpo. Si passa dalla classica UX alla SX (Spatial Experience), una disciplina ancora in definizione che combina principi di UX design con architettura, psicologia ambientale e design sensoriale.

In sintesi, il cuore dello shift in atto è la trasformazione dell’interfaccia da elemento visibile e separato, a ambiente invisibile e incorporato nella nostra realtà. È una nuova era in cui “lo spazio è il nuovo schermo”. Chi progetta tecnologie dovrà pensare meno a pixel e pannelli, più a esperienze situate nello spazio dell’utente. E l’utente, da parte sua, dovrà sviluppare nuovi alfabeti percettivi per interagire con informazioni che si presentano nel mondo reale invece che su un vetro. È un cambio di core paradigm paragonabile a quello introdotto dallo smartphone, se non più grande: allora il telefono divenne una finestra universale sul digitale; ora quella finestra si spalanca e scompare, perché il digitale permea direttamente la stanza in cui siamo.

Oltre Apple: tentativi, fallimenti e visioni ambientali

The Broader Shift

Sebbene Apple stia guidando con Vision Pro questa transizione, il paradigma delle interfacce ambientali è nell’aria da tempo e coinvolge l’intero settore tecnologico. Da anni si parla di ambient computing, cioè di un computing ubiquo che ci assiste ovunque in modo naturale, senza dover fissare uno schermo. Google, per esempio, descrive la sua missione hardware proprio in termini di ambient computing: tecnologie sempre presenti nella vita quotidiana, pronte all’uso “in qualsiasi momento, in modo che sembri naturale”. L’idea è di interagire con l’ambiente e avere i servizi digitali che rispondono ai nostri gesti, voce e bisogni, invece di farci concentrare su un dispositivo specifico.

Tuttavia, realizzare davvero questa visione si sta rivelando complesso. Alcuni prodotti recenti che provavano ad anticipare il futuro post-schermo hanno incontrato difficoltà e fallimenti, dimostrando che il timing e l’UX devono essere maturi. Ad esempio, il Rabbit R1 (nella foto, a sinistra) e il Humane AI Pin (a destra) sono due dispositivi lanciati con l’obiettivo di superare lo smartphone tradizionale. Il Rabbit R1, presentato nel 2024, è un piccolo gadget tascabile con schermo da 2,9 pollici e un assistente AI integrato, concepito per svolgere in autonomia molte funzioni oggi legate al telefono. Il suo fondatore lo ha descritto come un dispositivo AI-native talmente ambizioso da poter sostituire lo smartphone (prima o poi) – “solo non subito”, ammise realisticamente. Nelle intenzioni, il R1 avrebbe dovuto essere un tuttofare intelligente, un coltellino svizzero digitale capace di usare le nostre app per noi attraverso un modello di AI chiamato “Large Action Model”. In pratica però, già dai primi test è parso chiaro che l’idea superava le capacità concrete del prodotto: l’R1 non è abbastanza potente per rimpiazzare un telefono e finisce per sembrare più che altro un assistente vocale evoluto con un piccolo schermo aggiunto. La visione di Rabbit – per quanto intrigante – è risultata poco definita e prematura rispetto alla tecnologia attuale. Non a caso, di recente Jony Ive (storico designer di Apple) ha liquidato sia il Rabbit R1 che l’AI Pin come “prodotti molto scadenti”, criticando la mancanza di reale innovazione in quelle proposte.

Ancora più emblematica è la parabola del Humane AI Pin, una sorta di spilla intelligente progettata da ex-dirigenti Apple per offrire un’esperienza computing senza schermo. Humane presentava il Pin come l’inizio di un futuro post-smartphone, in cui passeremo meno tempo con la testa chinata sugli schermi e più tempo di nuovo nel mondo reale. L’AI Pin, lanciato a fine 2023, si agganciava agli abiti e combinava fotocamera, micro-proiettore laser e un’assistente AI (sistema operativo CosmOS) per rispondere a comandi vocali ed eseguire varie operazioni al volo. Nelle promesse, doveva fare da filtrato intelligente tra noi e il mondo digitale: niente app da aprire, niente display da toccare – bastava chiedere all’assistente per telefonare, mandare messaggi, tradurre conversazioni o ottenere informazioni sugli oggetti intorno a noi. In teoria, un computer indossabile che “non è un telefono, ma neanche non lo è”, completamente basato sull’intelligenza ambientale.

Purtroppo, tra la visione e la realtà si è aperto un divario. Al debutto, il Pin si è rivelato acerbo e malfunzionante su molti fronti: dalla batteria misera (2-3 ore di autonomia) ai ritardi nelle risposte vocali, dall’interazione tramite proiezione sul palmo (affascinante ma problematica in ambienti luminosi e scomoda nei gesti) fino a funzioni base mancanti. Il verdetto dei recensori è stato impietoso – “promette di liberarti dallo smartphone, ma c’è un problema: semplicemente non funziona titolava The Verge. Dopo un debutto costellato di bug e limiti, Humane ha visto sfumare rapidamente l’entusiasmo: nel giro di pochi mesi l’azienda ha cercato acquirenti e infine è stata venduta a HP, che ha spento il progetto e ritirato dal mercato tutti gli AI Pin già venduti. Un epilogo amaro per un dispositivo lanciato a $699 più abbonamento mensile, che avrebbe dovuto mostrare la via di una “ambient intelligence” indossabile ma si è scontrato con la realtà di un’esperienza utente frustrante e tecnologie non all’altezza.

Casi come Rabbit R1 e Humane AI Pin evidenziano quanto sia difficile anticipare il paradigma giusto al momento giusto. Spesso l’idea può essere valida (meno schermi, più presenza nel mondo reale) ma la maturità dell’ecosistema e dell’UX risulta ancora insufficiente. Queste sperimentazioni però non sono vane: indicano una direzione. Come scriveva un commentatore, il Pin di Humane prometteva un futuro oltre lo smartphone “di gran lunga oltre ciò che la sua tecnologia può fare nel presente” – un po’ come accadde negli anni ’90 a General Magic con il suo Magic Link (un antesignano PDA creato da ex Apple, rivelatosi troppo avanti per l’epoca). I fallimenti insegnano che serve tempo per colmare il gap fra visione e realtà. E insegnano anche che certe idee richiedono un ecosistema integrato per prosperare: proprio ciò in cui Apple tradizionalmente eccelle. Infatti, come notava Fast Company, spesso i prodotti Apple hanno successo perché possono contare su reti di sviluppatori e contenuti che li rendono utili e appetibili, mentre startup come Humane hanno tentato di imporre hardware radicalmente nuovo senza un adeguato parco di applicazioni e servizi di terze parti pronti all’uso.

Dal punto di vista culturale, questa transizione porta con sé anche riflessioni profonde. Il filosofo Byung-Chul Han osserva come la nostra società digitale abbia trasformato gli oggetti in “non-cose”, sostituendo la tangibilità degli oggetti cari con esperienze fugaci e swipe effimeri su schermi. In altre parole, molta della “magia” degli oggetti fisici si è persa in favore di interazioni digitali disincarnate. L’idea di un’interfaccia percettiva ambientale potrebbe rappresentare un tentativo di ricucire lo strappo: riportare il digitale dal regno disincarnato dello schermo a una presenza più concreta nel nostro spazio, ridando corpo e contesto alle informazioni. Anche Don Norman, con la sua enfasi sul design umano-centrico, indirettamente ci ricorda che la tecnologia dovrebbe adattarsi ai comportamenti naturali delle persone e non viceversa – e un computing ubiquitario, integrato nell’ambiente, promette proprio di rispettare maggiormente le nostre abitudini sensoriali e sociali. L’obiettivo ultimo, condiviso da molti innovatori, è un futuro in cui l’informatica sia pervasiva ma discreta, potente ma invisibile, costantemente disponibile ma quasi impercettibile nella routine quotidiana. Arrivarci richiede conquiste sia tecniche (miniaturizzazione, AI sempre più intelligente, nuove interfacce neuronali magari) sia di design ed ergonomia (nuovi linguaggi d’interazione intuitivi, rispetto per l’attenzione e i limiti cognitivi umani). Siamo, in definitiva, di fronte a uno shift non solo tecnologico ma anche di mindset collettivo: reimmaginare il rapporto uomo-macchina in termini più simbiotici e meno mediati da artefatti visibili.

Scenari futuri e opportunità all’orizzonte

What’s Next

Guardando avanti, la domanda non è più se questo spatial shift accadrà, ma quando e come si compirà. Apple sembra seguire un piano ben preciso. Il Vision Pro in uscita (per ora un dispositivo costoso rivolto a sviluppatori e early adopter) è probabilmente solo il primo passo: una sorta di fondamenta su cui costruire un ecosistema di applicazioni spaziali e abituare gli sviluppatori al nuovo paradigma. Già l’anno prossimo o entro un paio d’anni, possiamo aspettarci un’evoluzione verso hardware più compatto – magari un Apple Glass leggero, occhiali AR pensati per il grande pubblico – una volta superate le attuali sfide di produzione e autonomia. Nel frattempo Apple ha iniziato a seminare concetti e interfacce (come il Liquid Glass di visionOS 2) che fungono da ponte cognitivo: ci abitua a testi semi-trasparenti oggi, così domani saremo pronti a indossare un display sugli occhi senza trovare strano vedere il mondo attraverso l’informazione digitale.

In parallelo, l’intero settore tech si muove verso l’immersivo e il percettivo. Meta sta investendo nella sua visione di realtà mista (gli ultimi Quest e prototipi di occhiali AR), Google continua la ricerca su occhiali e sensori ambientali (puntando a realizzare la promessa dell’ambient computing integrato nei suoi servizi cloud), e persino nuove collaborazioni emergono: ad esempio Jony Ive e Sam Altman (OpenAI) hanno annunciato di lavorare insieme a un dispositivo AI innovativo per il 2026 – segno che l’idea di un gadget personale potenziato dall’AI e privo di interfaccia tradizionale è tutt’altro che tramontata, anzi alletta i protagonisti della scena tecnologica. Possiamo aspettarci quindi una proliferazione di esperimenti nei prossimi anni: dagli assistenti personali ambientali (in auto, in casa, integrati nell’IoT) a interfacce neuronali più dirette (Neuralink e affini), fino a piattaforme software che ridefiniscono il concetto di “app” in chiave spaziale e contestuale.

Dal punto di vista del business, si apre una nuova frontiera di opportunità. Chi saprà definire gli standard delle interfacce spaziali – linguaggi gestuali, formati per contenuti AR, protocolli per oggetti intelligenti – potrebbe dominare il prossimo ecosistema come Apple e Google hanno dominato l’era smartphone con iOS e Android. Immaginiamo nuovi servizi: mappe che non si guardano sul telefono ma compaiono direttamente lungo il nostro percorso in strada, e-commerce che materializza schede prodotto in forma di ologrammi nel salotto prima dell’acquisto, assistenti AI che ci sussurrano consigli nell’orecchio contestualmente a ciò che stiamo guardando. Interi settori (dal retail all’education, dalla sanità all’intrattenimento) verranno ripensati in chiave di esperienze miste fisico-digitali. Aziende di design dovranno unire competenze di UX, realtà aumentata e persino architettura d’interni per progettare spazi interattivi. E sul piano culturale e sociale, dovremo monitorare attentamente l’impatto: queste tecnologie potrebbero renderci più liberi dagli schermi, più presenti nella vita reale – o, se mal gestite, creare una nuova ondata di sovrastimolazione e dipendenza, stavolta distribuita ovunque andiamo. La differenza la farà un approccio etico e human-centric: come garantire che l’AR non diventi una continua distrazione invasiva? Come proteggere la privacy in un mondo di sensori ambientali? Come mantenere un controllo consapevole sui flussi informativi che ci raggiungono in realtà aumentata? Queste sono sfide aperte, di design, di regolamentazione e di educazione all’uso.

Quel che è certo, riprendendo le parole del mio libro “Spatial Shift”, è che siamo all’alba di un cambiamento epocale nel nostro modo di vivere, pensare e relazionarci. Un cambiamento paragonabile a ciò che fu l’introduzione dell’iPhone, ma amplificato dalla convergenza simultanea di più tecnologie mature: intelligenza artificiale sempre più avanzata, sensori ambientali diffusi, realtà mista e 3D, connettività pervasiva. Questa convergenza sta preparando il terreno per riscrivere radicalmente le regole dell’interazione uomo-macchina e, di conseguenza, tanti modelli di business e di uso quotidiano. Siamo in un momento di rara energia innovativa, in cui device come Vision Pro o esperimenti come l’AI Pin fanno parlare di una nuova entusiasmante fase del tech come non succedeva da anni. Ma – come sempre accade nelle grandi transizioni – l’hype iniziale dovrà tradursi in adozione reale e valore pratico. La strada dei prossimi anni vedrà iterazioni continue: prototipi, versioni beta, successi sorprendenti e flop clamorosi. È un processo di learning by doing collettivo, dove ogni tentativo (anche fallito) contribuisce ad avvicinarci all’obiettivo finale: un computing realmente invisibile, naturale e potenziante.

Dentro lo shift, verso un futuro da abitare

The Shift Continues

In conclusione, lo shift continua. Siamo solo alle prime pagine di questa nuova storia tecnologica: come hanno ammesso i fondatori di Humane, “oggi non siamo nemmeno al primo capitolo, ma alla prima pagina” di un futuro in cui l’AI ambientale e le interfacce spaziali ridisegneranno la nostra relazione con la tecnologia. Ogni giorno che passa aggiungiamo un tassello – una riga di codice in visionOS, un nuovo sensore indossabile, un gesto che diventa standard – e ci spingiamo un po’ più in là verso l’era dell’interfaccia diffusa. All’inizio potrà sembrare strano, scomodo o prematuro (come tutte le grandi rivoluzioni all’inizio sembrano). Ma se la storia recente ci insegna qualcosa è che ci abituiamo in fretta ai nuovi paradigmi, quando questi risolvono problemi reali o migliorano la qualità della vita. E a quel punto, voltandoci indietro, ci chiederemo come potevamo vivere chiusi dentro gli schermi senza abitare anche il lato digitale del nostro spazio.

Questo numero di InsideTheShift ha voluto esplorare il passaggio dalle interfacce da osservare a quelle da vivere, dai pixel ai luoghi aumentati, dagli oggetti alle esperienze. È uno shift che coinvolge tecnologia, business, cultura e design in egual misura. Continueremo a seguirne gli sviluppi nelle prossime edizioni, analizzando come evolvono i dispositivi, le piattaforme e – soprattutto – le abitudini delle persone. Come sempre, restiamo dentro lo shift per coglierne per tempo le opportunità e le sfide. Ci aspetta un futuro in cui l’interazione uomo-macchina sarà tanto pervasiva quanto trasparente, un futuro da costruire con visione ma anche con responsabilità. Il viaggio continua: la spatial shift è iniziata, e saremo qui a raccontarla passo dopo passo.

Stay Inside the Shift.

Il resto dei Toolbox, delle risorse linkate e dei takeaway lo trovate qui su Substack InsideTheShift in inglese.

Beyond Virtual: come lo Spatial Computing sta ridisegnando il futuro del gaming

Ieri ho partecipato all’Italian Gaming Expo a Roma con uno speech dal titolo “Beyond Virtual: Spatial Computing and XR for the Future of Gaming”. Un’occasione utile per mettere a fuoco un tema che seguo da tempo con passione e studio, e che ho affrontato anche nel mio libro Spatial Shift: la convergenza tra intelligenza artificiale, tecnologie immersive e nuovi ambienti digitali.

Questa volta ho voluto declinare quei concetti sul settore del gaming, che forse più di altri sta già vivendo una trasformazione profonda, non tanto nel linguaggio estetico o nella logica del gameplay, ma nel modo in cui esperienze, ambienti e contenuti si relazionano allo spazio fisico e alla nostra presenza nel mondo reale.

Il punto di partenza è semplice quanto radicale: stiamo entrando in una nuova fase del computing. Dopo l’epoca desktop, quella mobile e quella cloud, oggi siamo nell’alba di un’era spatial, dove l’interazione con i contenuti digitali si libera dallo schermo e si distribuisce nell’ambiente che ci circonda. Lo chiamiamo spatial computing, ed è molto più di un’estensione dell’AR o della VR. È un cambio di paradigma nel modo in cui il digitale “vive” nello spazio.

Spatial computing: dal dispositivo all’ambiente

In questa nuova fase non interagiamo più con il contenuto “guardando dentro” un device. Il contenuto si proietta fuori. Lo spazio intorno a noi diventa un canvas digitale su cui appaiono elementi immersivi, persistenti, personalizzati. Non è solo una questione di effetto wow: è una trasformazione sistemica del nostro rapporto con l’informazione, la narrazione e il gioco.

Come sottolinea Cathy Hackl, una delle voci più lucide su questi temi, “spatial computing isn’t about devices, it’s about context”. È il contesto che conta. È lì che si gioca la sfida: capire come, dove e quando interagiamo. E soprattutto: chi costruisce questi contesti?

Nel gaming questa transizione è già visibile. Giochi come Pokémon GO hanno mostrato per primi la possibilità di costruire esperienze ludiche sovrapposte al mondo reale. Ma oggi siamo ben oltre: visori come Meta Quest 3 o Apple Vision Pro ci permettono di trasformare il salotto in uno spazio ibrido dove avatar, elementi digitali e oggetti fisici convivono. Il gioco non si svolge più in una finestra digitale, ma intorno a noi, in tempo reale, connesso a ciò che facciamo, vediamo e sentiamo.

Il gioco entra nel mondo reale

Questo shift ha due implicazioni molto forti per chi progetta e costruisce contenuti ludici.

La prima è che l’ambiente stesso diventa parte integrante dell’esperienza. Non parliamo più di livelli predefiniti da navigare con un controller, ma di spazi reali in cui ci si muove fisicamente e in cui ogni elemento – un muro, una sedia, una finestra – può diventare parte attiva della narrazione. L’ambiente non è più lo sfondo, è il gameplay.

La seconda è che il corpo torna ad essere centrale. Il corpo non come ostacolo, ma come interfaccia. Con la computer vision, l’eye tracking, il motion sensing e il feedback aptico, il giocatore non è più “fuori dal gioco” ma dentro, presente, immerso e co-autore dell’esperienza.

In questo scenario, il design cambia pelle. Non si tratta più di scrivere regole per un mondo chiuso, ma di orchestrare esperienze in ambienti aperti, dinamici, interattivi e spesso condivisi. Il confine tra gaming, fitness, socialità, formazione o comunicazione diventa sempre più sottile.

AI, generazione procedurale e ambienti intelligenti

Un’altra variabile che sta accelerando tutto questo è l’intelligenza artificiale.

Non è un’esagerazione dire che la convergenza tra AI e spatial computing sta ridisegnando le fondamenta stesse dell’intrattenimento.

L’AI generativa consente oggi di creare NPC autonomi e realistici, mondi generati dinamicamente, missioni che si adattano in tempo reale al comportamento del giocatore. Ma soprattutto, permette a ogni esperienza di essere personalizzata e situata. Un gioco spatial può cambiare non solo in base al tuo livello o alle tue scelte, ma in base al luogo in cui sei, all’ora del giorno, a chi hai intorno.

Stiamo passando da ambienti digitali “chiusi” a ecosistemi intelligenti in grado di leggere, interpretare e rispondere. La logica stessa della progettazione cambia: da una narrativa predefinita a una co-costruita, dove il giocatore entra in relazione attiva con il contesto. È un salto concettuale e tecnico, ma è anche una grande opportunità per re-immaginare il concetto stesso di gioco.

Il gaming come infrastruttura esperienziale

Molti considerano il gaming un sottoinsieme dell’intrattenimento. In realtà, oggi sta diventando sempre più una piattaforma culturale, un’infrastruttura esperienziale. Lo vediamo nei mondi persistenti di Fortnite o Roblox, dove i confini tra gioco, socialità, evento e commercio si fondono. Lo vediamo nella logica dei digital twin, nei training simulator in XR, nei giochi educativi in MR. Il linguaggio ludico sta diventando la grammatica con cui interpreteremo una parte crescente della realtà aumentata che abiteremo nei prossimi anni.

Il gioco non è più uno spazio-tempo separato. È un layer aggiuntivo che si sovrappone alla vita. Può accendersi durante una camminata in città, durante una sessione di allenamento, o mentre esploriamo un museo. Diventa strumento di coinvolgimento, apprendimento, relazione.

Opportunità e nuove domande

Tutto questo apre scenari enormi per chi sviluppa prodotti, contenuti e strategie in ambito gaming e tech. Si apre un nuovo mercato, con nuovi modelli di business e nuove filiere. Ma emergono anche domande nuove, profonde, che non possiamo ignorare.

Chi possiede lo spazio virtuale sovrapposto a quello fisico? Come si tutelano la privacy, i dati ambientali, i comportamenti biometrici raccolti dai dispositivi XR? Come si regolamenta l’accesso, la moderazione, la sicurezza in un gioco che si svolge nel mondo reale, tra persone vere?

Sono le domande che iniziano ad affiorare oggi, ma che saranno centrali domani, quando milioni di persone inizieranno ad abitare queste esperienze spatial ogni giorno.

Oltre il virtuale

Lo spatial computing non è una moda passeggera. È un cambio di fase.

E il gaming non è semplicemente uno dei primi settori a esserne toccato: è il motore culturale che può guidarne l’evoluzione.

Come ha detto Tim Sweeney, CEO di Epic Games:

“AR glasses will become the entertainment platform of the future, replacing smartphones, tablets, and maybe even TVs.”

Non è più questione di se, ma di quando.

E soprattutto, di come costruire esperienze che non si limitino a stupire, ma che abbiano valore, coerenza e impatto.

Per questo credo che oggi più che mai sia il momento di pensare oltre il virtuale – e iniziare a progettare quello che viene dopo.

Il futuro dell’Immersività nello Sport: intervista in università parlando di tecnologia, spatial computing e fan engagement

Nel mondo dello sport, le tecnologie immersive come la realtà aumentata (AR) e la realtà virtuale (VR) stanno rivoluzionando l’esperienza dei tifosi e l’ottimizzazione delle prestazioni degli atleti. Ho presentato qualche giorno fa il libro “Spatial Shift” che ho recentemente scritto, partecipando a un’intervista con un’università per discutere del futuro dello sport e dell’immersività.

In questa intervista, che riporto, ho condiviso la mia visione su come queste tecnologie vengono sfruttate oggi nell’NBA, le loro potenzialità future e l’apertura delle società sportive all’adozione di queste innovazioni. Scopriamo insieme come AR e VR stanno trasformando il panorama sportivo e quali prospettive ci attendono. Ho anche annunciato la prossima uscita del libro “Sport Tech, una nuova era dello sport business e della trasformazione digitale.”

Come vengono sfruttate queste tecnologie al giorno d’oggi? C’è o ci sarà secondo Lei un’apertura da parte di tutte le società sportive all’utilizzo di esse? Le nuove tecnologie, come la realtà aumentata (AR) e la realtà virtuale (VR), sono già ampiamente sfruttate nell’NBA per migliorare l’esperienza dei tifosi e ottimizzare le performance dei giocatori. Le applicazioni includono la trasmissione di partite in VR per una visione immersiva (da punti in cui sono situate camere 360), l’uso di sensori e analisi avanzate per monitorare e migliorare le prestazioni degli atleti (ed i cui dati sono poi utilizzati per ambiti di simulazione immersiva), e la creazione di contenuti interattivi per i social media che coinvolgono i fan in modo più profondo (AI, Video Recognition, Image Recognition). Credo fermamente che tutte le società sportive seguiranno questa tendenza, poiché l’adozione di queste tecnologie può offrire vantaggi competitivi significativi, sia in termini di ingaggio del pubblico che di miglioramento delle prestazioni sportive e diventerà una condizione necessaria anche di sopravvivenza a tendere in termini di possibili forme di ricavo.

Come si possono coinvolgere sempre più emotivamente le persone rispetto ad una partita live vista con i propri occhi? Per coinvolgere emotivamente le persone in modo paragonabile a una partita live, le tecnologie immersive come la VR possono giocare un ruolo cruciale. Offrendo esperienze che replicano la sensazione di essere presenti fisicamente all’evento, si può creare un legame emotivo più forte. Ad esempio, trasmettere le partite in VR permetterà ai tifosi di vivere l’emozione del gioco da diverse prospettive, come se fossero seduti a bordo campo. L’uso di AR per fornire statistiche in tempo reale, replay e angolazioni esclusive arricchisce l’esperienza visiva e mantiene l’attenzione del pubblico. Il tutto poi deve esser sempre corredato di servizi a valore aggiunto, come loyalty, reward e accesso ad esclusività differenziante. Se prima del covid il fisico era ormai commodity ed il digitale l’opportunità derivante dalla novità, ora stiamo vivendo un processo inverso in cui il digitale è l’elemento di commodity in cui avvengono naturalmente fruizioni, interazioni e servizi all’utente con contenuti esclusivi per il digitale, ed il fisico è la componente dell’esperienza in cui viene creato un valore unico e raro per l’utente.

Come si possono “convincere” le persone scettiche a provare ad indossare un visore per provare un’esperienza immersiva del genere? Per convincere le persone scettiche a provare i visori VR, è fondamentale offrire dimostrazioni gratuite e esperienze pilota che mostrino chiaramente i vantaggi di queste tecnologie. Questo nella fase educativa, senza dubbio. Eventi promozionali in cui i tifosi possono sperimentare la VR senza costi iniziali potrebbero essere molto efficaci. Dopodiché, passata la fase di evangelizzazione, l’utilizzo di testimonianze di celebrità e atleti che raccontano le loro esperienze positive attraverso l’uso dell’extended reality, possono aumentare l’interesse e ridurre le riserve. Non c’è dubbio che per migliorare l’esperienza ed accelerare poi l’adozione del visore ci siano tre condizioni che devono verificarsi nello stesso momento (e ci siamo quasi)

  • ergonomia, semplicità d’uso e user experience del device
  • abbattimento del prezzo dei device consumer per la massa
  • creazione di contenuto esclusivo e unico fruibile da device (come sta facendo AppleTV con MLS e contenuti solo visibili in vision pro)

Secondo Lei siamo solo all’inizio, o già con quello che accade in NBA siamo ad un buon punto rispetto all’utilizzo di a.r. e v.r. in campo sportivo? Ritengo che siamo ancora agli inizi di un lungo percorso evolutivo nell’uso della AR e VR nello sport e delle nuove tecnologie convergenti (AI e Blockchain incluse). Sebbene l’NBA stia facendo passi significativi nell’adozione di queste tecnologie, sia per temi di cultura, budget e approccio, c’è ancora un ampio margine per l’innovazione e la diffusione. Le possibilità offerte dal computing spaziale e dall’intelligenza artificiale, come discusso nel mio libro, promettono di trasformare ulteriormente l’esperienza sportiva e di renderla sempre più coinvolgente e personalizzata oltre che generare nuove opportunità per brand e partner in termini di forme di nuova monetizzazione.

Secondo Lei i visori quando potranno cominciare ad essere accessibili ai più in termini di prezzo e di “comodità” d’utilizzo? Prevedo che i visori VR diventeranno accessibili al grande pubblico nei prossimi 3-5 anni. La rapida evoluzione tecnologica e la competizione tra i produttori stanno già portando a una riduzione dei costi e a miglioramenti significativi nella comodità d’uso. La miniaturizzazione dei componenti, l’aumento della durata della batteria e il miglioramento dell’ergonomia sono tutti fattori che contribuiranno a rendere questi dispositivi più attraenti e accessibili. L’avvento del Vision pro ha accelerato già il contesto di competizione: se da una parte Meta ha iniziato ad adeguare ed evolvere il proprio sistema operativo nella direzione introdotta da Apple con lo Spatial Computing, dall’altra altri competitor di device hardware hanno capito che diminuzione della dimensione, l’integrazione di sensori, camere e display e la progettazione ergonomica per creare accessibilità e inclusività sono elementi progettuali necessari.

Molte persone si rifiutano di provare la realtà virtuale solo perché devono indossare un caschetto, quindi i visori anche se diventeranno sempre più piccoli e accessibili potranno sostituire gli smartphone? O le persone si rifiuteranno perché si tratta di “indossare” qualcosa sulla propria testa? È vero che molte persone sono riluttanti a indossare un caschetto VR ed in generale per persone sono poco predisposte a modificare il proprio visus se non hanno una reale necessità (problemi di vista per capirci…). Con il continuo miglioramento del design e la riduzione delle dimensioni dei visori, ritengo che questa resistenza diminuirà trasformando il visore da maschera / caschetto ad occhiale, indossabile tutti i giorni (esattamente la strada che sta facendo Meta e Luxottica). Anche se i visori VR potrebbero non sostituire completamente gli smartphone, diventeranno probabilmente un complemento importante per determinate esperienze immersive che non possono essere replicate su uno schermo piatto. La chiave sarà offrire valore aggiunto che giustifichi l’uso di un dispositivo indossabile, in determinate circostanze. Sono dell’idea che non avremo mai un uso costante di un occhiale in testa, ma utilizzi specifici e fortemente contestualizzate e caratterizzanti in cui saremo ben predisposti a farlo.

Attualmente negli sport, da parte delle società è più utilizzata la realtà aumentata o la realtà virtuale? Attualmente, la realtà aumentata è più utilizzata rispetto alla realtà virtuale, soprattutto per le sue applicazioni immediate e facilmente integrabili nelle trasmissioni televisive e nelle app mobili o nei siti internet attraverso la WebAR. La AR è utilizzata per sovrapporre grafici, statistiche e replay durante le partite, o per mostrare asset tridimensionali e contestualizzati nello spazio fisico, migliorando l’esperienza visiva senza la necessità di attrezzature speciali. La VR sta guadagnando terreno, soprattutto per le esperienze immersive, simulazioni e allenamenti degli atleti.

Nel calcio l’utilizzo di queste tecnologie è ancora un miraggio? L’utilizzo della v.r. nella finale di Copa América è un approccio o gli esperimenti attualmente si fermeranno a quella partita? Nel calcio, l’adozione delle tecnologie AR e VR sta crescendo. L’uso della VR nella finale di Copa América rappresenta un passo importante verso l’integrazione di queste tecnologie, ma è ancora in fase sperimentale. Ritengo che con i successi iniziali e il feedback positivi di queste inizaitive, si creerà l’effetto “follower” e vedremo un’adozione più ampia e sistematica nel prossimo futuro, non solo limitata a eventi singoli ma integrata regolarmente nelle competizioni sportive. Il tema dei diritti da sbloccare è in corso, e questo sarà inoltre un abbattimento enorme di barriere.

In quanto tempo si potrebbe arrivare all’utilizzo totale di queste tecnologie in tutti gli sport? L’adozione totale di AR e VR in tutti gli sport potrebbe avvenire entro i prossimi 5-10 anni. Questo dipenderà dall’evoluzione tecnologica, dalla riduzione dei costi e dall’accettazione da parte del pubblico e degli atleti. Man mano che le tecnologie diventano più avanzate e accessibili, e i benefici diventano più evidenti, la loro integrazione nei vari sport diventerà inevitabile. Questa è una valutazione “lineare” ma non ho dubbi sul fatto che potremmo vedere una accelerazione di adozione come successo con il mobile.

Potrebbero capitare casi in futuro di spettatori presenti solo virtualmente allo stadio e non fisicamente? È plausibile e a mio avviso inevitabile, che in futuro vedremo spettatori che partecipano agli eventi sportivi esclusivamente tramite realtà virtuale. Questo permetterà ai fan (e non solo) di tutto il mondo di “essere presenti” a una partita senza dover viaggiare, offrendo un’esperienza simile a quella dal vivo, permettendo l’estensione del business per il brand e le opportunità di coinvolgere una nuova utenza. L’esperienza fisica – quella di andare allo stadio – manterrà sempre un fascino unico e anzi, il ruolo di esclusività / rarità di posti e unicità, renderà il fisico ancora più attraente e probabilmente vedremo un’integrazione di entrambe le modalità, fisica e virtuale, per soddisfare le diverse esigenze e preferenze dei tifosi.

SPATIAL SHIFT : La convergenza tecnologica di Computing, Mixed Reality, Artificial Intelligence e Blockchain

Quando nel 2007 Steve Jobs presentò al mondo l’iPhone, pochi potevano immaginare l’impatto rivoluzionario che questo dispositivo avrebbe avuto sulle nostre vite. In quel momento storico, non solo assistevamo alla nascita di un nuovo prodotto, ma eravamo testimoni dell’alba di un’era completamente nuova: l’era dello smartphone, un’epoca in cui la tecnologia mobile avrebbe ridefinito il modo in cui comunichiamo, ci connettiamo, lavoriamo, giochiamo e viviamo.

Oggi, mentre scrivo queste righe, sento un senso di déjà vu, una sensazione che l’”iPhone moment” sta per arrivare di nuovo, ma per una tecnologia diversa, o forse meglio, per una convergenza di diverse tecnologie che stanno arrivando ad una fase di maturità, tutte nello stesso momento. Forse come non è mai successo in modo così impattante. Un momento che sta preparando il terreno per una trasformazione altrettanto monumentale e che appunto non riguarda solo una tecnologia come successe con il mobile, ma riguarda l’intelligenza artificiale, la blockchain, la mixed reality e diverse altre tecnologie come la sensoristica, la connettività e che stanno definendo la nuova fase di internet.

Una fase che viene battezzata come web3 e che porta internet dal bidimensionale (2D) al tridimensionale (3D) integrando in questo processo di transizione una serie di nuovi paradigmi legati all’ownership delle informazioni, la decentralizzazione, l’intelligenza artificiale ed una nuova capacità computazionale e capacità di interazione.

Il cambiamento introdotto da questa convergenza tecnologica e lo sviluppo di nuovi dispositivi che stanno entrando sul mercato stanno consentendo la crescita di un altro trend che prende il nome di Spatial Computing. Il computing spaziale, con la sua promessa di unire il mondo fisico e quello virtuale in un continuum senza percezione di discontinuità, insieme all’AI che offre capacità di comprensione, previsione e personalizzazione a livelli prima inimmaginabili, rappresenta un ulteriore cambio di paradigma nell’interazione uomo-macchina.

Stiamo percorrendo la strada che ci porterà a un futuro in cui l’estensione della realtà diventerà la norma, i nostri ambienti di vita e di lavoro saranno arricchiti da informazioni e interazioni virtuali, rendendo la nostra quotidianità più connessa, intuitiva e più avanzata tecnologicamente e potenzialmente più umana. L’impatto che queste tecnologie potranno avere, in particolare lo Spatial Computing, sulla società moderna è enorme ed abbraccia non solo la sfera personale ed empatica, ma anche quella professionale e la sua efficacia ed efficienza. Se da una parte avremo accesso ad informazioni in una modalità nuova, dall’altra avremo strumenti di interazione, nuove forme di apprendimento e di lavoro.

Se il pensiero, mentre si leggono queste prime righe di libro, è che il mondo stia andando verso un contesto distopico in cui avremo permanentemente un casco in testa o una maschera sul volto, come nelle visioni fantascientifiche di serie Tv e film iconici come Black mirror o Ready Player One, beh no, lo dico subito, non credo in questo tipo mondo. Ma soprattutto lo spero dal più profondo del cuore.

Il motivo per cui ho deciso di scrivere questo libro, e di cui ringrazio #Egea per la fiducia, “Spatial Shift, la convergenza tecnologica di Computing, Mixed Reality, Artificial Intelligence e Blockchain“, nasce da una convinzione profonda che il momento che stiamo vivendo è un punto di svolta per la nostra società, paragonabile appunto all’uscita dell’iPhone e lo sviluppo degli smartphone nella direzione come la conosciamo oggi.

La recente introduzione di dispositivi come il Vision Pro, l’aggiornamento del Quest 3 e l’evoluzione di altri dispositivi e smart glass, insieme agli sviluppi nell’intelligenza artificiale generativa, stanno alimentando un hype ed un entusiasmo che non vedevamo da anni nel settore tecnologico. Tuttavia, questo entusiasmo non è infondato; è il preludio a un cambiamento epocale nel modo in cui interagiamo con le informazioni, gli ambienti e tra di noi.

Il percorso che ho fatto in questi anni e che mi ha portato a scrivere questo libro è stato tanto personale quanto professionale. Negli ultimi anni, ho avuto il privilegio di lavorare a stretto contatto con persone brillanti nell’ambito del design, della user Experience e dello sviluppo di nuove tecnologie, collaborando con aziende, progetti ed eventi che spingevano i confini del possibile, nel loro ambito, sempre al limite. Ho visto da vicino cosa significa progettare progetti di mixed reality in contesti ed industrie differenti, tra successi incredibili e le sfide impreviste che hanno portato anche al fallimento di progetti che apparentemente sembrano eterni. Ho inoltre avuto modo di sperimentar l’entusiasmo di vedere un progetto passare da un’idea su carta a un’applicazione reale e poi vedere l’impatto che questo ha avuto sulle persone, sul come interagiscono con il mondo intorno a loro e come sono cambiate alcune abitudini.

Quando recentemente poi ho avuto modo di provare due nuovi strumenti Quest3, VisionPro e trovarmi a sperimentare con sistemi di Intelligenza Artificiale Generativa in modo diretto, mi sono reso conto che esisteva un vuoto. Mancava un testo che da una parte esplorasse le potenzialità tecniche e le applicazioni del computing spaziale e dell’AI, ma che considerasse anche le implicazioni più ampie di queste tecnologie, tra modalità di progettazione e riflessioni più etiche.

Come questo Spatial Shift influenzerà il nostro modo di vivere, di pensare, di relazionarci? Quali sfide progettuali, tecniche, etiche e sociali dobbiamo anticipare e affrontare? E, forse più pressante di tutto, come possiamo assicurarci che queste tecnologie siano utilizzate in modo corretto nel suo complesso, piuttosto che trasformarci in esseri completamente isolati e assuefatti da stimoli digitali e virtuali?

Queste domande mi hanno stimolato nella ricerca e la stesura di questo libro. Ho voluto creare una testo che fosse una prima guida ed un punto di partenza per coloro che sono nuovi a questi concetti, e anche una punto di unione di diversi concetti per coloro che, come me, sono immersi in questi temi da anni.

Spatial Shift, la convergenza tecnologica di Computing, Mixed Reality, Artificial Intelligence e Blockchain” non è quindi solo un titolo; è una dichiarazione d’intenti. In queste pagine, esploreremo insieme un po’ di storia della realtà aumentata, la convergenza tecnologica che ci ha portato fino ad oggi, termini, contesti e ambiti in cui lo spatial computing e l’intelligenza non sono (e non saranno) solo strumenti nelle nostre mani, ma fondamenti di una nuova realtà. In modo non del tutto esteso, anche perché siamo all’inizio di questo viaggio, vedremo come queste tecnologie potranno avere un impatto trasformativo in diverse industrie, dalla sanità all’educazione, dal retail all’intrattenimento, e di come stiano riscrivendo le regole del gioco in termini di interazione umana, produttività e creatività.

Attraverso questo libro, mi auguro di trasmettere non solo la conoscenza e la comprensione di queste potenti tecnologie, ma anche di ispirare una riflessione su come possiamo utilizzarle per creare un futuro in cui la tecnologia arricchisce le nostre vite senza sopraffarle. Un futuro in cui la convergenza tra il mondo fisico e quello digitale ci porta a nuove altezze di innovazione e intimità umana, senza perdere di vista i valori che ci rendono veramente umani.

Benvenuti in un viaggio verso il futuro.

Per acquistarlo

Progettare per Apple Vision Pro. Primi passi nello Spatial Computing e le prime lezioni imparate

Come scrivo da giorni, son circa 3 mesi che studio e sperimento in ambiente di sviluppo e test per Apple Vision Pro (nelle prossime ore mi arriverà il mio primo visore, di due, che ne ho acquistato). Non c’è dubbio che fin dall’ambiente di sviluppo, e senza ancora aver avuto modo di fare lunga sperimentazione con l’oggetto fisico – a parte un test di 15 min a Dicembre – il nuovo dispositivo presenta una serie di nuove sfide progettuali, rispetto ad altri visori e rispetto al mondo IOS, da considerare, e che non sono del tutto scontate.

Partiamo da un punto a mio avviso fondamentale:

La forza di Vision Pro non è l’hardware ( o meglio non solo e non soprattutto ), ma bensì la visione e la concezione che porta con se a livello di sistema e approccio.

Proprio come ho scritto qui . Detto questo qui di seguito riporto alcuni appunti che in questi mesi ho preso durante la progettazione from scratch per Apple Vision Pro.

Vision Pro non è un comune visore AR/VR

L’arrivo di Apple nel mercato dell’AR è un tema di discussione, e attesa, di lungo termine e fino a poco tempo fa non c’erano informazioni specifiche per poter iniziare a ragionare su cosa volesse dire progettare per questo device. Per esperienza il processo di migrazione di un applicativo tra diversi visori, cosi come succede tra diversi device smartphone con OS differenti, implica l’adattamento di più parti del progetto, dalla UX alle scelte tecniche di sviluppo, nonché in alcuni casi anche servizi per gestire correttamente le dinamiche dell’OS / ambiente di riferimento. Sono pochi i casi che permettono di lasciare il design pressoché inalterato, ma nel caso del VR invece è prassi.

Nel caso di Apple, rientriamo assolutamente nel secondo caso, ossia è un nuovo approccio, ergo è un contesto del tutto nuovo in cui sviluppare applicativi immersivi “per Vision pro“, e non “anche per Vision Pro“.

Da documentazione Apple è palese fin da subito che non si parla di AR / VR, ma di Spatial Computing. Di questo in questi giorni ne ho già ampiamente parlato e scritto,  e anche se per molti può sembrare solo marketing, a mio avviso ci sono alcune differenze reali nel modo in cui questo visore è progettato rispetto a Quest 3 e altri visori provati negli ultimi due anni.

Un ambiente di sviluppo, per diverse modalità

Per prima cosa in questo contesto è importante definire le tipologie di applicazioni sviluppabili. In particolare in Vision Pro ci sono tre tipi di app che si possono sviluppare: windowed, bounded e unbounded (sono termini ereditati da Unity). Nel contesto dell’Apple Vision Pro, i tre approcci alla progettazione di applicazioni rappresentano modi differenti di sfruttare le capacità di spatial computing del dispositivo. Questi approcci definiscono come l’applicazione interagisce con lo spazio dell’utente e il grado di immersività. 

  • Windowed: le applicazioni “windowed” sono quelle che appaiono agli utenti come finestre fluttuanti nello spazio davanti a loro, in modalità Passthrough, simili a come le finestre appaiono su un computer desktop tradizionale. Questo approccio consente agli utenti di interagire con l’applicazione in un formato rettangolare 2D, mantenendo contemporaneamente la consapevolezza dell’ambiente fisico. È l’opzione meno immersiva tra le tre, ma offre grande flessibilità e può essere particolarmente utile per applicazioni che non richiedono un’esperienza completamente immersiva o per quelle che devono essere eseguite in parallelo ad altre attività, in multi tasking praticamente.
  • Bounded: le applicazioni “bounded” sono progettate per operare all’interno di un volume definito, o “bounded space”, nello spazio fisico dell’utente. Questo significa che l’app crea un’esperienza 3D immersiva che gli utenti possono esplorare o interagire entro i limiti di uno spazio virtuale delimitato. Il volume può essere visualizzato come una porzione di spazio virtuale che coesiste con il mondo reale, permettendo agli utenti di muoversi e guardarsi intorno all’interno dei confini definiti. Questo approccio è più immersivo rispetto alle applicazioni windowed, offrendo un’esperienza che sfrutta la percezione dello spazio 3D pur essendo ancorata a un’area specifica del mondo reale.
  • Unbounded: le applicazioni “unbounded” rappresentano il livello più elevato di immersione, in cui l’esperienza virtuale non è confinata da limiti spaziali definiti. In questo scenario, l’app può trasformare l’intero ambiente circostante dell’utente in uno spazio di gioco o di lavoro virtuale, permettendo interazioni e movimenti virtuali senza restrizioni spaziali. Questo approccio è ideale per esperienze di realtà aumentata o virtuale che intendono sostituire o trasformare completamente la percezione dell’ambiente fisico dell’utente, offrendo la massima libertà nell’esplorazione di mondi virtuali.

Ogni approccio ha i suoi vantaggi specifici e la scelta tra windowed, bounded e unbounded dipende dagli obiettivi dell’applicazione, dalle esigenze degli utenti e dal tipo di esperienza che si desidera creare. L’Apple Vision Pro, in questo modo offre agli sviluppatori la flessibilità di esplorare questi diversi approcci per progettare esperienze utente innovative e coinvolgenti.

Un approccio flessibile e unico (per adesso)

Tecnicamente non c’è una netta divisione in questo contesto di sviluppo. Da parte di Apple, ci sono finestre o volumi (oggetti ed entità) che possono apparire in modalità Shared Space o Full Space, in Passthrough o in un ambiente VR completamente immersivo. Un’app nel caso di Vision pro può combinarli tutti insieme, in vari modi.

Faccio degli esempi per rendere meglio l’idea. Nel caso di Apple è possibile per esempio sviluppare un gruppo di finestre, che si combinano con un gruppo di volumi, in uno spazio Full o Shared. In questo caso si può passare da uno all’altro, a seconda delle esigenze dell’utente, e si possono creare dinamiche di interazione e spostamento particolari: la vera distinzione da è tra il come il contenuto è rappresentato ( finestra 2D o volume 3D) e in quale spazio si trova (condiviso con altre app o non condiviso), e soprattutto se è in Passthrough o in VR completo. Molte applicazioni per necessità o precedenti sviluppi in altri ambienti e device nascono con modelli vincolati, mentre nel caso di Apple, se si vuole mantenere una completa flessibilità la soluzione più semplice (e probabilmente corretta) è utilizzare in modalità Full Space. L’unico caso che diventa veramente vincolate e inibisce alle applicazioni di poter esser gestite contemporaneamente ad altre è lo sviluppo Unbounded/Full Space, che ha di per se molti vantaggi, ma ha lo svantaggio principale che l’utente appunto non può aprire applicazioni una a fianco all’altra.

In pratica se vogliamo realizzare applicazioni che permettano all’utente in contemporanea di leggere la posta, navigare in internet, ascoltare musica, guardare un video, giocare e fare qualsiasi altra cosa dobbiamo realizzare app bounded e in uno spazio condiviso. Questo tipo di soluzione di sviluppo, che dal possibilità di utilizzo senza soluzione di continuità, da la sensazione di essere magica. E questa cosa per adesso la si può fare solo in Apple Vision Pro.

Quando Apple menziona lo Spatial Computing in pratica non parla di AR o VR, ma si riferisce esattamente a questo.

Apple Vision pro è “un computer indossabile”. E non lo dico solo per un tema di hardware o caratteristiche tecniche, ma per via dell’ecosistema che Apple vuole integrare e lo scopo che vuole raggiungere: un dispositivo, come un computer personale, indossato sulla testa, con cui puoi fare tutto, ovunque.

Scegliere quindi in quale spazio si trova l’app, a mio avviso è la prima fase della progettazione dell’esperienza dell’applicativo che si vuole sviluppare e che consentirà al progetto di poter sfruttare a pieno le potenzialità del visore. Non c’è dubbio che allinearsi alla visione di Apple, come successo negli anni con le linee progettuali dettate da Apple stessa per IOS, possa accelerare lo sviluppo e trovarsi esattamente a progettare nel corretto paradigma – approvato da Apple appunto – e su cui il visore di fatto nasce.

La differenza dei controlli tra Apple Vision Pro e gli altri sistemi

Una delle cose che mi ha sorpreso negli ultimi anni è quanto i giochi VR possano essere accessibili ai non giocatori, per quanto il numero di visori e la diffusione dei giochi VR non sia ancora così estesa. Uno dei motivi della semplicità d’uso a primo impatto è senza dubbio il controllo all’interno del gioco, ossia per la VR è viene chiamato controllo diretto. Questo è un modo elegante per dire che giochi attraverso l’incarnazione diretta e questa forma di controllo è estremamente intuitiva, perché tutti sanno come usare il proprio corpo.

All’interno del Vision Pro, il paradigma di controllo è differente. In Vision pro le cose con cui puoi interagire le guardi e poi le pizzichi. In pratica è come se gli occhi fossero il puntatore del mouse e al tuo pizzico delle dita il clic sul tasto sinistro. Questo è quello che Apple chiama il controllo indiretto. Se il controllo diretto è intuitivo, il controllo indiretto all’inizio lo è un po’ meno.

I concetti di controllo diretto e controllo indiretto si riferiscono quindi a due diversi modi in cui gli utenti possono interagire con le interfacce digitali, in particolare nel contesto di dispositivi come l’Apple Vision Pro e altri sistemi di realtà aumentata o virtuale.

  • Controllo Diretto: il controllo diretto si basa sull’interazione fisica e intuitiva con l’ambiente virtuale. In pratica, significa che le azioni dell’utente nel mondo reale vengono mappate direttamente nel mondo virtuale in modo uno a uno. Ad esempio, se in un gioco VR l’utente vuole afferrare un oggetto, estenderà la mano e lo prenderà proprio come farebbe nella vita reale. Questo approccio è definito “diretto” perché l’azione compiuta ha un corrispettivo immediato e intuitivo nell’ambiente virtuale, rendendo l’esperienza di gioco o l’interazione estremamente naturale e accessibile anche per chi non è abituato ai videogiochi. La tecnologia di tracking di movimento, come il tracciamento delle mani e dei movimenti del corpo, è cruciale per questo tipo di controllo.
  • Controllo Indiretto: il controllo indiretto richiede invece un’azione che non corrisponde fisicamente all’azione che si verifica nel mondo virtuale. Utilizzando l’esempio dell’Apple Vision Pro, gli utenti interagiscono con l’ambiente virtuale guardando gli oggetti e compiendo un gesto specifico, come un pizzicotto, per selezionarli o interagire con essi. In questo caso, lo sguardo dell’utente funziona, come detto, come un cursore del mouse, e il “clic” delle dita sostituisce il mouse. Questo metodo è considerato “indiretto” perché c’è una disconnessione tra l’azione fisica e il risultato nell’ambiente virtuale; l’utente non tocca o afferra fisicamente l’oggetto, ma usa un’interazione basata su gesti per controllarlo.

Scegliere tra un controllo diretto o indiretto

Non c’è dubbio che la modalità in controllo indiretto debba esser appreso dall’utente poiché, almeno nella fase iniziale, non risulta naturale, soprattutto se paragonata ad altre esperienze di altri visori per gli utenti che hanno già avuto altre esperienze.

Ma questa fase di apprendimento, l’abbiamo già vissuta più volte e non è stato un disastro, anzi:

  • le levette analogiche introdotte per la prima volta nei videogiochi
  • il cursore del mouse e la sua interazione con il sistema operativo
  • lo swipe di apple per lo sblocco del cellulare per per le diverse interazioni

Ogni nuova interazione porta con se una nuova fase ed una nuova curva di apprendimento. E non necessariamente è un male.

Ora, rispetto il punto è “scegliere tra un controllo diretto o indiretto”. Ovviamente la prima riflessione è che a seconda del tipo di sviluppo che si affronta è corretto pensare di sviluppare differenti tipologie di interazione, o eventualmente supportare sia il controllo diretto che quello indiretto.

I sistemi di interazione indiretta a mio avviso prenderanno popolarità per la loro versatilità e capacità di adattarsi soprattutto alla pigrizia umana, offrendo un’interfaccia concettualmente trasparente che permette di compiere molteplici azioni con minimi spostamenti nel mondo reale. Questo tipo di controllo diventa essenziale in ambienti con spazi limitati, dove l’interazione diretta fisica è impraticabile, e aggiungo in contesti in cui l’utilizzo del visore è in condizioni di lavoro “stabili” ed il visore è il sostituto di un equipaggiamento fatto di pc, device mobile e monitor. In tali contesti, gli utenti interagiscono con il sistema da una certa distanza, rendendo le azioni simili all’uso di un mouse in un ambiente 2D, ma con la tecnologia che interpreta automaticamente la profondità e l’orientamento desiderato. Questo approccio consente una partecipazione efficace e comoda in progetti complessi senza la necessità di movimenti ampi o fisici, adattandosi perfettamente a situazioni dove lo spazio è un vincolo.

In pratica progettare per il controllo indiretto significa tornare a progettare nel modo in cui si farebbe per un mouse o un controller. Invece di mappare il movimento fisico del giocatore uno a uno nel mondo virtuale, va ripensato in modo che una piccola quantità di movimento abiliti un ampio spazio di possibilità nello spazio di interazione. Questo schema di controllo si basa molto sul tracciamento degli occhi.

Tracciamento Oculare, tra punti di forza e debolezze

Il tracciamento oculare del Vision Pro è sicuramente molto efficace e preciso, seppur tecnicamente non sbagli mai su punto in cui gli occhi sono puntati, il modo in cui deve esser implementato e utilizzato ha ancora delle debolezze (che non ho dubbi verranno migliorate).

Prima di tutto il tracciamento oculare come metodo di input presenta un potenziale limite legato alla necessità di eseguire azioni in modo sequenziale, a causa della limitazione naturale di poter focalizzare visivamente un solo elemento alla volta. Questo implica che, nonostante la potenziale rapidità e intuitività dell’interazione visiva, gli utenti sono vincolati a comunicare le loro intenzioni al sistema in una sequenza temporale definita. Questo vincolo può limitare la capacità di multitasking, in particolare in contesti dove l’efficienza e la simultaneità delle azioni sono cruciali. È possibile organizzare le interazioni in modo che consentano una forma di multitasking sequenziale, ad esempio attraverso l’uso combinato di input visivi e gestuali che permettono di gestire diversi elementi quasi contemporaneamente.

Secondo tema è relativo alla percezione visiva umana, caratterizzata da rapidi e brevi movimenti degli occhi che spostano il punto di focalizzazione, introduce ulteriori complicazioni nel tracciamento oculare. Questi aspetti biologici possono distorcere la corrispondenza tra l’intenzione dell’utente e il punto effettivo di focalizzazione, portando a discrepanze tra dove l’utente crede di aver guardato e dove i suoi occhi si sono effettivamente mossi. Questo fenomeno può causare interazioni imprecise o non intenzionali, sottolineando l’importanza di considerare le peculiarità della visione umana nella progettazione di interfacce basate sul tracciamento oculare. La sfida che vedo è quella di progettare sistemi che tengano conto di queste limitazioni, minimizzando gli errori e migliorando l’esperienza utente attraverso un’interpretazione accurata delle intenzioni visive.

Da considerare infine è l’ottimizzazione delle interfacce di tracciamento oculare ed in particolare va fatta molta attenzione al tempo di reazione richiesto nell’interazione, alla disposizione spaziale degli elementi interattivi e ai falsi positivi. Minimizzare la possibilità di azioni non intenzionali e ridurre l’impatto degli errori diventa fondamentale per mantenere un’esperienza utente positiva, fluida e che non generi frustrazione. Strategie come la distanza minima tra gli elementi interattivi e la conferma delle azioni critiche possono mitigare le conseguenze degli errori e migliorare significativamente l’usabilità. La progettazione di interfacce , soprattutto in un contesto immersivo / sensoriale deve quindi bilanciare l’introduzione di esigenze tecnologica e comportamento umano, al fine di creare sistemi di interazione che siano sia avanzati che intuitivi.

Personalizzazione dell’esperienza utente su Apple Vision Pro

Un aspetto fondamentale nella progettazione di applicazioni per Vision Pro è l’importanza di offrire esperienze altamente personalizzabili. Nell’era del computing spaziale e dell’iperpersonalizzazione, la UX si trasforma richiedendo un approccio che vada oltre la “semplice” navigazione tradizionale. Lo sviluppo deve pertanto considerare che il design possano adattarsi non solo alle diverse modalità di interazione (diretta e indiretta), ma anche alle preferenze individuali degli utenti. La capacità di modificare impostazioni quali la scala di visualizzazione, la sensibilità dei controlli o gli schemi di colore diventa cruciale per accogliere un pubblico ampio e diversificato. Questo livello di personalizzazione non solo migliora il comfort e l’usabilità, ma incoraggia anche un maggior grado di immersione e soddisfazione dell’utente, ed accessibilità.

Game Design per l’Immersività Spaziale

Nel contesto di Vision Pro, il game design assume nuove dimensioni, spingendo lo sviluppo a forme di esplorazione innovative e meccaniche di gioco che sfruttino appieno le capacità dello spatial computing. La progettazione di giochi in ambienti windowed, bounded e unbounded offre opportunità senza precedenti per creare esperienze ludiche che si intrecciano con l’ambiente fisico dell’utente. Questo richiede una riflessione approfondita su come gli elementi di stimolo possano esser applicati per far emergere ed attivare comportamenti ed interazioni all’interno di spazi reali e virtuali, in un continuo di esperienza. Elementi come la realtà aumentata dinamica, gli oggetti interattivi che reagiscono alla presenza fisica e ai movimenti dell’utente, l’interazione con oggetti fisici, sensori e la narrazione che si adatta all’ambiente circostante, pongono le basi per una nuova era del game design, dove l’ambiente stesso diventa un componente chiave del gameplay.

Lo spazio condiviso: ottimizzazione e integrazione

Nella progettazione di applicazioni che utilizzano lo “spazio condiviso” diventa importante e fondamentale considerare l’impatto sulla potenza di calcolo del dispositivo e sul carico cognitivo degli utenti. Le applicazioni in questi contesti non operano in isolamento (ossia in modalità unica) ma coesistono con altre applicazioni, condividendo di conseguenza le risorse limitate come la potenza di elaborazione. Questo implica la necessità di ottimizzare le prestazioni senza presupporre l’accesso esclusivo alle risorse del sistema. Allo stesso tempo, è essenziale progettare esperienze che non sovraccarichino l’utente, lasciando spazio cognitivo (in modo fagocitante) per altre attività parallele, sottolineando l’importanza di un design che sia efficiente e non invadente.

Il concetto di spazio condiviso estende la sua rilevanza ed importanza progettuale anche al tema sonoro delle applicazioni. Nello sviluppo di un applicativo devono esser bilanciate la creazione di un contesto ambientale sonoro coinvolgente e la consapevolezza che esisteranno altri suoni nell’ambiente dell’utente fisico circostante. Questo richiede un attento lavoro di design del suono che consideri la coesistenza di fonti sonore multiple, garantendo che l’audio dell’applicazione non sia invasivo ma piuttosto si integri armoniosamente con il contesto di utilizzo. Son parecchi i giochi e applicazioni già presenti in altri store VR che non hanno una corretta attenzione progettuale a queste dinamiche.

Sfide e Strategie nello Sviluppo per Piattaforme Avanzate

Ultimo tema da affrontare è relativo alla scelta della piattaforma di sviluppo per un progetto, e qui le opzioni spaziano da ambienti nativi, come Swift per dispositivi Apple, a motori di terze parti come Unity. La decisione dipende spesso dalla familiarità con l’ecosistema e dalla valutazione dei rischi e delle tempistiche di sviluppo del singolo progetto.

Sviluppare nativamente può offrire un accesso diretto alle ultime funzionalità e ottimizzazioni e caratteristiche tecniche del dispostivo stesso e dell’OS (come succede dopo tutto con swift su IOS), ma richiede una conoscenza approfondita della piattaforma. Al contrario, l’uso di motori di terze parti può accelerare lo sviluppo grazie alla loro flessibilità e alla vasta gamma di funzionalità, anche se potrebbe comportare limitazioni in termini di accesso alle funzionalità più recenti e specifiche del dispositivo ed una maggiore dipendenza da aggiornamenti di terze parti.

Le differenze architetturali tra le piattaforme di sviluppo possono presentare complessità differenti: un esempio, in particolare, riguarda lo sviluppo in Unity (e prossimamente anche Unreal) nell’interazione con l’hardware di ogni specifica piattaforma (VisionPro, Quest3, altri) e creare delle discrepanze nella gestione del rendering, conversioni di materiali e shader, e differenze nel modo in cui di conseguenza la logica dell’applicativo interagisce con le API native.

Nello specifico questa fase di approccio alla scelta necessità di una comprensione dettagliata degli ambienti e delle loro peculiarità al fine di ottimizzare le prestazioni e garantire che il progetto funzioni come previsto. Se ci pensate non è diverso da quanto accade quando scegliamo di sviluppare app mobile in nativo o con framework come Flutter o altro.

Le questioni di rendering, in particolare, possono essere complesse, con considerazioni da valutare sull’efficacia in termini di risoluzione, framerate, latenza e come queste influenzano di conseguenza l’esperienza utente.

Last, but not Least… i dati e la privacy

La progettazione di applicazioni più complesse ci mette davanti anche temi da trattare come privacy e l’accesso ai dati, soprattutto in contesti di spazio condiviso. L’accesso a dati ed informazioni sensibili come la posizione dell’utente o il movimento degli occhi può essere limitata per motivi di sicurezza.

Nella fase di analisi di un progetto è importante comprendere fin da subito quali restrizioni dover affrontare bilanciando le necessità funzionali dell’applicativo con il rispetto della privacy dell’utente, cercando soluzioni creative per migliorare l’interazione senza compromettere la sicurezza e quindi danneggiare l’adozione.

Insomma, in questo viaggio appena iniziato vedo una potenzialità enorme, ma soprattutto uno spazio tutto nuovo di possibili progettualità che, ad oggi, nemmeno immaginiamo. Esattamente come quando per la prima volta iniziammo a pensare alla prossima app per iPhone.

Il VisionPro è il secondo device dopo l’Iphone ad avermi stupito

La penso così, come Altman. Lo dico da Dicembre quando ho avuto modo di provarlo la prima volta: il #VisionPro è il secondo device dopo l’Iphone ad avermi stupito per l’impatto potenziale che avrà. Non c’è dubbio secondo me che questo dispositivo segnerà una evoluzione in tutta l’industria e aggiungo in tutte le industrie che lo adotteranno mettendo in discussione nuovi modelli di servizio.

Ci sono diverse cose sottovalutate rispetto a questo device:

  • fa parte di un ecosistema di dispositivi e servizi integrati
  • ha una esperienza d’uso lato ux già nota agli utenti
  • ha una community di sviluppatori enorme e consolidata
  • è di proprietà di un brand in grado di influenzare cambiamenti

Il prezzo e la vendita solo usa non sono un problema come ho già scritto. Anzi sono parte integrante della strategia di barriera all’ingresso, messa appositamente per:

  • avere il tempo di popolare lo store di applicazioni e servizi per non far sembrare il device noiso (come altri e come già successo ad alcuni ecosistemi smartphone)
  • amplificare l’effetto mediatico e creare senso di esclusività
  • trasformare una aspettativa nerd in un desiderio di life style

È il prodotto definitivo? Ovviamente no. Questo non è non sarà l’unico dispositivo, è il primo di un viaggio in una industria dove Apple ha atteso di entrare, pur studiando da anni.

Sarà un prodotto di massa nell’immediato? Sicuramente no. Per adesso. Ci vorrà tempo e maggiore maturità, tecnologica, e di mercato.

Vedremo app e servizi stupidi e futuli? Ovviamente si, come successo anche alle app dell’Iphone e servizi inutili dei primi anni, fallimenti e progetti morti, che però hanno permesso di capire, migliorare e raggiungere il modo in cui utilizziamo oggi il device, come hub.

Avrà altre potenzialità oltre quello che vediamo adesso? Ne sono certo, perché gradualmente capiremo in che modo potremo accedere una realtà sempre più estesa.

Da Lunedì, con l’arrivo del primo dei 2 device che ho preso (si lo so, sembra una follia ma ha un senso, ve lo racconterò) sarò al lavoro proprio su progetti che mettono insieme #SpatialComputing #AI e #Gamification.

Sono elettrizzato come quando mi stava arrivando il primo iphone.