DeepMind Genie 3: svolta epocale per l’addestramento robotico? - Fabio Lalli

DeepMind ha presentato Genie 3, un modello generativo di world simulation che, dato un prompt testuale (o un’immagine), costruisce in tempo reale un ambiente virtuale interattivo e persistente. In pratica, digitando una descrizione si materializza un mondo navigabile, non il solito video di pochi secondi, ma uno spazio “videoludico” esplorabile a piacimento.

La cosa si fa davvero interessante unendolo a SIMA, un agente AI generalista in grado di apprendere compiti in una varietà di giochi 3D: il primo può generare infiniti scenari di training, il secondo può imparare al loro interno. Questa combinazione apre prospettive inedite per la robotica, il sim-to-real e la generalizzazione dell’intelligenza artificiale.

Dalle parole ai mondi 3D interattivi

La maggior parte dei generatori di immagini o video AI oggi produce contenuti brevi e non interattivi. Genie 3, invece, fa un salto di categoria: trasforma un input testuale in un mondo tridimensionale navigabile in prima persona, con coerenza fisica e visiva su orizzonti temporali ben più lunghi del classico clip di 8 secondi. Digitando una descrizione, ad esempio “un sentiero di lava ai piedi di un vulcano attivo” , il sistema renderizza una scena 3D a 24 frame al secondo e risoluzione 720p, in cui l’utente può muoversi liberamente con controlli da videogame.

L’ambiente reagisce in tempo reale ai movimenti e ai comandi: se giri la telecamera o avanzi, il panorama cambia fluidamente; se aggiungi via testo un evento (“inizia a piovere”), Genie 3 modifica al volo le condizioni meteo nella simulazione. In demos, il team DeepMind ha mostrato scenari estremamente diversi tra loro, dall’aspro paesaggio vulcanico a una costa flagellata da un uragano, fino a un villaggio incantato di funghi giganti – tutti generati e manipolabili istantaneamente dall’AI.

Quello che rende questi mondi sorprendenti è il livello di coerenza spazio-temporale: oggetti e paesaggi rimangono stabili anche cambiando inquadratura o tornando in un luogo già visitato, grazie a una sorta di “memoria” interna che si estende fino a circa un minuto. In altre parole, Genie 3 ricorda dove ha messo le montagne o gli alberi, evitando salti logici o apparizioni/disparizioni incoerenti man mano che l’utente esplora.

Un aspetto particolarmente interessante è la possibilità di partire non solo da testo ma anche da immagini. I ricercatori hanno mostrato che Genie 3 può essere iniziato con un singolo fotogramma (ad esempio la foto di un dipinto famoso) e “gonfiare” quella scena in un ambiente tridimensionale navigabile.

Another one. Already a powerful painting, but moving around it yourself gives a totally different feeling.

Jacques Louis David’s “The Death of Socrates” => #Genie3 pic.twitter.com/j2iHqTU4BN

— Aleksander Holynski (@holynski_) August 8, 2025

Immaginate di scattare una foto o dipingere un bozzetto, e poi poterci entrare dentro: ad esempio camminare tra i cipressi sullo sfondo di un quadro o esplorare l’interno di una concept art. Questo apre possibilità creative enormi. Un artista può dipingere uno scenario surreale e poi usarlo come livello di gioco; un designer può importare schizzi o foto di riferimento e ottenere uno stage 3D immediatamente pronto da esplorare. Allo stesso modo, un filmmaker che oggi si scontra col “muro degli 8 secondi” nei video generativi, con Genie 3 vede crollare quel limite: essendo un world model persistente, permette di scegliere inquadrature e traiettorie di camera a piacere, estendendo le sequenze fin dove lo consentono la fantasia (e il budget computazionale) senza degradare subito in noise. In sintesi, Genie 3 trasforma la generazione AI da contenuto passivo a esperienza interattiva: non più immagini da guardare, ma mondi vivi da esplorare. È come se dessimo un tovagliolo a Bob Ross per uno schizzo estemporaneo e subito dopo potessimo fare due passi dentro il paesaggio che ha dipinto.

Dal punto di vista tecnico, raggiungere questo risultato non è banale. Genie 3 utilizza un’architettura auto-regressiva simile a quella dei grandi modelli linguistici, generando ogni nuovo frame in base ai frame precedenti e all’azione corrente dell’utente. Questo significa garantire coerenza frame-to-frame senza però appoggiarsi a un’esplicita modellazione 3D sottostante: a differenza di approcci come NeRF o gaussian splatting che costruiscono una mappa geometrica per avere consistenza, qui la solidità della scena “emerge” dall’aver previsto correttamente la sequenza di pixel nel tempo. È un approccio più flessibile, perché consente di alterare liberamente il mondo in corso d’opera (aggiungere oggetti, cambiare ambiente) senza dover rigenerare un intero modello geometrico; tuttavia è computazionalmente pesante, dato che il modello deve “ricordare” e ri-renderizzare ad ogni frame tutto ciò che conta della traiettoria passata. DeepMind sottolinea che Genie 3 rappresenta il primo modello di world generation capace di interazione in tempo reale, migliorando al contempo realismo e coerenza rispetto al precedente Genie 2. In appena otto mesi, infatti, il salto da Genie 2 a Genie 3 è notevole: Genie 2 (fine 2024) manteneva la scena per ~10 secondi prima di “dimenticare” e rigenerare incoerentemente, mentre Genie 3 regge diversi minuti di esplorazione continua prima che la memoria svanisca. Inoltre Genie 2 richiedeva di fornirgli a priori la sequenza di azioni (movimenti) che l’utente avrebbe fatto, poi generava il video risultante; Genie 3 invece reagisce live agli input dell’utente come un vero motore grafico. Siamo insomma davanti a un prototipo di motore generativo per mondi virtuali. Google DeepMind è probabilmente il primo laboratorio AI a spingersi così avanti su questo fronte, considerandolo un tassello strategico verso l’AGI (Artificial General Intelligence).

Naturalmente, siamo ancora in fase di ricerca (Genie 3 per ora è distribuito solo come anteprima limitata a pochi accademici e creator selezionati). Eppure le capacità dimostrate, per quanto imperfette, hanno già fatto gridare a molti che “questo è il più vicino che siamo arrivati all’Holodeck di Star Trek”. Prima di discutere sfide e limiti, vediamo perché un sistema come Genie 3 potrebbe rivoluzionare l’addestramento degli agenti AI e dei robot, e come si inserisce nelle tendenze più ampie dell’informatica spaziale e dell’UX nel mondo dell’AI.

Something fun we discovered: you can use #Genie3 to step into and explore your favorite paintings.

Here’s a short visit to Edward Hopper’s “Nighthawks”. pic.twitter.com/tzwe7xosQa

— Aleksander Holynski (@holynski_) August 8, 2025

Un nuovo terreno di gioco per agenti AI e robotica

DeepMind definisce Genie 3 un general purpose world model, ovvero un modello capace di simulare dinamicamente ambienti diversi utilizzando la sua comprensione del mondo Perché questo conta? Perché fornisce alle intelligenze artificiali un campo di addestramento illimitato e sicuro. Invece di imparare in condizioni reali (costose o rischiose) o su dati statici, gli agenti possono esercitarsi in compiti complessi dentro simulazioni realistiche e sempre nuove. In altre parole, i world model come Genie offrono all’AI “mondi-giocattolo” dove sperimentare, fallire e riprovare, il tutto a velocità accelerata e senza causare danni nel mondo vero. Non a caso DeepMind vede questi sistemi come fondamentali sulla strada verso agenti in grado di agire nel mondo reale.

Proprio qui entra in scena SIMA, l’altro pezzo del puzzle. SIMA (acronimo di Scalable, Instructable Multiworld Agent) è un agente AI generalista presentato sempre da DeepMind quest’anno, progettato per muoversi e seguire istruzioni in una vasta gamma di ambienti virtuali 3D. A differenza degli agenti specializzati in un singolo videogioco o simulazione, SIMA è stato addestrato su 9 giochi diversi (in collaborazione con 8 studi di videogame) più alcuni ambienti di ricerca, imparando centinaia di abilità di base – dal navigare e raccogliere oggetti fino al pilotare un’astronave, ed è capace di capire comandi in linguaggio naturale e tradurli in azioni (mouse e tastiera virtuali). L’obiettivo non era battere record di punti, ma seguire istruzioni varie in mondi sempre diversi, un po’ come farebbe un umano che prova tanti giochi nuovi.

Il risultato notevole è che l’agente “generalista” ha superato gli specialisti: nei test, un singolo modello SIMA addestrato su tutti e 9 i giochi ha ottenuto prestazioni migliori in ciascun gioco rispetto a modelli addestrati solo su quel gioco. Non solo – quando un agente SIMA veniva allenato su 8 giochi su 9, se la cavava quasi allo stesso livello di un agente dedicato nel 9° gioco mai visto prima. Questo è un fatto cruciale: indica un’ottima capacità di generalizzazione e trasferimento delle competenze. In pratica, l’AI che “ha visto un po’ di tutto” riesce a orientarsi anche in situazioni nuove, talvolta meglio di un’AI che ha grindato un solo compito in modo ossessivo. È un risultato controintuitivo ma che rispecchia un principio umano: saper imparare ad imparare da contesti vari può essere più potente che ottimizzarsi in un singolo dominio.

Ora, se colleghiamo i puntini, l’accoppiata Genie 3 + SIMA appare formidabile. Il punto di forza di Genie 3 – generare mondi sempre diversi a richiesta – è esattamente ciò di cui hanno bisogno agenti tipo SIMA per diventare ancora più versatili. DeepMind stesso ha già iniziato a testare i due in tandem: hanno generato con Genie 3 alcuni mondi di prova e ci hanno immerso una versione recente dell’agente SIMA, istruendolo a perseguire vari obiettivi all’interno di quei mondi. SIMA interagiva con Genie 3 mandandogli comandi di navigazione (es. vai avanti, gira a destra, prendi l’oggetto) e Genie reagiva aggiornando l’ambiente, il tutto senza avere conoscenza “interna” dello scopo dell’agente – simula semplicemente il risultato delle sue azioni.

Il fatto notevole è che Genie 3, mantenendo coerenza per minuti e supportando sequenze di azioni più lunghe rispetto al passato, permette ora all’agente di completare compiti più complessi senza reset dell’ambiente. DeepMind vede questa tecnologia come un ingrediente chiave verso sistemi più generali e infine l’AGI, dove agenti simulati giocano un ruolo crescente nello sviluppo e test di capacità prima di applicarle al mondo reale.

Perché è importante per la robotica?

Oggi per addestrare robot si fa largo uso di simulazioni e di tecniche come la domain randomization: in pratica, si creano tante varianti di un ambiente (ad es. decine di cucine virtuali con colori, illuminazioni e arredi diversi) e ci si allena il robot, così quando lo si trasferisce in una cucina reale che non ha mai visto, è più probabile che generalizzi bene senza rimanere spiazzato da un dettaglio fuori posto.

Genie 3 porta questo concetto all’estremo: invece di variare manualmente alcuni parametri in un simulatore, genera da zero mondi completamente nuovi, con fisiche, oggetti, texture e layout ogni volta differenti. Il robot quindi non impara solo su “tutti i tipi di cucina”, ma su ambienti che vanno ben oltre la sua missione specifica, costringendolo a sviluppare capacità di adattamento più profonde. Come ha scritto Ben Dickson, di fronte alla scarsità inevitabile di dati reali per addestrare robot in ogni scenario possibile, avere infiniti mondi sintetici da esplorare potrebbe consentire agli agenti di scoprire soluzioni del tutto nuove ai problemi. Non sappiamo ancora quale sarà la killer application di Genie 3 – nemmeno DeepMind può prevederlo con certezza – ma scommette che dentro questa “scatola magica” ci sia un potenziale enorme da sbloccare col giusto approccio.

Le ricadute pratiche vanno oltre il classico robot domestico. Pensiamo alle operazioni autonome in settori come logistica, manifattura, costruzioni, trasporti: poter simulare a piacere migliaia di scenari rari o pericolosi – un guasto improvviso a un macchinario, un ostacolo inatteso sul percorso di un veicolo, condizioni meteo estreme in cantiere – e addestrare agenti AI ad affrontarli, prima di metterli in campo, sarebbe di enorme aiuto. Con Genie 3 è teoricamente possibile ”mintare” (coniarsi) infiniti mondi con combinazioni diverse di fattori di disturbo, molto oltre ciò che si potrebbe progettare manualmente. Inoltre, il fatto che un modello generativo possa valutare il comportamento di un altro agente in simulazione (vedi SIMA) apre alla possibilità di usare l’AI non solo per training ma anche per testing: Genie può funzionare da banco di prova per vedere dove il robot sbaglia più spesso, quali condizioni lo mandano in tilt, e quindi aiutare gli ingegneri a identificare le debolezze di un sistema prima che sia fuori nel mondo. DeepMind evidenzia proprio questo aspetto: Genie 3 fornisce un vasto spazio dove addestrare agenti come robot o sistemi autonomi, ma anche dove valutarne le prestazioni e sondarne i limiti in sicurezza.

Va detto che già oggi simulatori avanzati e digital twin vengono usati in ambito industriale, ad esempio per ottimizzare linee produttive o testare robotica mobile nei magazzini. Tuttavia, creare e mantenere a mano queste simulazioni è costoso e richiede aggiornamenti continui per riflettere la realtà. Un sistema come Genie 3 lascia intravedere un futuro in cui molte di queste esperienze virtuali possano essere generate on-demand dall’AI, semplicemente descrivendo la situazione desiderata. Certo, non è garantito che la simulazione generata sia perfettamente accurata in ogni dettaglio (anzi, come vedremo a breve, al momento non lo è). Ma potrebbe bastare a coprire casi “long tail” difficilmente programmabili a mano.

Elon Musk ha commentato di aspettarsi già dall’anno prossimo videogiochi generati interamente dall’AI, dinamici e imprevedibili, “potrai letteralmente descrivere il gioco che vuoi e lui prenderà vita”. Al di là dell’hype, è chiaro che se questa tecnologia matura, avrà impatto anche nell’industria dei videogame e della simulazione formativa: scenari unici per ogni partita, NPC (personaggi) comportamentialmente generati, missioni che si adattano sul momento. Siamo ai primissimi passi, ma Genie 3 indica la strada verso mondi virtuali plasmati dalla creatività dell’utente insieme all’intelligenza della macchina, più che da un team di sviluppatori che pre-scrive tutto.

Our team has been experimenting with all sorts of real-time and interactive generations with Genie 3, please go check them out!

A great one, hot out of the oven from @philipjohnball pic.twitter.com/7qJ6oOgHIA

— Alexandre Moufarek (@amoufarek) August 12, 2025

Verso lo Spatial Computing: il mondo diventa l’interfaccia

La comparsa di modelli come Genie 3 si inserisce in una trasformazione più ampia del rapporto fra digitale e reale, quello che dall’uscita del mio libro Spatial Shift ho definito The Shift verso lo spatial computing. Per decenni abbiamo interagito con la tecnologia attraverso schermi bidimensionali: monitor, smartphone, tablet. Le informazioni stavano dietro un “vetro”, separate dal mondo fisico. Ora quella barriera si sta dissolvendo. Come ho detto e scritto più volte “lo spazio intorno a noi sta diventando l’interfaccia”.

In altre parole, invece di portare noi verso i contenuti sullo schermo, le nuove tecnologie portano contenuti e intelligenza dentro il nostro contesto fisico. Lo spatial computing e l’AI insieme fanno “uscire” l’informazione dagli schermi, integrandola nell’ambiente che viviamo. Genie 3, pur operando ancora in un dominio virtuale su monitor, incarna perfettamente questa filosofia: prende conoscenza (da testi, immagini, dati) e la incarna in un mondo digitale concreto con cui possiamo interagire quasi fosse reale. È il concetto di ambiente che prevale su quello di interfaccia: l’utente non clicca bottoni su un menu, ma si muove dentro uno spazio e vive l’esperienza.

Si intravede qui una convergenza con la realtà aumentata e virtuale. Prodotti come Apple Vision Pro, Meta Quest o Magic Leap sono i primi spiragli verso un computing immersivo, in cui contenuti 3D compaiono intorno a noi integrandosi con il mondo reale. DeepMind Genie 3 spinge in avanti il lato AI di questa equazione: mondi 3D generati a comando, personalizzati al volo.

Non è difficile immaginare un futuro in cui indossando un visore AR/VR si possa letteralmente “spawnare” ambienti tramite AI generativa: per training, per intrattenimento o per creatività. Un tecnico potrebbe, stando nel proprio ufficio, chiedere al computer di mostrargli una ricostruzione virtuale della fabbrica in scala 1:1 e provare a interagirci; un progettista potrebbe visualizzare e modificare prototipi di veicoli o edifici come ologrammi spaziali generati dall’AI. In generale, l’AI unita allo spatial computing promette di far dissolvere l’interfaccia fino a renderla trasparente: “non sarà il prossimo gadget, ma il contesto il vero protagonista”, come sintetizza Darunte.

Quando l’intelligenza vive nello spazio intorno a noi, i flussi di lavoro possono diventare così naturali da non accorgerci nemmeno della “tecnologia”, vediamo solo il compito che stiamo svolgendo, arricchito da informazioni contestuali. L’informatica ambientale (ambient computing) è proprio questo: intelligenza diffusa, attivata dalla nostra presenza e dalle nostre intenzioni, più che da click o tap su uno schermo.

Genie 3 può essere visto come un precursore di un “sistema operativo spaziale” generativo. Oggi genera mondi di fantasia su uno schermo, ma concettualmente ci sta dicendo che possiamo chiedere a un’AI di creare ambienti completi in cui poi entriamo e compiamo azioni. È una sorta di Holodeck a bassa risoluzione: uno spazio virtuale creato dall’intelligenza artificiale su cui abbiamo un certo controllo. Se guardiamo avanti di qualche anno, possiamo immaginare di avere ambienti generati in real time non solo nel computer ma nelle stanze intorno a noi – proiettati via occhiali AR o tramite installazioni immersive – dove persone e agenti virtuali coesistono.

Ad esempio, potremmo mescolare ambienti reali e simulati: un robot potrebbe allenarsi metà del tempo in VR su scenari generati, e l’altra metà spostarsi nel nostro mondo fisico, portandosi dietro l’esperienza accumulata. Già ora alcune aziende fanno addestramento in VR per operatori (come simulatori di impianti industriali): un modello come Genie renderebbe la creazione di questi scenari molto più rapida e dinamica, magari anche interattiva con l’utente (lo scenario che si adatta alle azioni del tirocinante in VR).

C’è poi l’aspetto dell’esperienza utente (UX) e del design in era di AI generativa. Tradizionalmente, progettare un’esperienza significava definire ogni stato dell’interfaccia, ogni possibile percorso utente, in modo deterministico. Se invece l’ambiente o l’interfaccia vengono creati on-the-fly da un’AI in base a una richiesta, come si garantisce una buona UX? Si apre un nuovo campo in cui i designer dovranno definire vincoli, regole e linee guida per l’output generativo, piuttosto che progettare ogni pixel.

Ad esempio, come faccio a dire a Genie 3 cosa non deve fare? Come inserisco dei punti fermi (es. un oggetto che deve assolutamente essere presente e funzionare in un certo modo) senza soffocare la creatività spontanea del modello? Nel contesto gaming, gli sviluppatori potrebbero voler generare livelli con Genie, ma vorranno anche controllare difficoltà, obiettivi e comportamenti dei NPC (non-player characters).

Insomma, serviranno strumenti di directability e scripting capaci di dialogare con il modello generativo. Alcuni progetti nascenti (es. la startup Intangible AI fondata da ex-Unity) puntano proprio a iniettare maggior controllabilità in questi mondi generati proceduralmente. Si profila il ruolo di un “AI experience designer”: una figura che non disegna schermate, ma allena e modula i modelli perché producano esperienze utente coerenti, sicure e piacevoli. È un cambio di paradigma nel design: dall’essere creatori dei contenuti a essere curatori di sistemi generativi. Chi saprà padroneggiare quest’arte, definire vincoli creativi all’AI senza bloccarne l’inventiva – avrà un enorme vantaggio.

La sfida non è più costruire prodotti, ma progettare ambienti intelligenti e context-aware in cui gli utenti vivono.

La UX diventa quasi regia di un’esperienza dinamica, più che statico design di interfacce.

Sfide aperte e passi necessari

Nonostante l’entusiasmo per Genie 3, ci sono diversi limiti e questioni aperte da affrontare perché questa tecnologia possa avere impatti concreti su larga scala. Anzitutto, le limitazioni tecniche attuali: la versione di ricerca di Genie 3 può sostenere solo pochi minuti di interazione continua prima che la coerenza inizi a degradare.

Non siamo quindi vicini a mondi persistenti per ore o giorni di simulazione; tuttavia, il trend di miglioramento dal Genie 2 suggerisce che la finestra temporale potrà estendersi con modelli più grandi e ottimizzati. Altra limitazione è la fisica imperfetta: sebbene il modello mostri comprensione di concetti fisici base (gravità, illuminazione, dinamiche di fluidi in modo qualitativo), può produrre fenomeni bizzarri o poco accurati. Sono stati osservati, ad esempio, personaggi che camminano all’indietro senza motivo, o oggetti che compenetrano altri oggetti – insomma glitch nel rispetto delle leggi fisiche. Questo pone un problema se l’obiettivo è usare queste simulazioni per addestrare robot: come garantire che un robot impari il comportamento giusto se il mondo virtuale talvolta “bara” sulla fisica? I ricercatori stessi riconoscono che, allo stato attuale, mondi così non sono affidabili al punto da garantire che un agente addestrato lì si comporterà correttamente nel mondo reale. Semmai, possono essere utili per far emergere casi in cui l’agente fallisce (dentro la simulazione stessa) e quindi indicare che non sarebbe ancora pronto per la realtà.

In altre parole, per adesso possiamo usare Genie 3 più come stress test per agenti che come oracolo definitivo di validazione.

Un altro vincolo è l’azione limitata dell’agente all’interno di Genie 3: attualmente può inviare comandi di navigazione (muoversi nello spazio), ma non può ad esempio afferrare oggetti, premere pulsanti o costruire cose dettagliate nel mondo generato. L’interazione fisica complessa e la presenza di più agenti indipendenti nello stesso ambiente sono frontiere ancora aperte nella ricerca. Inoltre, al momento Genie 3 accetta soltanto prompt testuali come input iniziale, non immaginib, la possibilità di partire da una foto o da uno screenshot di un videogioco e “entrarci” resta per ora un intrigante demo, ma non è supportata out-of-the-box nell’anteprima attuale. Su questo punto, curiosamente, il predecessore Genie 2 consentiva input misti testo+immagine, mentre Genie 3 pare aver sacrificato questa flessibilità per concentrarsi sulla generazione interattiva in tempo reale. Non è detto che in futuro non si riacquisti anche la semina visiva (anzi, si parla già di esperimenti per fornire video di input in Genie 3, ad esempio per continuare scene dal mondo reale).

Oltre ai limiti tecnici, ci sono sfide pratiche di adozione. Questi modelli sono enormemente affamati di calcolo: generare grafica 3D fotorealistica via AI frame dopo frame richiede potenza computazionale molto maggiore rispetto a riprodurre scene con un tradizionale motore 3D basato su assets predefiniti. Genie 3 per ora gira su infrastrutture specializzate; portarli in applicazioni consumer o nei flussi di lavoro quotidiani richiederà ottimizzazioni e probabilmente nuovo hardware (es. i progressi di NVIDIA nel settore fanno pensare che GPU dedicate a AI world generation diventeranno realtà).

C’è anche un tema di tooling e integrazione: i creativi e sviluppatori dovranno avere strumenti intuitivi per collaborare con questi generatori di mondi. Non basta rilasciare un’API che sputa fuori ambienti: serviranno interfacce per editare, correggere, salvare e versionare i mondi generati. In ambito professionale, uno studio vorrà poter dire “ok, la versione 3 del livello generato ieri era quasi buona, la riprendo e la modifico un po’ invece di rigenerarla da capo oggi”. Questo implica capacità di controllo fine sui contenuti generati, memorizzazione di seed o parametri per riprodurre ambienti, e magari funzioni di esportazione verso formati standard (immagini, mesh 3D, ecc.) per rifinire il lavoro con software tradizionali. La qualità grezza dei modelli generativi da sola non basta: l’esperienza utente per i creator sarà cruciale quanto i progressi dell’AI.

Vanno considerati aspetti di sicurezza e responsabilità. DeepMind, ben conscia della natura aperta e “magica” di Genie 3, sta procedendo con cautela: il modello è distribuito a un piccolo gruppo in forma di ricerca controllata, proprio per studiarne i rischi e mitigare usi impropri. Un mondo generato in cui l’utente può vagare pone sfide nuove per la moderazione dei contenuti: cosa impedisce che un prompt generi scene violente, o traumatizzanti, o implicitamente offensive? Bisognerà incorporare vincoli e filtri robusti nei modelli, perché un conto è generare un’immagine sgradevole (già problematico), un altro è trovarsi immersi in una scena sgradevole. Anche la proprietà intellettuale è un tema: usare dipinti famosi come “seed” per mondi 3D è affascinante, ma bisognerà chiarire i diritti su quelle creazioni derivate.

Se un utente crea un livello ispirato a un artwork esistente, quell’artista andrebbe compensato? E se il mondo generato contiene marchi o elementi riconoscibili, di chi è la responsabilità? Sono dilemmi già sollevati con la generazione di immagini e musica da parte delle AI, ma nel caso di mondi complessi si aggiunge la difficoltà di monitorare ogni dettaglio generato. Serviranno quindi policy di utilizzo e controlli accurati prima di un rilascio pubblico più ampio. DeepMind dichiara di voler sviluppare Genie in modo responsabile, con feedback interdisciplinare, proprio per capirne le implicazioni e i potenziali impatti negativi.

La scelta di limitare l’accesso e raccogliere le prospettive di eticisti, creatori e ricercatori fa parte di questo approccio prudente