Gaming e la rivoluzione della Intelligenza Artificiale Generativa - Fabio Lalli

Qualche giorno fa ho fatto un colloquio ad un game designer e la chiacchierata piacevole è andata avanti poi per circa un’oretta, su diversi temi, anche fuori dal perimetro del colloquio, entrando nella sfera di passioni e ragionamenti di mercato, nonché potenzialità dell’AI generativa nel mondo del gaming. La prima cosa che più mi è rimasta in mente di lui è la sua eccitazione e meraviglia legata alla potenzialità dell’AI, ma non tanto in generale, quanto rispetto alla sua competenza e alle potenzialità applicate al suo lavoro: non paura appunto, ma opportunità. Non timore di imparare, ma voglia di governare.

In sintesi i ragionamenti fatti si basavano su 4 punti:

Questo potere creativo è ora disponibile per chiunque possa imparare alcuni semplici strumenti.
Questi strumenti possono creare un numero infinito di variazioni in modo altamente iterativo.
Una volta addestrato, il processo è in tempo reale – i risultati sono disponibili quasi istantaneamente.
Non esiste una tecnologia così rivoluzionaria per i giochi dal 3D in tempo reale.

Allora, dove sta andando questa tecnologia? E come trasformerà il gioco? Innanzitutto, però, esaminiamo cos’è l’IA generativa?

Per capire a cosa siamo di fronte e come AI generativa può cambiare intere industrie e competenze, provo a fare un ragionamento sul mondo del gaming e come questo può beneficiarne (cosa che sta già facendo) prima di molte altre industrie.

Che cos’è l’AI generativa

L’AI generativa è una categoria del machine learning. L’intelligenza è in grado di creare contenuti originali in risposta ai suggerimenti dell’utente. Attualmente è particolarmente in voga la generazione di testo (ChatGPG) e di immagini (Stablediffusion, MidJourney, Dall-E). Seppur il T2I (Text to Image) ed il T2T (Text to Text) siano tra i più maturi in questo momento, è in corso un lavoro di sperimentazione praticamente in ogni dominio creativo, dall’animazione agli effetti sonori, alla musica, persino alla creazione di personaggi e avatar virtuali con personalità arricchite ed in grado di conversare. Tra le classificazioni che stanno emergendo tra i diversi sistemi AI generativi, ci sono:

Text to Image (T2I)
Text to Video (T2V)
Text to Audio (T2A)
Text to Text (T2T)
Text to Motion (T2M)
Image to Text (I2T)
Audio to Text (A2T)
Audio to Audio (A2A)
Brain to Text (B2T)
Text to Code (T2C)
Text to 3D (T23D)
Text to NFT (T2N)
…. Text-to-Everything!

L’intelligenza artificiale non è una novità, soprattutto oggi, e soprattutto nel mondo del gaming, ovviamente. Se tornassimo indietro nel tempo anche i primi giochi, come il Pong di Atari, avevano avversari controllati dal computer per sfidare il giocatore. Questi “nemici” virtuali, tuttavia, non erano animati da AI come la conosciamo oggi, ma erano semplicemente procedure scritte, a stati finiti in molti casi, realizzate dagli sviluppatori del gioco, che simulavano un avversario artificialmente intelligente, con comportamenti in linea generale standard ma soprattutto non potevano imparare progressivamente con il passare del tempo e delle partite.

Ciò che è diverso oggi, a distanza di anni, è sicuramente la quantità di potenza di elaborazione e calcolo disponibile, la scalabilità delle architetture e grazie a microprocessori più veloci e al cloud. Con questo “nuovo” potere, oggi è possibile costruire grandi reti neurali in grado di identificare modelli e rappresentazioni in domini altamente complessi.

AI a servizio del mercato, e del gaming

Siamo in un momento in cui di segnali che l’AI sia qui per rimanere e non per esser una tecnologia di passaggio ne abbiamo.

Negli ultimi anni la mole di pubblicazioni e ricerche sul tema dell’AI in generale è aumentata drasticamente e sempre più aziende hanno iniziato ad adottare piattaforme e soluzioni per introdurre processi e modelli basati su intelligenza artificiale all’interno dei propri business. Molte aziende inoltre hanno avviato progetti di R&S . Il risultato è un’esplosione di interesse e innovazione sul tema sicuramente crescente.

Nel mondo dell’intrattenimento, in particolare del gaming (una delle industrie più ampie e sviluppate a livello mondiale), l’interesse per l’AI è sicuramente in forte crescita e le motivazioni sono piuttosto facili da individuare ed evidenti. I giochi sono la forma di intrattenimento più complessa, in termini di numero assoluto di tipi di risorse coinvolte ( 2D art, 3D art, effetti sonori, musica, dialoghi, coding ecc. ). I giochi sono anche i più interattivi, con una forte enfasi sulle esperienze in tempo reale. Questa complessità progettuale legata ad una necessità di costante sviluppo ed evoluzione, crea una forte barriera all’ingresso per i nuovi produttori di giochi per via un costo elevato di produzione che diventa sempre più alto.

Per fare un esempio, il gioco Red Dead Redemption 2 è uno dei giochi più costosi mai prodotti, con un costo stimato di circa 500 milioni di dollari. È facilmente intuibile la motivazione se ci avete giocato: è uno dei mondi virtuali più belli e completamente realizzati, a mio avviso, di qualsiasi gioco sul mercato. Ci sono voluti quasi 8 anni di sviluppo, con oltre 1.000 personaggi attivi nel gioco ( ognuno con la propria personalità, caratterizzazione e doppiatore ), un mondo di quasi 30 miglia quadrate, più di 100 missioni suddivise in 6 capitoli e quasi 60 ore di musica create da oltre 100 musicisti. Giusto per dare una idea.

Ora, per dare l’idea di complessità, pensiamo invece a Microsoft Flight Simulator: più che un gioco una esperienza di volo completa che a confronto con il gioco di cui sopra non ha nulla a che vedere. E non intendo a livello di gioco, ma di dimensione progettuale. Microsoft Flight Simulator consente ai giocatori di volare in tutto il pianeta Terra. In che modo Microsoft può aver creato un gioco così mastodontico? Lasciando che una intelligenza artificiale lo facesse. Microsoft ha infatti collaborato con blackshark.ai, e ha addestrato un’AI a generare un mondo 3D fotorealistico, partendo dalle immagini satellitari 2D.

Ho fatto questo esempio per far dare che sarebbe stato letteralmente impossibile costruire un gioco di queste dimensioni senza l’ausilio dell’AI, e senza pensare che questo modello di sviluppo non si è fermato alla prima produzione, ma sta continuando a sviluppare e migliorare ambientazioni nel tempo, sempre più dettagliate e sempre diverse.

Se oggi quindi vediamo l’intelligenza artificiale generativa come un gioco passatempo da cui estrapolare sfondi, volti, ambientazioni e immagini per le prossime slide, di fatto ci stiamo limitando a vedere la punta di un iceberg e non quello che sta emergendo veramente: avremo modello AI generativi per ogni risorsa specifica, e nel caso dei giochi, modelli per la produzione di singole parti di gioco, meccaniche e dettagli.

Finora i generatori di immagini 2D come Stable Diffusion o MidJourney hanno catturato la maggior parte dell’attenzione sul tema dell’AI generativa per via della loro natura semplicità e per la qualità delle immagini che possono esser generate. Ma già adesso sono presenti sul mercato modelli di intelligenza artificiale generativa praticamente per tutte le risorse coinvolte nella produzione di un gioco, dai modelli 3D, alle animazioni dei personaggi, ai dialoghi e alla musica.

L’effetto collaterale del valore dei contenuti a mio avviso calerà drasticamente, andando effettivamente a zero in alcuni casi. Ma non deve esser una preoccupazione:

Chris Anderson disse: “ Ogni abbondanza crea una nuova scarsità”.

Leggendo post, articoli e annunci di sviluppatori e società di sviluppo di giochi che stanno sperimentando l’integrazione dell’AI generativa nei loro piani di produzione, il più grande impatto rilevato è senza dubbio la drammatica riduzione di tempo ed i costi di sviluppo, passando da stime di creazione di concept art di una singola immagine da settimane a qualche ora.

Per essere chiari, visto che di questo ne ho letto più volte in questi giorni, gli artisti, i creator ed i copywriter non rischiano di essere sostituiti dall’AI (come ho già detto in un post qualche giorno fa) ma sicuramente dovranno adeguare le loro competenze e non lavorare più da soli: d’ora in avanti la produzione di contenuti potrà esser impostata in termini di direzione creativa iniziale e quindi esser consegnata all’esecuzione tecnica a un’intelligenza artificiale.

Siamo ancora agli inizi di questa rivoluzione e molte pratiche, metodi e approcci dovranno ancora essere perfezionati, ma abbiamo una rivoluzione davanti agli occhi. C’è un’enorme quantità di lavoro da fare quando scopriamo come sfruttare questa nuova tecnologia per i giochi, e saranno generate enormi opportunità per le aziende che si spostano rapidamente in questo nuovo spazio.

Cosa aspettarci dal 2023?

Nel 2022, abbiamo assistito a un’esplosione del text-to-2D, poiché Dall-E, MidJourney e Stable Diffusion come ho detto hanno ottenuto risultati straordinari. Il text-to-3D, l’audio, il video e altro ancora sono stati esplorati dai ricercatori, ma nel 2023 ci si può aspettare di vedere applicazioni pratiche di modelli generativi che permeteranno la creazione di tutti i tipi di nuovi media.

Si prevede che i modelli multimodali, che combinano diverse modalità come la parola, l’audio, l’immagine e il testo, diventeranno sempre più popolari, guadagnando importanza come strumenti per creare un’interazione unica tra diverse modalità di input, permettendo una profonda comprensione ed una evoluzione maggiore nella produzione di contenuti.

Con l’avvento inoltre di queste nuove potenzialità, è probabile che vedremo nascere nuovi modelli di gioco focalizzati e potenziati dall’utilizzo e la combinazione della potenza dei modelli generativi: avremo giochi in grado di creare esperienze personalizzate, sbloccando la possibilità di giochi in grado di forkare, ed nel quale una singola versione può essere personalizzata in milioni di versioni diverse, con costi di sviluppo bassi e alto valore di replay.

Questo nuovo genere aumenterà l’engagement degli utenti con narrazioni altamente uniche e personalizzate. Gli sviluppatori di giochi potranno esplorare un nuovo paradigma di storytelling e giochi basati su narrazioni ad infinite possibilità di esplorazione e gameplay.

Inoltre, l’IA generativa permetterà agli sviluppatori principianti di giochi di costruire le proprie esperienze giocabili senza alcuna esperienza di codifica. I linguaggi di programmazione basati sull’immagine e gli editori semplici drag-and-drop, il no-code/low-code in generale, permetterà alle persone di creare e condividere rapidamente i loro progetti generativi con pochi clic.