scene dinamiche Archives

9 Giugno 2025AI & GENAI, SPATIAL COMPUTING

4D Gaussian Splatting: la tecnologia 4DV.ai di Jiaming Sun che rende i video immersivi

Negli ultimi anni la ricerca sulla visualizzazione volumetrica 3D/4D ha compiuto passi da gigante. Il giovane ricercatore cinese Jiaming Sun, fondatore della startup 4DV.ai, è tra i protagonisti di questa rivoluzione. Sun descrive la missione di 4DV.ai come “inventare la prossima generazione di media visivi – interattivi, volumetrici e veramente fotorealistici”. In pratica, parliamo di video che non si limitano a essere riprodotti su uno schermo bidimensionale, ma che possono essere esplorati liberamente nello spazio (e nel tempo) dall’utente, come fossero “ologrammi” interattivi. Al cuore di questa innovazione c’è una tecnica avanzata chiamata 4D Gaussian Splatting, oggetto di pubblicazioni accademiche e demo impressionanti visibili sul sito di 4DV.ai. Vediamo di cosa si tratta, come funziona e perché molti la considerano un salto di qualità rispetto a tecnologie precedenti come i NeRF e le soluzioni di aziende come Luma AI.

Come funziona il 4D Gaussian Splatting

Il termine Gaussian Splatting potrebbe suonare ostico, ma il concetto di base è intuibile: invece di rappresentare una scena 3D con i tradizionali poligoni o mesh, la si rappresenta come un insieme denso di punti volumetrici “sfumati” (le Gaussiane) nello spazio. Immaginiamo ogni punto come una piccola nuvola tridimensionale con una distribuzione di colore e trasparenza a forma di campana (da cui il nome Gaussiana). Migliaia o milioni di queste “macchie” opportunamente distribuite possono approssimare qualsiasi scena reale in modo fotorealistico, senza bisogno di superfici poligonali esplicite.

Per costruire queste rappresentazioni, il sistema parte tipicamente da fotografie o video ripresi da più angolazioni intorno alla scena (ad esempio con diverse videocamere, oppure con uno smartphone in movimento). Attraverso algoritmi di computer vision, si ricostruisce inizialmente una nuvola di punti grossolana della scena. A ciascun punto viene poi associata una “splat” Gaussiana, definita dai suoi parametri fondamentali: posizione nello spazio (coordinate XYZ), dimensioni e forma (descritte da una matrice di covarianza 3×3 che indica come il punto è esteso/elongato nelle varie direzioni), colore (valori RGB) e un coefficiente di trasparenza α. Nel caso del 4D Gaussian Splatting, a questi parametri spaziali si aggiunge anche una dimensione temporale: le Gaussiane possono variare nel tempo o esser presenti solo in certi istanti, permettendo così di rappresentare scene dinamiche (in movimento) all’interno di un unico modello volumetrico 4D.

Renderizzazione volumetrica e view-dependent rendering

Come si ottiene un’immagine da questa “nuvola” di Gaussiane? Il processo di rendering avviene per splatting, ossia proiettando ogni Gaussiana sul piano dell’immagine della camera virtuale e fondendo (blending) i contributi di tutte le Gaussiane visibili. In pratica, per ogni pixel dell’inquadratura calcolata, il sistema accumula il colore di tutte le Gaussiane che si trovano lungo il corrispondente raggio visivo, attenuato dalla trasparenza e dalla profondità (un principio simile all’equazione di rendering volumetrico usata nei NeRF). La grande differenza è che, mentre un NeRF campiona decine di punti lungo ogni raggio passando i dati in una rete neurale pesante da eseguire, il Gaussian Splatting lavora direttamente sui punti espliciti: proietta le Gaussiane una volta sola e combina i loro contributi in modo ordinato (dal più vicino al più lontano) con un efficiente algoritmo di rasterizzazione. Questo significa che la generazione di ogni frame è molto più leggera computazionalmente, abbastanza da poter avvicinare o raggiungere il tempo reale – un vantaggio cruciale rispetto ai metodi neuronali puri.

Un altro aspetto chiave è la gestione dei riflessi, luci e altri effetti dipendenti dal punto di vista (view-dependent). Nei NeRF originali, questi effetti venivano appresi dalla rete neurale in funzione della direzione di vista, mentre nelle rappresentazioni a splatting si ottiene risultato analogo assegnando a ciascuna Gaussiana dei coefficienti aggiuntivi che modulano il colore in base all’angolo di osservazione (spesso tramite espansioni in armoniche sferiche). In sostanza, ogni splat può avere un colore base diffuso e una componente “speculare” o variabile, consentendo di riprodurre fedelmente bagliori, riflessi e cambi di illuminazione mentre l’utente muove la visuale. Sun e colleghi, ad esempio, hanno progettato un modello di appearance compatto che mescola Gaussiane diffuse e Gaussiane view-dependent per mantenere alta la qualità visiva riducendo al contempo la quantità di dati da memorizzare.

Dai video 2D alla scena 4D: l’innovazione delle Gaussiane dinamiche

La vera sfida affrontata da 4DV.ai è portare questa tecnologia dal caso statico 3D a quello dinamico 4D, cioè ai volumetric videos (video volumetrici) in cui la scena evolve nel tempo. Rappresentare un’intera sequenza temporale come volume 4D significa tecnicamente ottimizzare Gaussiane che vivono in uno spazio a quattro dimensioni (x, y, z più t per il tempo). Questo approccio, chiamato proprio 4D Gaussian Splatting (4DGS), è stato proposto di recente in letteratura come metodo promettente per catturare variazioni spaziali e temporali ad alta fedeltà. Il vantaggio è poter ottenere ricostruzioni 3D di scene in movimento (persone che si muovono, oggetti in azione, ecc.) con qualità fotorealistica e consistenza temporale elevata, producendo in pratica un “ologramma” animato navigabile.

Sun, che nel frattempo continua a contribuire alla ricerca accademica in collaborazione con l’Università di Zhejiang, è co-autore di alcuni studi pionieristici sul 4DGS. In una pubblicazione del 2024, ad esempio, il suo team ha affrontato uno dei limiti del 4DGS puro: l’elevato costo computazionale e di memoria di rappresentare tutto in 4D, anche le parti statiche della scena. La soluzione proposta è un approccio ibrido e gerarchico: identificare le regioni statiche che non cambiano nel tempo e trattarle con Gaussiane 3D standard, riservando invece le Gaussiane 4D solo agli elementi dinamici. Inoltre, introducono una gerarchia temporale: la scena viene descritta a diversi livelli di dettaglio temporale, riutilizzando gli stessi punti Gaussiani per rappresentare intervalli in cui nulla cambia, e aggiungendo invece punti extra solo dove avvengono movimenti rapidi. In questo modo si riduce drasticamente il numero totale di Gaussiane necessarie, rendendo la rappresentazione molto più compatta. La struttura “ad albero” risultante permette di scalare a minuti di video mantenendo l’uso di memoria video quasi costante indipendentemente dalla durata.

I risultati riportati sono impressionanti: grazie a questa Temporal Gaussian Hierarchy, il sistema di Sun e colleghi riesce a gestire volumi 4D lunghi 18.000 frame (diverse decine di secondi di video) con circa 17 GB di VRAM, laddove metodi precedenti andavano fuori memoria già a 300 frame su una GPU da 24 GB. Il loro metodo mantiene qualità di rendering all’avanguardia e supporta frame rate elevati (fino a centinaia di FPS a 1080p su GPU di fascia alta), aprendo la strada a video volumetrici lunghi fruibili in tempo reale. Si tratta di progressi documentati in peer review che attestano la validità scientifica della tecnologia 4DV.ai.

Confronto con NeRF, Luma AI e altri approcci alla scena 3D/4D

Vale la pena contestualizzare il Gaussian Splatting rispetto alle tecniche affini. I Neural Radiance Fields (NeRF), introdotti nel 2020 da Mildenhall et al., hanno inaugurato l’era del neural rendering consentendo la sintesi di viste novel-view fotorealistiche da immagini 2D. Un NeRF rappresenta la scena come una funzione neurale implicita appresa (una rete che, dato un punto 3D e una direzione, restituisce colore e densità), e genera immagini per integrazione lungo i raggi visivi. La qualità ottenibile è elevata, comprensiva di riflessi e illuminazione realistici, come ha dimostrato la startup Luma AI portando NeRF su smartphone per catturare oggetti e ambienti reali. Luma, ad esempio, permette di scansionare in 3D scene reali con un iPhone e condividerle sul web come scene interattive, sfruttando reti neurali di radiance field per riprodurre dettagli intricati, riflessi e giochi di luce da ogni angolo. Questo ha reso la fotogrammetria neurale accessibile al grande pubblico per oggetti statici e piccoli ambienti.

Tuttavia, i NeRF presentano anche limiti chiari. Prestazioni: l’inferenza di una rete NeRF è onerosa, inizialmente richiedeva secondi o minuti per frame; solo con ottimizzazioni come Instant NGP si è ridotto il tempo, ma rimanendo lontani dal vero tempo reale per scene complesse. Addestramento: ogni nuova scena richiede un costoso processo di ottimizzazione (training) della rete che può durare da minuti a ore, mentre i metodi a splatting ottimizzano direttamente punti espliciti con convergenza più rapida. Rappresentazione implicita: la natura “black box” della rete rende difficile modificare o integrare la scena dopo il fatto (ad es. rimuovere un oggetto, unire scene) – operazioni invece più semplici se si dispone di un insieme esplicito di punti/gaussiane su cui si può intervenire direttamente.

Il 3D Gaussian Splatting (3DGS) di Kerbl et al. (SIGGRAPH 2023) è emerso proprio come un’alternativa interessante perché concilia qualità e velocità. Invece di sampleare un volume con una MLP, 3DGS usa primitve gaussiane esplicite e una rasterizzazione efficiente: il risultato sono rendering in tempo reale con qualità paragonabile o superiore ai NeRF pesanti. In letteratura si riportano miglioramenti sia in fedeltà che in frame rate: “il 3DGS offre qualità migliorata e capacità di rendering real-time, a differenza di NeRF che si basa su rappresentazioni implicite e su un costoso rendering volumetrico”. In pratica NeRF rimane più compute-intensive, mentre Gaussian Splatting sfrutta al meglio l’hardware grafico come fosse una nuvola di punti intelligente.

È indicativo che la stessa Luma AI abbia recentemente aggiunto il supporto all’export in formato Gaussian Splatting accanto ai NeRF neurali. Questo suggerisce che anche nell’industria si riconosce il valore di combinare i due approcci: usare le reti neurali fin dove servono (es. per stimare geometria e colori iniziali da input fotografici), ma poi passare a una rappresentazione esplicita di Gaussiane per la fruizione finale interattiva. In ambienti come Unity o Unreal Engine esistono già plugin sperimentali per importare Gaussian Splats e utilizzarli nei giochi o applicazioni XR, cosa che i developer vedono con entusiasmo per ottenere grafica fotorealistica a frame rate elevati anche su hardware non estremi.

In termini di soluzioni alternative per scene dinamiche, oltre ai NeRF estesi (come NR-NeRF, DNerf e altri che introducono embedding temporali o voxel 4D ma soffrono in efficienza), ci sono approcci come i light field videos e i sistemi volumetrici multi-camera usati in produzioni cinematografiche o sportive. Ad esempio, studi come Microsoft Mixed Reality Capture (holostudio) usano decine di telecamere per ricostruire soggetti umani in 3D animato, ma generano mesh o point cloud frame-by-frame con costi elevati. La differenza chiave del metodo di 4DV.ai è che punta a ottenere un risultato simile (un video navigabile a 6 gradi di libertà) senza camera rig proprietari, con input potenzialmente alla portata di chiunque (perfino un normale video 2D, secondo alcune demo teaser) e con un formato dati snello, streammabile via web. Siamo dunque di fronte a un game changer che unisce la flessibilità dei modelli neurali alla concretezza modificabile dei dati espliciti.

Applicazioni: dal consumo di contenuti all’enterprise e all’AI

Le potenziali applicazioni dei video 4D volumetrici sono vaste e in parte ancora da esplorare. Possiamo suddividerle in diversi ambiti:

Consumer e Intrattenimento: Immaginiamo i ricordi personali in 3D – invece di un semplice video sul telefono, rivivere un momento (una festa, una vacanza) potendosi muovere liberamente nella scena con un visore VR o sullo schermo. Oppure i concerti e eventi sportivi immersivi, dove lo spettatore da casa diventa regista e può “camminare” virtualmente sul palco o sul campo da gioco. L’industria dei videogiochi e degli effetti speciali potrebbe utilizzare il Gaussian Splatting per creare ambienti 3D realistici integrando attori reali digitalizzati, riducendo costi di green screen e permettendo inquadrature impossibili con le tecniche tradizionali. Anche cinema e serie TV potrebbero beneficiare di virtual production più flessibile: ad esempio girare una scena e poi decidere in post-produzione qualsiasi movimento di camera, grazie al set ricostruito volumetricamente.
Enterprise, Digital Twin e Realtà Aumentata: Aziende come Siemens, Microsoft, Meta vedono un enorme potenziale nei digital twin: copie digitali di luoghi, impianti industriali o città intere, da ispezionare e monitorare a distanza. Il Gaussian Splatting permette di ottenere visualizzazioni 3D fotorealistiche di ambienti complessi (fabbriche, infrastrutture, cantieri) in cui muoversi e interagire, utili per manutenzione da remoto, formazione di personale, pianificazione di modifiche architettoniche, ecc. Rispetto ai modelli CAD tradizionali, una cattura 4D offre sia realismo (per valutare illuminazione, materiali, ecc.) sia aggiornamento continuo nel tempo (monitoraggio di progressi, cambiamenti o anomalie). In ambito urban planning, poter simulare lo sviluppo di un quartiere visualizzando un modello di città vivo e pulsante in 4D (con traffico, pedoni, illuminazione variabile nell’arco del giorno) sarebbe uno strumento di enorme impatto. Anche il settore real estate può trarre vantaggio: visite virtuali di immobili dove l’acquirente può esplorare a 360° come se fosse sul posto, con una fedeltà tale da ridurre sorprese e incomprensioni (vedendo reali proporzioni, materiali, viste dalle finestre in diversi orari, ecc.).
Telepresenza e Comunicazione: Collegato ai punti sopra c’è il tema della telepresenza immersiva. In futuro, una videochiamata potrebbe trasformarsi in un’esperienza in cui la persona remota è catturata volumetricamente in tempo reale e appare nel nostro spazio attraverso AR/VR. Sun stesso crede molto in questa direzione, vedendo VR/AR come la prossima interfaccia uomo-macchina ubiqua che rivoluzionerà la comunicazione (al pari di ciò che furono i touchscreen). Perché ciò si realizzi, servono tecnologie di cattura e rendering efficienti: 4DGS potrebbe permettere di trasmettere “ologrammi” dal vivo comprimendo i dati in modo intelligente (inviando solo i parametri delle Gaussiane aggiornati ogni frame anziché nuvole dense di punti grezzi) e renderizzandoli sul dispositivo dell’utente in tempo reale.
Intelligenza Artificiale e Generazione Contenuti: C’è un interessante incrocio tra Gaussian Splatting e AI. Da un lato, modelli 3D espliciti come questi possono fornire dati di addestramento per sistemi di visione artificiale: ad esempio, un’AI per la guida autonoma o la robotica può allenarsi in mondi virtuali fotorealistici generati con splatting, testando la capacità di percepire profondità e riconoscere oggetti in scenari simulati ma realistici. Dall’altro lato, i modelli generativi stessi possono integrarsi con rappresentazioni a Gaussiana: alcuni ricercatori propongono di usare le scene Gaussian Splatting come base strutturata su cui applicare modelli generativi 2D/3D, ottenendo video generati dall’AI ma con coerenza spaziale e temporale molto maggiore. In pratica, un modello di diffusione potrebbe generare i dettagli visivi su una griglia di Gaussiane già consistente in 3D, evitando sfarfallii e deformazioni fotogramma per fotogramma. Strumenti come Runway stanno esplorando la generazione video condizionata, e disporre di “punti di ancoraggio” 3D (splat) potrebbe essere la chiave per fare il salto verso video generati dall’AI davvero credibili e stabili. Inoltre, la velocità di rendering delle Gaussiane consente iterazioni rapide nel training di modelli AI (ad esempio per fare data augmentation on-the-fly con scenari variati).

Accessibilità e potenzialità creative di 4DV.ai

Uno degli aspetti più entusiasmanti della tecnologia sviluppata da Jiaming Sun è la sua enfasi sull’accessibilità. Tradizionalmente, i contenuti volumetrici 3D di alta qualità erano appannaggio di laboratori specializzati, con array di decine di telecamere sincronizzate e infrastrutture di calcolo notevoli. Ora si profilano soluzioni capaci di trasformare anche input più semplici (come un normale video 2D o pochi video amatoriali) in esperienze 4D immersive. La startup 4DV.ai ha mostrato demo in cui da filmati convenzionali viene ottenuto un output esplorabile a 6DoF, completo di audio sincronizzato. Il loro viewer web permette già di caricare un file .4dv precomputato e navigarlo direttamente nel browser – un fatto straordinario se pensiamo alla complessità del rendering coinvolto. Con un PC moderno e una scheda grafica adeguata, l’utente può fruire da browser di questi contenuti volumetrici con qualità regolabile e persino in modalità VR (il player supporta visori come Meta Quest o Apple Vision Pro). In altre parole, la barriera all’ingresso per godere (e creare) media volumetrici si sta abbassando: niente più app pesanti da installare o hardware esotico, basta un link su Chrome/Edge e si entra nella scena.

Dal punto di vista creativo, questo schiude possibilità enormi. Registi, artisti e designer possono iniziare a pensare a nuove forme di storytelling dove lo spettatore diventa parte attiva della narrazione, libero di scegliere prospettiva e ritmo. Si potrebbe realizzare un documentario storico ricostruendo ambienti d’epoca in 4D: lo spettatore cammina tra le rovine dell’Antica Roma o rivive una battaglia, decidendo cosa osservare più da vicino. Oppure pensiamo ai videoclip musicali volumetrici, dove l’utente può muoversi tra i performer sul palco; o installazioni museali interattive, in cui opere d’arte e ambientazioni vengono scannerizzate in Gaussian Splats per un’esperienza immersiva e didattica.

Il fatto che le scene a Gaussiane siano editabili con relativa facilità apre a mash-up e remix: un creatore potrebbe eliminare elementi da una scena acquisita (essendo punti separati, si possono filtrare/rimuovere) o combinarne due insieme, o ancora applicare effetti artistici alterando i colori/trasparenze delle Gaussiane per ottenere look stilizzati. Tutto ciò sarebbe molto più complicato con un NeRF “annidato” nei pesi di una rete neurale. In sintesi, siamo di fronte a un medium nascente che combina fotorealismo e libertà interattiva in un modo mai visto prima.

Guardando oltre

La tecnologia di Jiaming Sun e 4DV.ai sul 4D Gaussian Splatting rappresenta un importante avanzamento nel campo della visione e grafica computazionale. Le pubblicazioni accademiche di Sun – ad esempio sul metodo di Gerarchia Gaussiana Temporale – ne confermano la solidità scientifica e le prestazioni rivoluzionarie nel rappresentare scene dinamiche. Rispetto ai precedenti approcci (NeRF e simili), i vantaggi in termini di efficienza, qualità e manipolabilità sono notevoli, e stanno spingendo l’intero settore verso soluzioni più esplicite e real-time.

Siamo solo agli inizi di quello che potrebbe diventare un nuovo formato standard per i media immersivi – una sorta di “JPEG del 4D”. L’ecosistema si sta muovendo velocemente: dai progetti open source ai primi tool commerciali che integrano lo splatting (come Luma), fino all’interesse dei colossi tech per applicazioni in metaverso, smart city e oltre. Per il pubblico generalista, tutto ciò si tradurrà in esperienze più ricche: dai social media di prossima generazione dove condividere “momenti 4D”, fino ai contenuti di intrattenimento e formazione che sfumeranno il confine tra reale e virtuale.

La visione di 4DV.ai di un medium interattivo, volumetrico e fotorealistico sembra sempre meno fantascienza e sempre più una concreta evoluzione del modo in cui creeremo e fruiremo dei video nell’era post-schermo. L’innovazione di Sun evidenzia come dall’unione di ricerca accademica e spirito imprenditoriale possano nascere nuove forme di arte e comunicazione, accessibili a tutti attraverso le tecnologie che usiamo ogni giorno. Le Gaussiane 4D potrebbero davvero diventare i pixel del futuro.