4D Gaussian Splatting: la tecnologia 4DV.ai di Jiaming Sun che rende i video immersivi

Negli ultimi anni la ricerca sulla visualizzazione volumetrica 3D/4D ha compiuto passi da gigante. Il giovane ricercatore cinese Jiaming Sun, fondatore della startup 4DV.ai, รจ tra i protagonisti di questa rivoluzione. Sun descrive la missione di 4DV.ai come โ€œinventare la prossima generazione di media visivi โ€“ interattivi, volumetrici e veramente fotorealisticiโ€. In pratica, parliamo di video che non si limitano a essere riprodotti su uno schermo bidimensionale, ma che possono essere esplorati liberamente nello spazio (e nel tempo) dallโ€™utente, come fossero โ€œologrammiโ€ interattivi. Al cuore di questa innovazione cโ€™รจ una tecnica avanzata chiamata 4D Gaussian Splatting, oggetto di pubblicazioni accademiche e demo impressionanti visibili sul sito di 4DV.ai. Vediamo di cosa si tratta, come funziona e perchรฉ molti la considerano un salto di qualitร  rispetto a tecnologie precedenti come i NeRF e le soluzioni di aziende come Luma AI.

Come funziona il 4D Gaussian Splatting

Il termine Gaussian Splatting potrebbe suonare ostico, ma il concetto di base รจ intuibile: invece di rappresentare una scena 3D con i tradizionali poligoni o mesh, la si rappresenta come un insieme denso di punti volumetrici โ€œsfumatiโ€ (le Gaussiane) nello spazio. Immaginiamo ogni punto come una piccola nuvola tridimensionale con una distribuzione di colore e trasparenza a forma di campana (da cui il nome Gaussiana). Migliaia o milioni di queste โ€œmacchieโ€ opportunamente distribuite possono approssimare qualsiasi scena reale in modo fotorealistico, senza bisogno di superfici poligonali esplicite.

Per costruire queste rappresentazioni, il sistema parte tipicamente da fotografie o video ripresi da piรน angolazioni intorno alla scena (ad esempio con diverse videocamere, oppure con uno smartphone in movimento). Attraverso algoritmi di computer vision, si ricostruisce inizialmente una nuvola di punti grossolana della scena. A ciascun punto viene poi associata una โ€œsplatโ€ Gaussiana, definita dai suoi parametri fondamentali: posizione nello spazio (coordinate XYZ), dimensioni e forma (descritte da una matrice di covarianza 3ร—3 che indica come il punto รจ esteso/elongato nelle varie direzioni), colore (valori RGB) e un coefficiente di trasparenza ฮฑ. Nel caso del 4D Gaussian Splatting, a questi parametri spaziali si aggiunge anche una dimensione temporale: le Gaussiane possono variare nel tempo o esser presenti solo in certi istanti, permettendo cosรฌ di rappresentare scene dinamiche (in movimento) allโ€™interno di un unico modello volumetrico 4D.

Renderizzazione volumetrica e view-dependent rendering

Come si ottiene unโ€™immagine da questa โ€œnuvolaโ€ di Gaussiane? Il processo di rendering avviene per splatting, ossia proiettando ogni Gaussiana sul piano dellโ€™immagine della camera virtuale e fondendo (blending) i contributi di tutte le Gaussiane visibili. In pratica, per ogni pixel dellโ€™inquadratura calcolata, il sistema accumula il colore di tutte le Gaussiane che si trovano lungo il corrispondente raggio visivo, attenuato dalla trasparenza e dalla profonditร  (un principio simile allโ€™equazione di rendering volumetrico usata nei NeRF). La grande differenza รจ che, mentre un NeRF campiona decine di punti lungo ogni raggio passando i dati in una rete neurale pesante da eseguire, il Gaussian Splatting lavora direttamente sui punti espliciti: proietta le Gaussiane una volta sola e combina i loro contributi in modo ordinato (dal piรน vicino al piรน lontano) con un efficiente algoritmo di rasterizzazione. Questo significa che la generazione di ogni frame รจ molto piรน leggera computazionalmente, abbastanza da poter avvicinare o raggiungere il tempo reale โ€“ un vantaggio cruciale rispetto ai metodi neuronali puri.

Un altro aspetto chiave รจ la gestione dei riflessi, luci e altri effetti dipendenti dal punto di vista (view-dependent). Nei NeRF originali, questi effetti venivano appresi dalla rete neurale in funzione della direzione di vista, mentre nelle rappresentazioni a splatting si ottiene risultato analogo assegnando a ciascuna Gaussiana dei coefficienti aggiuntivi che modulano il colore in base allโ€™angolo di osservazione (spesso tramite espansioni in armoniche sferiche). In sostanza, ogni splat puรฒ avere un colore base diffuso e una componente โ€œspeculareโ€ o variabile, consentendo di riprodurre fedelmente bagliori, riflessi e cambi di illuminazione mentre lโ€™utente muove la visuale. Sun e colleghi, ad esempio, hanno progettato un modello di appearance compatto che mescola Gaussiane diffuse e Gaussiane view-dependent per mantenere alta la qualitร  visiva riducendo al contempo la quantitร  di dati da memorizzare.

Dai video 2D alla scena 4D: lโ€™innovazione delle Gaussiane dinamiche

La vera sfida affrontata da 4DV.ai รจ portare questa tecnologia dal caso statico 3D a quello dinamico 4D, cioรจ ai volumetric videos (video volumetrici) in cui la scena evolve nel tempo. Rappresentare unโ€™intera sequenza temporale come volume 4D significa tecnicamente ottimizzare Gaussiane che vivono in uno spazio a quattro dimensioni (x, y, z piรน t per il tempo). Questo approccio, chiamato proprio 4D Gaussian Splatting (4DGS), รจ stato proposto di recente in letteratura come metodo promettente per catturare variazioni spaziali e temporali ad alta fedeltร . Il vantaggio รจ poter ottenere ricostruzioni 3D di scene in movimento (persone che si muovono, oggetti in azione, ecc.) con qualitร  fotorealistica e consistenza temporale elevata, producendo in pratica un โ€œologrammaโ€ animato navigabile.

Sun, che nel frattempo continua a contribuire alla ricerca accademica in collaborazione con lโ€™Universitร  di Zhejiang, รจ co-autore di alcuni studi pionieristici sul 4DGS. In una pubblicazione del 2024, ad esempio, il suo team ha affrontato uno dei limiti del 4DGS puro: lโ€™elevato costo computazionale e di memoria di rappresentare tutto in 4D, anche le parti statiche della scena. La soluzione proposta รจ un approccio ibrido e gerarchico: identificare le regioni statiche che non cambiano nel tempo e trattarle con Gaussiane 3D standard, riservando invece le Gaussiane 4D solo agli elementi dinamici. Inoltre, introducono una gerarchia temporale: la scena viene descritta a diversi livelli di dettaglio temporale, riutilizzando gli stessi punti Gaussiani per rappresentare intervalli in cui nulla cambia, e aggiungendo invece punti extra solo dove avvengono movimenti rapidi. In questo modo si riduce drasticamente il numero totale di Gaussiane necessarie, rendendo la rappresentazione molto piรน compatta. La struttura โ€œad alberoโ€ risultante permette di scalare a minuti di video mantenendo lโ€™uso di memoria video quasi costante indipendentemente dalla durata.

I risultati riportati sono impressionanti: grazie a questa Temporal Gaussian Hierarchy, il sistema di Sun e colleghi riesce a gestire volumi 4D lunghi 18.000 frame (diverse decine di secondi di video) con circa 17 GB di VRAM, laddove metodi precedenti andavano fuori memoria giร  a 300 frame su una GPU da 24 GB. Il loro metodo mantiene qualitร  di rendering allโ€™avanguardia e supporta frame rate elevati (fino a centinaia di FPS a 1080p su GPU di fascia alta), aprendo la strada a video volumetrici lunghi fruibili in tempo reale. Si tratta di progressi documentati in peer review che attestano la validitร  scientifica della tecnologia 4DV.ai.

Confronto con NeRF, Luma AI e altri approcci alla scena 3D/4D

Vale la pena contestualizzare il Gaussian Splatting rispetto alle tecniche affini. I Neural Radiance Fields (NeRF), introdotti nel 2020 da Mildenhall et al., hanno inaugurato lโ€™era del neural rendering consentendo la sintesi di viste novel-view fotorealistiche da immagini 2D. Un NeRF rappresenta la scena come una funzione neurale implicita appresa (una rete che, dato un punto 3D e una direzione, restituisce colore e densitร ), e genera immagini per integrazione lungo i raggi visivi. La qualitร  ottenibile รจ elevata, comprensiva di riflessi e illuminazione realistici, come ha dimostrato la startup Luma AI portando NeRF su smartphone per catturare oggetti e ambienti reali. Luma, ad esempio, permette di scansionare in 3D scene reali con un iPhone e condividerle sul web come scene interattive, sfruttando reti neurali di radiance field per riprodurre dettagli intricati, riflessi e giochi di luce da ogni angolo. Questo ha reso la fotogrammetria neurale accessibile al grande pubblico per oggetti statici e piccoli ambienti.

Tuttavia, i NeRF presentano anche limiti chiari. Prestazioni: lโ€™inferenza di una rete NeRF รจ onerosa, inizialmente richiedeva secondi o minuti per frame; solo con ottimizzazioni come Instant NGP si รจ ridotto il tempo, ma rimanendo lontani dal vero tempo reale per scene complesse. Addestramento: ogni nuova scena richiede un costoso processo di ottimizzazione (training) della rete che puรฒ durare da minuti a ore, mentre i metodi a splatting ottimizzano direttamente punti espliciti con convergenza piรน rapida. Rappresentazione implicita: la natura โ€œblack boxโ€ della rete rende difficile modificare o integrare la scena dopo il fatto (ad es. rimuovere un oggetto, unire scene) โ€“ operazioni invece piรน semplici se si dispone di un insieme esplicito di punti/gaussiane su cui si puรฒ intervenire direttamente.

Il 3D Gaussian Splatting (3DGS) di Kerbl et al. (SIGGRAPH 2023) รจ emerso proprio come unโ€™alternativa interessante perchรฉ concilia qualitร  e velocitร . Invece di sampleare un volume con una MLP, 3DGS usa primitve gaussiane esplicite e una rasterizzazione efficiente: il risultato sono rendering in tempo reale con qualitร  paragonabile o superiore ai NeRF pesanti. In letteratura si riportano miglioramenti sia in fedeltร  che in frame rate: โ€œil 3DGS offre qualitร  migliorata e capacitร  di rendering real-time, a differenza di NeRF che si basa su rappresentazioni implicite e su un costoso rendering volumetricoโ€. In pratica NeRF rimane piรน compute-intensive, mentre Gaussian Splatting sfrutta al meglio lโ€™hardware grafico come fosse una nuvola di punti intelligente.

รˆ indicativo che la stessa Luma AI abbia recentemente aggiunto il supporto allโ€™export in formato Gaussian Splatting accanto ai NeRF neurali. Questo suggerisce che anche nellโ€™industria si riconosce il valore di combinare i due approcci: usare le reti neurali fin dove servono (es. per stimare geometria e colori iniziali da input fotografici), ma poi passare a una rappresentazione esplicita di Gaussiane per la fruizione finale interattiva. In ambienti come Unity o Unreal Engine esistono giร  plugin sperimentali per importare Gaussian Splats e utilizzarli nei giochi o applicazioni XR, cosa che i developer vedono con entusiasmo per ottenere grafica fotorealistica a frame rate elevati anche su hardware non estremi.

In termini di soluzioni alternative per scene dinamiche, oltre ai NeRF estesi (come NR-NeRF, DNerf e altri che introducono embedding temporali o voxel 4D ma soffrono in efficienza), ci sono approcci come i light field videos e i sistemi volumetrici multi-camera usati in produzioni cinematografiche o sportive. Ad esempio, studi come Microsoft Mixed Reality Capture (holostudio) usano decine di telecamere per ricostruire soggetti umani in 3D animato, ma generano mesh o point cloud frame-by-frame con costi elevati. La differenza chiave del metodo di 4DV.ai รจ che punta a ottenere un risultato simile (un video navigabile a 6 gradi di libertร ) senza camera rig proprietari, con input potenzialmente alla portata di chiunque (perfino un normale video 2D, secondo alcune demo teaser) e con un formato dati snello, streammabile via web. Siamo dunque di fronte a un game changer che unisce la flessibilitร  dei modelli neurali alla concretezza modificabile dei dati espliciti.

Applicazioni: dal consumo di contenuti allโ€™enterprise e allโ€™AI

Le potenziali applicazioni dei video 4D volumetrici sono vaste e in parte ancora da esplorare. Possiamo suddividerle in diversi ambiti:

  • Consumer e Intrattenimento: Immaginiamo i ricordi personali in 3D โ€“ invece di un semplice video sul telefono, rivivere un momento (una festa, una vacanza) potendosi muovere liberamente nella scena con un visore VR o sullo schermo. Oppure i concerti e eventi sportivi immersivi, dove lo spettatore da casa diventa regista e puรฒ โ€œcamminareโ€ virtualmente sul palco o sul campo da gioco. Lโ€™industria dei videogiochi e degli effetti speciali potrebbe utilizzare il Gaussian Splatting per creare ambienti 3D realistici integrando attori reali digitalizzati, riducendo costi di green screen e permettendo inquadrature impossibili con le tecniche tradizionali. Anche cinema e serie TV potrebbero beneficiare di virtual production piรน flessibile: ad esempio girare una scena e poi decidere in post-produzione qualsiasi movimento di camera, grazie al set ricostruito volumetricamente.
  • Enterprise, Digital Twin e Realtร  Aumentata: Aziende come Siemens, Microsoft, Meta vedono un enorme potenziale nei digital twin: copie digitali di luoghi, impianti industriali o cittร  intere, da ispezionare e monitorare a distanza. Il Gaussian Splatting permette di ottenere visualizzazioni 3D fotorealistiche di ambienti complessi (fabbriche, infrastrutture, cantieri) in cui muoversi e interagire, utili per manutenzione da remoto, formazione di personale, pianificazione di modifiche architettoniche, ecc. Rispetto ai modelli CAD tradizionali, una cattura 4D offre sia realismo (per valutare illuminazione, materiali, ecc.) sia aggiornamento continuo nel tempo (monitoraggio di progressi, cambiamenti o anomalie). In ambito urban planning, poter simulare lo sviluppo di un quartiere visualizzando un modello di cittร  vivo e pulsante in 4D (con traffico, pedoni, illuminazione variabile nellโ€™arco del giorno) sarebbe uno strumento di enorme impatto. Anche il settore real estate puรฒ trarre vantaggio: visite virtuali di immobili dove lโ€™acquirente puรฒ esplorare a 360ยฐ come se fosse sul posto, con una fedeltร  tale da ridurre sorprese e incomprensioni (vedendo reali proporzioni, materiali, viste dalle finestre in diversi orari, ecc.).
  • Telepresenza e Comunicazione: Collegato ai punti sopra cโ€™รจ il tema della telepresenza immersiva. In futuro, una videochiamata potrebbe trasformarsi in unโ€™esperienza in cui la persona remota รจ catturata volumetricamente in tempo reale e appare nel nostro spazio attraverso AR/VR. Sun stesso crede molto in questa direzione, vedendo VR/AR come la prossima interfaccia uomo-macchina ubiqua che rivoluzionerร  la comunicazione (al pari di ciรฒ che furono i touchscreen). Perchรฉ ciรฒ si realizzi, servono tecnologie di cattura e rendering efficienti: 4DGS potrebbe permettere di trasmettere โ€œologrammiโ€ dal vivo comprimendo i dati in modo intelligente (inviando solo i parametri delle Gaussiane aggiornati ogni frame anzichรฉ nuvole dense di punti grezzi) e renderizzandoli sul dispositivo dellโ€™utente in tempo reale.
  • Intelligenza Artificiale e Generazione Contenuti: Cโ€™รจ un interessante incrocio tra Gaussian Splatting e AI. Da un lato, modelli 3D espliciti come questi possono fornire dati di addestramento per sistemi di visione artificiale: ad esempio, unโ€™AI per la guida autonoma o la robotica puรฒ allenarsi in mondi virtuali fotorealistici generati con splatting, testando la capacitร  di percepire profonditร  e riconoscere oggetti in scenari simulati ma realistici. Dallโ€™altro lato, i modelli generativi stessi possono integrarsi con rappresentazioni a Gaussiana: alcuni ricercatori propongono di usare le scene Gaussian Splatting come base strutturata su cui applicare modelli generativi 2D/3D, ottenendo video generati dallโ€™AI ma con coerenza spaziale e temporale molto maggiore. In pratica, un modello di diffusione potrebbe generare i dettagli visivi su una griglia di Gaussiane giร  consistente in 3D, evitando sfarfallii e deformazioni fotogramma per fotogramma. Strumenti come Runway stanno esplorando la generazione video condizionata, e disporre di โ€œpunti di ancoraggioโ€ 3D (splat) potrebbe essere la chiave per fare il salto verso video generati dallโ€™AI davvero credibili e stabili. Inoltre, la velocitร  di rendering delle Gaussiane consente iterazioni rapide nel training di modelli AI (ad esempio per fare data augmentation on-the-fly con scenari variati).

Accessibilitร  e potenzialitร  creative di 4DV.ai

Uno degli aspetti piรน entusiasmanti della tecnologia sviluppata da Jiaming Sun รจ la sua enfasi sullโ€™accessibilitร . Tradizionalmente, i contenuti volumetrici 3D di alta qualitร  erano appannaggio di laboratori specializzati, con array di decine di telecamere sincronizzate e infrastrutture di calcolo notevoli. Ora si profilano soluzioni capaci di trasformare anche input piรน semplici (come un normale video 2D o pochi video amatoriali) in esperienze 4D immersive. La startup 4DV.ai ha mostrato demo in cui da filmati convenzionali viene ottenuto un output esplorabile a 6DoF, completo di audio sincronizzato. Il loro viewer web permette giร  di caricare un file .4dv precomputato e navigarlo direttamente nel browser โ€“ un fatto straordinario se pensiamo alla complessitร  del rendering coinvolto. Con un PC moderno e una scheda grafica adeguata, lโ€™utente puรฒ fruire da browser di questi contenuti volumetrici con qualitร  regolabile e persino in modalitร  VR (il player supporta visori come Meta Quest o Apple Vision Pro). In altre parole, la barriera allโ€™ingresso per godere (e creare) media volumetrici si sta abbassando: niente piรน app pesanti da installare o hardware esotico, basta un link su Chrome/Edge e si entra nella scena.

Dal punto di vista creativo, questo schiude possibilitร  enormi. Registi, artisti e designer possono iniziare a pensare a nuove forme di storytelling dove lo spettatore diventa parte attiva della narrazione, libero di scegliere prospettiva e ritmo. Si potrebbe realizzare un documentario storico ricostruendo ambienti dโ€™epoca in 4D: lo spettatore cammina tra le rovine dellโ€™Antica Roma o rivive una battaglia, decidendo cosa osservare piรน da vicino. Oppure pensiamo ai videoclip musicali volumetrici, dove lโ€™utente puรฒ muoversi tra i performer sul palco; o installazioni museali interattive, in cui opere dโ€™arte e ambientazioni vengono scannerizzate in Gaussian Splats per unโ€™esperienza immersiva e didattica.

Il fatto che le scene a Gaussiane siano editabili con relativa facilitร  apre a mash-up e remix: un creatore potrebbe eliminare elementi da una scena acquisita (essendo punti separati, si possono filtrare/rimuovere) o combinarne due insieme, o ancora applicare effetti artistici alterando i colori/trasparenze delle Gaussiane per ottenere look stilizzati. Tutto ciรฒ sarebbe molto piรน complicato con un NeRF โ€œannidatoโ€ nei pesi di una rete neurale. In sintesi, siamo di fronte a un medium nascente che combina fotorealismo e libertร  interattiva in un modo mai visto prima.

Guardando oltre

La tecnologia di Jiaming Sun e 4DV.ai sul 4D Gaussian Splatting rappresenta un importante avanzamento nel campo della visione e grafica computazionale. Le pubblicazioni accademiche di Sun โ€“ ad esempio sul metodo di Gerarchia Gaussiana Temporale โ€“ ne confermano la soliditร  scientifica e le prestazioni rivoluzionarie nel rappresentare scene dinamiche. Rispetto ai precedenti approcci (NeRF e simili), i vantaggi in termini di efficienza, qualitร  e manipolabilitร  sono notevoli, e stanno spingendo lโ€™intero settore verso soluzioni piรน esplicite e real-time.

Siamo solo agli inizi di quello che potrebbe diventare un nuovo formato standard per i media immersivi โ€“ una sorta di โ€œJPEG del 4Dโ€. Lโ€™ecosistema si sta muovendo velocemente: dai progetti open source ai primi tool commerciali che integrano lo splatting (come Luma), fino allโ€™interesse dei colossi tech per applicazioni in metaverso, smart city e oltre. Per il pubblico generalista, tutto ciรฒ si tradurrร  in esperienze piรน ricche: dai social media di prossima generazione dove condividere โ€œmomenti 4Dโ€, fino ai contenuti di intrattenimento e formazione che sfumeranno il confine tra reale e virtuale.

La visione di 4DV.ai di un medium interattivo, volumetrico e fotorealistico sembra sempre meno fantascienza e sempre piรน una concreta evoluzione del modo in cui creeremo e fruiremo dei video nellโ€™era post-schermo. Lโ€™innovazione di Sun evidenzia come dallโ€™unione di ricerca accademica e spirito imprenditoriale possano nascere nuove forme di arte e comunicazione, accessibili a tutti attraverso le tecnologie che usiamo ogni giorno. Le Gaussiane 4D potrebbero davvero diventare i pixel del futuro.