4D Gaussian Splatting: la tecnologia 4DV.ai di Jiaming Sun che rende i video immersivi
Negli ultimi anni la ricerca sulla visualizzazione volumetrica 3D/4D ha compiuto passi da gigante. Il giovane ricercatore cinese Jiaming Sun, fondatore della startup 4DV.ai, รจ tra i protagonisti di questa rivoluzione. Sun descrive la missione di 4DV.ai come โinventare la prossima generazione di media visivi โ interattivi, volumetrici e veramente fotorealisticiโ. In pratica, parliamo di video che non si limitano a essere riprodotti su uno schermo bidimensionale, ma che possono essere esplorati liberamente nello spazio (e nel tempo) dallโutente, come fossero โologrammiโ interattivi. Al cuore di questa innovazione cโรจ una tecnica avanzata chiamata 4D Gaussian Splatting, oggetto di pubblicazioni accademiche e demo impressionanti visibili sul sito di 4DV.ai. Vediamo di cosa si tratta, come funziona e perchรฉ molti la considerano un salto di qualitร rispetto a tecnologie precedenti come i NeRF e le soluzioni di aziende come Luma AI.
Come funziona il 4D Gaussian Splatting
Il termine Gaussian Splatting potrebbe suonare ostico, ma il concetto di base รจ intuibile: invece di rappresentare una scena 3D con i tradizionali poligoni o mesh, la si rappresenta come un insieme denso di punti volumetrici โsfumatiโ (le Gaussiane) nello spazio. Immaginiamo ogni punto come una piccola nuvola tridimensionale con una distribuzione di colore e trasparenza a forma di campana (da cui il nome Gaussiana). Migliaia o milioni di queste โmacchieโ opportunamente distribuite possono approssimare qualsiasi scena reale in modo fotorealistico, senza bisogno di superfici poligonali esplicite.
Per costruire queste rappresentazioni, il sistema parte tipicamente da fotografie o video ripresi da piรน angolazioni intorno alla scena (ad esempio con diverse videocamere, oppure con uno smartphone in movimento). Attraverso algoritmi di computer vision, si ricostruisce inizialmente una nuvola di punti grossolana della scena. A ciascun punto viene poi associata una โsplatโ Gaussiana, definita dai suoi parametri fondamentali: posizione nello spazio (coordinate XYZ), dimensioni e forma (descritte da una matrice di covarianza 3ร3 che indica come il punto รจ esteso/elongato nelle varie direzioni), colore (valori RGB) e un coefficiente di trasparenza ฮฑ. Nel caso del 4D Gaussian Splatting, a questi parametri spaziali si aggiunge anche una dimensione temporale: le Gaussiane possono variare nel tempo o esser presenti solo in certi istanti, permettendo cosรฌ di rappresentare scene dinamiche (in movimento) allโinterno di un unico modello volumetrico 4D.
Renderizzazione volumetrica e view-dependent rendering
Come si ottiene unโimmagine da questa โnuvolaโ di Gaussiane? Il processo di rendering avviene per splatting, ossia proiettando ogni Gaussiana sul piano dellโimmagine della camera virtuale e fondendo (blending) i contributi di tutte le Gaussiane visibili. In pratica, per ogni pixel dellโinquadratura calcolata, il sistema accumula il colore di tutte le Gaussiane che si trovano lungo il corrispondente raggio visivo, attenuato dalla trasparenza e dalla profonditร (un principio simile allโequazione di rendering volumetrico usata nei NeRF). La grande differenza รจ che, mentre un NeRF campiona decine di punti lungo ogni raggio passando i dati in una rete neurale pesante da eseguire, il Gaussian Splatting lavora direttamente sui punti espliciti: proietta le Gaussiane una volta sola e combina i loro contributi in modo ordinato (dal piรน vicino al piรน lontano) con un efficiente algoritmo di rasterizzazione. Questo significa che la generazione di ogni frame รจ molto piรน leggera computazionalmente, abbastanza da poter avvicinare o raggiungere il tempo reale โ un vantaggio cruciale rispetto ai metodi neuronali puri.
Un altro aspetto chiave รจ la gestione dei riflessi, luci e altri effetti dipendenti dal punto di vista (view-dependent). Nei NeRF originali, questi effetti venivano appresi dalla rete neurale in funzione della direzione di vista, mentre nelle rappresentazioni a splatting si ottiene risultato analogo assegnando a ciascuna Gaussiana dei coefficienti aggiuntivi che modulano il colore in base allโangolo di osservazione (spesso tramite espansioni in armoniche sferiche). In sostanza, ogni splat puรฒ avere un colore base diffuso e una componente โspeculareโ o variabile, consentendo di riprodurre fedelmente bagliori, riflessi e cambi di illuminazione mentre lโutente muove la visuale. Sun e colleghi, ad esempio, hanno progettato un modello di appearance compatto che mescola Gaussiane diffuse e Gaussiane view-dependent per mantenere alta la qualitร visiva riducendo al contempo la quantitร di dati da memorizzare.
Dai video 2D alla scena 4D: lโinnovazione delle Gaussiane dinamiche
La vera sfida affrontata da 4DV.ai รจ portare questa tecnologia dal caso statico 3D a quello dinamico 4D, cioรจ ai volumetric videos (video volumetrici) in cui la scena evolve nel tempo. Rappresentare unโintera sequenza temporale come volume 4D significa tecnicamente ottimizzare Gaussiane che vivono in uno spazio a quattro dimensioni (x, y, z piรน t per il tempo). Questo approccio, chiamato proprio 4D Gaussian Splatting (4DGS), รจ stato proposto di recente in letteratura come metodo promettente per catturare variazioni spaziali e temporali ad alta fedeltร . Il vantaggio รจ poter ottenere ricostruzioni 3D di scene in movimento (persone che si muovono, oggetti in azione, ecc.) con qualitร fotorealistica e consistenza temporale elevata, producendo in pratica un โologrammaโ animato navigabile.
Sun, che nel frattempo continua a contribuire alla ricerca accademica in collaborazione con lโUniversitร di Zhejiang, รจ co-autore di alcuni studi pionieristici sul 4DGS. In una pubblicazione del 2024, ad esempio, il suo team ha affrontato uno dei limiti del 4DGS puro: lโelevato costo computazionale e di memoria di rappresentare tutto in 4D, anche le parti statiche della scena. La soluzione proposta รจ un approccio ibrido e gerarchico: identificare le regioni statiche che non cambiano nel tempo e trattarle con Gaussiane 3D standard, riservando invece le Gaussiane 4D solo agli elementi dinamici. Inoltre, introducono una gerarchia temporale: la scena viene descritta a diversi livelli di dettaglio temporale, riutilizzando gli stessi punti Gaussiani per rappresentare intervalli in cui nulla cambia, e aggiungendo invece punti extra solo dove avvengono movimenti rapidi. In questo modo si riduce drasticamente il numero totale di Gaussiane necessarie, rendendo la rappresentazione molto piรน compatta. La struttura โad alberoโ risultante permette di scalare a minuti di video mantenendo lโuso di memoria video quasi costante indipendentemente dalla durata.
I risultati riportati sono impressionanti: grazie a questa Temporal Gaussian Hierarchy, il sistema di Sun e colleghi riesce a gestire volumi 4D lunghi 18.000 frame (diverse decine di secondi di video) con circa 17 GB di VRAM, laddove metodi precedenti andavano fuori memoria giร a 300 frame su una GPU da 24 GB. Il loro metodo mantiene qualitร di rendering allโavanguardia e supporta frame rate elevati (fino a centinaia di FPS a 1080p su GPU di fascia alta), aprendo la strada a video volumetrici lunghi fruibili in tempo reale. Si tratta di progressi documentati in peer review che attestano la validitร scientifica della tecnologia 4DV.ai.
Confronto con NeRF, Luma AI e altri approcci alla scena 3D/4D
Vale la pena contestualizzare il Gaussian Splatting rispetto alle tecniche affini. I Neural Radiance Fields (NeRF), introdotti nel 2020 da Mildenhall et al., hanno inaugurato lโera del neural rendering consentendo la sintesi di viste novel-view fotorealistiche da immagini 2D. Un NeRF rappresenta la scena come una funzione neurale implicita appresa (una rete che, dato un punto 3D e una direzione, restituisce colore e densitร ), e genera immagini per integrazione lungo i raggi visivi. La qualitร ottenibile รจ elevata, comprensiva di riflessi e illuminazione realistici, come ha dimostrato la startup Luma AI portando NeRF su smartphone per catturare oggetti e ambienti reali. Luma, ad esempio, permette di scansionare in 3D scene reali con un iPhone e condividerle sul web come scene interattive, sfruttando reti neurali di radiance field per riprodurre dettagli intricati, riflessi e giochi di luce da ogni angolo. Questo ha reso la fotogrammetria neurale accessibile al grande pubblico per oggetti statici e piccoli ambienti.
Tuttavia, i NeRF presentano anche limiti chiari. Prestazioni: lโinferenza di una rete NeRF รจ onerosa, inizialmente richiedeva secondi o minuti per frame; solo con ottimizzazioni come Instant NGP si รจ ridotto il tempo, ma rimanendo lontani dal vero tempo reale per scene complesse. Addestramento: ogni nuova scena richiede un costoso processo di ottimizzazione (training) della rete che puรฒ durare da minuti a ore, mentre i metodi a splatting ottimizzano direttamente punti espliciti con convergenza piรน rapida. Rappresentazione implicita: la natura โblack boxโ della rete rende difficile modificare o integrare la scena dopo il fatto (ad es. rimuovere un oggetto, unire scene) โ operazioni invece piรน semplici se si dispone di un insieme esplicito di punti/gaussiane su cui si puรฒ intervenire direttamente.
Il 3D Gaussian Splatting (3DGS) di Kerbl et al. (SIGGRAPH 2023) รจ emerso proprio come unโalternativa interessante perchรฉ concilia qualitร e velocitร . Invece di sampleare un volume con una MLP, 3DGS usa primitve gaussiane esplicite e una rasterizzazione efficiente: il risultato sono rendering in tempo reale con qualitร paragonabile o superiore ai NeRF pesanti. In letteratura si riportano miglioramenti sia in fedeltร che in frame rate: โil 3DGS offre qualitร migliorata e capacitร di rendering real-time, a differenza di NeRF che si basa su rappresentazioni implicite e su un costoso rendering volumetricoโ. In pratica NeRF rimane piรน compute-intensive, mentre Gaussian Splatting sfrutta al meglio lโhardware grafico come fosse una nuvola di punti intelligente.
ร indicativo che la stessa Luma AI abbia recentemente aggiunto il supporto allโexport in formato Gaussian Splatting accanto ai NeRF neurali. Questo suggerisce che anche nellโindustria si riconosce il valore di combinare i due approcci: usare le reti neurali fin dove servono (es. per stimare geometria e colori iniziali da input fotografici), ma poi passare a una rappresentazione esplicita di Gaussiane per la fruizione finale interattiva. In ambienti come Unity o Unreal Engine esistono giร plugin sperimentali per importare Gaussian Splats e utilizzarli nei giochi o applicazioni XR, cosa che i developer vedono con entusiasmo per ottenere grafica fotorealistica a frame rate elevati anche su hardware non estremi.
In termini di soluzioni alternative per scene dinamiche, oltre ai NeRF estesi (come NR-NeRF, DNerf e altri che introducono embedding temporali o voxel 4D ma soffrono in efficienza), ci sono approcci come i light field videos e i sistemi volumetrici multi-camera usati in produzioni cinematografiche o sportive. Ad esempio, studi come Microsoft Mixed Reality Capture (holostudio) usano decine di telecamere per ricostruire soggetti umani in 3D animato, ma generano mesh o point cloud frame-by-frame con costi elevati. La differenza chiave del metodo di 4DV.ai รจ che punta a ottenere un risultato simile (un video navigabile a 6 gradi di libertร ) senza camera rig proprietari, con input potenzialmente alla portata di chiunque (perfino un normale video 2D, secondo alcune demo teaser) e con un formato dati snello, streammabile via web. Siamo dunque di fronte a un game changer che unisce la flessibilitร dei modelli neurali alla concretezza modificabile dei dati espliciti.
Applicazioni: dal consumo di contenuti allโenterprise e allโAI
Le potenziali applicazioni dei video 4D volumetrici sono vaste e in parte ancora da esplorare. Possiamo suddividerle in diversi ambiti:
- Consumer e Intrattenimento: Immaginiamo i ricordi personali in 3D โ invece di un semplice video sul telefono, rivivere un momento (una festa, una vacanza) potendosi muovere liberamente nella scena con un visore VR o sullo schermo. Oppure i concerti e eventi sportivi immersivi, dove lo spettatore da casa diventa regista e puรฒ โcamminareโ virtualmente sul palco o sul campo da gioco. Lโindustria dei videogiochi e degli effetti speciali potrebbe utilizzare il Gaussian Splatting per creare ambienti 3D realistici integrando attori reali digitalizzati, riducendo costi di green screen e permettendo inquadrature impossibili con le tecniche tradizionali. Anche cinema e serie TV potrebbero beneficiare di virtual production piรน flessibile: ad esempio girare una scena e poi decidere in post-produzione qualsiasi movimento di camera, grazie al set ricostruito volumetricamente.
- Enterprise, Digital Twin e Realtร Aumentata: Aziende come Siemens, Microsoft, Meta vedono un enorme potenziale nei digital twin: copie digitali di luoghi, impianti industriali o cittร intere, da ispezionare e monitorare a distanza. Il Gaussian Splatting permette di ottenere visualizzazioni 3D fotorealistiche di ambienti complessi (fabbriche, infrastrutture, cantieri) in cui muoversi e interagire, utili per manutenzione da remoto, formazione di personale, pianificazione di modifiche architettoniche, ecc. Rispetto ai modelli CAD tradizionali, una cattura 4D offre sia realismo (per valutare illuminazione, materiali, ecc.) sia aggiornamento continuo nel tempo (monitoraggio di progressi, cambiamenti o anomalie). In ambito urban planning, poter simulare lo sviluppo di un quartiere visualizzando un modello di cittร vivo e pulsante in 4D (con traffico, pedoni, illuminazione variabile nellโarco del giorno) sarebbe uno strumento di enorme impatto. Anche il settore real estate puรฒ trarre vantaggio: visite virtuali di immobili dove lโacquirente puรฒ esplorare a 360ยฐ come se fosse sul posto, con una fedeltร tale da ridurre sorprese e incomprensioni (vedendo reali proporzioni, materiali, viste dalle finestre in diversi orari, ecc.).
- Telepresenza e Comunicazione: Collegato ai punti sopra cโรจ il tema della telepresenza immersiva. In futuro, una videochiamata potrebbe trasformarsi in unโesperienza in cui la persona remota รจ catturata volumetricamente in tempo reale e appare nel nostro spazio attraverso AR/VR. Sun stesso crede molto in questa direzione, vedendo VR/AR come la prossima interfaccia uomo-macchina ubiqua che rivoluzionerร la comunicazione (al pari di ciรฒ che furono i touchscreen). Perchรฉ ciรฒ si realizzi, servono tecnologie di cattura e rendering efficienti: 4DGS potrebbe permettere di trasmettere โologrammiโ dal vivo comprimendo i dati in modo intelligente (inviando solo i parametri delle Gaussiane aggiornati ogni frame anzichรฉ nuvole dense di punti grezzi) e renderizzandoli sul dispositivo dellโutente in tempo reale.
- Intelligenza Artificiale e Generazione Contenuti: Cโรจ un interessante incrocio tra Gaussian Splatting e AI. Da un lato, modelli 3D espliciti come questi possono fornire dati di addestramento per sistemi di visione artificiale: ad esempio, unโAI per la guida autonoma o la robotica puรฒ allenarsi in mondi virtuali fotorealistici generati con splatting, testando la capacitร di percepire profonditร e riconoscere oggetti in scenari simulati ma realistici. Dallโaltro lato, i modelli generativi stessi possono integrarsi con rappresentazioni a Gaussiana: alcuni ricercatori propongono di usare le scene Gaussian Splatting come base strutturata su cui applicare modelli generativi 2D/3D, ottenendo video generati dallโAI ma con coerenza spaziale e temporale molto maggiore. In pratica, un modello di diffusione potrebbe generare i dettagli visivi su una griglia di Gaussiane giร consistente in 3D, evitando sfarfallii e deformazioni fotogramma per fotogramma. Strumenti come Runway stanno esplorando la generazione video condizionata, e disporre di โpunti di ancoraggioโ 3D (splat) potrebbe essere la chiave per fare il salto verso video generati dallโAI davvero credibili e stabili. Inoltre, la velocitร di rendering delle Gaussiane consente iterazioni rapide nel training di modelli AI (ad esempio per fare data augmentation on-the-fly con scenari variati).
Accessibilitร e potenzialitร creative di 4DV.ai
Uno degli aspetti piรน entusiasmanti della tecnologia sviluppata da Jiaming Sun รจ la sua enfasi sullโaccessibilitร . Tradizionalmente, i contenuti volumetrici 3D di alta qualitร erano appannaggio di laboratori specializzati, con array di decine di telecamere sincronizzate e infrastrutture di calcolo notevoli. Ora si profilano soluzioni capaci di trasformare anche input piรน semplici (come un normale video 2D o pochi video amatoriali) in esperienze 4D immersive. La startup 4DV.ai ha mostrato demo in cui da filmati convenzionali viene ottenuto un output esplorabile a 6DoF, completo di audio sincronizzato. Il loro viewer web permette giร di caricare un file .4dv precomputato e navigarlo direttamente nel browser โ un fatto straordinario se pensiamo alla complessitร del rendering coinvolto. Con un PC moderno e una scheda grafica adeguata, lโutente puรฒ fruire da browser di questi contenuti volumetrici con qualitร regolabile e persino in modalitร VR (il player supporta visori come Meta Quest o Apple Vision Pro). In altre parole, la barriera allโingresso per godere (e creare) media volumetrici si sta abbassando: niente piรน app pesanti da installare o hardware esotico, basta un link su Chrome/Edge e si entra nella scena.
Dal punto di vista creativo, questo schiude possibilitร enormi. Registi, artisti e designer possono iniziare a pensare a nuove forme di storytelling dove lo spettatore diventa parte attiva della narrazione, libero di scegliere prospettiva e ritmo. Si potrebbe realizzare un documentario storico ricostruendo ambienti dโepoca in 4D: lo spettatore cammina tra le rovine dellโAntica Roma o rivive una battaglia, decidendo cosa osservare piรน da vicino. Oppure pensiamo ai videoclip musicali volumetrici, dove lโutente puรฒ muoversi tra i performer sul palco; o installazioni museali interattive, in cui opere dโarte e ambientazioni vengono scannerizzate in Gaussian Splats per unโesperienza immersiva e didattica.
Il fatto che le scene a Gaussiane siano editabili con relativa facilitร apre a mash-up e remix: un creatore potrebbe eliminare elementi da una scena acquisita (essendo punti separati, si possono filtrare/rimuovere) o combinarne due insieme, o ancora applicare effetti artistici alterando i colori/trasparenze delle Gaussiane per ottenere look stilizzati. Tutto ciรฒ sarebbe molto piรน complicato con un NeRF โannidatoโ nei pesi di una rete neurale. In sintesi, siamo di fronte a un medium nascente che combina fotorealismo e libertร interattiva in un modo mai visto prima.
Guardando oltre
La tecnologia di Jiaming Sun e 4DV.ai sul 4D Gaussian Splatting rappresenta un importante avanzamento nel campo della visione e grafica computazionale. Le pubblicazioni accademiche di Sun โ ad esempio sul metodo di Gerarchia Gaussiana Temporale โ ne confermano la soliditร scientifica e le prestazioni rivoluzionarie nel rappresentare scene dinamiche. Rispetto ai precedenti approcci (NeRF e simili), i vantaggi in termini di efficienza, qualitร e manipolabilitร sono notevoli, e stanno spingendo lโintero settore verso soluzioni piรน esplicite e real-time.
Siamo solo agli inizi di quello che potrebbe diventare un nuovo formato standard per i media immersivi โ una sorta di โJPEG del 4Dโ. Lโecosistema si sta muovendo velocemente: dai progetti open source ai primi tool commerciali che integrano lo splatting (come Luma), fino allโinteresse dei colossi tech per applicazioni in metaverso, smart city e oltre. Per il pubblico generalista, tutto ciรฒ si tradurrร in esperienze piรน ricche: dai social media di prossima generazione dove condividere โmomenti 4Dโ, fino ai contenuti di intrattenimento e formazione che sfumeranno il confine tra reale e virtuale.
La visione di 4DV.ai di un medium interattivo, volumetrico e fotorealistico sembra sempre meno fantascienza e sempre piรน una concreta evoluzione del modo in cui creeremo e fruiremo dei video nellโera post-schermo. Lโinnovazione di Sun evidenzia come dallโunione di ricerca accademica e spirito imprenditoriale possano nascere nuove forme di arte e comunicazione, accessibili a tutti attraverso le tecnologie che usiamo ogni giorno. Le Gaussiane 4D potrebbero davvero diventare i pixel del futuro.