Gli ultimi, impressionanti, video deepfake di Veo3 (Google). Come è stato possibile realizzarli?

Gli ultimi, impressionanti, video deepfake di Veo3 (Google). Come è stato possibile realizzarli?

Questi processi richiedono una potenza di calcolo enorme. Mentre noi impieghiamo una frazione di secondo per vedere una scena, una rete neurale deve imparare a farlo da zero, addestrata su milioni di immagini. Per questo sono nate le reti neurali convoluzionali, ispirate alla nostra corteccia visiva.

Strutturate in strati gerarchici, analizzano prima linee e colori, poi forme, infine oggetti complessi. Un meccanismo che consente di riconoscere un volto in una folla, distinguere una zebra da un cavallo, o tracciare le mani in movimento di un ballerino.

“I ricercatori – scrivono gli autori – si sono ispirati al cervello umano per migliorare il deep learning. La nostra corteccia visiva utilizza molti neuroni corrispondenti alle tante sottoregioni ristrette (note come campi ricettivi) che si trovano all’interno di ciò che i nostri occhi vedono in qualunque momento. Questi campi ricettivi identificano caratteristiche base, come le forme, le linee, i colori o gli angoli. Questi rilevatori sono connessi alla neocorteccia, lo strato più esterno del nostro cervello. La neocorteccia immagazzina gerarchicamente le informazioni, elaborando gli output di questi campi ricettivi in una più complessa comprensione della scena”.

Come si costruisce un deepfake

Le stesse tecnologie che permettono alle auto di guidarsi da sole o a un iPhone di riconoscere un volto sono usate anche per creare i deepfake. Per realizzarne uno, si divide un video in migliaia di immagini. Su ognuna si individuano volto, mani, occhi e bocca. Poi si cambia il volto e si sincronizza la bocca con un audio falso. Il risultato è un video in cui una persona sembra dire o fare qualcosa che in realtà non è mai accaduto.

Alla base dei deepfake più sofisticati c’è una tecnologia chiamata Generative Adversarial Network (Gan), formata da due reti neurali in competizione: una genera contenuti, l’altra li valuta. È una sfida continua: il falsificatore migliora per ingannare il rilevatore, che a sua volta si raffina per smascherare l’inganno. Il processo può essere ripetuto milioni di volte, finché il video prodotto non risulta indistinguibile da uno reale.

Fonte: Il Sole 24 Ore