Finalmente Sora di OpenAI trasforma il testo in video!

16 Febbraio 2024

523

OpenAI ha presentato Sora, un’avanzata intelligenza artificiale che trasforma testi in video fotorealistici. Questo strumento, tuttavia, mostra incertezza nel gestire le mani dei soggetti nei video.

Sora opera come un modello di diffusione, che inizia la creazione di un video da una base simile a rumore bianco, per poi affinarlo progressivamente eliminando il rumore attraverso numerosi step.

“Con Sora, è possibile generare video completi in un unico processo o ampliare video già creati per allungarne la durata. Implementando la previsione di sequenze di frame, abbiamo superato la sfida di mantenere costante l’identità di un soggetto anche quando questo esce temporaneamente dal campo visivo”, spiega OpenAI.

Il video di esempio è stato prodotto seguendo queste indicazioni: “Una donna elegante percorre una strada di Tokyo illuminata da insegne al neon vivaci e pubblicità animate. Indossa una giacca di pelle nera, un abito lungo rosso, stivali neri e tiene una borsa dello stesso colore. Completano il suo outfit occhiali da sole e rossetto rosso. Cammina con passo sicuro e disinvolto. La strada, bagnata, riflette le luci, creando un suggestivo effetto specchio. Intorno a lei, si muovono numerosi pedoni.”

OpenAI afferma che Sora è capace di creare scene intricate con diversi oggetti o personaggi in movimento, riproducendo con precisione tipologie specifiche di movimento e dettagli ambientali. Questo perché il modello non solo interpreta fedelmente le istruzioni testuali, ma ha anche una comprensione di come gli elementi richiesti si manifestano nel mondo reale.

“Il modello possiede una profonda comprensione del linguaggio, permettendogli di interpretare le istruzioni in modo accurato e di dare vita a personaggi espressivi e ricchi di emozioni”, prosegue OpenAI. “Sora ha inoltre la capacità di mantenere una coerenza visiva e narrativa all’interno dei video generati, preservando lo stile e l’identità dei personaggi attraverso diverse inquadrature.”

Sora possiede la capacità di creare ambientazioni intricate che coinvolgono diversi personaggi, movimenti specifici e dettagli precisi sia dei protagonisti che dello scenario circostante. Questo modello non si limita a interpretare le richieste dell’utente, ma intuisce anche la loro esistenza concreta nel mondo reale.

Open AI Sora ed il problema sicurezza

Prima di introdurre Sora nei suoi prodotti, OpenAI si impegna a implementare una serie di rigorose misure di sicurezza. In questo processo, l’organizzazione collabora strettamente con i red teamer, veri e propri esperti nelle sfide poste da disinformazione, contenuti d’odio e pregiudizi, con l’obiettivo di sottoporre il modello a test critici.

Inoltre, OpenAI sta sviluppando strumenti avanzati per individuare i contenuti ingannevoli, incluso un sistema di rilevamento capace di identificare i video generati tramite Sora. È in programma l’integrazione dei metadati C2PA, un ulteriore passo avanti nella sicurezza, qualora il modello dovesse essere lanciato come parte dell’offerta OpenAI.

L’azienda sta anche perfezionando nuove strategie di sicurezza, basandosi sull’esperienza acquisita con il lancio di DALL·E 3. Queste metodologie includono, ad esempio, l’utilizzo di un classificatore di testo che esaminerà e respingerà le richieste di testo inappropriato, in linea con le politiche di OpenAI su violenza estrema, contenuti sessuali, incitamento all’odio, uso di immagini di celebrità o violazioni di diritti di proprietà intellettuale.

OpenAI non si ferma qui: ha messo a punto dei robusti classificatori di immagini per analizzare i frame generati e assicurare la loro conformità alle normative interne prima di renderli accessibili agli utenti.

L’organizzazione intende coinvolgere stakeholder globali come politici, educatori e artisti per discutere le loro preoccupazioni e scoprire applicazioni positive di questa tecnologia. OpenAI riconosce che, nonostante gli sforzi e i test approfonditi, è impossibile anticipare tutti gli usi benefici o i potenziali abusi della loro tecnologia. Pertanto, considera essenziale imparare dall’impiego pratico per sviluppare sistemi di intelligenza artificiale sempre più affidabili e sicuri nel tempo.

Tecniche utilizzate per Open AI Sora

Nel campo dell’intelligenza artificiale, Sora rappresenta un passo avanti significativo come modello di diffusione. Questo modello ha la capacità unica di generare video iniziando da una base che appare come rumore statico, per poi rifinirlo progressivamente eliminando il rumore attraverso una serie di fasi.

La versatilità di Sora si manifesta nella sua capacità di produrre video completi in un solo tentativo o di espandere video preesistenti allungandone la durata. Attraverso la previsione di sequenze di fotogrammi, il modello supera la sfida di mantenere costante l’aspetto di un soggetto, anche quando questo esce temporaneamente dal campo visivo.

Simile ai modelli GPT per il testo, Sora si avvale di un’architettura basata sui trasformatori, che le conferisce notevoli vantaggi in termini di scalabilità.

Il modello tratta video e immagini come insiemi di patch, piccole unità di dati comparabili ai token utilizzati nei modelli GPT. Questo approccio unificato alla rappresentazione dei dati permette di addestrare i trasformatori di diffusione su una vasta gamma di contenuti visivi, abbracciando diverse durate, risoluzioni e formati.

Sora si basa sugli insegnamenti tratti dai precedenti modelli DALL·E e GPT, integrando, per esempio, la tecnica di ricapitolazione di DALL·E 3. Questo metodo consente di generare descrizioni altamente dettagliate per i dati visivi utilizzati durante l’addestramento, migliorando la capacità del modello di seguire le indicazioni testuali nell’elaborazione video.

Oltre alla generazione di video a partire da semplici istruzioni testuali, Sora può prendere un’immagine statica e animarla, trasformandola in un video che ne estende i contenuti con fedeltà e attenzione al dettaglio. Il modello è inoltre capace di estendere video già esistenti o di completare sequenze di fotogrammi mancanti. Ulteriori dettagli sono disponibili nel nostro report tecnico.

Sora costituisce una fondamentale base per lo sviluppo di modelli in grado di interpretare e simulare la realtà, un traguardo che consideriamo essenziale nel percorso verso l’acquisizione di un’Intelligenza Generale Artificiale (AGI).

Lascia un commento

Scrivi qui il tuo commento

Aggiungi il tuo nome qui

Hai scritto un indirizzo email sbagliato

Scrivi il tuo indirizzo email quo

Finalmente Sora di OpenAI trasforma il testo in video!

Open AI Sora ed il problema sicurezza

Tecniche utilizzate per Open AI Sora

Canon EOS R5 Mark II: La data di uscita sembra essere certa

La fotocamera bridge Panasonic FZ82D è arrivata!

Fujifilm risolve i problemi di messa a fuoco automatica con gli aggiornamenti del firmware

Lascia un commento

Il CMF Phone 1 è un telefono economico con elementi rimovibili

Presentata la Pixii Max: sensore full frame e telemetro!

L’AgfaPhoto DC9200 potrebbe ancora piacere?

Nikon Z6 III: La mia opinione (non richiesta) sul sensore

Canon EOS R5 Mark II: La data di uscita sembra essere certa