Когато беше пуснато първото видео, генерирано от AI, никой не можеше да предположи, че инструментите за AI, генериращи видео, ще стигнат толкова далеч за толкова кратък период. Днес обаче имаме безброй платформи, които позволяват на потребителите да генерират висококачествени, невероятно детайлни видеоклипове, като Synthesia и Dream Machine на Luma AI. Въпреки това все още има няколко предизвикателства, които пречат на тези инструменти да станат масови.
И може би най-големият е процесът на генериране на аудио. Въпреки че повечето платформи за генериране на видео могат да произвеждат видеоклипове с добро качество, те са предимно тихи видеоклипове без никакъв звук. Дори и да има аудио, то обикновено се добавя отделно и не отговаря на очакванията на потребителите.
Например, ако посетите страницата Dream Machine на Luma AI, можете да видите някои много впечатляващи видеоклипове, но звукът, който ги придружава, е доста общ и с ниско качество. Но това може да се промени с новата технология за видео-към-аудио (V2A) на Google.
Това обещава да донесе висококачествено аудио генериране за видеоклипове на масите, което означава, че най-накрая може да ви позволи да произвеждате генерирани от AI филми с правилни саундтраци и аудио, надминавайки всички генерирани от AI видеоклипове, които се произвеждат в момента.
https://www.youtube.com/watch?v=VYjZlF6m3nQ
Какво представлява Google DeepMind Video-to-Audio Research?
Технологията Video-to-Audio (V2A), разработена от DeepMind на Google, е предназначена да създава саундтраци за видеоклипове, генерирани от AI. Тази технология прави възможно генерирането на видео и аудио едновременно чрез комбиниране на подкани на естествен език с видео пиксели за генериране на звуци за каквито и действия да се извършват във видеото.
Тази технология може да бъде съчетана с AI модели, използвани за генериране на видеоклипове, като Veo, и може да помогне за създаването на реалистични диалози и звукови ефекти заедно с драматични резултати, които съответстват на видеоклипа. По-важното е, че новата V2A технология не е ограничена само до видеоклипове, генерирани с помощта на AI, но може да се използва и за генериране на саундтраци за видеоклипове, създадени по традиционния начин. По този начин можете да го използвате за неми филми, архивни материали и др.
Технологията V2A позволява на потребителите да генерират неограничени саундтраци за видеоклипове и дори да използват положителни и отрицателни подкани, за да ръководят процеса на генериране на звук и лесно да получават необходимите звуци. Това също така позволява повече гъвкавост, така че можете да експериментирате с различни изходи и да намерите най-доброто за конкретен видеоклип.
https://www.youtube.com/watch?v=9Q0-t8D9XFI
Как работи технологията V2A?
Според Google компанията е експериментирала с дифузионно-базирани и авторегресивни техники и е установила, че първите са най-подходящи за производство на звук. Това води до изключително реалистични звуци и работи чрез кодиране на видеото в компресиран формат.
След това моделът на дифузия се използва за отделяне на случаен шум от видеото, като се разчита на подкани на естествен език и видеото. Подканите помагат за генериране на реалистично аудио, което е перфектно синхронизирано с видеото. Това е последвано от декодиране на аудиото, след което то се преобразува в аудио вълна и се слива с видеото.
DeepMind на Google предостави повече информация за обучение на AI, поради което потребителите могат да насочат процеса на генериране на аудио към необходимите звуци и позволява на платформата да произвежда аудио с по-високо качество. Тази информация включва преписи на устни диалози и подробни звукови описания с анотации, генерирани от AI.
Обучена на такава информация, технологията V2A може да свързва различни визуални сцени с конкретни аудио събития.
Какво се задава на хоризонта?
V2A технологията на DeepMind работи много по-добре от други V2A решения, тъй като не винаги изисква текстова подкана и може да разбира видео пиксели. Звуковият изход също не е необходимо да се подравнява ръчно с видеото. Все още обаче има определени ограничения на технологията, които Google се стреми да преодолее с по-нататъшни изследвания.
Например, качеството на генерираното аудио зависи от качеството на видеото, използвано като вход. Ако във видеото има изкривявания или артефакти, AI моделът не успява да ги разбере, тъй като те не са включени в неговото обучение, което в крайна сметка води до намалено качество на звука.
Освен това, за видеоклипове, които имат човешка реч, компанията работи за подобряване на синхронизирането на устните. Технологията V2A се опитва да генерира реч, използвайки входните преписи и след това да я приведе в съответствие с движенията на устните на героите във видеото. Ако обаче видеото не разчита на преписи, има несъответствие между звука и движенията на устните.
С по-добри възможности за генериране на аудио, AI моделите ще могат да генерират видеоклипове, които не само изглеждат впечатляващо, но и звучат страхотно. Google също така интегрира своята V2A технология със SynthID, която поставя воден знак на цялото съдържание, генерирано с помощта на AI. Това може да помогне за предотвратяване на неправилна употреба, като гарантира пълна безопасност.
В допълнение, компанията казва, че ще тества стриктно своята V2A технология, преди да я пусне на обществеността. Досега, от това, което Google демонстрира и обеща за бъдещето, тази технология се очертава да бъде голям напредък в аудио генерирането за видеоклипове, генерирани от AI.
Вашият коментар