Google анонсировала ИИ-генератор Veo 3, способный синхронизировать изображение со звуком, включая диалоги и фоновые шумы, передает РБК.
Компания Google представила новую версию генератора видео Veo 3, заявив, что с ним заканчивается «безмолвная эра» в развитии искусственного интеллекта. По словам разработчиков, пользователь может задать персонажей, окружающую обстановку и даже характер звучания диалога, а остальное ИИ дорисует и «договорит» сам.
Презентация прошла в рамках ежегодной конференции разработчиков Google I/O. Генеральный директор DeepMind (подразделение Google, отвечающее за разработку ИИ) Демис Хассабис подчеркнул: «Теперь можно не просто описать, как должна выглядеть сцена, но и какие реплики в ней прозвучат и в каком тоне».
Чтобы Veo 3 не использовали для создания дипфейков, в DeepMind встроили технологию SynthID — она добавляет в видео незаметные водяные знаки. По данным TechCrunch, для обучения модели могли использовать видео из YouTube, но Google эту информацию не подтверждает. Одновременно компания представила еще два новых инструмента: Imagen 4 — для генерации изображений, и сервис Flow — для создания кинематографических видеороликов.
Репутация Google в сфере генерации изображений неоднозначна. В 2024 году компании пришлось на время приостановить работу модели Imagen 3, после того как пользователи пожаловались на искажения исторического контекста. Сооснователь Google Сергей Брин тогда признал, что компания «определённо облажалась», сославшись на недостаточное тестирование.
Больше новостей в нашем официальном телеграм-канале «Фонтанка SPB online». Подписывайтесь, чтобы первыми узнавать о важном.