Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации
Технологии Сбер научил нейросеть рисовать изображения по текстовому описанию на 101 языке: посмотрите, как они выглядят

Сбер научил нейросеть рисовать изображения по текстовому описанию на 101 языке: посмотрите, как они выглядят

8 787

Сбер представил первую российскую мультиязычную диффузионную модель для генерации изображений по текстовому описанию с 2 млрд параметров — Kandinsky 2.0 — на международной конференции по искусственному интеллекту (ИИ) Artificial Intelligence Journey. Нейросеть понимает 101 язык и знает, что в Японии национальное блюдо — суши, а в России — щи.

Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке ученых из Института искусственного интеллекта AIRI. Для обучения использовался 1 млрд пар «текст-изображение». Увидеть, как нейросеть рисует, можно уже сейчас на открытом портале FusionBrain.ai, а также на умных устройствах Сбера.

В Kandinsky 2.0 используется диффузионный подход, который позволяет синтезировать по текстовому описанию изображения, видео, 3D- и аудиоконтент.

Пример изображения, созданного Kandinsky 2.0
Пример изображения, созданного Kandinsky 2.0
Пример изображения, созданного Kandinsky 2.0
1 из 3
Пример изображения, созданного Kandinsky 2.0
Источник:

Модель может обрабатывать запросы на 101 языке, среди которых не только широко распространенные русский и английский, но и более редкие — например, монгольский. Причем в одном запросе можно использовать слова на разных языках. При этом нейросеть анализирует лингвистические конструкции и понятия и создает изображения в зависимости от языка и культурной окраски. Например, на запрос «национальное блюдо» на русском языке она, скорее всего, нарисует щи, а на японском — мисо суп и суши. При этом модель может генерировать изображения в 20 стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома.

«Наша модель позволяет за несколько секунд получить уникальную картинку под конкретную задачу и свободно распространять её без лицензии, что очень актуально для бизнеса, — отметил Александр Ведяхин, первый заместитель председателя правления Сбербанка. — Генеративные модели развиваются очень быстро: ещё четыре года назад даже постановку такой задачи сложно было представить, а сегодня мы имеем работающую модель, которая понимает 101 язык и рисует реалистичные изображения, которые зачастую неотличимы от тех, что создают люди».

ПО ТЕМЕ
Лайк
LIKE0
Смех
HAPPY0
Удивление
SURPRISED0
Гнев
ANGRY0
Печаль
SAD0
Увидели опечатку? Выделите фрагмент и нажмите Ctrl+Enter
Комментарии
12
Присоединиться
Самые яркие фото и видео дня — в наших группах в социальных сетях