Латентная диффузия в действии: знакомьтесь с обновлённой нейросетью YandexART 1.3

→ Оригинал (без защиты от корпорастов) | Изображения из статьи: [1] [2]

Компания «Яндекс» продолжает развивать свои генеративные сети. На этот раз разработчики представили миру обновлённую версию диффузионной нейросети YandexART 1.3, которая, словно талантливый художник, создаёт реалистичные изображения.

Главным нововведением стала технология латентной диффузии, пришедшая на смену каскадной. Теперь нейросеть, подобно опытному фокуснику, формирует промежуточное представление картинки в виде латентного кода — своеобразной «шпаргалки», содержащей квинтэссенцию изображения. Затем, словно по мановению волшебной палочки, этот код разворачивается в полноценный шедевр высокого разрешения всего за один шаг. Такой подход не только экономит вычислительные ресурсы, но и позволяет добиться впечатляющего качества итогового результата.

Также в «багаж знаний» нейросети были добавлены синтетические тексты — детальные описания изображений, сгенерированные самой нейросетью. Теперь датасет, на котором обучалась модель, насчитывает более 850 миллионов пар «картинка-текст». Благодаря этому YandexART научилась лучше понимать запросы пользователей и учитывать больше деталей из промта. А помогают ей в этом два текстовых энкодера — «переводчики» с человеческого языка на машинный.

Кроме того, обновлённая YandexART теперь позволяет создавать изображения в различных форматах: 16:9, 4:3 или 3:4. Теперь плоды фантазии, рождённые в Шедевруме, смогут украсить собой обложки журналов или стать стильными фотообоями на телефоне.

Нейросеть на данный момент интегрирована в Шедеврум, используется в Яндекс Бизнесе, Директе, Браузере и Маркете.

Ниже можете ознакомиться с изображениями, которые были сгенерированы при помощи YandexART.