Публикация #41 — AbstractDL (@abstractDL)

TGStat

Введите текст для поиска

Расширенный поиск каналов

Russian

Язык сайта

Russian English Uzbek
Вход на сайт

Каталог

Каталог каналов и чатов Поиск каналов
Добавить канал/чат
Рейтинги

Рейтинг каналов Рейтинг чатов Рейтинг публикаций
Рейтинги брендов и персон
Аналитика
Поиск по публикациям
Мониторинг Telegram

AbstractDL

31 May 2021, 17:08

Открыть в Telegram Поделиться Пожаловаться

CogView: Mastering Text-to-Image Generation via Transformers

Генерация картинок по тексту от Alibaba. Почти то же самое, что и DALL·E (OpenAI), но лучше (new sota), компактнее (4B vs 12B параметров) и стабильнее. Ещё они запустили сайт с демо, но только на китайском 😒

Step-by-step:
1. Заранее учим VQ-VAE автоэнкодить картинки. Их латентное представление будет использоваться как визуальные токены.
2. Токенизируем текстовое описание и конкатенируем к нему визуальные токены (см. схему).
3. Учим трансформер (GPT) последовательно предсказывать эти токены.
4. Декодим визуальные токены в картинку с помощью декодер-части VQ-VAE.

Статья, демо, GitHub (пока пустой)

171 0 1