Дайджест:
📹 ВИДЕО + АРТ 🎨
Pika: добавили
Turbo режим, позволяющий генерить видео в 3 раза быстрее, в 7 раз дешевле, и ,по заверениям, особой без потери качества. Также выпустили
Pika V 2.1, генерящую видео в 1080p, высокой детализаций, контролем камеры и четким следованием промту. Ещё появилась апа
для iOS.
Nvidia: выкатили генератор картинок
SANA-1.5, который может выдавать 4096x4096 меньше, чем за 1 секунду на 16 ГБ VRAM ноуте. Релизу идёт
8-битный оптимизатор для экономии VRAM во время тренировки и масштабирования с 1.6B до 4.8B плюс
4-битный движок для инференса на 8 ГБ VRAM (
демо). Также чуть ранее они выпустили генератор видео
Cosmos, который выдаёт 1280x704 длиной в 121 кадр за 10 мин на 4090.
Tripo: в версии
V2.5 улучшена геометрия мешей (особенно с острыми углами). Улучшенный PBR рендеринг.
ACE++: фреймворк для получения
стабильных персонажей и объектов при их генерации на картинках.
HeyGen: добавили к
контроль камеры к видео с аватарами. Даёте описание желаемого движения и вперед.
Sa2VA:
выделение объектов на видео промтом. Работает на связке SAM2 и LLaVA.
Sketch-to-3D: делаем
набросок от руки и получаем 3D объект через
Trellis.
ZLUDA: CUDA для видюх AMD.
Появились ночные релизы.
Hailuo: релизнули генератор видео
T2V-01-Director с фокусом на контроле камеры промтом, её кинематографичных движениях и переходах. Помимо этого внедрили генерацию стабильных персонажей по реф картинке в модели
S2V-01.
Kling: Добавили в V 1.6 генерацию видео по
начальному и конечному кадру, мемные эффекты к видео как в Pika, а также фичу
Elements, которая берёт элементы с нескольких реф картинок и делает, например, стабильного персонажа в нужном сеттинге. Для генерации картинок в
Kolors завезли работу по рефу. Ещё Kling обзавёлся мобильной апой (
iOS или
Android). Что занятно, похожие мемные эффекты и комбинирование элементов недавно запилили у себя
Pika.
DiffSplat: шустрый
генератор 3D на основе
сплатов и t2i диффузионных моделей.
MangaNinja:
колоризация манги.
Frame Painter: интерактивное
редактирование изображения скетчем на основе видео диффузионных приоров.
Luma: теперь можно
апскейлить сгенерированные видео до 4К, и
выпустили API для
Ray 2.
HipScript:
онлайн компилятор CUDA и HIP кода для WebGPU.
Comfy: завели
реестр кастомных нод,
упростили установку десктопного приложения, добавили поддержку
5090... которые так пока
никто пощупать и не может.
Кстати воркфлоу теперь можно конвертировать в
интерфейс на Gradio и публиковать на Хаггинге.
Netflix: выпустили модель для
анимации картинок, через перетаскивание выделенных объектов на них.
Krea: объекты на реф картинках теперь можно
конвертировать в 3D и крутить/перемещать/совмещать их в сцене до нужного результата. Если целевой объект, стиль, или продукт нужно сгенерить, то как раз завезли
реалтайм тренировку — можно тренить, скажем персонажа, и крутить его в сцене. Или воспользоваться интегрированными
стабильными персонажами Hailuo.
Runway: выпустили генератор картинок
Frames. На этой
странице можно посмотреть примеры генераций картинок во Frames и промты к ним. Плюс релизнули
апскейл до 4k.
Midjourney: теперь можно
смешивать несколько мудборд кодов, а также смешиват их со sref кодами.
Sony: исследование по тренировке микробюджетных генераторов картинок —
Microdiffusion.
Tencent: выпустили
Хуньянь 3D V2, который делает 3D меш по картинке на уровне
Trellis. Лучше всего работает если закидывать объект под углом со считываемым освещением. Нужно минимум 8 ГБ VRAM. Сообщество уже наваяло
аддон для блендора, портативную
сборку на Windows, поддержку в
комфи от Kijai, вписали модель в
ComfyUI-3D-Pack.
Для видеогенератора Хуньянь
GPU Poor версия (от 12 ГБ VRAM) обзавелась поддержкой лор и
TeaCache для ускоренной генерации с меньшим количеством артефактов. В комфи от Kijai добавился улучшитель
Enhance-A-Video, генерация в
IP2V режиме (vlm вытаскивает описание реф картинки и скармливает видеогенератору).