Step-Video-T2V30B open-source text-to-video generation modelВы будете смеяться, но у нас новы видеогенератор.
И нет, это не пароварка(vaporware) типа
Animate Anywane без кода и надежды на код.
Это прям добротная китайская работа. Настолько добротная, что вы сейчас будете плакать (начну с плохого, понедельник на дворе).
Ибо требования к памяти\железу вот такие:77.64 GB для 544x992 и 204 кадров
Считается такое видео 12 с половиной минут на четырех A100.
Linux
Нет image2video
Из хорошего:
Есть Турбо версия модели (7 минут и надо 72.48 GB VRAM, это был жоский сарказм)
Упор на качество. Они там в конце тренинга посадили группу китайских товарищей, которые отмечали "хорошие" видео. RLHF, который они называют Direct Preference Optimization (DPO)
Напихали туда Hunyuan Clip и массу тяжелого фарша из DiT w/ 3D Full Attention and 3D RoPE, чтобы по моде и по качеству.
В конце пишут, что попросят
FastVideo (который кстати только что обновился), поработать над их конскими требованиями к железу и сделать Fast версию.
В пока смотрим видео, арендуем 4хGPU A100 или H100 и ну тестировать.
Ах, да!! Их хорошего еще: есть
тестовый спейс, можно попробовать, если знаете китайский, причем регистрация принимает НЕ ТОЛЬКО китайские симки.
И с анатомией похоже все очень неплохо (хотя надо, конечно, проверять)
Полный фарш и ссылки на веса тут:
https://github.com/stepfun-ai/Step-Video-T2V@cgevent