JoyVASA: анимация картинок людей и животных по аудио с липсиком.
На первом этапе используется система раздельного представления лица, которая отделяет динамические выражения эмоций от статических лицевых 3D-представлений. Такое разделение позволяет системе генерировать более длинные видео, комбинируя любое статическое 3D-представление с динамическими последовательностями движений. Затем, на втором этапе, диффузионный трансформатор обучается генерировать последовательности движений непосредственно из аудиосигналов, независимо от идентичности персонажей. Наконец, генератор, обученный на первом этапе, использует 3D-представление лица и сгенерированные последовательности движений в качестве входных данных для создания высококачественной анимации.
Видео на выходе не шакалится, а рот не "жуётся" в пиксельную кашу. Но расти всё ещё есть куда, ибо пока результат кажется оторванным от реальности. Тем не менее, здесь есть код, а это не частая история для таких моделек.
Похожее из опенсорса: LivePortrait (который тут под капотом и испольуется), EchoMimic, V-express, DreamTalk, MuseTalk, и Hallo. Из закрытых HeyGen и Runway Act One, например.
Сайт
Гитхаб
Хаггинг
На первом этапе используется система раздельного представления лица, которая отделяет динамические выражения эмоций от статических лицевых 3D-представлений. Такое разделение позволяет системе генерировать более длинные видео, комбинируя любое статическое 3D-представление с динамическими последовательностями движений. Затем, на втором этапе, диффузионный трансформатор обучается генерировать последовательности движений непосредственно из аудиосигналов, независимо от идентичности персонажей. Наконец, генератор, обученный на первом этапе, использует 3D-представление лица и сгенерированные последовательности движений в качестве входных данных для создания высококачественной анимации.
Видео на выходе не шакалится, а рот не "жуётся" в пиксельную кашу. Но расти всё ещё есть куда, ибо пока результат кажется оторванным от реальности. Тем не менее, здесь есть код, а это не частая история для таких моделек.
Похожее из опенсорса: LivePortrait (который тут под капотом и испольуется), EchoMimic, V-express, DreamTalk, MuseTalk, и Hallo. Из закрытых HeyGen и Runway Act One, например.
Сайт
Гитхаб
Хаггинг