مایکروسافت از مدل هوش مصنوعی VASA-1 رونمایی کرده که میتونه فقط با عکس شخص و صدای ضبط شده اون، ویدئوی اون شخص درحال حرف زدن یا آواز خوندن رو تولید کنه.
این مدل هوش مصنوعی که مخفف Visual Affective Skills Animator هست با استفاده از یادگیری ماشینی عکس رو آنالیز میکنه و بعد یک ویدئوی کاملا واقع گرایانه بر اساس اون عکس تولید میکنه.
مایکروسافت گفته از لحاظ واقعی بودن، ویدیوهایی که این مدل تولید میکنه به طرز چشمگیری بهتر از مدلهای مشابه قبلی هستن.
همچنین از مزایای دیگه این مدل هم اینه که میتونه در لحظه ویدئوی ساخته شده رو با رزولوشن ۵۱۲×۵۱۲ پیکسل و ۴۰ فریم بر ثانیه خروجی بده که این باعث شده گزینه مناسبی برای استریم ویدئو مثلا در ویدئو کنفرانس ها باشه.
🔎 Source
این مدل هوش مصنوعی که مخفف Visual Affective Skills Animator هست با استفاده از یادگیری ماشینی عکس رو آنالیز میکنه و بعد یک ویدئوی کاملا واقع گرایانه بر اساس اون عکس تولید میکنه.
مایکروسافت گفته از لحاظ واقعی بودن، ویدیوهایی که این مدل تولید میکنه به طرز چشمگیری بهتر از مدلهای مشابه قبلی هستن.
همچنین از مزایای دیگه این مدل هم اینه که میتونه در لحظه ویدئوی ساخته شده رو با رزولوشن ۵۱۲×۵۱۲ پیکسل و ۴۰ فریم بر ثانیه خروجی بده که این باعث شده گزینه مناسبی برای استریم ویدئو مثلا در ویدئو کنفرانس ها باشه.
🔎 Source