Репост из: что-то на DL-ском
Видео недоступно для предпросмотра
Смотреть в Telegram
🗯 Moshi: GPT4-O voice mode дома (обзор)
Одним теплым июльским вечером, сидя в самом сердце Москвы, в гуще столичной суеты, я лениво перелистывала Twitter в поисках чего-то стоящего. И вдруг, как озарение, мне на глаза попался анонс Moshi от французской лаборатории. Анонс, надо сказать, был щедро украшен громкими заявлениями:
👁 Первая LLM для аудио, которая умеет одновременно слушать и отвечать
👁 Содержит около 70 эмоций, которые может имитировать
👁 И конечно же, она будет открытая в отличие от GPT-O и подобного!!
После долгого сентябрьского ожидания, когда я почти смирилась с мыслью, что модель так и не выйдет, и статья никогда не будет написана, на следующий день я наконец увидела ссылку на опубликованный код. Я с энтузиазмом принялась за обзор, но, по загадочному стечению обстоятельств (видимо проклятие Moshi), выкладываю его почти спустя неделю.
P.S. мое honest мнение на счет работы:
💛так как, я делитант в звуке,мне было очень интересно почитать их отсылки к предыдкщим наработкам
💛они соединяют въедино много работ, которые были раньше
💛в разных частях делают минорные изменения к существующим наработкам, что кажется избыточным, но чуваки все промерили и показали свои +несколько % к качеству, поэтому нагнать за это на них нельзя
💛мне очень понравилось, что идея сетки не связана с гонкой с OpenAI, а вытекает скорее из парадигмы Full-Duplex этой статьи, как основной. На мой взгляд именно это отличие от существующей закрытой модели дало хайп на просторах интернета
Я не смогла уместить в один пост всю информацию, так как для меня она довольно новая, поэтому
😇 Переходите читать на habr: link
Одним теплым июльским вечером, сидя в самом сердце Москвы, в гуще столичной суеты, я лениво перелистывала Twitter в поисках чего-то стоящего. И вдруг, как озарение, мне на глаза попался анонс Moshi от французской лаборатории. Анонс, надо сказать, был щедро украшен громкими заявлениями:
👁 Первая LLM для аудио, которая умеет одновременно слушать и отвечать
👁 Содержит около 70 эмоций, которые может имитировать
👁 И конечно же, она будет открытая в отличие от GPT-O и подобного!!
После долгого сентябрьского ожидания, когда я почти смирилась с мыслью, что модель так и не выйдет, и статья никогда не будет написана, на следующий день я наконец увидела ссылку на опубликованный код. Я с энтузиазмом принялась за обзор, но, по загадочному стечению обстоятельств (видимо проклятие Moshi), выкладываю его почти спустя неделю.
P.S. мое honest мнение на счет работы:
💛так как, я делитант в звуке,мне было очень интересно почитать их отсылки к предыдкщим наработкам
💛они соединяют въедино много работ, которые были раньше
💛в разных частях делают минорные изменения к существующим наработкам, что кажется избыточным, но чуваки все промерили и показали свои +несколько % к качеству, поэтому нагнать за это на них нельзя
💛мне очень понравилось, что идея сетки не связана с гонкой с OpenAI, а вытекает скорее из парадигмы Full-Duplex этой статьи, как основной. На мой взгляд именно это отличие от существующей закрытой модели дало хайп на просторах интернета
Я не смогла уместить в один пост всю информацию, так как для меня она довольно новая, поэтому
😇 Переходите читать на habr: link