Репост из: Сиолошная
Китай наносить удар! дракон!
Вторая китайская команда, на этот раз Qwen-часть AliBaba, разродилась o1-подобной «размышляющей» моделью. Тоже превью (все видимо ждут полную о1, чтобы начать релизить?), тоже без технических деталей и статьи, зато сразу с доступными весами:
https://huggingface.co/Qwen/QwQ-32B-Preview
Тем, кому хочется сразу помучить модель вопросами, без возни с GPU, можно поиграться тут: https://huggingface.co/spaces/Qwen/QwQ-32B-preview (пока очередь маленькая)
Блогпост
К посту прикреплена картинка с метриками. Для 32B модели (да даже если бы было 405b) результаты очень-очень нетривиальные — Qwen-2.5 и до этого считался очень сильной моделью (с которой даже иногда избегали сравнение другие авторы моделей, ахахха, чтобы не выглядеть на их фоне вторично), а тут в два раза меньшая моделька такие скачки совершает
Вторая китайская команда, на этот раз Qwen-часть AliBaba, разродилась o1-подобной «размышляющей» моделью. Тоже превью (все видимо ждут полную о1, чтобы начать релизить?), тоже без технических деталей и статьи, зато сразу с доступными весами:
https://huggingface.co/Qwen/QwQ-32B-Preview
Тем, кому хочется сразу помучить модель вопросами, без возни с GPU, можно поиграться тут: https://huggingface.co/spaces/Qwen/QwQ-32B-preview (пока очередь маленькая)
Блогпост
К посту прикреплена картинка с метриками. Для 32B модели (да даже если бы было 405b) результаты очень-очень нетривиальные — Qwen-2.5 и до этого считался очень сильной моделью (с которой даже иногда избегали сравнение другие авторы моделей, ахахха, чтобы не выглядеть на их фоне вторично), а тут в два раза меньшая моделька такие скачки совершает