Репост из: NLP Core Team
🔥SmallThinker-3B-Preview
Очень интересная модель получилась у PowerInfer. Взяли Qwen2.5-3b-Instruct и дообучили на двух сетах полученных в результате генераций моделей QwQ-32B-Preview и Qwen2.5-72b-instruct. С каждой из моделей получили 500к примеров и все на английском. Сначала дообучили на сете от QwQ 1.5 эпохи а после дообучали на обоих сетах 2 эпохи. По моим прикидкам совокупно дообучали до 20B токенов, что совсем не много. Получилась модель, которая очень даже не плохо рассуждает и отвечает особенно учитывая ее размер 3B.
Также можно использовать эту модель в качестве draft модели для модели QwQ 32b на инференсе в режиме speculative decoding, что позволяет ускорить инференс в 1.7 раза в сравнении с инференсом QwQ 32b.
На русском, как и QwQ, она отвечает, но часто вставляет токены из других языков. Вообще конечно интересно, что модель часто вставляя левые токены и при этом это ей не мешает рассуждать и приходить к верному решению.
Huggingface
Очень интересная модель получилась у PowerInfer. Взяли Qwen2.5-3b-Instruct и дообучили на двух сетах полученных в результате генераций моделей QwQ-32B-Preview и Qwen2.5-72b-instruct. С каждой из моделей получили 500к примеров и все на английском. Сначала дообучили на сете от QwQ 1.5 эпохи а после дообучали на обоих сетах 2 эпохи. По моим прикидкам совокупно дообучали до 20B токенов, что совсем не много. Получилась модель, которая очень даже не плохо рассуждает и отвечает особенно учитывая ее размер 3B.
Также можно использовать эту модель в качестве draft модели для модели QwQ 32b на инференсе в режиме speculative decoding, что позволяет ускорить инференс в 1.7 раза в сравнении с инференсом QwQ 32b.
На русском, как и QwQ, она отвечает, но часто вставляет токены из других языков. Вообще конечно интересно, что модель часто вставляя левые токены и при этом это ей не мешает рассуждать и приходить к верному решению.
Huggingface