
Qwen QwQ 32B Preview - пока плохо
Вчера я писал про интересные результаты оценки Qwen 2.5 Coder 32 Instruct. И как раз сразу после этого на OpenRouter появилась новая reasoning модель, которую все очень хвалят по результатам общения: QwQ-32B-Preview
Модель провалилась на дно моего бенчмарка. Она очень плохо применима для решения продуктовых задач и автоматизации бизнес-процессов.
Почему? Да потому, что модель в текущей версии шибко умная и разговорчивая, инструкции игнорирует. Например, ей говоришь просто:
И потом даешь пару примеров и текст для извлечения.
А что в ответе? Alright, I've got this text about an electric screwdriver,...
Да даже mistral-7b-instruct-f16 ответил по существу: 1300 rpm. Это тот ответ, который можно без проблем использовать дальше в pipeline продукта.
Подобная ситуация с игнорированием инструкций повторялась в истории этого бенчмарка не раз и не два. Даже у второго поколения моделей Mistral была эта болячка (и это в эру, когда Mistral 7B казался всем верхом совершенства).
Constrained decoding смог бы тут помочь. Либо нормальное дообучение. Подождем, что будет дальше.
Ваш, @llm_under_hood 🤗
PS: Для тех, кто видит эти бенчмарки впервые, напомню - это закрытые продуктовые бенчмарки на основе набора задач из рабочих систем. Мы тестируем не то, как красиво модели болтают, а насколько качественно они выполняют конкретные задачи из продуктов с LLM под капотом. Про структуру и примеры бенчмарков можно прочитать в лабах или на официальном сайте бенчмарков.
Вчера я писал про интересные результаты оценки Qwen 2.5 Coder 32 Instruct. И как раз сразу после этого на OpenRouter появилась новая reasoning модель, которую все очень хвалят по результатам общения: QwQ-32B-Preview
Модель провалилась на дно моего бенчмарка. Она очень плохо применима для решения продуктовых задач и автоматизации бизнес-процессов.
Почему? Да потому, что модель в текущей версии шибко умная и разговорчивая, инструкции игнорирует. Например, ей говоришь просто:
You extract product properties from provided text. Respond in format: "number unit" or "N/A" if can't determine. Strip quotes, thousands separators and comments.
И потом даешь пару примеров и текст для извлечения.
А что в ответе? Alright, I've got this text about an electric screwdriver,...
Да даже mistral-7b-instruct-f16 ответил по существу: 1300 rpm. Это тот ответ, который можно без проблем использовать дальше в pipeline продукта.
Подобная ситуация с игнорированием инструкций повторялась в истории этого бенчмарка не раз и не два. Даже у второго поколения моделей Mistral была эта болячка (и это в эру, когда Mistral 7B казался всем верхом совершенства).
Constrained decoding смог бы тут помочь. Либо нормальное дообучение. Подождем, что будет дальше.
Ваш, @llm_under_hood 🤗
PS: Для тех, кто видит эти бенчмарки впервые, напомню - это закрытые продуктовые бенчмарки на основе набора задач из рабочих систем. Мы тестируем не то, как красиво модели болтают, а насколько качественно они выполняют конкретные задачи из продуктов с LLM под капотом. Про структуру и примеры бенчмарков можно прочитать в лабах или на официальном сайте бенчмарков.