#452 post — LLM под капотом (@llm_under

TGStat

Qidiruv uchun matnni kiriting

Ilg‘or kanal qidiruvi

Uzbek

Sayt tili

Russian English Uzbek
Saytga kirish

Katalog

Kanal va guruhlar katalogi Kanallar qidiruvi
Kanal/guruh qo‘shish
Reytinglar

Kanallar reytingi Guruhlar reytingi Postlar reytingi
Brendlar va shaxslar reytingi
Analitika
Postlarda qidiruv
Telegram'ni kuzatish

LLM под капотом

28 Nov 2024, 14:23

Telegram'da ochish Ulashish Shikoyat qilish

Qwen QwQ 32B Preview - пока плохо

Вчера я писал про интересные результаты оценки Qwen 2.5 Coder 32 Instruct. И как раз сразу после этого на OpenRouter появилась новая reasoning модель, которую все очень хвалят по результатам общения: QwQ-32B-Preview

Модель провалилась на дно моего бенчмарка. Она очень плохо применима для решения продуктовых задач и автоматизации бизнес-процессов.

Почему? Да потому, что модель в текущей версии шибко умная и разговорчивая, инструкции игнорирует. Например, ей говоришь просто:

You extract product properties from provided text. Respond in format: "number unit" or "N/A" if can't determine. Strip quotes, thousands separators and comments.

И потом даешь пару примеров и текст для извлечения.

А что в ответе? Alright, I've got this text about an electric screwdriver,...

Да даже mistral-7b-instruct-f16 ответил по существу: 1300 rpm. Это тот ответ, который можно без проблем использовать дальше в pipeline продукта.

Подобная ситуация с игнорированием инструкций повторялась в истории этого бенчмарка не раз и не два. Даже у второго поколения моделей Mistral была эта болячка (и это в эру, когда Mistral 7B казался всем верхом совершенства).

Constrained decoding смог бы тут помочь. Либо нормальное дообучение. Подождем, что будет дальше.

Ваш, @llm_under_hood 🤗

PS: Для тех, кто видит эти бенчмарки впервые, напомню - это закрытые продуктовые бенчмарки на основе набора задач из рабочих систем. Мы тестируем не то, как красиво модели болтают, а насколько качественно они выполняют конкретные задачи из продуктов с LLM под капотом. Про структуру и примеры бенчмарков можно прочитать в лабах или на официальном сайте бенчмарков.

8.8k 0 49 172 33

Katalog

Kanal va guruhlar katalogi Kanallar to‘plamlari Kanallar qidiruvi Kanal/guruh qo‘shish

Reytinglar

Telegram-kanallar reytingi Telegram-guruhlar reytingi Postlar reytingi Brendlar va shaxslar reytingi

API

Statistika API'si Postlar qidiruvi API'si API Callback

Kanallarimiz

@TGStat @TGStat_Chat @telepulse @TGStatAPI

O‘qish

Blogimiz Telegram tadqiqoti 2019 Telegram tadqiqoti 2021 Telegram tadqiqoti 2023

Kontaktlar

Qo‘llab-quvvatlash Email Vakansiyalar

Har xil narsalar

Foydalanuvchi shartnomasi Maxfiylik siyosati Ommaviy oferta

Botlarimiz

@TGStat_Bot @SearcheeBot @TGAlertsBot @tg_analytics_bot @TGStatChatBot

Sayt tili