#461 post — LLM под капотом (@llm_under

TGStat

Qidiruv uchun matnni kiriting

Ilg‘or kanal qidiruvi

Uzbek

Sayt tili

Russian English Uzbek
Saytga kirish

Katalog

Kanal va guruhlar katalogi Kanallar qidiruvi
Kanal/guruh qo‘shish
Reytinglar

Kanallar reytingi Guruhlar reytingi Postlar reytingi
Brendlar va shaxslar reytingi
Analitika
Postlarda qidiruv
Telegram'ni kuzatish

LLM под капотом

12 Dec, 16:20

Telegram'da ochish Ulashish Shikoyat qilish

Бенчмарк Gemini 2.0 Flash Experimental - Снова TOP-10

Тестировать новую Gemini 2.0 Flash Exp от Google я начинал с дурными предчувствиями и ожиданиями ниже плинтуса. Почему - это отдельная история про выхлопную трубу и Data Extraction на Google Vertex AI .

В итоге эта модель приятно удивила. По сравнению с предыдущей Flash 1.5, у Flash 2.0 на моих продуктовых бенчмарках нарисовался заметный скачок качества. Reason поднялась с 44 до 62, а итоговый результат - 75 до 84.

При этом модель оказалась внимательна к инструкциям (что важно для Structured Output / Custom Chain of Thought), и достигла идеальных 100 в Docs & Integrate. Последнего нет больше ни у одной другой модели.

Google Deepmind пишут, что модель создавалась для автоматизации и agentic experiences, а input context у нее - 1M.

В итоге по очкам Gemini Flash модель поднялась на 7 место. При этом, возможно, у модели самая низкая цена в TOP-15 (цену я не нашел, пока считаем, что она как у Flash 1.5).

Google продолжает удивлять, довольно кучно выпуская модели, которые попадают в TOP-10 бенчмарка. Из-за этого старые фавориты вроде Mistral / Anthropic постепенно съезжают куда-то вниз. При этом они не становятся хуже, просто у нас появляется больше выбора. И это здорово!

Ваш, @llm_under_hood 🤗

PS: Для тех, кто видит бенчмарки впервые, подробнее про них написано тут.

5.6k 1 49 52 74

Katalog

Kanal va guruhlar katalogi Kanallar to‘plamlari Kanallar qidiruvi Kanal/guruh qo‘shish

Reytinglar

Telegram-kanallar reytingi Telegram-guruhlar reytingi Postlar reytingi Brendlar va shaxslar reytingi

API

Statistika API'si Postlar qidiruvi API'si API Callback

Kanallarimiz

@TGStat @TGStat_Chat @telepulse @TGStatAPI

O‘qish

Blogimiz Telegram tadqiqoti 2019 Telegram tadqiqoti 2021 Telegram tadqiqoti 2023

Kontaktlar

Qo‘llab-quvvatlash Email Vakansiyalar

Har xil narsalar

Foydalanuvchi shartnomasi Maxfiylik siyosati Ommaviy oferta

Botlarimiz

@TGStat_Bot @SearcheeBot @TGAlertsBot @tg_analytics_bot @TGStatChatBot

Sayt tili