Репост из: NLP Core Team
🔥DeepSeek-V3
Немного запоздалый пост. Модель вышла как неделю. Привычно видеть выход новых открытых моделей, которые все выше и выше по метрикам. Но тут другое дело. Настал час, когда открытые модели уже по метрикам сильнее закрытых. DeepSeek V3 первая модель с топовыми метриками и с сильно дешевым инференсом от DeepSeek. Если GPT4o стоит $10 за 1M токенов на генерации то DeepSeek V3 стоит $1.1 а до 8 февраля $0.28.
Из ключевого о модели:
- Модель с архитектурой Mixture-of-Experts (MoE), содержащая 671 миллиард параметров, из которых активируется 37 миллиардов для каждого токена. 256 маршрутизируемых экспертов + 1 общий экспертов. Каждый токен активирует **8 маршрутезируемых экспертов.
- Использует Multi-head Latent Attention.
- Добавили Multi-Token Prediction что улучшает общую производительность на обучении и инференсе.
- Модель обучена на 14.8 триллионах токенов с FP8.
- Модель обучалась с добавлением Fill-in-Middle (FIM) задачи. Пишут что FIM не мешает задаче предикта следующего токена и улучшает метрики в кодовых тасках, где важен FIM.
- Сделали дистилляцию знаний из модели DeepSeek-R1 для улучшения способностей к рассуждению.
Модель по кодовым метрикам часто сильнее Claude 3.5 Sonnet, которая считается топовой для кода.
Потыкал DeepSeek на русском и я вам скажу она прям хорошо отвечает. Вообще не встретил каких-либо артифактов, которые свойственны моделям видевших русского мало. Сколько было русского у нее в претрейне неизвестно, но по метрикам MMMLU (Multiligual MMLU) она показала 79.4, что сильнее Llama 405B (73.8) и Qwen2.5 72B (74.8).
GitHub
Huggingface
Paper
Немного запоздалый пост. Модель вышла как неделю. Привычно видеть выход новых открытых моделей, которые все выше и выше по метрикам. Но тут другое дело. Настал час, когда открытые модели уже по метрикам сильнее закрытых. DeepSeek V3 первая модель с топовыми метриками и с сильно дешевым инференсом от DeepSeek. Если GPT4o стоит $10 за 1M токенов на генерации то DeepSeek V3 стоит $1.1 а до 8 февраля $0.28.
Из ключевого о модели:
- Модель с архитектурой Mixture-of-Experts (MoE), содержащая 671 миллиард параметров, из которых активируется 37 миллиардов для каждого токена. 256 маршрутизируемых экспертов + 1 общий экспертов. Каждый токен активирует **8 маршрутезируемых экспертов.
- Использует Multi-head Latent Attention.
- Добавили Multi-Token Prediction что улучшает общую производительность на обучении и инференсе.
- Модель обучена на 14.8 триллионах токенов с FP8.
- Модель обучалась с добавлением Fill-in-Middle (FIM) задачи. Пишут что FIM не мешает задаче предикта следующего токена и улучшает метрики в кодовых тасках, где важен FIM.
- Сделали дистилляцию знаний из модели DeepSeek-R1 для улучшения способностей к рассуждению.
Модель по кодовым метрикам часто сильнее Claude 3.5 Sonnet, которая считается топовой для кода.
Потыкал DeepSeek на русском и я вам скажу она прям хорошо отвечает. Вообще не встретил каких-либо артифактов, которые свойственны моделям видевших русского мало. Сколько было русского у нее в претрейне неизвестно, но по метрикам MMMLU (Multiligual MMLU) она показала 79.4, что сильнее Llama 405B (73.8) и Qwen2.5 72B (74.8).
GitHub
Huggingface
Paper