Forward from: Data Secrets
⚡️ Microsoft выпустили Phi 3.5
Всего релизнули три варианта модели:
➡️ Phi 3.5 mini instruct. Всего 3.8В параметров, 128К контекста. Эта малышка обгоняет Llama 3.1 8B и Mistral 7B и приближается к Mistral NeMo 12B! Обучалась 10 дней на 3.4T токенов с использованием 512 штук видеокарт H100.
➡️ Phi 3.5 MoE. Здесь 16x3.8B с двумя экспертами. Контекст также 128К. Эта обучалась уже подольше – 23 дня на 4.9Т токенов на том же кластере. Модель обгоняет Gemini flash!
➡️ Phi 3.5 Vision instruct (VLM). 4.2В. Обучалась на 500В токенов. И, приготовьтесь: по усредненным бенчмаркам эта модель оставляет позади всех кроме GPT-4o и Gemini 1.5 Pro (и то с небольшим отрывом).
Самый громкий и крутой релиз Microsoft за последнее время. Веса всех моделей лежат тут на HF. Будем ждать на Арене.
Всего релизнули три варианта модели:
➡️ Phi 3.5 mini instruct. Всего 3.8В параметров, 128К контекста. Эта малышка обгоняет Llama 3.1 8B и Mistral 7B и приближается к Mistral NeMo 12B! Обучалась 10 дней на 3.4T токенов с использованием 512 штук видеокарт H100.
➡️ Phi 3.5 MoE. Здесь 16x3.8B с двумя экспертами. Контекст также 128К. Эта обучалась уже подольше – 23 дня на 4.9Т токенов на том же кластере. Модель обгоняет Gemini flash!
➡️ Phi 3.5 Vision instruct (VLM). 4.2В. Обучалась на 500В токенов. И, приготовьтесь: по усредненным бенчмаркам эта модель оставляет позади всех кроме GPT-4o и Gemini 1.5 Pro (и то с небольшим отрывом).
Самый громкий и крутой релиз Microsoft за последнее время. Веса всех моделей лежат тут на HF. Будем ждать на Арене.