Репост из: Data Secrets
Исследователи из Nvidia, видимо, нашли себе любимое занятие: дистиллировать и прунить модели
Около месяца назад они выпустили модель Minitron, полученную с помощью сжатия их собственной LLM Nemotron, а потом вошли во вкус и начали штамповать Minitron'ов других опенсорс моделей.
Неделю назад вышла Llama-3.1-Minitron-4B, ставшая SOTA в своем размере, а сегодня вот они выкатили Mistral NeMo Minitron 8В.
Надо сказать, что получается у них действительно неплохо: получившиеся мини-версии почти не уступают, а где-то и обгоняют по бенчмаркам своих "родителей".
Как у исследователей это получается, можете прочитать в нашей статье. Там мы подробно и понятно разбирали, что такое дистилляция и прунинг, и как в Nvidia итеративно их смешивают.
Веса нового Mistral NeMo Minitron 8В лежат на HF + моделью уже можно воспользоваться из Transformers.
Около месяца назад они выпустили модель Minitron, полученную с помощью сжатия их собственной LLM Nemotron, а потом вошли во вкус и начали штамповать Minitron'ов других опенсорс моделей.
Неделю назад вышла Llama-3.1-Minitron-4B, ставшая SOTA в своем размере, а сегодня вот они выкатили Mistral NeMo Minitron 8В.
Надо сказать, что получается у них действительно неплохо: получившиеся мини-версии почти не уступают, а где-то и обгоняют по бенчмаркам своих "родителей".
Как у исследователей это получается, можете прочитать в нашей статье. Там мы подробно и понятно разбирали, что такое дистилляция и прунинг, и как в Nvidia итеративно их смешивают.
Веса нового Mistral NeMo Minitron 8В лежат на HF + моделью уже можно воспользоваться из Transformers.