Потихоньку начинаю писать посты по SemiAnalysis, на которых мы мне
купили подписку. Я уже прошелся вглубь по истории, сделал заметки, осталось 3-4 интересных поста там за прошлые полтора года.
Начнём с горячего:
Scaling Laws – O1 Pro Architecture, Reasoning Training Infrastructure, Orion and Claude 3.5 Opus “Failures”. Тезисы:
— Понравилась идея, что «существующие бенчмарки не исчерпывающи, они не покрывают множество навыков и качеств моделей». Например, Transfer learning — это насколько хорошо знания модели переносятся на новую задачу. Условно у моделей A и B может быть качество из коробки 20 и 22%, а после дообучения (OpenAI и Google предлагают такие услуги) 65% и 90% — тут очевидно, что внутренние знания модели B куда лучше для задачи, просто без дообучения это почти не заметно. Не сомневаюсь, что крупные компании делают подобные оценки: у самих OpenAI, например, появились
Evals, и они дают/давали вам бесплатные токены на дообучение + оценку новой модели. Другой навык, который важно замерять, in-context learning — насколько хорошо модель выучивает что-то из контекста, а не своих знаний.
— Авторы утверждают, что Anthropic уже натренировали Opus 3.5 давно и что с ним всё в порядке, масштабировался как и ожидали. Его использовали для генерации синтетических данных, на которых обучались меньшие модели (Sonnet 3.6), и, я предполагаю, дистилляции. Именно из-за этих двух пунктов младшие модели за последний год-полтора сильно поумнели, но их невозможно было бы получить без самых больших и при этом не выпущенных. Помните Gemini Ultra? Её ведь нам так и не дали, хотя она очевидно была у Google. И достоверно известно, что они использовали её для дистилляции (сами писали), и вот с Opus та же история. А не выпускают их потому, что по сравнению со средними моделями Ultra и Sonnet они не настолько хороши в пересчёте на доллар. Условно дороже в 3-4 раза, а метрики на 2-3% выше (но ещё раз: потому что существенная часть их качества перетекла в средние модели, которые без крупных не получили бы). В таких условиях не ясно, когда релизнут Opus 3.5 🤷♂️ хотя Dario говорил, что пока всё ещё планируют.
— LLAMA 3 использовала DPO для дообучения на человеческих предпочтениях, это публичная информация, доступная в статье. Этот метод — более стабильный и простой по отношению к. PPO, который (по крайней мере когда-то) использовали OpenAI. Авторы пишут, что исследователи META узнали то, что уже было известно другим лабораториям — DPO плохо масштабируется, и что дальше нужно переходить к «неудобному» PPO, что мы и увидели в LLAMA 3.3 (там появились улучшения по бенчмаркам, хотя этап предтренировки не был существенно длиннее). Мне не удалось найти подтверждение этой информации, нигде не написаны изменения в версии 3.3 (кстати, очень открытые модели, спасибо META, даже тезисного списка изменений нет; может хоть что-то в статье для четвёрки упомянут). В целом я пишу этот пункт потому, что хотел подсветить следующую особенность SemiAnalysis: некоторые вещи они пишут без всяких ссылок и уточнений, даже нет пометки «согласно нашим источникам» или аналогичной. Почти всё всегда выдаётся как факты, и сиди думай, так это или нет; это будет важно дальше, когда мы перейдем к обсуждению o1.
— Ещё раз подсвечивается, что навыки само-корректировки и умение возвращаться назад в рассуждениях у o1 — это появившиеся и выученные моделью паттерны поведения, а не что-то, что было запрограммированно вручную. Это важно и круто потому, что не является бутылочным горлышком при масштабировании и при этом оставляет простор для проявления новых паттернов рассуждения во время обучения.