Forward from: Denis Sexy IT 🤖
Показали новые o3 и o3-mini модели (o2 уже занятый бренд):
— Модели пока выпустили в Public Safety Tests, то есть ученые смогут помочь их тестировать, а мы не сможем помочь их ломать
— o3 работает на уровне доктора наук и иногда даже лучше в разных бенчмарках
— o3 прошла ARC-бенчмарк на 87.5%, сложный бенчмарк на котором тестируют потенциальные AGI, там много вопросов и некоторые похожие на IQ-тесты или на загадки; кожаные в этом тесте набирают ~85%, прошлый лучший результат был ~50%. То есть ARC-бенчмарк — пал.
— o3 работает также как и o1 в разных режимах: дольше думает, лучше ответ, но при этом и дороже. Пользователь может выбрать один из «думательных» пресетов сам.
— Модели пока выпустили в Public Safety Tests, то есть ученые смогут помочь их тестировать, а мы не сможем помочь их ломать
— o3 работает на уровне доктора наук и иногда даже лучше в разных бенчмарках
— o3 прошла ARC-бенчмарк на 87.5%, сложный бенчмарк на котором тестируют потенциальные AGI, там много вопросов и некоторые похожие на IQ-тесты или на загадки; кожаные в этом тесте набирают ~85%, прошлый лучший результат был ~50%. То есть ARC-бенчмарк — пал.
— o3 работает также как и o1 в разных режимах: дольше думает, лучше ответ, но при этом и дороже. Пользователь может выбрать один из «думательных» пресетов сам.