Devin: это
AI-инженер, который, по заверениям стартапа Cognition, может заменить пул разработчиков.
Он может планировать и выполнять комплексные задания, принимая тысячи решений. Также он в любой момент может подхватить релевантный контекст, учится на своих ошибках, и сам себя исправляет. Ему даже дали инструменты разработчика: командную строку, редактор кода, браузер, и планировщик.
Судя по примерам:
* Ему можно скормить ссылку на гайд как сгенерить что-то используя SD и контролнет. Он сам скачает исходники, исправит возникающие ошибки в процессе, и сгенерит картинку в нужном ключе.
* Он может задеплоить требуемое приложение. Грубо говоря кинул линк на гитхаб, сказал сделать телеграм бота, дальше он сам.
* Devin способен тренировать и файнтюнить разные AI модели.
* Находить и фиксить баги в кодовых базах.
* Отвечать на сообщения о багах и фичах в открытых репозиториях.
* Делать коммиты в репозиториях на уровне серьёзного продакшена.
* Зарабатывать на Upwork.
На бенчмарке SWE-bench, где нейронки должны решать реальные проблемы на гитхабе, Devin получил 13,86%, в то время как у GPT-4 всего лишь 1,74%. Однако, в таблице нет сравнения с
Claude 3, который даст прикурить GPT-4. Более того почему-то там нет Replit, Code Llama и других моделей заточенных на коде, отчего показатели Devin можно посолить.
И по поводу коммитов в продакшены серьёзного уровня, вот для балансировки пример как AI-агент в репозитории Curl
зарепортил о потенциальной угрозе безопасности и гонял инженера туда сюда, отнимая у него время. Он далеко не сразу понял, что говорит с нейронкой, и возможно это как раз был Davin.
Таких отчётов будет всё больше, особенно в баг баунти, где вовлечены деньги. Пока что в цепочке действий нужно активное наблюдение пользователя. А в будущем мы сможем переложить на нейронки рутину, а разработчики смогут сфокусироваться на интересных нетривиальных задачах.
Заодно вот одна из
опенсорсных альтернатив.