AGI_and_RL dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
Как GPT-4V в RDR2 играла.
Авторы поставили задачу General Computer Control (GCC): создание foundation агентов для решения любых компьютерных задач также как это делают люди, т.е. когда на вход агенту подаются те же данные, что и человеку (например изображения с экрана/текст/звук), а управлять можно клавиатурой и мышкой.
Для решеия задачи разработали фреймворк Cradle.
Состоит из 6 модулей:
1. Сбор информации.
На вход подается изображение (скриншот и элементы пользовательского интерфейса) + текстовая информация (заголовки и абзацы текста с экрана, меню и тд полученные через OCR).
2. Self-reflection. Позволяет модели поразмышлять о действиях и задачах;
3. Task inference. Обработка пула задач для выбора следующей задачи;
4. Skill curation. Создание и обновления списка навыков;
5. Action planning. Здесь агент пишет код для управления клавиторой и мышкой; (~ нажимать W 5 секунд чтобы идти вперед)
6. Memory. Память для хранения и использования предыдущего опыта и навыков;
Ну и подключили GPT-4V с Cradle к Red Dead Redemption 2.
Что выявили:
* GPT-4V пока плохо справляется с пространственно-визуального восприятием, отчего страдает управление персонажем.
* Не всегда правильно интерпретирует мини-карту. Например иногда неправильно определяет направление центральной стрелочки, потому теряется и не выполняет задачу.
* При работе с длинным контекстом отвлекается на несущественные события в игре и галлюцинирует.
* Авторы полагают, что из-за отсутствия у GPT-4V модели мира RDR2, делает неправильные выводы из прошлых действий, отчего неправильно выбирает следующие. (опа, world models)
* Без модуля Self-reflection результаты сильно хуже.
Так понял.
В общем-то ожидаемый результат, посмотрим за прогрессом в мультимодальных агентах.
https://baai-agents.github.io/Cradle/
Towards General Computer Control: A Multimodal
Agent for Red Dead Redemption II as a Case Study
https://arxiv.org/abs/2403.03186
Код https://github.com/BAAI-Agents/Cradle
Видосик с попытками GPT-4V играть RDR2:
https://www.youtube.com/watch?v=Cx-D708BedY
Авторы поставили задачу General Computer Control (GCC): создание foundation агентов для решения любых компьютерных задач также как это делают люди, т.е. когда на вход агенту подаются те же данные, что и человеку (например изображения с экрана/текст/звук), а управлять можно клавиатурой и мышкой.
Для решеия задачи разработали фреймворк Cradle.
Состоит из 6 модулей:
1. Сбор информации.
На вход подается изображение (скриншот и элементы пользовательского интерфейса) + текстовая информация (заголовки и абзацы текста с экрана, меню и тд полученные через OCR).
2. Self-reflection. Позволяет модели поразмышлять о действиях и задачах;
3. Task inference. Обработка пула задач для выбора следующей задачи;
4. Skill curation. Создание и обновления списка навыков;
5. Action planning. Здесь агент пишет код для управления клавиторой и мышкой; (~ нажимать W 5 секунд чтобы идти вперед)
6. Memory. Память для хранения и использования предыдущего опыта и навыков;
Ну и подключили GPT-4V с Cradle к Red Dead Redemption 2.
Что выявили:
* GPT-4V пока плохо справляется с пространственно-визуального восприятием, отчего страдает управление персонажем.
* Не всегда правильно интерпретирует мини-карту. Например иногда неправильно определяет направление центральной стрелочки, потому теряется и не выполняет задачу.
* При работе с длинным контекстом отвлекается на несущественные события в игре и галлюцинирует.
* Авторы полагают, что из-за отсутствия у GPT-4V модели мира RDR2, делает неправильные выводы из прошлых действий, отчего неправильно выбирает следующие. (опа, world models)
* Без модуля Self-reflection результаты сильно хуже.
Так понял.
В общем-то ожидаемый результат, посмотрим за прогрессом в мультимодальных агентах.
https://baai-agents.github.io/Cradle/
Towards General Computer Control: A Multimodal
Agent for Red Dead Redemption II as a Case Study
https://arxiv.org/abs/2403.03186
Код https://github.com/BAAI-Agents/Cradle
Видосик с попытками GPT-4V играть RDR2:
https://www.youtube.com/watch?v=Cx-D708BedY