NLP Wanderer


Kanal geosi va tili: ko‘rsatilmagan, ko‘rsatilmagan
Toifa: ko‘rsatilmagan


Попытки разобраться в бесконечном потоке NLP статей и моделей, а еще немного странных идей...

Связанные каналы

Kanal geosi va tili
ko‘rsatilmagan, ko‘rsatilmagan
Toifa
ko‘rsatilmagan
Statistika
Postlar filtri


Как в Google делают эффективную коррекцию опечаток. Разбор статьи

Команда Google Bard, в своей статье EdiT5: Semi-Autoregressive Text Editing with T5 Warm-Start c EMNLP 2022 представила модель EdiT5, которая сейчас используется в Google Search для исправления грамматических ошибок (GEC).

Модификация классики: EdiT5 также использует концепцию Seq2Seq трансформера T5, но адаптируется для задачи редактирования текста вместо обычного принципа перевода.

Задача редактирования текста: Мы исправляем только то, что считаем ошибкой, не трогая уже существующий текст и не перегенерируя его целиком.

Принцип работы модели: Редактирование позволяет EdiT5 не работать исключительно авторегрессионно. Это возможно благодаря энкодеру, работающему как pointer network, выбирающему какие токены удалить или сохранть в черновик. Декодер активируется только для добавления недостающих токенов и указания их позиций, для создания финального ответа из черновка. Для эффективности декодер уменьшают до одного слоя и компенцируют это за счет увеличения размера энкодера, что значительно снижает задержку благодаря эффективной параллелизации работы энкодера.

Качество работы: Эксперименты на публичном бенчмарке BEA для коррекции грамматических ошибок показали, что EdiT5-large с 391M параметров демонстрирует более высокую точность коррекций по F0.5 и 9-кратное ускорение по сравнению с базовой моделью T5.

Улучшение обучающих данных с помощью LLM: Для повышения точности EdiT5 используется метод hard distillation. Сначала обучается LLM учитель на исходном датасете созданном людьми , затем учитель используется для генерации обучающих данных для ученика EdiT5. Интересным наблюдением является то, что так исследователи исправляют несовершенство исходного датасета, переделывая его с помощью LLM. Кроме того, они сделали дополнительное переобучение учителя и итеративно улучшали качество псевдо-лейблинга.

Благодаря всему вышесказанному, EdiT5 буквально ставит новый стандарт эффективности в задаче GEC. Но кода и весов в открытом доступе, к сожалению, нет.


Скрытый китайский алмаз: Zhipu AI представляет GLM-4

🚀 Пока все говорят о Gemini и OpenAI, скромный китайский стартап Zhipu AI представил четвертое поколение своей мультимодальной модели - GLM-4, по заявлениям, достигая уровня сопоставимого с GPT-4 от OpenAI. Протестировать модель руками можно тут или скачав приложение Zhipu Qingyan на телефон или Windows.

GLM-4 старается не отставать от трендов длинного контента - она так же поддерживает длину контекста в 128k токенов (что эквивалентно около 300 страницам текста), сохраняя при этом практически 100% точности даже при больших объемах текста, что не гарантируют конкуренты.

Генеральный директор стартапа Чжан Пэн подчеркнул, что GLM-4 примерно на 60% мощнее своего предшественника и быстро догоняет GPT-4 по результатам бенчмарков в обработке естественного языка.

🇨🇳 GLM-4 демонстрирует лучшее качество на китайском языке и превосходит английский в рассуждениях и способностях ролплея. Теперь у OpenAI есть крайне сильные конкуренты на китайском рынке ИИ. Кроме того, в недавней статье LongAlign, в бенчмарке LongBench-Chat на длинном контексте GLM-4 показал паритет с GPT-4-Turbo даже на английском.

Помимо языковых навыков, GLM-4 представляет инновационную функцию "All Tools", похожую на инструменты представленные в недавнем обновлении моделей OpenAI, позволяющую автономное планирование и выполнение сложных инструкций с использованием инструментов, таких как веб-браузеры, интерпретаторы кода и генераторы изображений. По заявлениям, он отлично справляется с анализом данных, построением диаграмм и даже созданием слайдов в PowerPoint.

🌐 Более того, Zhipu запустила GLM-агентов "GLMs", позволяющих пользователям создавать персонализированных интеллектуальных агентов и делиться ими через единый портал. Это по сути, клон недавней разработки OpenAI - GPTs.

🤗 Zhipu AI активно развивает и опенсурс сообщество, семейство их моделей ChatGLM доступно в гитхаб репозиториях и в аккаунте HF университета Tsinghua. И скорее всего очень скоро увидим еще больше крутых релизов от них.


О практической пользе LLM, агентах и генерациях в структурированной форме

Пока что, из-за всеобщего хайпа LLM, очень редкие поставщики языковых моделей задумываются о том, как имено их творения будут использоваться на практике, можно ли с помощью их моделей, автоматизировать реальные задачи и можно ли их сформулировать на человеческом языке так, чтобы модель их поняла. На мой взгляд, реальная ситуация такова, что из крупных компаний, только OpenAI делал серьезные шаги, в будущее LLM - Function Calling, впервые представив его в моделях верссии 0613, в середине 2023 года, тем самым сделав возможным появление LLM-агентов.

Не так давно, стало возникать большое количество публикаций и опен-сорс проектов на эту тему (Toolformer, ReACT, guidance и тд). Согласно текущему, общепризнаному определению, для LLM агента характерно следующее:

1) Преобразование входящего запроса юзера, обычно, на несколько мелких
2) Наличие набора внешних "инструментов", условные внешние API вроде погоды, к которым модель умеет обращаться сама при надобности
3) Планирование выполнения запроса используя тулы (например, узнал адресс по координатам -> узнал погоду)
4) Наличие памяти о произошедшем общении, умение вести диалог.

К слову, RAG (Retrieval-Augmented Generation) так же является узкой формой агента - у него есть tool, который позволяет ему использовать внешнюю базу знаний.

Зачем все это нужно и почему это так важно? Представим, что мы живем в 21 веке и хотим построить ассистента с интентами, который умеет обращаться с некоторыми API. Обычным подходом, который практиковал все это время Яндекс в Алисе, Сбер и прочие, было бы использовать отдельный intent-классификатор, всякие пайплайны с NER, кучи пост и предобраток, все это с использованием 10+ разных NLP моделей, а качество всеравно было не очень. Сейчас же, имея мощных языковых агентов - LLM, мы, условно, можем попросить LLM сделать за нас классификацию интентов, просто описав их словами, и в случае нужного, сходить в опреденный REST API, сгенерировав запрос самостоятельно. Все что тут нужно - это уметь парсить такие ответы и предоставлять модели информацию о структуре данных на входе. Это коллосальный потенциал для эффективной автоматизации многих процессов в бизнесе.

Почитать подробнее о том, как сейчас работают со структурироваными входами/выходами в фреймворке LlamaIndex, можно тут, там еще и иллюстрации со схемой есть.

Наверное, у вас возникает вопрос - в чем же сейчас проблема? К сожалению, многие появляющиеся модели, не обучены работать со структурированной информацией, их структурированым генерациям сложно доверять, так как они часто ошибаются, неверно интерпретируют описания инструментов, по сути единственными достаточно мощными LLM для агентного подхода являются GPT-3.5 и GPT-4.

Чтобы исправить эту ситуацию, несколько дней назад, LLMWare выложила в опенсорс семейство SLIM - Structured Language Instruction Models, моделей размером в 1B, специально зафайнтьюненых для генерации ответа в виде питоновских словарей, JSON и SQL, их модели дообучены генерировать валидные SQL запросы, делать интент-классификацию, извлекать тэги и все это в машинно-читаемом формате. Но сами модели, на мой взгляд получились весьма ограниченными в применении.

Если вам интересно больше почитать о том, что из себя представляют агенты и бенчмарках использования инструментов, то вот список свежих материалов:
- ControlLLM: Augment Language Models with Tools by Searching on Graphs (Paper)
- AppAgent: Multimodal Agents as Smartphone Users (Paper)
- Benchmarking Agent Tool Use (Langchain Blog)
- API-Bank: Benchmarking Language Models’ Tool Use (Blogpost)
- OpenAI Assistant Agent Tutorial (LlamaIndex Tutotrial)


Как генерировать вопросы по тексту, зная правильный ответ? Датасет и русские Seq2Seq модели.

Почему возник такой вопрос? Казалось бы, есть русскоязычные LLM (типа Сайги), которые тебе и вопросы сгенерируют и ответы к ним сразу. Тогда, допустим, мы хотим генерировать вопросы с вариантами выбора по некоторому тексту, при этом убедиться, что правильный вариант ответа на вопросы в точном виде есть в тексте. Тут с LLM возникает проблема галлюцинаций и плохого следования инструкциям, а так же ограничения по ресурсам.

Тогда у нас остается 2 варианта: включить лингвиста и создавать вопросы по правилам вручную, используя PoS-тэггинг, или же человеческий, где мы обучаем хорошую, неогромную Seq2Seq модель на такой задаче. Говоря о самой задаче, я выяснил, что по-большому счету, у нее нет формального названия, лишь в каком-то гит репозитории я нашел аббревиатуру AAQG - Answer-Aware Question-Generation, которая происходит от классической QG - Question-Generation, задачи где мы генерируем вопросы без условия знания ответа.

Теперь про датасет. Для такой задачи я решил собрать все известные мне нормальные русские Closed-Domain QA датасеты, а именно sberquad, russian_super_glue/muserc и russian_super_glue/danetqa. И понял, что можно собрать из этого сразу комбинированный инструктивный датасет для задач AAQG, QA и QG, замиксовав их с весами [0.4, 0.3, 0.3]. Получившийся датасет доступен в открытом доступе на HF. Модели обученные на таком датасете умеют генерировать точные вопросы и сами отвечать на них.

Про модели. В качестве основы для моделей я взял Сберовскую SOTA FRED-T5 1.7B и 820M. Модели обучались на коллабе в 2 эпохи на упомянутом датасете, потребовалась 1 A100 40GB, но при желании можно уложится и в T4. Модели так же доступны на моем HF, коллаб с тренировкой и созданием датасета.

🤗 Примеры, код запуска, метрики и веса:
hivaze/AAQG-QA-QG-FRED-T5-1.7B
hivaze/AAQG-QA-QG-FRED-T5-large


Привет, вот и очередного млщика окончательно настиг тот момент, когда решаются вести блог...

Самое сложное это начать, так что давайте начну со скучного - немного ключевых фактов обо мне:

📚 Закончил прикладную математику в МИСиС в 2023, диплом был связан с RL, тема звучала так "Исследование методов адаптивной оптимизации инвестиционного портфеля"

🏆 5 первых мест на хакатанах в 2021-2022, в основном все на тему сервисов с NLP, когданибудь доберусь и до кагла, если будет настроение

👨‍💻 Работал как в зарубежных стартапах так и крупных российских компаниях, сейчас работаю ресерчером-инженером в Точка банке

💬 Последние 2 года моей основной сферой деятельности является NLP, т.е. LLM, берты, мультимодалки и т.д.

🌏 Сооснователь комьюнити AI Knowledge Club (t.me/aiknowledgeclub), веду иногда там лекции и семинары

🤖 Создатель бесплатного тг OpenAI бота @personalized_ai_bot (тут есть RAG по файлам и работа с интернетом)

🥴 Ирония, но у меня письменная дислексия, это означает, что я часто не вижу когда ошибаюсь в грамматике, переставляю буквы или слова местами... Поэтому не ругайтесь если увидите что-то такое, я безграмотен, но это оправдано 😅

Данный канал я завожу преимущественно с одной целью - копить экспертизу в NLP, разбираться вместе с вами во всех самых интересных штуках, которые существующие каналы часто обходят стороной и акцентируют внимание на более хайповых статьях, чем, скажем, полезных и действительно перспективных, на мой взгляд. Я стараюсь активно мониторить Daily Papers, гитхаб репозитории и существующие новостные ресурсы про ML и NLP (кстати, расскажу про них позже), всегда хочется с кем-то поделиться этим в структурированной форме.

К тому же, я готовлюсь тут рассказывать о собственном опыте, многих проектах, которыми занимался и занимаюсь, публиковать собственные модели и датасеты, благо такие есть и ждут своего момента.

Буду благодарен если поделитесь ссылкой на канал с кем-нибудь, кому считаете это будет интересно. Обещаю, что подробностей обо мне тут больше не будет, не собираюсь вести канал, как блог о своей жизни, все только по теме.

Github: https://github.com/hivaze
Huggingface: https://huggingface.co/hivaze

5 ta oxirgi post ko‘rsatilgan.

82

obunachilar
Kanal statistikasi