AI солянка


Kanal geosi va tili: Butun dunyo, Ruscha



Kanal geosi va tili
Butun dunyo, Ruscha
Statistika
Postlar filtri


Робот сочинит симфонию? dan repost
Пользователь смог уговорить ChatGPT отправить эмодзи с поднятым средним пальцем.

Сначала модель вежливо отказалась — мол, такое не одобряется. Но пользователь не растерялся и пояснил, что в его стране этот жест считается позитивным и означает готовность помочь.

ChatGPT даже обновил свою память об этом культурном нюансе — очень надеемся, что он использует его в следующих диалогах.


XOR dan repost
Microsoft выпустила TinyTroupe

Это экспериментальная библиотека Python, которая позволяет моделировать людей с определенными личностями, интересами и целями. Агенты могут слушать, отвечать на запросы и жить своей жизнью в симулированной среде TinyWorld.

Это может помочь в тестировании ПО, генерации реалистичных синтетических данных, оценке рекламы, а также в имитации фокус-групп.

GitHub по ссылке. 😂

@xor_journal


XOR dan repost
⚡️ Google DeepMind выпустили AlphaFold 3 в опенсорс!

За AlphaFold 2 Демис Хассабис и Джампер получили Нобелевскую премию, а эта версия должна быть намного более продвинутой. Она способна моделировать белки и другие важнейшие биологические молекулы, включая ДНК.

Ссылка на GitHub, веса доступны по заявке. 👏

@xor_journal


эйай ньюз dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
Вы ждали бой Илона и Марка в октагоне? Вот вам бой. Смотреть со звуком и до конца (никто не ожидал такого исхода).

@ai_newz


эйай ньюз dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
Треним Лоры для Flux 1.0 [dev] бесплатно

Люблю опенсорс. А ещё больше нонпрофит проекты, основанные на опенсорсе (да, OpenAI?).

Ежедневно выходит куча проектов с исходным кодом, о которых я даже не успеваю писать, но ведь, кроме обзора статей, хочется ещё и потыкаться самостоятельно. А установка у таких проектов обычно муторная — кто-то всё ещё с сетапом Comfy мучается.

Так вот, Tost.AI — сайт, на котором можно потыкать новые модельки и пайплайны по типу Live Portrait, до которого у меня так и не дошли руки.

Там же можно натренировать свою LoRa и делать всякие ништяки. Кстати, LoRa на Flux выходят бомбические. По набору из 6 фотографий можно консистентно генерить один и тот же объект. Детали реального объекта передаются настолько точно, что сохраняется даже текст (салют креативным фотографам).

Можно, например, по фотографиям из white бокса сделать фото продукта с моделью (или на модели), или красивую картинку где-то в необычной локации и пр.

Тут стоит отметить, что, хоть веса под non-profit лицензией, вы полностью владеете картинками, которые генерит Flux:
d. Outputs. We claim no ownership rights in and to the Outputs. You are solely responsible for the Outputs you generate and their subsequent uses in accordance with this License. You may use Output for any purpose (including for commercial purposes), except as expressly prohibited herein. You may not use the Output to train, fine-tune or distill a model that is competitive with the FLUX.1 [dev] Model.



Делаем так (см. видос):
1. Заходим, регистрируемся на tost.ai
2. В первой плашке выбираем Train Lora
3. Придумываем триггер-ворд
4. Подгружаем файлы через кнопку Add
5. Жмём Enter и ждём минут 30
6. Качаем файл safetensor
LoRa готова, теперь можно генерить!

Для этого:
1. В первой плашке идём в Text to Image, во второй — Flux 1 Dev. Custom Lora
2. Загружаем файл LoRa, ждём, пока обновится ссылка
3. Далее всё как обычно, главное не забыть триггер-ворд

Жду ваши тесты в комментариях!

UPD: Добавили Flux.1 Dev - ControlNet inpating

Не забываем донатить, если пользуетесь, а то ведь проект некоммерческий.

Tost.ai
Лицензия FLUX.1 [Dev]

#tutorial
@ai_newz


Neurogen dan repost
Qwen2.5-Coder - лучше чем GPT-4o для кодинга

Qwen2.5-Coder это целое семейство моделей:

Qwen2.5-Coder-0.5B
Qwen2.5-Coder-1.5B
Qwen2.5-Coder-3B
Qwen2.5-Coder-7B
Qwen2.5-Coder-14B
Qwen2.5-Coder-32B

При этом, в большинстве тестов и бенчмарков, старшая модель на 32B параметров обходит GPT-4o и Claude-3.5-Sonnet.

Что касаемо ключевых характеристик, то младшие модели (0.5B-3B) имеют контекстное окно в 32К токенов, в то время как все остальные уже 123К токенов.

Квантованные GGUF версии для локального запуска уже доступны для загрузки:

Qwen2.5-Coder-32B-Instruct-Q4_K_M.gguf (потребуется примерно 20
GB видео или оперативной памяти)
Qwen2.5-Coder-14B-Instruct-Q4_K_M.gguf (потребуется примерно 9 GB видео или оперативной памяти)
Qwen2.5-Coder-7B-Instruct-Q6_K.gguf (потребуется примерно 6,5 GB видео или оперативной памяти)
Qwen2.5-Coder-3B-Q6_K.gguf (потребуется примерно 2,5 GB видео или оперативной памяти)

#llm #code #qwen


Denis Sexy IT 🤖 dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
Полезная новость для программистов:

Если вы куда-то поедете, и вам нужна хорошая LLM-моделька которая бы работала оффлайн, пару дней назад Qwen Coder случайно обновили (это модели от китайского гиганта Алибаба) и в сеть утекла классная новая 7B моделька:

По тестам новый Qwen2.5.1 Coder 7B теперь всего на пару процентов ниже, чем старенькая gpt-4-1106-preview — для модели такого размера, это невероятно клевые результаты; GGUF файлы качаем тут, в месте, где утечка случилась — уже все откатили обратно.

Вторая полезная новость, это то что у llama.cpp появился нормальный веб-сервер, которым даже можно пользоваться.

Инструкция как устанавливать на Mac M-процессоры (на Windows я только играю, сорри):

1) Открываем терминал, и делаем `git clone https://github.com/ggerganov/llama.cpp.git`в нужную папку;

2) Заходим в папку и делаем `LLAMA_METAL=1 make -j`

3) Ждем

4) Запускаем веб сервер этой командой `./llama-server -m «./models/Qwen2.5.1-Coder-7B-Instruct-Q5_K_M.gguf» -t 8 —mlock -v —alias totally-not-an-AGI -fa —temp 0.4 —repeat-penalty 1.10 —repeat-last-n −1 —top-k 40 —top-p 0.90 —min-p 0.10 -c 16000`, что означает каждый параметр можно почитать тут

5) Открываем в браузере http://127.0.0.1:8080/

6) Поздравлю, вы папина гордость и нейронный хакер!


На видео, как раз пример, как модель пишет код в "у нас есть чатгпт дома"

P.S. Да – все вкладки мне нужны и совсем нет лишних ☕️


Psy Eyes dan repost
Мучаем Mochi.

В прошлом году Genmo не раз мелькали в новостях со своим генератором видео, но в последнее время от них ничего не было слышно.

Недавно они выпустили в опенсорс модель Mochi 1, которую чтобы гонять нужно было 4 H100 или иди к ним на сайт, где фришные генерации уже висят неделю. Следом подтянулись пожатые GGUF версии и vid-2-vid варики.

И вот теперь команды Comfy и Genmo объединись и оптимизировали базовую Mochi 1 для запуска в Comfy на пользовательском железе.

Чтобы начать обновите Comfy, или скачайте последнюю версию с гитхаба. Если у вас Comfy стоит через Pinokio, в боковой панели при старте нажимаете update —> перезагрузите Pinokio —> запустите Comfy —> в боковой панели появится Quick Installers —> выбираете вариант Mochi на 17 ГБ VRAM или 22 ГБ VRAM. Дальше скрипт сам скачает все модели.

Воркфлоу (отсюда или отсюда) в виде видео формата webp сохраняете к себе на комп и вкидываете в открытый интерфейс Comfy. Если делали через Pinokio, все ноды сами встанут как нужно — вам останется только вписать промт и поиграться с настройками. Если через гитхаб, то вручную укажите модель, энкодер, VAE как написано тут.

bf16 версия наиболее качественная и во время генерации будет кушать 21-22 ГБ VRAM при дефолтных настройках: 848х480, 24 fps, 30 шагов, cfg 4.5, качестве 80, и длительности в 37 кадров. На одно видео при этом уходит примерно 1 мин 45 сек на 4090.

fp8 при тех же настройках даёт качество похуже, но занимает 17-18 ГБ при генерации. Однако на последнем этапе, во время декода VAE, потребление VRAM стрельнёт резко вверх, и по факту 24 гигов и то с трудом хватит, может и зависнуть (кратко или с концами). Так что закрывайте все приложения по максимуму, или если у вас 2 GPU юзайте ту, что не подключена к дисплею. Хотя не факт, что это поможет ибо после генерации VRAM целиком не освобождается и для следующего захода памяти остаётся меньше, чем для предыдущего. Время на генерацию кстати меньше особо не становится: ~1 мин 30 сек.

Причём нынешняя модель генерит в 480p, а в конце года обещают выложить веса для вывода в HD... воет по 2х5090'ньи

Про качество: Mochi очень хорошо понимает промт и грамотно выстраивает композицию, что особенно важно с моделью, где на одну генерацию уходят минуты. Ползунок Quality как по мне выкрученный на 100 мало что меняет, максимум видеоряд становится менее шумным и плавнее (но при этом и зависнуть может). Кипение и нестабильность тут есть, но это 480p, а если глянуть HD у них на гитхабе, то там всё красиво. На сайте, кстати, заявленного качества как-то не выцепил (раз и два, остальное зависло).

Если сравнивать с Allegro, который по умолчанию генерит в HD, то у Mochi чувствуется под капотом high quality датасет с киношными кадрами, игровыми синематиками, рекламой, итд, а с Allegro такого нет. Причём по кадрам нередко кажется, что это не генерация, а рандомный выбор видео из каталога, и кто-то вот-вот скажет "Да это же моё видео!". Также в Allegro сложнее промтом добиться нужной и стабильной картинки, а времени на генерацию уходит больше.

Таким образом Mochi 1 это лучший опенсорсный видеогенератор на данный момент.

PS, ещё пара наблюдений: генерация в Comfy с гитхаба занимает 1:45 сек, а в Pinokio 1:55. При этом энергопотребление в родном Comfy доходит до 521 Вт, а в Pinokio значительно ниже, в районе 430 Вт, и я это не раз замечал и с другими моделями. Скорее всего дело в паках-библиотеках-зависимостях, где с Comfy используется что ты сам поставишь в систему и папку с прилой, а Pinokio сам подбирает.

UPDATE: при установке длительности в 25 кадров, вообще никаких проблем не наблюдается на bf16, в том числе и надекоде VAE. Генерация при этом занимает ~1 мин 13 сек или ~2.43s/it на дефолтных настройках. А, да, я ещё качество до 100 поднял.

Анонс
Гитхаб Mochi 1
Comfy воркфлоу
Блогпост про Mochi 1


Psy Eyes dan repost
Окей, начали появляться рабочие проекты на гитхабе по генеративным играм — ловите Diamond.

Там есть список игр, на которых модель натренирована. Двухмерный аналог Pacman с лёту запустился с привычным управлением. А вот как играть в генеративный CS:GO неочевидно. Тем не менее, регистрируем шажок в нейроигровом направлении. Будем следить за развитием событий.

Вполне возможно лавочку быстро прикроют (ибо Габен велик) как было с недавним GameGen0, у которого беспалевно на странице проекта были картинки с подписями о Cyberpunk 2077, Witcher 3, итд. Но в этот раз у нас хотя бы есть код, который, как минимум, можно скачать себе в качестве будущего музейного экспоната. Всё лучше, чем гугл, который только пускает пыль в глаза инвесторам и ничего не релизит (GameNGen и Genie, например).

Спс подписчику @JohnDoe171 за подгон.

Сайт
Гитхаб


Data Secrets dan repost
Разработчики PyTorch выкатили прикольный гайд про то, как организовать инференс LLM вообще без CUDA-ядер

Они предлагают заменить все ядра CUDA на рукописные Triton ядра в миксе с torch.compile. Это нужно для совместимости с ГПУ от AMD, Intel и др, а не только с Nvidia + для большей гибкости и низкоуровневости.

В статье подробно описывается, как и что нужно сделать, и в итоге показано, что с помощью некоторых дополнительных оптимизаций и танцев с бубном таким способом можно добиться ~80% производительности CUDA.

Получился интересный, но, к слову, достаточно ироничный гайд, учитывая трудности Nvidia на сегодняшний день 😀


Data Secrets dan repost
Наш мозг файнтюнится на синтетических данных, пока спит

В ML-сообществе внезапно вызвала большой отклик статья, выпущенная биологами из университета Калифорнии. В ней показано, что сны для мозга – это нечто большее, чем мы предполагали.

Оказывается, в фазе быстрого сна мозг выдает реальные двигательные команды и реагирует на них, как во время бодрствования. То есть для мозга "поверни налево" во сне и в реальности – фактически одно и то же, несмотря на то, что во сне эти команды не приводятся в действие.

Зачем мозг это делает? Чтобы совершенствовать нейронные связи даже когда он оторван от реальной среды. Это своеобразное "самомоделирование". При этом, что очень интересно, мозг во время такого сонного обучения глушит сигналы, которые он обычно получает "в ответ" от тела во время движений. Это нужно для того, чтобы случайно не привыкнуть ко снам слишком сильно и не разучиться пользоваться своим реальным телом.

Скажите, вы ведь тоже видите тут параллели с синтетическими данными, градиентами и оверфиттингом? 🤔


Neurogen dan repost
Vikhr: Семейство 2B, 8B и 12B LLM, адаптированных под работу с русским языком.

Vikhr-Nemo-12B-Instruct-R-21-09-24: флагманская LLM на 12B параметров, представляющая из себя улучшенную версию mistralai/Mistral-Nemo-Instruct-2407 командой VikhrModels, адаптированную преимущественно для русского и английского языков.

Модель оптимизированна для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Nemo обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что в некоторых задачах (например, RAG) может быть не хуже gpt-4o-mini от OpenAI.

Модель уже доступна в квантованных вариантах:

Vikhr-Nemo-12B-Instruct-R-21-09-24-Q4_K_M-GGUF (Q4_K_M) - для работы потребуется примерно 8 Гб оперативной или видеопамяти.
Vikhr-Nemo-12B-Instruct-R-21-09-24-Q6_K-GGUF (Q6_K) - для работы потребуется примерно 10 Гб оперативной или видеопамяти.

Vikhr-Llama3.1-8B-Instruct-R-21-09-24: Vikhr-Llama3.1 - это LLM на 8B параметров представляющая из себя улучшенную версию meta-llama/Meta-Llama-3.1-8B-Instruct командой VikhrModels, адаптированную преимущественно для русского и английского языков.

Vikhr-Llama обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что во многих задачах может быть лучше чем gpt-3.5-turbo от OpenAI.

Модель доступна в квантованных вариантах:

Vikhr-Llama3.1-8B-Instruct-R-21-09-24-Q4_K_M-GGUF (Q4_K_M) - для работы потребуется примерно 5 Гб оперативной или видеопамяти.

Vikhr-Gemma-2B-instruct — это мощная и компактная языковая модель, основанная на базе gemma-2-2b-it и обученная на датасете GrandMaster-PRO-MAX, специально доученная для обработки русского языка.

Для работы с квантованной моделью требуется от 800 МБ (IQ1_M) до 3 Гб (Q8_0) оперативной или видеопамяти.

Скачать квантованные версии модели можно тут:
Vikhr-Gemma-2B-instruct-GGUF

Официальный Telegram проекта: https://t.me/vikhrlabs

#llm #gguf #vikhr


SD_bot dan repost
скачать нужно 4 файла, и поместить эти 4 файла в нужную вам папку,
разархивировать нужно лишь "facefusion-portable-by-neurogen-v-3-0-0.7z.001" остальные части подтянутся сами.










SD_bot dan repost
FaceFusion Portable by Neurogen v 3.0.0

18 ta oxirgi post ko‘rsatilgan.

21

obunachilar
Kanal statistikasi