Derp Learning


Channel's geo and language: Russia, Russian


Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Related channels

Channel's geo and language
Russia, Russian
Statistics
Posts filter


Ну и куда же без пятничного кека над айфонами

4.3k 1 129 7 45



claude-llm-trainer
Чел из hyperwriteai.com выкатил любопытный пайплайн, который обучает язвыковую модель по описанию задачи.

Описываете задачу текстом, например "генерация кода на питоне", а дальше с помощью Claude 3 генерится датасет под задачу и тренится моделька. Лама 2 7б в колабе, локально, или вообще гпт3.5 через апи - не принципиально.

Насколько такие модели действительно полезны (по сравнению с обученными кожаными мешками на реальный данных) - большой вопрос, но как демка пайплайна - очень даже любопытно.

Возможно, генерация датасетов подобным образом нарушает условия anthropic, но что вы нам сделаете, мы сдругова горада.

git
tweet


Forward from: Ai molodca 🤖
Блогеры - все. Вы не поверите, это девушка полностью генерация!

Ох, ребята, иногда у меня подгорает с твиттерских "аи-блогеров" (ex. криптобро), обожающих бомбить громкими заголовками ради репостов, не проверяя информацию, а потом это мощно тиражируется.

Люди на видео реальны, вы даже можете нанять их, чтобы сделать видео здесь, например:
https://fiverr.com/amarie1717

Другими словами, "стартап", получил лицензию на нескольких людей "говорилок" и подключил HeyGen (пруф) для их анимации/кастомизации.

Все.


Forward from: Dev Meme
Finally some code with no docs/comments required by default 🤡


Forward from: Нейросети и Блендер
🚀SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Подход: Введение уменьшенных моделей и сокращение шагов выборки значительно снижает время генераций. Дистилляция знаний и упрощение U-Net и декодеров изображений, а также новая техника обучения DM обеспечивают прорывную скорость.

☺️ 1 шаг = 1 картинка

Обещают две модели(Старая версия SDXS-512 доступна на HF):
— SDXS-512, 100 FPS (30x faster than SD v1.5)
— SDXS-1024, 30 FPS (60x faster than SDXL)
указано, что скорость достигается на одной GPU, но без указания какой, 🐈‍⬛предположим A100.

Так же показывают, что возможно дообучение ControlNet.

INFOPAPERWEIGHTS(OLD SDXS-512)—COLAB(OLD SDXS-512)(Быстрый даже на T4, сделал там и вариант с видео, где батчем сразу собирается в короткий ролик)

Ждем полноценных весов и тестим на рейлтайм генерациях в СomfyUI.


Forward from: эйай ньюз
Video is unavailable for watching
Show in Telegram
🔥RadSplat - качество рендеринга как NeRF, но в 900FPS!

Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных объектов.

Концептуально в новом методе RadSplat всё очень просто: сначала тренируем нерф и запекаем его в гауссовый сплат. Потом, сравнивая с нерфом, определяем важность каждого элемента сплата и обрезаем ненужные. От такого прунинга качество, внезапно, даже растёт.

Для ускорения на больших сценах предлагают разбить сцену на несколько кластеров, определить что из каждого кластера видно и рендерить только это. В чём-то это похоже на VastGaussian, о котором я рассказывал пару недель назад.

В целом оно быстрее обычных нерфов вплоть до 3 тысяч раз(!), что по скорости примерно на уровне метода Re-ReND от нашей команды, где мы запекали нерф в light-field на меши, что позволяло рендерить со скоростью до 1000FPS на GPU и 74 FPS на шлеме Oculus Pro.

Сайт проекта

@ai_newz




Forward from: Denis Sexy IT 🤖
OpenAI дали доступ к SORA разным креативным людям по миру – и те показали свои первые работы с ней.

Выкачал вам все примеры – как по мне, довольно клево вышло, в руках профи SORA по настоящему раскроется.

Пост тут:
https://openai.com/blog/sora-first-impressions


Forward from: Нейросети и Блендер
AnyV2V - инновационная пайплайн для редактирования видео, позволяющий использовать готовые модели для изменения первого кадра и генерации последующих кадров с сохранением согласованности с исходным видео.

Это упрощает редактирование видео до двух этапов:
— модификацию первого кадра с помощью моделей типа InstructPix2Pix, InstantID
— генерацию видео через I2VGen-XL для инверсии DDIM и инъекции признаков.

AnyV2V расширяет возможности редактирования за счёт поддержки новых задач, включая передачу стиля и редактирование, ориентированное на объект, превосходя традиционные методы по выравниванию подсказок и предпочтениям пользователей.

INFOPAPERGITHUB(код есть и рабочий)—DEMO(Replicate)

Работает это все пока только на A100, и чтобы попробовать на своих видео нужно менять конфиги:
template.yaml
group_config.json

InstructPIX2PIX занимает больше всего времени, в стандарте 16 кадров всего из оригинального видео.

Буду следить когда добавят в ноду для ComfyUI.




Forward from: Zavtracast
Поговорим об анонимности. Например, криптовалют.

Но, для начала, надо понять что такое "свидетельство канарейки". Термин пошёл из добычи угля. Зарываясь всё глубже в землю, шахтёры рисковали нарваться на подземный газовый карман и умереть задохнувшись. Чтобы это предотвратить, они таскали с собой клетку с канарейкой. Птичка весело чирикала и прыгала туда-сюда по клетке, но благодаря быстрому обмену веществ, могла умереть даже от мельчайшего воздействия газа. Так что если канарейка в глубинах шахты вдруг переставала чирикать, все люди в срочном порядке эвакуировались.

В общем, это и есть "свидетельство канарейки" (warrant canary).

В 2001 году в США приняли "Патриотический акт", закон направленный на борьбу с терроризмом и дающий правительству права весьма широкой слежки за своими гражданами. Согласно этому акту, правительство может направить секретный приказ провайдеру услуг на слежку за пользователем. По закону, компания не имеет права разглашать, что она получила этот приказ.

Но тут вступает в силу идея с канарейкой. Да, тебе запрещено говорить о том, что ты получил такой приказ. Но тебе ничего не мешает говорить о том, что такой приказ ты не получил. Каждый день. Пока, в один прекрасный день ты просто об этом не сообщаешь и все люди, которые следят за обновлениями, точно поймут, что приказ всё же был получен.

Собственно, именно это произошло сейчас с криптовалютой Etherium. На гитхабе их сайта заметили коммит, в описании которого написано: "мы удалили раздел нижнего блока сайта, поскольку получили добровольный запрос от государственного органа, содержащий явное требование о соблюдении конфиденциальности". Говоря по-простому, до эфира добралась ФБР.

Это не значит, впрочем, что крипта полностью скомпрометирована и товарищ майор знает, когда и кому вы пересылали деньги. Это просто значит, что к сотрудникам пришли люди в форме с требованием слежки за пользователями и об этом никому сообщать было нельзя. Благодаря "свидетельству канарейки" мы знаем, что это, всё же произошло.

@zavtracast


Forward from: CGIT_Vines
💣 Одним из самых запоминающихся моментов с конференции Nvidia GTC 2024 стало выступление Хуанга, когда он под конец попросил выйти на сцену двух маленьких роботов, выполненных в стилистике "Звёздных войн".

Эти роботы не просто аниматроника; они научились ходить с помощью платформы Isaac Sim — платформы для моделирования робототехники.

Мы привыкли воспринимать большую часть информации посредством картинок и видео из интернета, но только представьте, что что-то, что само научилось ходить и видеть, проходит в таком виде мимо вас. Мне кажется, первый контакт будет незабываемым и запомнится на всю жизнь.




Forward from: Love. Death. Transformers.
its not a world model if its not hype enough - open sora

Китайская версия Sora начала учиться чуть больше месяца назад, и за всего то 200 а100 дней и 400к видео начала генерировать вполне неплохие 2s видео!

А, это не финальный чекпоинт и это всего 16×512×512

repo
blog про ускорение обучения


Forward from: Нейронавт | Нейросети в творчестве
AnimateDiff Lightning

в 10 раз быстрее оригинального AnimateDiff.
Инструкции по использованию в ComfyUI прилагаются

#text2video


Forward from: эйай ньюз
Video is unavailable for watching
Show in Telegram
Чел в кожаной куртке : “ChatGPT момент для роботов может быть уже за углом”

На вчерашнем ивенте Дженcен Хуанг, CEO Nvidia, представил новые GPU, а также анонсировал GR00T - Generalist Robot 00 Technology.

GR00T (отсылка к Марвелу) позиционируется как foundation модель для будущих роботов, от простых манипуляторов до робо-гуманоидов. Моделька способна обрабатывать мультимодальные данные, такие как видео, текст и другие сенсоры, выдавая действия робота в ответ на различные ситуации. В придачу с ним можно разговаривать и голосом – LLM-ка все осилит. Кроме того, GR00T может обучаться эмулировать действия, наблюдая за человеком.

Однако данных для тренировки таких роботов не наберешься, как я уже говорил, например здесь. Поэтому Nvidia представила обновленный Isaac Lab – среду для обучения роботов c помощью RL в симуляции, максимально приближенной к реальному миру.

Так например натренировали Isaac Manipulator – это умная роборука. Эта штука может выполнять простые задания получая на вход текстовые указания и на лету адаптироваться к изменяющимся условиям, находя новое решение для задачи. Скоро на заводах тоже пройдут лэйофы, ведь люди больше не будут нужны : )

А гоняется моделька GR00T на мобильном GPU-чипе Jetson Thor (800 TFlops в FP8), специально разработанном для управления роботом с минимальной задержкой.

Похоже, Nvidia хорошо так притопила в разработке роботов. В ближайший год стоит ждать больше и больше новостей про умных гуманоидов.

@ai_newz

1.9k 0 35 10 19

Forward from: ЭйАйЛера
StyleGaussian новая разработка, расширяющая возможности работы с 3D-сканами — перенос стиля с картинки на 3D среду. То есть можно отсканировать окружающий мир своим смартфоном и дальше красить как угодно.

Пока без демок, только с примерами и кодом. Выглядит пока страшненько, но все когда-то выглядело страшненько.


https://github.com/xai-org/grok
https://github.com/xai-org/grok-1 (уже переименовали)

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce


Forward from: эйай ньюз
Video is unavailable for watching
Show in Telegram
Mapillary - уличные карты на стеройдах

Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.

Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.

Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!

Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app

@ai_newz

20 last posts shown.