Фильтр публикаций


Прогресс примерно за 2 года.

Скоро ранние артефакты будут восприниматься с ностальгией, как VHS гличи, и появятся инструменты добавляющие такой "эффект старины". Я и сейчас нахожу нечто притягательное в упоротых GAN генерациях.

1k 1 24 12 5

Телега ещё на шаг ближе к функционалу ютуба. Обложки для видео, расшаривание с таймкодом, продолжение просмотра там, где остановился....

Осталось только монетизацию через рекламную сеть Telegram Ads подрубить, или за звёзды/TON со списанием пропорционально просмотру.

Ещё бы телега сама кропила и поджимала видосы под автовоспроизведение, было бы супер.

Сайт


POV: нейронка с Civitai получает промт


Luma: добавили image-2-video для видеогенератора Ray2.

Позже в режим добавят начальный/конечный кейфреймы, расширение, и зацикливание видео.

Сейчас доступно владельцам Unlimited подписок. Другим раскатают на днях.

Сайт
Твит


Немного крутых работ с дискорда Banodoco.

Дискорд


Видео недоступно для предпросмотра
Смотреть в Telegram
Недавно была новость, что Comfy воркфлоу теперь можно конвертировать в интерфейс на Gradio и публиковать на Хаггинге. Но по отзывам народа такое решение забивает оперативку.

Вот вам альтернативный варик с преобразованием воркфлоу в мини-приложение на Glif. Если что, у них есть API.

Сайт
Подробнее про Glif
Твит


Музыкальный генератор YuE был ускорен для работы в 2-3 раза быстрее (4 минуты вместе 12) благодаря народу в лице оптимизатора deepbeepmeep. Его сборки выходят с приставкой GP (GPU Poor), таким образом здесь имеем YuEGP.

Также в Pinokio подъехала версия, где на вход можно подавать музыкальный референс и перекладывать его стиль на ваши завывания/демки. Она запускается из сайдбара. Если кнопки не видно нажмите Update там же и перезапустите Pinokio.

Pinokio
Гитхаб YuEGP
Гитхаб YuE
Твит


Что ни говори, но Krea умеют в UI/UX.

Дальше только лучше: больше объектов в одном кадре, сегментация и детальный контроль над отдельными мелкими элементами, итд.

Сайт


Blockadelabs: добавили 32-битную HDRI обработку 360° сцен для получения реалистичного освещения и улучшенного динамического диапазона 3D проектов. Файлы HDR и EXR генерируются из ваших скайбоксов.

Также теперь есть бесплатный семплпак ассетов, чтобы изучить новые возможности перед обновлением.

Сайт


Как в Simulon выглядит общий процесс работы и загрузка своих 3D ассетов через десктопное приложение.

С мобильным коннектится через сканирование QR кода.


Simulon: вышел в тираж! Я уже погонял и оно действительно как на демках. Ловите инвайт в бету TestFlight и заодно их дискорд.

Нужен айфон. Ради такого дела даже в гости сгонял (сам буду ждать на дройдех). Ставите на айфон TestFlight и через него устанавливаете приложение по инвайту выше.

Открываем приложение и там три секции:
* Home — лента рендеров других людей (не надо будет шерстить твиттер, уже хорошо)
* Create — сканирование сцен, расположение в них 3D ассетов, и рендеринг фото или видео.
* Assets — если у вас нет своих 3D объектов, их можно скачать из встроенной библиотеки или добавить в закладки, что удобно. Просматриваются удобно (у них свой вьюер сплатов), грузятся почти моментально. Свои ассеты (как анимированные, так и нет) можно закидывать через десктопный софт с их сайта. Есть гайд с требованиями к 3D объектам.

Чтобы сделать рендер, зходим в Create и создаём сцену. Выбираем как будем рендерить на серверах Simulon или на своём железе, где установлен десктопный софт Simulon. В первом случае можно использовать все ассеты из встроенной библиотеки приложения, а во втором только свои загруженные 3D объекты с лицензией. Выбираем снимаем в помещении или снаружи. Свет естественный или искусственный. Сканируем камерой пространство вокруг, заполняя шар (отличный UI/UX). Задаём поверхность для вписывания 3D ассетов, либо сканируя окружение, либо указывая напрямую.

Дальше начинается этап расположения 3D ассетов в сцене. Нажимаем на кнопку добавить и выбираем из нашей библиотеки до 4 объектов (расставляются последовательно). Размер и положение меняются пальцами. Для некоторых (вроде динозавров) есть выбор анимации.

На этом этапе ассеты ещё отображаются в предварительном виде, но уже отлично сидят в сцене и при максимально приближении к ним ты их словно физически ощущаешь, особенно когда делаешь масштаб посерьёзнее.

Обратите внимание на глаза велоцираптора, в них отражается квартира.

Потом можно срендерить либо фотки, либо видео. Нажимаете на кнопку съёмки и сцена отправляется на обработку. Очередь на рендеринг можно наблюдать в правом верхнем углу на иконке облака (локально вероятно также). Фотки обрабатываются довольно быстро, видео минут 5-10. На выходе готовая сцена с качественно просчитанным освещением.

Пока не ясно как открыть ту же сцену и изменить её. Мне приходилось делать всё заново. Но это всё мелочи, которые поправят. А по результату у нас на руках очень крутой продукт.

Пока всё бесплатно. Там есть баллы, которые тратятся на рендеринг и похоже зарабатываются за какую-то активность. Так что дерзаем! Закидывайте своё 3D из Хуньяня, Postshot, Tripo, итд и скидывайте в комменты, что получилось.

Сайт
Приложение
Гайд по загрузке своих 3D объектов
Дискорд


Pinokio к версии 3.6 так нормально проапгрейдили. Наконец-то есть домашняя страница с иконками AI-приложений. Также пофиксили много багов всплывавших при установке, перешли на UV для ускорения загрузки, и ещё много всего подкапотного.

Заставку можно менять, кстати.

Сайт
Скачать


2025 только начался, а OTOY уже приглашает тебя в 2026.

OctaneRender, движок для рендеринга 3D и эффектов, обзавёлся поддержкой сплатов в версии 2026.1 Alpha 1.

На видео показано как сплаты рендерятся в реальном времени при работе с DOF камеры, и как меняется освещение, когда другой объект добавляется в сцену.

Сплаты с трассировкой лучей работают медленнее, чем подходы на основе растеризации, однако есть все преимущества рейтрейсинга: сплаты видны в отражениях и преломлениях, могут освещать объекты сцены и отбрасывать на них тени.

Также внедряют поддержку разных AI сервисов: Kling, Luma, Black Forest Labs (Flux), итд.

Сайт
Скачать


🤖 ЧАТЫ 🤖

PyTorch: вышла V 2.6: появилась поддержка FP16 для x86 процессоров как в режиме eager, так и в режиме Inductor; улучшена работоспособность на видюхах Intel; и другое по мелочи.

Deepseek: про R1 отдельно поговорим.

OWUI: в релизах 0.5.4 — 7 теперь есть нативный тег thinking для моделей вроде DeepSeek R1, можно делиться чатами, расширенное управление моделями и правами пользователей, итд.

LM Studio: в V 0.3.7 — 9 thinking UI для DeepSeek R1, поддержка KV кэша для llama.cpp моделей, улучшение рендеринга LaTeX, улучшения в рантаймах.

Sakana: представили Transformer², систему в которой веса модели автоматически адаптируются под задачи. Так же они выпустили маленькую языковую модель, заточенную эффективно работать на мобилках. Правда только на японском.

OpenAI: выкатили агента Deep Research, который может глубоко уходить в анализ и возвращаться, когда всё прошерстил. Открыли бесплатным пользователям доступ к 03 mini (её натальная системная карта). Canvas теперь работает с o1 и может рендерить код на HTML и React. Также выпустили фичу Operator, позволяющую давать AI-агенту контроль над браузером. Для Pro подписчиков в США.

Browser Use: или дай опенсорсному AI-агенту на выбор выполнять задания у тебя в браузере бесплатно.

Bytedance: релизнули UI-TARS, фреймворк для выполнения AI-агентом заданий на компьютере, а не только в браузере.

Hailuo: выпустили в опенсорс генератор текста MiniMax-Text-01 размером 456B с контекстом 4М токенов (можно скормить библиотеку, но дома не погонять). Плюс чат по картинкам MiniMax-VL-01, но он тоже здоровый.

HuggingFace: запартнёрились с провайдерами компьюта Replicate, TogetherAI, Fal, итд. Теперь можно запускать модели прямо на Хаггинге при наличии API ключа. Реквистирую Runpod!

Alibaba: на волне хайпа по DeepSeek R1 вышли с Qwen2.5-Max самой мощной моделью в их линейке (доступна только в облаке), и Qwen2.5-1M с контекстом 1М (вагон документации) в размерах от 7B до 14B (можно гонять на видюхах). Также подогнали визуальную языковую модель Qwen 2.5 VLдля чата по видео и картинками, для которой народ уже сделал MLX на маки. Онлайн демо здесь или тут.

Tencent: выпустили языковые модели Hunyuan Large размером 389B и помельче 7B в виде Instruct и Pretrain вариков. Плюс размышляющую ллм Doubao 1.5 Pro на архитектуре MoE.

Mistral: выложили ллм Small 3, которая влезает в 4090 и на их бенчах кладёт модели размером 70B.

Perplexity: представили поисковую систему Sonar и Sonar Pro для соперничества с браузерными поисковиками и ллм.

Google: выпустили обновлённый Gemini Flash Thinking 01-21. Погоняй на арене.

X-Plug (alibaba): AI-агент для выполнения заданий на смартфоне.

VideoLlama3: обновлённые VLM для чата по видео и картинкам в размерах 2B и 7B.

AllenAI: выпустили Tülu 3 размером от 8B до 405B. Использование метода RLVR улучшило результаты в математике.

Anthropic: Claude теперь может цитировать ваши источники по API.

SmollVLM: выложен код использованный для тренировки модели.

OmAgent: библиотека на питоне для разработки AI-агентов.

Autonomy-of-Experts Models: исследование архитектуры с улучшенным взаимодействием экспертов, чем в MoE.

RLVR: Метод Reinforcement Learning with Verifiable Rewards, показывает себя лучше CoT в определенных задачах.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude


DeepSeek: сделали модель Janus Pro 7B, которая может и генерить картинки (не убийца Flux конечно) и чатиться по загруженным.

Flex.1 Alpha
: Ostris сделал версию Flux на основе шнель с лицензией Apache. 8B параметров, можно гонять на видюхе.

SVFR: фреймворк для восстановления лиц на видео. Есть колоризация, инпейтинг, BFR.

Phygital+: улучшения в генерации 3D по картинке, поддержка лор на Flux.

PAR: параллелизация генераций без изменения архитектуры и токенайзера.

FitDit: новая виртуальная примерочная. Есть комфи.

DiffuEraser: сегментируем объекты на видео и удаляем их с учётом фона через инпейнт.

Google: дают пощупать Imagen 3, нужен IP на США.

Alibaba: по-тихому выпустили свой генератор видео в чате с Qwen. Примеры генераций.

Создание векторной бд с данными о видео записях, чтобы потом быстро находить нужный видос по кадру. Похоже на Marengo, только с CLI + Comfy.

Video Depth Anything: получаем карту глубины видео.

Shuttle Jaguar: генератор картинок с фокусом на эстетичных кадрах.

Hallo: выпустили V 3 аниматора портретов и датасет на хаггинге.

🎸 ЗВУК 🎸

YuE: новый опенсорсный генератор музыки. Пока песочно и дизгармонично (не конкурент Udio или Suno), но лучше MusicGen и любой движ в эту сторону уже хорошо. В принципе для инструменталок или семплов может сгодиться. Лицензия на днях сменилась на Apache, что позволяет коммерческое использование.

Suno: V4 стала доступна всем. Плюс треки в своей библиотеке теперь можно группировать в рабочие пространства (Workspaces). И появился AI-соавтор музыки для детальной работы с лирикой.

Riffusion: представили генератор музыки FUZZ. Звучит годно (не только на поп/рэп) и есть инструменты для контроля аудио. Небольшая предыстория проекта.

MMaudio: генератор аудио, анализирующий беззвучное видео и выдающий походящий звук. Крутилки в наличии.

Style TTS 2: давний генератор речи и клонер голоса, для которого появился установщик в Pinokio. Ещё есть демка.

Hailuo: сделали модель для работы с голосом T2A-01. Есть клонирование, генератор речи (TTS), и изоляция голоса. Крутилки присутствуют. В наличии HD версия для результатов в высоком качестве, и Turbo.

Kokoro: маленький, шустрый, и неплохой генератор речи, который можно гонять дома, а генерации использовать в коммерческих целях (Apache 2). Русского нет, но можно научить. Можно смешивать голоса в студии.. Гитхаб


Дайджест:

📹 ВИДЕО + АРТ 🎨

Pika
: добавили Turbo режим, позволяющий генерить видео в 3 раза быстрее, в 7 раз дешевле, и ,по заверениям, особой без потери качества. Также выпустили Pika V 2.1, генерящую видео в 1080p, высокой детализаций, контролем камеры и четким следованием промту. Ещё появилась апа для iOS.

Nvidia: выкатили генератор картинок SANA-1.5, который может выдавать 4096x4096 меньше, чем за 1 секунду на 16 ГБ VRAM ноуте. Релизу идёт 8-битный оптимизатор для экономии VRAM во время тренировки и масштабирования с 1.6B до 4.8B плюс 4-битный движок для инференса на 8 ГБ VRAM (демо). Также чуть ранее они выпустили генератор видео Cosmos, который выдаёт 1280x704 длиной в 121 кадр за 10 мин на 4090.

Tripo: в версии V2.5 улучшена геометрия мешей (особенно с острыми углами). Улучшенный PBR рендеринг.

ACE++: фреймворк для получения стабильных персонажей и объектов при их генерации на картинках.

HeyGen: добавили к контроль камеры к видео с аватарами. Даёте описание желаемого движения и вперед.

Sa2VA: выделение объектов на видео промтом. Работает на связке SAM2 и LLaVA.

Sketch-to-3D: делаем набросок от руки и получаем 3D объект через Trellis.

ZLUDA: CUDA для видюх AMD. Появились ночные релизы.

Hailuo: релизнули генератор видео T2V-01-Director с фокусом на контроле камеры промтом, её кинематографичных движениях и переходах. Помимо этого внедрили генерацию стабильных персонажей по реф картинке в модели S2V-01.

Kling: Добавили в V 1.6 генерацию видео по начальному и конечному кадру, мемные эффекты к видео как в Pika, а также фичу Elements, которая берёт элементы с нескольких реф картинок и делает, например, стабильного персонажа в нужном сеттинге. Для генерации картинок в Kolors завезли работу по рефу. Ещё Kling обзавёлся мобильной апой (iOS или Android). Что занятно, похожие мемные эффекты и комбинирование элементов недавно запилили у себя Pika.

DiffSplat: шустрый генератор 3D на основе сплатов и t2i диффузионных моделей.

MangaNinja: колоризация манги.

Frame Painter: интерактивное редактирование изображения скетчем на основе видео диффузионных приоров.

Luma: теперь можно апскейлить сгенерированные видео до 4К, и выпустили API для Ray 2.

HipScript: онлайн компилятор CUDA и HIP кода для WebGPU.

Comfy: завели реестр кастомных нод, упростили установку десктопного приложения, добавили поддержку 5090... которые так пока никто пощупать и не может.

Кстати воркфлоу теперь можно конвертировать в интерфейс на Gradio и публиковать на Хаггинге.

Netflix: выпустили модель для анимации картинок, через перетаскивание выделенных объектов на них.

Krea: объекты на реф картинках теперь можно конвертировать в 3D и крутить/перемещать/совмещать их в сцене до нужного результата. Если целевой объект, стиль, или продукт нужно сгенерить, то как раз завезли реалтайм тренировку — можно тренить, скажем персонажа, и крутить его в сцене. Или воспользоваться интегрированными стабильными персонажами Hailuo.

Runway: выпустили генератор картинок Frames. На этой странице можно посмотреть примеры генераций картинок во Frames и промты к ним. Плюс релизнули апскейл до 4k.

Midjourney: теперь можно смешивать несколько мудборд кодов, а также смешиват их со sref кодами.

Sony: исследование по тренировке микробюджетных генераторов картинок — Microdiffusion.

Tencent: выпустили Хуньянь 3D V2, который делает 3D меш по картинке на уровне Trellis. Лучше всего работает если закидывать объект под углом со считываемым освещением. Нужно минимум 8 ГБ VRAM. Сообщество уже наваяло аддон для блендора, портативную сборку на Windows, поддержку в комфи от Kijai, вписали модель в ComfyUI-3D-Pack.

Для видеогенератора Хуньянь GPU Poor версия (от 12 ГБ VRAM) обзавелась поддержкой лор и TeaCache для ускоренной генерации с меньшим количеством артефактов. В комфи от Kijai добавился улучшитель Enhance-A-Video, генерация в IP2V режиме (vlm вытаскивает описание реф картинки и скармливает видеогенератору).

Показано 16 последних публикаций.