AI++


Гео и язык канала: Весь мир, Русский
Категория: Технологии


Interesting in my opinion AI's and all that goes with it

Связанные каналы

Гео и язык канала
Весь мир, Русский
Категория
Технологии
Статистика
Фильтр публикаций


Репост из: epsilon correct
Запустили тут новую модельку Gemini-Exp-1114 в Google AI Studio. На арене #1 overall, math, hard prompts, creative writing. Кодинг всё ещё #3.

Без ответов по три минуты как o1, просто берёт и отвечает.


Репост из: эйай ньюз
Видео недоступно для предпросмотра
Смотреть в Telegram
Как на ходу сделать 3D скан какой-нибудь достопримечательности в отпуске?

Держите новиночку с CVPR2024 — NeRF On-the-go.

Для справки:
Пост про нейрорендеринг и NeRF — это метод создания 3D-модели из нескольких фото, при котором нейросеть обучается по этим изображениям для реконструкции сцены. NeRF использует трассировку лучей для получения данных о цвете и глубине каждой точки, что даёт высокую детализацию и реализм, но требует больше ресурсов.

Что такое Гаусовские Сплаты — это более простой и быстрый способ, где сцена представлена облаком размазанных пятен (гауссиан). Тренировка и рендеринг занимают меньше времени, поэтому этот метод более удобен для практического применения, хоть и немного уступает в качестве.

Ключевое различие: NeRF — это детально и медленно, с трассировкой лучей, а Гауссовские сплаты — быстро и проще, но менее детализировано.

Давно не было чего-то особо интересного про Нерфы, да и к тому же Гауссовские Сплаты как-то интереснее из-за своей скорости. Но вот, клевое обновление для нерфов. Те, кто пробовали сами что-то отсканить, наверняка знают эту боль, когда ты 20 минут ходил вокруг да около, пытаясь что-то там отсканировать, да не дрогнуть лишний раз или не завалить горизонт, не дай бог кто-то в кадр попал — и все равно что-то запорешь, и на выходе получалось облако из пикселей на пол сцены. Про то, чтобы что-то снять on-the-go, я вообще молчу.

Но вот зацените результаты. Впечатляет, однако! Здесь и кривые ракурсы, и люди чуть ли не на весь кадр, а ему все нипочем.

Вот как этого добились:
Главная идея — выявить пиксели с высокой степенью неопределенности. Они, очевидно, принадлежат динамическим объектам (дистракшенам), в то время как пиксели с низкой степенью неопределенности должны принадлежать объектам статическим, которые должны сохраниться в нерф.

Далее, чтобы выявить все дистракшены, просто сравнить RGB пиксели, как это делалось обычно, недостаточно (этим, кстати, делают на фичах DINOv2, но тоже по-умному — см. схему пайплайна в комментариях). Когда цвет дистрактора и объекта похожи, это приводит к образованию артефактов в виде туманных облаков. Для того чтобы с этим справиться, используют SSIM, который берет во внимание освещенность, контрастность и структуру — см. комментарии. Оба процесса идут параллельно и оптимизированы на поиск дистракшенов.

Если интересна математика, то милости прошу почитать пейпер. А резюмируя, выходит, что для того, чтобы получить чистый нерф, нужно научиться хорошо выявлять лишние объекты в кадрах со скана. Кроме SSIM, можно много еще чего сюда накидать, например, сегментацию (выделение объектов), но здесь появляются сложности с тем, чтобы понять, что удалить, а что нет. Ну и поскольку в нерфах это делать научились, скоро ждем то же в сплатах. А там уже можно будет и самим потыкаться.

Таеж новый вид фотографий с отпуска!

Кстати, в авторах аспиранты из из ETH Zurich. Я иногда супервайжу студентов от туда. Так держать пацаны!

Пейпер
Код
Project page

@ai_newz


Репост из: Love. Death. Transformers.
Qwen2.5-Coder
- 23T токенов в претрене
- 23Т токенов пролито через 0.5b модель и она приросла по метрикам до уровня gemma2b которая как llama2 7b. Чтож.
- Добавили Math данных из Qwen Math
- В SandBox проверяли код на компилируемость
- Учили на FileLevel - те внутрь контекста складывали файл кода целиком
- Учили с ака MLM таской - это важно для решения разных бенчей
{repo_name}
{file_path1}
{file_content1}
{file_path2}
{file_content2}
{file_path3}
{code_pre}{code_suf}{code_fim}
вот в таком виде учили на ЦЕЛЫХ РЕПОЗИТОРИЯХ!!

- Модель на большинстве оффлайн бенчмарков на уровне gpt4o/sonnet3.5. Имея 32b параметров. 32b.
- На скрине live code bench - датасет который обновляется PRами и на нем пока что не научились оверфитится, для контекста - sonnet 3.5 - от июня выдает 38.1

paper


Репост из: Метаверсище и ИИще
Видео недоступно для предпросмотра
Смотреть в Telegram
У полночь близится выборы прошли, а Германа Соры все нет.

Вот держите свежее видео из Соры от "креаторов".

Помните, как в феврале (этого года, на минутчку) мы просто потеряли дар речи от первых демо Соры.

Прошло 9 месяцев. Сора так и осталась шамбалой от OpenAI, а на нас обрушились версии за версиями новых генераторов.

И вот сейчас я смотрю на это видео и понимаю, что уже ничего не ёкает. Во-первых пластичный и ленивый мозг уже адаптировался и привык к хорошему. А во-вторых Клинг с Минимаксом до сих пор иногда заставляют подскакивать, а Сора уже нет. В-третьих, почти везде уже появились хоть какие-то элементы управления.

А Сора молчит.

В-четвертых, это видео - это десятки и сотни прогонов Соры.

А вышеупомянутые китайцы иногда из коробочки выдают такое, что до сих пор ух.

В общем, я зажрался, вы, я думаю, тоже. Но Сора больше не дофаминит.

А жаль.

Хотите еще пожать плечами - поглядите сюда: https://www.youtube.com/watch?v=2-mBRq-_aQ4
Это тоже свежак, двухнедельный.

Да, нарядно. Но не штырит.

А жаль.

И мне кажется, но с людьми в Соре стало прям хуже? Или у меня кожаные галлюцинации?

Единственно, что удивляет - это длина планов. Прям длинные консистентные куски.

@cgevent


Репост из: Нейродвиж
Видео недоступно для предпросмотра
Смотреть в Telegram
В Азии началось самое милое восстание машин — посреди ночи робот-малыш добрался до «взрослых» роботов и спросил, закончили ли они работать.

Когда бот услышал, что роботы работают постоянно и у них нет дома — позвал к себе и... роботы куда-то дружно поехали 😂


Репост из: Data Secrets
Нашли на архиве забавный препринт, в котором исследователи с помощью LLM-симуляции предсказали победу Трампа

Сразу скажем: дата сабмита – 3 ноября, за три дня до объявления результатов. А вообще, исследование касалось не только выборов: ученые выясняли, способны ли LLM в целом моделировать поведение общественности и, главное, людей с определенными социальными качествами.

В начале проверяли, может ли LLM правдоподобно предсказывать мнение людей в вопросах этического характера исходя из их национальности, пола, возраста и прочего. Для этого использовали WVS, то есть данные Всемирного исследования ценностей. Оказалось, что смоделированная выборка достаточно точно отражает различия и показывает общие тренды, и исследователи пошли дальше.

Они заставили агентов голосовать на выборах 2016, 2020 и 2024 года. Но при этом LLM думали не "за себя", а опять же за людей с определенными характеристиками, роль которых как бы играла модель. А чтобы выборка получилась репрезентативная, данные о респондентах брали из ANES (Американских национальных избирательных исследований).

В итоге LLM-респонденты предсказали победу Трампа с результатом 300/538. Реальные результаты, тем временем, 312/538. На картинках сверху сперва симуляция, потом реальные результаты по штатам. Посмотрите, как похоже 😲

P.S. Возможно, в ближайшем будущем люди действительно будут использовать LLM в качестве моделирования настоящих социальных исследований? Подвижки в эту сторону уже были (пост про подобное исследование #1, и #2). А вы как считаете?


Репост из: Data Secrets
На LMSYS появилась Copilot Arena

Месяц назад ребята запустили Copilot Arena в виде плагина в VSCode. Это полноценный ассистент для программирования, который может дополнить код, проверить его или даже выполнить указанные действия с выделенной строкой. Его фишка – он предоставляет пару ответов от разных ведущих моделей, задача пользователя – выбрать ответ, который ему больше понравился. Если еще не пользовались – скачать бесплатно можно здесь.

Месяц аналитики собирали статистику. За это время плагин загрузили 2.5К раз. И вот сегодня на LMSYS наконец появились результаты! Они забавные: на первом месте, например, открытая модель, Llama 3.1 лучше GPT-4o, а GPT-4o mini внезапно оказалась хуже всех.

Кстати, оказалось, что в основном плагином пользовались питонисты. На следующем месте – java script и html. Интересно, что медианная длина контекстного окна рассматривается 560 (это много, в human eval например всего 100).

Кажется, такой тест, как бы автоматически взвешенный по используемости ЯП + с сохранением естественной пользовательской длины контекста, должен быть явно репрезентативнее бенчмарков. А это не может не радовать

Блогпост от Lmsys


Репост из: Метаверсище и ИИще
Видео недоступно для предпросмотра
Смотреть в Telegram
Вернемся к картинкам и коду. Точнее, к процедурному подходу.

Подсмотрел тут в твитторе интересный код для процессинга. Как бы твари из первой матрицы для демосцены.

Забрал этот write-only код, скинул его в chatGPT и говорю: "братиш, дай мне html код с рульками для входных параметров(не назвал их), чтобы я мог в браузере порезвиться"

-Апажалста..

(с первого раза).

Сижу, резвлюсь.

В общем забираете код ниже, сохраняете его как neuroded.html, идете в хром, Ctrl-O, выбираете этот файл и ну крутить рульки.

А я вам сейчас напишу пространный как обычно пост про нейропроцедурное моделирование.






Interactive Processing Visualization


.controls {
margin: 10px;
font-family: Arial, sans-serif;
}
label {
margin-right: 15px;
}




k Factor:
Time Increment:
Stroke Weight:



let a = (x, y, d = mag(k = x / 8 - 25, e = y / 8 - 25) ** 2 / 99) => [
(q = x / 3 + k * kFactor / cos(y * 5) * sin(d * d - t)) * sin(c = d / 2 - t / 8) + e * sin(d + k - t) + 200,
(q + y / 8 + d * 9) * cos(c) + 200
];

let t = 0;
let kFactor = 0.5;
let timeIncrement = 0.05;
let strokeW = 2;

function setup() {
createCanvas(400, 400);
background(6);
stroke(255, 96);
}

function draw() {
t += timeIncrement;
strokeWeight(strokeW);
background(6, 20); // Add slight fading to create a trailing effect

for (let y = 99; y < 300; y += 5) {
for (let x = 99; x < 300; x++) {
point(...a(x, y));
}
}
}

// Listen for slider input changes
document.getElementById('kFactor').addEventListener('input', (e) => {
kFactor = parseFloat(e.target.value);
});

document.getElementById('timeIncrement').addEventListener('input', (e) => {
timeIncrement = parseFloat(e.target.value);
});

document.getElementById('strokeWeight').addEventListener('input', (e) => {
strokeW = parseInt(e.target.value);
});





@cgevent


Репост из: Love. Death. Transformers.
Redteaming is all you need


Репост из: AI Product | Igor Akimov
Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.

Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.

Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных.
Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.

Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени.
Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.

Подробнее: https://si.inc/hertz-dev/
Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main


Репост из: Denis Sexy IT 🤖
Qwen обновил свою серию языковых моделей для программирования; ссылки на файлы уже есть в прошлом посте, а я принес ссылку где можно бесплатно поиграться с 32B моделькой:
https://huggingface.co/chat/models/Qwen/Qwen2.5-Coder-32B-Instruct

Работает классно, на уровне gpt4o судя по бенчмаркам; я поигрался тоже, нареканий пока нет – супер модель для опенсорса, ждем o1-аналог от команды Qwen


Репост из: эйай ньюз
Видео недоступно для предпросмотра
Смотреть в Telegram
Очередной хайп-тул от китайцев из ByteDance — SeedEdit

По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).

Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.

Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.

По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.

Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).

Больше примеров ниже.

Демо на Hugging Face
Пейпер
Project page

@ai_newz


Репост из: NLP семинар, ЛЕЯ (ВШЭ СПб)
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223


Репост из: Нейродвиж
Вышла самая имбовая локальная нейронка для кодеров — разрабы из Китая случайно слили Qwen2.5.1 Coder на 7 миллиардов параметров.

Приготовьтесь — она почти не уступает в тестах любимому GPT-4, а запустить можно почти на любом чайнике.

Сама модель здесь, вот инструкция по запуску для MacBook (подсмотрели тут):

1) Открываем терминал, и делаем «git clone https://github.com/ggerganov/llama.cpp.git» в нужную папку;
2) Заходим в папку и делаем «LLAMA_METAL=1 make -j»;
3) Ждем прогрузки;
4) Запускаем веб сервер этой командой «./llama-server -m «./models/Qwen2.5.1-Coder-7B-Instruct-Q5_K_M.gguf» -t 8 —mlock -v —alias totally-not-an-AGI -fa —temp 0.4 —repeat-penalty 1.10 —repeat-last-n −1 —top-k 40 —top-p 0.90 —min-p 0.10 -c 16000». Что означает каждый параметр можно почитать тут;
5) Открываем в браузере http://127.0.0.1:8080/
6) Пользуемся!


Репост из: Denis Sexy IT 🤖
Видео недоступно для предпросмотра
Смотреть в Telegram
Полезная новость для программистов:

Если вы куда-то поедете, и вам нужна хорошая LLM-моделька которая бы работала оффлайн, пару дней назад Qwen Coder случайно обновили (это модели от китайского гиганта Алибаба) и в сеть утекла классная новая 7B моделька:

По тестам новый Qwen2.5.1 Coder 7B теперь всего на пару процентов ниже, чем старенькая gpt-4-1106-preview — для модели такого размера, это невероятно клевые результаты; GGUF файлы качаем тут, в месте, где утечка случилась — уже все откатили обратно.

Вторая полезная новость, это то что у llama.cpp появился нормальный веб-сервер, которым даже можно пользоваться.

Инструкция как устанавливать на Mac M-процессоры (на Windows я только играю, сорри):

1) Открываем терминал, и делаем `git clone https://github.com/ggerganov/llama.cpp.git`в нужную папку;

2) Заходим в папку и делаем `LLAMA_METAL=1 make -j`

3) Ждем

4) Запускаем веб сервер этой командой `./llama-server -m «./models/Qwen2.5.1-Coder-7B-Instruct-Q5_K_M.gguf» -t 8 —mlock -v —alias totally-not-an-AGI -fa —temp 0.4 —repeat-penalty 1.10 —repeat-last-n −1 —top-k 40 —top-p 0.90 —min-p 0.10 -c 16000`, что означает каждый параметр можно почитать тут

5) Открываем в браузере http://127.0.0.1:8080/

6) Поздравлю, вы папина гордость и нейронный хакер!


На видео, как раз пример, как модель пишет код в "у нас есть чатгпт дома"

P.S. Да – все вкладки мне нужны и совсем нет лишних ☕️


Репост из: Метаверсище и ИИще
Видео недоступно для предпросмотра
Смотреть в Telegram
У нас новый опенсорсный фаворит в области видеогенерации.

CogVideoX1.5-5B поддерживает 10-секундные видеоролики в 1360х768, а CogVideoX1.5-5B-I2V - создание видео с любым разрешением.

Нагенерил вам нейродеда, всяких тварей, девушек на пляже и всякоразного. Понятно, что в анатомию и NSFW он не умеет. Но я пока потестировал чистый текст2видео. Что же будет с Image2Video?!

И качество на голову выше, чем у всяких Мочи, Пирамид и Аллегров.

До image2video доберусь в понедельник. Всем хорошего воскресенья.

https://github.com/THUDM/CogVideo

Две вишенки. В Комфи и diffusers пока не завезли. Отжирает 75 гигов VRAM.

@cgevent


Репост из: Нейродвиж
Парень попытался обыграть ChatGPT на его же поле боя. Результат предсказуемый 😁


Репост из: Метаверсище и ИИще
Что-то это уже слишком хорошо для липсинка.

У Тиктока 4 месяца назад вышел X-Portrait
https://github.com/bytedance/X-Portrait

Но сейчас они бахнули X-Portrait 2 и это уже запредельно выразительно.
Я прям очень жду код, потому что они похоже могут уделать Runway Act One - и все это будет локально, без подписок и кредитов.

Поглядите вот тут, это стоит того:
https://byteaigc.github.io/X-Portrait2/

@cgevent

Показано 18 последних публикаций.