Data Science by ODS.ai 🦜


Гео и язык канала: Весь мир, Английский
Категория: Технологии


First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @haarrp

Связанные каналы  |  Похожие каналы

Гео и язык канала
Весь мир, Английский
Категория
Технологии
Статистика
Фильтр публикаций


OpenAI has expanded access to DeepResearch for users with subscriptions under $200, offering 10 queries/month

Pro users get a slight boost as well—now 120 queries instead of 100.

A couple of other improvements:
— The system can now include images it encounters during research in responses
— File handling has been upgraded, making it easier to reference uploaded PDFs or Excel files as context

@opendatascience


Репост из: Machinelearning
⚡️ YandexGPT 5: модель нового поколения от Яндекса и возвращение компании к публикации LLM-моделей в опенсорс впервые с 2022 года.

Яндекс анонсировал новое поколение больших языковых моделей — YandexGPT 5, включающее Pro и Lite версии.

▶️ YandexGPT 5 Lite

YandexGPT 5 Lite 8B уже доступна на Hugging Face. Модель обучалась в два этапа: претрейн на массиве русско- и англоязычных текстов объёмом 15T токенов и этап Powerup на высококачественных данных объёмом 320B токенов. Она опубликована без финального этапа обучения, этических фильтров и алайнмента, что делает её удобной для исследований и дообучения под специфические задачи разработчиков.

Модель имеет контекстное окно 32k токенов, а в своей категории достигает паритета с мировыми SOTA по ключевым бенчмаркам для pretrain-моделей.

▶️ YandexGPT 5 Pro

В разработке Pro-версии применены значительные улучшения: переработанный датасет с более сложными и разнообразными примерами, усложнённые тренировочные задания, внедрение DPO и PPO с собственной модификацией LogDPO против «разучивания», оптимизация через YaFSDP (-25% вычислительных ресурсов), гибридное обучение с использованием базовых настроек Qwen.

По тестам YandexGPT 5 Pro:

🟢 Достигает уровня GPT-4o в международных тестах и их русскоязычных адаптациях

🟢 Превосходит Qwen-2.5-32b-Instruct в работе с фактами и форматированием, немного уступая в вычислениях

⚠️Pro-версия уже внедрена в чат с Алисой и доступна через API в Yandex Cloud, где может использоваться как в базовой версии, так и с подключением к Поиску.

🟡 Статья

@ai_machinelearning_big_data

#AI #ML


The Evolution and Dependencies of Scientific Python Libraries

Numerical computing libraries like NumPy and SciPy rely on foundational mathematical code spanning decades. Until recently, NumPy depended on Fortran-based BLAS/LAPACK implementations for linear algebra operations. Modern versions now use OpenBLAS, which replaces Fortran code with optimized C implementations. SciPy, however, still incorporates Fortran 77 code for certain functionalities, such as ARPACK (used in eigenvalue computations) and FFTPACK (for Fourier transforms). These dependencies stem from legacy libraries like BLAS (1970s), LAPACK (1980s), and MINPACK (optimization), which remain widely used due to their mathematically stable, battle-tested algorithms like Simulated Annealing.

Simulated Annealing: A 1953 Algorithm in Modern ML

Imagine searching for the largest mushroom in a forest. Gradient methods risk settling for a local maximum, but Simulated Annealing (SciPy’s optimize) balances exploration and exploitation: early random “high-energy” steps avoid local traps, then gradually refines toward the global optimum.

Originally devised to model atomic behavior in molten metals (Metropolis Algorithm, 1953), it mimics annealing—slow cooling ensures uniform atomic arrangement. Scientists introduced probabilistic acceptance of suboptimal states to escape flawed structures. Thise method was adopted to optimize ML models, logistics, and pattern recognition, making the familiar Python code use bindings which are ~15 years older than Python itself.

Source: Facebook post (Ru)

#SciPy #Fortran #NumPy #Math


Репост из: Machinelearning
✔️ Бесплатные полезные руководства по дистилляции моделей:

1. Руководство по дистилляции от OpenAI 🖥

Руководство содержит подробное описание процесса передачи знаний от более крупной модели к компактной, c сохранением высокой производительности модели.

Основные аспекты, рассмотренные в руководстве:
- Сохранение выходных данных крупной модели: Создание набора данных, содержащего предсказания большой модели, которые будут использоваться для обучения меньшей модели.

- Оценка производительности моделей: Сравнительный анализ точности и эффективности как крупной, так и компактной моделей на основе различных метрик.

- Создание обучающих данных для компактной модели:
Использование предсказаний крупной модели для генерации обучающего набора данных, способствующего эффективному обучению меньшей модели.

- Оценка дообученной компактной модели: Проверка производительности и точности компактной модели после процесса дистилляции для подтверждения соответствия требованиям.

🔗Ссылка

2. Учебник по дистилляции знаний от PyTorch 🔥

Руководство от PyTorch, которое содержит практическое введение в технику передачи знаний для развёртывания моделей на устройствах с ограниченными вычислительными ресурсами.

Основные аспекты руководства:

- Извлечение скрытых представлений: В гайде показано, как получить промежуточные представления из обученной модели для дальнейшего использования.

- Модификация циклов обучения в PyTorch: Здесь рассматривается интеграция дополнительных функций в стандартные циклы обучения для эффективной передачи знаний.

- На примере показан процесс обучения компактной модели, с ипользованием предсказания более сложной модели в качестве ориентира.

Руководство содержит пошаговые инструкции и примеры кода, что делает его ценным ресурсом, если вы хотите научиться оптимизировать свои модели для использования в средах с ограниченными ресурсами.

Ссылка

3. Jetson Introduction to Knowledge Distillation от Nvidia 🖥

В данном руководстве рассматривается процесс передачи знаний от модели OpenCLIP (vision-language model) к модели ResNet18 для классификации на наборе данных STL10.

Особое внимание уделяется тому, как выбор данных, методы дистилляции и архитектура модели, влияют на итоговую точность.

Кроме того, обсуждаются методы профилирования и оптимизации моделей для их развёртывания на устройствах NVIDIA Jetson Orin Nano.

🔗 Ссылка

4. Учебник по дистилляции знаний от Keras ⭐️

Подробно описывается концепция дистилляции знаний и ее применение в обработке медицинских изображений.

🔗Github
🔗Учебник Keras

5. Руководство по дистилляции от
huggingface
🤗

Здесь показано, как выполнять дистилляцию знаний шаг за шагом на конкретном примере.

🔗 Ссылка

6. Дистилляция знаний для задач компьютерного зрения от huggingface 👁

Здесь рассматривается, как сделать файнтюн ViT-модели в MobileNet с помощью API Trainer из Transformers.

🔗Ссылка

#KnowledgeDistillation #Distillation #openai #keras #tutorial #course #freecourses #huggingface #Nvidia #pytorch

3.4k 0 109 1 12

Репост из: Machinelearning
🔥 Бесплатный курс от Microsoft «ИИ-агенты для начинающих»

Курс содержит пошаговые инструкции с примерами кода, которые помогут научиться создавать автономных агентов с использованием машинного обучения.

Фокус на AI-агентах:
Если вас интересует именно разработка агентов — например, для симуляций, игр или интерактивных систем — данный курс будет полезен.

Каждый урок включает в себя:
- Лекцию, (видео уроки появятся в марте 2025 года)
- Примеры кода на Python с поддержкой Azure AI Foundry и Github Models
- Практические задания
- Ссылки на полезные дополнительные ресурсы

Если это ваш первый опыт работы с агентами, у Microsoft есть еще 1 курс «Генеративный ИИ для начинающих», который содержит 21 урок по построению моделей с помощью GenAI, лучше начать с него.

Переведен на 9 различных языков (русского нет).

Github

@ai_machinelearning_big_data

#course #Microsoft #aiagents #ai #ml #opensource #freecourse

2.8k 0 124 2 15

Репост из: GigaDev — разработка GigaChat
🚀 Релиз новой модели GigaChat-20B-A3B-instruct-v1.5!

Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен

📈 Результаты:
• Arena Hard RU: 20.8 → 29.6 (+8.8)
• Arena General: 41.1 → 49.1 (+8)
• остальные метрики на тех же значениях

🔋 Поддержка контекста: 131К токенов

🎉 Важно! Модель теперь доступна в популярных инструментах:
llama.cpp
ollama
llama-cpp-python
lm-studio, небольшой гайд.

⚡️ На М4 Pro в Q6 достигает 52 token / sec

💾 Мы подготовили различные GGUF квантизации для тестирования под разные задачи и ресурсы.

🔗 Ссылки:
• HuggingFace (fp32, bf16, int8)
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

6.2k 0 49 10 26

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper submitted by #DeepSeek team has generated significant attention in the AI community.

This work addresses the enhancement of reasoning capabilities in Large Language Models (LLMs) through the application of reinforcement learning techniques. The authors introduce a novel framework, DeepSeek-R1, which aims to improve LLM reasoning abilities by incorporating incentives for logical reasoning processes within their training. This integration of reinforcement learning allows LLMs to go beyond basic linguistic processing, developing sophisticated reasoning methods that can boost performance across a wide array of complex applications.

This approach has cause lots of discussions in different communities, but it definitely opens up the whole new direction of development for the research.

Source: https://arxiv.org/abs/2501.12948

#nn #LLM

@opendatascience


GPT-3 token embeddings have dimensions in the range of 4,096 to 12,288 (for larger models).

Linguists estimate that basic conversational fluency requires knowing 2,000 to 3,000 words, while an educated speaker may know 20,000 to 40,000 words.

It makes so much sense.


🖥 CUDA C++ programming guide by nvidia

Must read and absolute banger of 500 pages.

📕 book

@opendatascience

#nvidia #cuda #freebook


Репост из: Machinelearning
🧠 DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.

Оказывается, вам просто нужно правильно стимулировать модель.

Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.

Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.

Похоже это будет эра LLM RL.

📕 Paper

#DeepSeek #deepseekv3 #reasoning #ml


The reason why AI got trending


Репост из: Анализ данных (Data analysis)
📝 awesome-claude-prompts — это коллекция лучших промптов для использования с языковой моделью Claude!

🌟 В репозитории собраны примеры для самых разных задач, от анализа текста до написания кода, что делает его полезным для разработчиков, маркетологов, студентов и многих других пользователей.

🖥 Github

@data_analysis_ml

6.8k 0 104 1 23

Репост из: Machinelearning
🔥 Sky-T1-32B-Preview 32B - 450$ - это все, что вам нужно, чтобы обучить свою собственную O1 🌟

Модель достигает конкурентоспособных результатов в рассуждениях и кодинге, 82.4 в Math500, 86.3 в LiveCode-East по сравнению с QwQ (85.4, 90.7) и o1-preview (81.4, 92.9) 🎓

Это новая O1 - подобная модель с открытым исходным кодом, обученная за < 450$, полностью открытый исходный код, 17K обучающих данных, , модель превосходит Qwen-2.5-32B-Instruct по всем бенчмаркам 💥

🤗HF: https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

@ai_machinelearning_big_data


#llm #ml


Репост из: AbstractDL
Как выкинуть из трансформера все нелинейности и причём тут приватность?

Вы задумывались, насколько безопасно задавать «приватные» вопросы в чатГПТ? Где продать чужую почку и т.п. Наверняка же создатели сервиса имеют доступ к вашему запросу? Невозможно же его прогнать через GPT в зашифрованном виде? На самом деле возможно! Есть алгоритмы «приватного инференса LLM», которые позволяют зашифровать запросы юзера даже от языковой модели, а ответ уже возможно расшифровать только на клиенте пользователя. Пока не буду углубляться, как именно это сделано, скажу только, что ГЛАВНАЯ головная боль таких криптографических протоколов — нелинейности в трансформерах, их тяжело обрабатывать в зашифрованном виде и приходится прибегать к сложнейшим итерационным схемам, раздувающим объём коммуникации в тысячи раз. Выходит, что на генерацию одного токена нужно несколько минут и десятки гигабайтов трафика! Поэтому никто это пока не делает в продакшне, и лучше не спрашивайте у чатгпт, где спрятать труп.

Но помните? У меня была статья про то, что не так уж и нужны нелинейности в трансформерах. Преобразования эмбеддингов от слоя к слою на 99% линейные. Так вот в свежей статье «Entropy-Guided Attention for Private LLMs» авторы попробовали обучить LLM совсем без нелинейностей (оставив только софтмакс). То есть они убрали активации из FF и заменили LayerNorm на линейный аналог. По сути, если бы не этэншн, то трансформер вообще схлопнулся бы в полностью линейную модель и отупел до уровня логистической регрессии.

При такой жёсткой "линеаризации" архитектуры пришлось всего лишь добавить несколько трюков для стабилизации обучения и ШОК: модель нормально обучилась! Небольшие потери в качестве есть, но это крошечная цена за такое упрощение трансформера.

Теперь ждём, что скоро появится нормальное асинхронное шифрование для LLM и OpenAI не узнает, что я спрашиваю у чатгпт и насколько я туп на самом деле.

P.S. Статья классная, но немного обидно, что авторы нас не процитировали.

Статья, GitHub (пустой)


Репост из: Machinelearning
🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей.

DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.

Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.

Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.

Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.

Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.

Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.

Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.

Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.


Для локального инференса потребуются модели:

🟢Marigold checkpoint;
🟢Энкодер CLIP-ViT-H-14-laion-2B;
🟢Набор чекпоинтов DepthLab.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DepthLab


New o3 OpenAI model is changing the game!

For a long time, ARC was seen as proof that AI models “can’t think.” The argument went: if they truly could, why do they perform so poorly on this benchmark?

Well, those days are over. The o3 model demonstrates not only the ability to think but also the capability to tackle tasks once considered out of reach.

👀 Check out the full breakdown of this breakthrough: https://arcprize.org/blog/oai-o3-pub-breakthrough

It might be time to rethink what AI can achieve. Looking forward to the release!

@opendatascience


The final day of the “12 Days of OpenAI” kicks off in just 40 minutes, culminating in an exciting live stream featuring:

> Sam Altman, CEO of OpenAI
> Mark Chen, Head of Frontier Research
> Hongyu Ren, creator of OpenAI o1-mini and a key contributor to GPT-4o mini.

Don’t miss this unique opportunity to learn about the latest advancements and future plans from OpenAI.

📺 Watch the live stream here: https://www.youtube.com/live/SKBG1sqdyIU

@opendatascience

Показано 17 последних публикаций.