AI OSS Tools 🧰 ИИ инструменты с открытым кодом


Kanal geosi va tili: Butun dunyo, Ruscha


Just links to Open Source Software with AI, ready to run locally. ИИ инструменты локально, открытый код #tools #oss #local #ai

Связанные каналы

Kanal geosi va tili
Butun dunyo, Ruscha
Statistika
Postlar filtri


Data Science | Machine Learning | Artificial Intelligence dan repost
A FREE goldmine of tutorials about GenAI Agents!

After the hackathon I ran in conjunction with LangChain, people have expanded the GenAI_Agents GitHub repository that I maintain to now contain 43 (!) Agents-related code tutorials.

It covers ideas across the entire spectrum, containing well-documented code written step by step.

Most of the tutorials include a short 3-minute video explanation!

The content is organized into the following categories:

1. Beginner-Friendly Agents
2. Educational and Research Agents
3. Business and Professional Agents
4. Creative and Content Generation Agents
5. Analysis and Information Processing Agents
6. News and Information Agents
7. Shopping and Product Analysis Agents
8. Task Management and Productivity Agents
9. Quality Assurance and Testing Agents
10. Special Advanced Techniques



📰 And that's not all! Starting next week, I'm going to write full blog posts covering them in my newsletter.

The subscription and all contents are FREE and part of my educational community

→ Subscribe here: https://diamantai.substack.com/


⭐ If you like the repository, please star it 😊 → https://github.com/NirDiamant/GenAI\_Agents

https://redd.it/1h1xm3m
@artificialintelligence24x7


Data Science | Machine Learning | Artificial Intelligence dan repost
I built an AI file organizer that reads and sorts your files, running 100% on your device

Hey r/learnmachinelearning!

GitHub: (https://github.com/QiuYannnn/Local-File-Organizer)

I used Nexa SDK (https://github.com/NexaAI/nexa-sdk) for running the model locally on different systems.


I am still at school and have a bunch of side projects going. So you can imagine how messy my document and download folders are: course PDFs, code files, screenshots ... I wanted a file management tool that actually understands what my files are about, so that I don't need to go over all the files when I am freeing up space…

Previous projects like LlamaFS (https://github.com/iyaja/llama-fs) aren't local-first and have too many things like Groq API and AgentOps going on in the codebase. So, I created a Python script that leverages AI to organize local files, running entirely on your device for complete privacy. It uses Google Gemma 2B and llava-v1.6-vicuna-7b models for processing.

What it does: 

Scans a specified input directory for files
Understands the content of your files (text, images, and more) to generate relevant descriptions, folder names, and filenames
Organizes the files into a new directory structure based on the generated metadata

Supported file types:

Images: .png, .jpg, .jpeg, .gif, .bmp
Text Files: .txt, .docx
PDFs: .pdf

Supported systems: macOS, Linux, Windows

It's fully open source!

For demo & installation guides, here is the project link again: (https://github.com/QiuYannnn/Local-File-Organizer)

What do you think about this project? Is there anything you would like to see in the future version?

Thank you!





https://redd.it/1fn3dq8
@artificialintelligence24x7


Data Science | Machine Learning | Artificial Intelligence dan repost
TextCraft: A Word Addin with AI Tools!

Hi everyone! I recently created TextCraft, a Word addin that has the ability to generate, review, rewrite, and more within Word. TextCraft can be thought of as a local alternative to Microsoft Copilot and other cloud based AI tools. The word addin has the ability to paste in markdown from the LLM directly into Word with formatting. Additionally, there is Retrieval Augmentation Generation (RAG) that's built into the addin whereby you can drag and drop PDFs into the RAG system and let the LLM generate responses based on that. To use this application, make sure to download from the link below. Let me know if there are any issues!
https://github.com/suncloudsmoon/TextCraft

https://redd.it/1fwxun0
@artificialintelligence24x7




Нейронавт | Нейросети в творчестве dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations

Оживлятор эскизов по текстовому промпту

Код
Демо1
Демо2 (сейчас не работает)

#sketch2video


Анализ данных (Data analysis) dan repost
🖥 OASIS — проект для моделирования социальных взаимодействий между агентами с использованием крупномасштабных симуляций!

🌟 Он основан на многокомпонентных агентных системах и предназначен для изучения взаимодействий искусственного интеллекта в контексте общества и совместной работы. Проект сосредоточен на использовании больших языковых моделей (LLM) для управления агентами, которые симулируют различные аспекты человеческого поведения, взаимодействия и общения.

🌟 Основные направления применения OASIS включают исследование кооперативного искусственного интеллекта, поведение в симулированных обществах и масштабирование симуляций до миллиона агентов. Репозиторий ориентирован на исследователей и разработчиков, заинтересованных в построении и изучении сложных агентных экосистем на базе LLM!

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml


Machinelearning dan repost
🌟 FastDraft: ускорение инференса LLM с помощью спекулятивного декодирования.

Спекулятивное декодирование (или вспомогательная генерация) — это техника, которая ускоряет генерацию токенов при использовании дополнительной, SLM модели-черновика.

Техника работает следующим образом: модель-черновик предсказывает следующие K-токенов один за другим авторегрессионным способом, а основная LLM проверяет эти предсказания и исправляет их при необходимости.

Процесс проходит по каждому предсказанному токену, и, если обнаруживается разница между SLM-черновиком и LLM, останавливается и сохраняет последний токен, предсказанный основной моделью. Затем SLM-черновик получает последнее предсказание LLM и снова пытается предсказать следующие K-токенов, повторяя цикл.

FastDraft — метод для обучения и согласования модели-черновика с любой LLM для использования со спекулятивным декодированием путем тонкой настройки на синтетических датасетах, сгенерированных целевой LLM.

Предобученные модели-черновики FastDraft (Llama-3.1-8B-Instruct-FastDraft-150M-int8-ov и Phi-3-mini-FastDraft-50M-int8-ov) до 3 раз эффективнее по сравнению с инференсом одиночной LLM в задачах завершения кода и до 2 раз в задачах обобщения, завершения текста и инструкций.


🟡Набор моделей
🟡Ipynb блокнот
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Intel #FastDraft


Метаверсище и ИИще dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
MeshGen: minimal integration of LLaMa-Mesh in Blender

Я, пожалуй, пойду поставлю LLaMa-Mesh, ибо генерация вертексов и фейсов выглядит здесь радикально по-другому.

Вместо обтягивания непонятно как полученного облака точек замыленными рандомныи сетками - здесь обтягивание вертексов, которые ИЗНАЧАЛЬНО уже на месте.
Ибо учили на мешах, как на текстовых данных с отношениями, а не просто как на облаках точек.

Подозреваю, что результат будет не айс (первая версия, малый датасет), но сам подход мне отчаянно нравится.

Кто со мной?: https://github.com/huggingface/meshgen

@cgevent


What are the best tools for labeling data?
Question
What are the best tools for labeling machine learning data? Primarily for images, but text too would be cool. Ideally free, open source & locally hosted.

DiamondSea7301

1mo ago

Try CVAT, much better than label studio

https://www.reddit.com/r/learnmachinelearning/comments/1gdieoa/comment/lu4y1xw


AI Research Assistant that actually DOES research! Feed it ANY topic, it searches the web, scrapes content, saves sources, and gives you a full research document + summary. NOW working with OpenAI compatible endpoints as well as Ollama

Automated-AI-Web-Researcher: After months of work, I've made a python program that turns local LLMs running on Ollama into online researchers for you, Literally type a single question or topic and wait until you come back to a text document full of research content with links to the sources and a summary and ask it questions too! and more!
What My Project Does:
This automated researcher uses internet searching and web scraping to gather information, based on your topic or question of choice, it will generate focus areas relating to your topic designed to explore various aspects of your topic and investigate various related aspects of your topic or question to retrieve relevant information through online research to respond to your topic or question. The LLM breaks down your query into up to 5 specific research focuses, prioritising them based on relevance, then systematically investigates each one through targeted web searches and content analysis starting with the most relevant.
Then after gathering the content from those searching and exhausting all of the focus areas, it will then review the content and use the information within to generate new focus areas, and in the past it has often finding new, relevant focus areas based on findings in research content it has already gathered (like specific case studies which it then looks for specifically relating to your topic or question for example), previously this use of research content already gathered to develop new areas to investigate has ended up leading to interesting and novel research focuses in some cases that would never occur to humans although mileage may vary this program is still a prototype but shockingly it, it actually works!.
Key features:
Continuously generates new research focuses based on what it discovers
Saves every piece of content it finds in full, along with source URLs
Creates a comprehensive summary when you're done of the research contents and uses it to respond to your original query/question
Enters conversation mode after providing the summary, where you can ask specific questions about its findings and research even things not mentioned in the summary should the research it found provide relevant information about said things.
You can run it as long as you want until the LLM’s context is at it’s max which will then automatically stop it’s research and still allow for summary and questions to be asked. Or stop it at anytime which will cause it to generate the summary.
But it also Includes pause feature to assess research progress to determine if enough has been gathered, allowing you the choice to unpause and continue or to terminate the research and receive the summary.
Works with popular Ollama local models (recommended phi3:3.8b-mini-128k-instruct or phi3:14b-medium-128k-instruct which are the ones I have so far tested and have worked)
Everything runs locally on your machine, and yet still gives you results from the internet with only a single query you can have a massive amount of actual research given back to you in a relatively short time.
The best part? You can let it run in the background while you do other things. Come back to find a detailed research document with dozens of relevant sources and extracted content, all organised and ready for review. Plus a summary of relevant findings AND able to ask the LLM questions about those findings. Perfect for research, hard to research and novel questions that you can’t be bothered to actually look into yourself, or just satisfying your curiosity about complex topics!

https://redd.it/1gxosl1
GitHub repo with full instructions and a demo video:
https://github.com/TheBlewish/Automated-AI-Web-Researcher-Ollama


Data Science | Machine Learning | Artificial Intelligence dan repost
Run AI models locally with a ChatGPT-like UI in Jan (It's totally free & open-source)

Hey r/learnmachinelearning, we're building Jan, a tool that lets you run AI models locally in a ChatGPT-like interface - it's completely free & open-source. No pricing or lock in.

It looks like the ChatGPT desktop app but specializes in open-source AI models and local AI.

Jan UI

Highlights

\- Supports GGUF models
\- Hugging Face integration - Paste GGUF model links directly into Jan
\- OpenAI-compatible API
\- Hardware acceleration by default
\- Basic RAG - we're experimenting with RAG
\- Optionally connect to server AIs like OpenAI, Groq, etc.

It's totally free, you keep your chat data. Conversations, preferences, and model usage stay on your computer.

\- Web: https://jan.ai/
\- GitHub: https://github.com/janhq/jan

We're open-source and welcome contributions.
If you like the project, please consider starring us on GitHub!

https://redd.it/1gzfago
@artificialintelligence24x7




Анализ данных (Data analysis) dan repost
⚡️ Только что вышла первая reasoning model с открытым исходным кодом от Alibaba

⚡️ QwQ-32B-Preview: экспериментальная ризонинг-модель от Qwen.

QwQ (Qwen with Questions) – экспериментальная исследовательская модель, разработанная Qwen Team с фокусом на развитие способности рассуждения.

QwQ отличается любознательностью, подходя к каждой проблеме – будь то математика, программирование или знания о мире – с подлинным удивлением и сомнением. Прежде чем остановиться на каком-либо ответе, модель подвергает сомнению свои собственные предположения, исследуя разные пути рассуждений в поисках более глубокой истины.

QwQ-32B-Preview, предварительная версия модели, которая демонстрирует аналитические способности в математике и программировании, показывая топовые результаты в тестах:

🟢65.2% на GPQA (тест на решение научных задач на уровне выпускника);
🟢50.0% на AIME (оценка математических способностей);
🟢90.6% на MATH-500 (тест на понимание математики по различным темам);
🟢50.0% на LiveCodeBench (тест на навыки программирования в реальных сценариях).

Архитектура QwQ основана на transformers с использованием RoPE, SwiGLU, RMSNorm и Attention QKV bias. Модель имеет 32.5 млрд. параметров, 64 слоя и 40 attention heads для Q и 8 для KV. Контекст модели - 32 768 токенов.

⚠️ Как у любого эксперимента, у QwQ есть ограничения:

🟠Модель может смешивать языки или переключаться между ними неожиданно, влияя на четкость ответов.

🟠QwQ склонна входить в циклические шаблоны рассуждений, что приводит к длинным ответам без окончательного результата.

⚠️ Сообществом LM Studio опубликованы квантованные версии в формате GGUF в разрядности от 3-bit (17.2 Gb) до 8-bit (34.8 GB), совместимые для запуска в llama.cpp (release b4191) и LM Studio.


▶️Пример инференса на HF Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r in strawberry."
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Модель
🟡Набор GGUF версий
🟡Demo
🟡Сообщество в Discord

#AI #ML #LLM #QwQ #Qwen

@data_analysis_ml


Machinelearning dan repost
🌟 🌟 OuteTTS-0.2-500M: обновление ТTS-модели с возможностью клонирования голоса.

OuteTTS-0.2-500M - улучшенная версия предыдущей модели синтеза речи, основанная на Qwen-2.5-0.5B и обученная на крупных и более качественных датасетах Emilia-Dataset, LibriTTS-R и Multilingual LibriSpeech. Контекст длиной 4096 токенов обеспечивает ~ 54 секунды генерации звука.

Новая версия получила изменения относительно версии 0.1:

🟢Повышенная точность. Модель лучше следует промптам и показывает более высокую согласованность выходных данных по сравнению с предыдущей версией;

🟢Естественная речь. V 0.2 генерирует более естественную и плавную синтезированную речь;

🟢Расширенный словарь. Модель обучена на более чем 5 млрд. токенов аудио;

🟢Клонирование голоса. Улучшены возможности клонирования голоса с большей вариативностью и точностью;

🟢Многоязычная поддержка. Добавлена экспериментальная поддержка китайского, японского и корейского языков.


⚠️ Для инференса GGUF-версии модели необходимо установить llama-cpp-python.


▶️ Установка и пример локального инференса:

# Install from PyPI
pip install outetts

# Interface Usage
import outetts

# Configure the model
model_config = outetts.HFModelConfig_v1(
model_path="OuteAI/OuteTTS-0.2-500M",
language="en", # Supported languages in v0.2: en, zh, ja, ko
)

# Initialize the interface
interface = outetts.InterfaceHF(model_version="0.2", cfg=model_config)

# Optional: Create a speaker profile (use a 10-15 second audio clip)
speaker = interface.create_speaker(
audio_path="path/to/audio/file",
transcript="Transcription of the audio file."
)

# Optional: Load speaker from default presets
interface.print_default_speakers()
speaker = interface.load_default_speaker(name="male_1")

output = interface.generate(
text="%Prompt Text%%.",
temperature=0.1,
repetition_penalty=1.1,
max_length=4096,

# Optional: Use a speaker profile
speaker=speaker,
)

# Save the synthesized speech to a file
output.save("output.wav")

📌Лицензирование кода : Apache 2.0 License.

📌Лицензирование модели: CC-BY-NC-4.0 License.


🟡Страница проекта
🟡Модель
🟡GGUF версия
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #TTS #OuteTTS


Artificial Intelligence dan repost
ShowUI is a lightweight vision-language-action model for GUI agents.

🖥 Github: https://github.com/showlab/showui

📕 Paper: https://arxiv.org/abs/2411.17465v1

🌟 Dataset: https://huggingface.co/datasets/showlab/ShowUI-desktop-8K

@ArtificialIntelligencedl


Tips AI | IT & AI dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
🧑‍💻Команда Comfy выпустила настольный клиент для Windows (NVIDIA) и macOS (серия M), который полностью открыт для сообщества, анонс которого был [тут]

— Импортируйте рабочие процессы, пути моделей и прочие настройки прямо в клиент. Больше никаких мучений с перенастройкой.
— Для новичков предусмотрены шаблоны: система сама загрузит всё, что нужно для работы.
— Так же добавили поддержку ControlNet Models for Stable Diffusion 3.5 Large, подробнее [тут]


🐙Гитхаб для установки [тут]
🌐Подробнее [тут]

@tips_ai #tools


эйай ньюз dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
А вот новая моделька SmolVLM работает на M1 Max на скорости в 80 токенов в секунду.

@ai_newz


AI Для Всех dan repost
🚀 SmolVLM: мощная компактная мультимодальная модель от Hugging Face 🤗


🤖 Что такое SmolVLM?

- Компактная мультимодальная модель размером 2 миллиарда параметров
- Полностью открытый исходный код

Технические особенности:

🔬 Архитектура:

Языковой backbone: SmolLM2 1.7B
Визуальное сжатие информации в 9 раз
Размер изображений: 384x384 пикселя
Патчи по 14x14 пикселей

Возможности:

🖼️ Анализ изображений:

- Распознавание объектов
- Описание сцен
- Ответы на вопросы по картинкам


🎥 Работа с видео:

- Анализ до 50 кадров
- Понимание временной последовательности
- Распознавание объектов и действий

📊 Производительность:

Топовые результаты на бенчмарках:

MMMU: 38.8%
MathVista: 44.6%
DocVQA: 81.6%
MMStar (val): 42.1%
TextVQA: 72.7%

🚀 Преимущества:

- Работает на устройствах с низким объемом памяти
- В 3-4 раза быстрее аналогов
- Минимальное использование GPU (от 5 ГБ)

Опубликованы три версии модели:

🔹 SmolVLM-Base - для дообучения
🔹 SmolVLM-Synthetic - обучена на синтетических данных
🔹 SmolVLM Instruct - готова к использованию

🎮Демо


📰 Блог


🤗 Модель


👨‍💻Код для fine-tuning-a


Метаверсище и ИИще dan repost
Если вы в Комфи, то ControlNets for Stable Diffusion 3.5 Large с примерами и промптами уже подробно расписаны вот тут:
https://blog.comfy.org/sd3-5-large-controlnet/

Го тестировать.

@cgevent


Метаверсище и ИИще dan repost
ControlNets for Stable Diffusion 3.5 Large

Конкуренция в действии. Пока на видеополяне хлещутся Luma и Runway, выпуская генераторы картинок, на поляне изображений хлещутся Flux и SD3.5.
Флюкс недавно бахнул свои Tools - набор контролНетов.
И, конечно, ответочка не заставила себя сегодня ждать.

Stable Diffusion 3.5 Large with three ControlNets: Blur, Canny, and Depth.

В отличие от Flux, который продырявил веса Dev и Schnell беспощадным дистиллятом, тюнинг Stable Diffusion 3.5 является более, скажем так, традиционной задачей. Без сюрпризов. Поэтому это отличная новость. Возможно, благодаря контролю картинки, SD3.5 сможет приподдогнать Флюкс на ряде задач.

Плюс заявлена поддержка ComfyUI с первого дня.

Также обещают дополнительные контролНеты и версию для Stable Diffusion 3.5 Medium (2B)

@cgevent

20 ta oxirgi post ko‘rsatilgan.