Huggingface заколлабились с
Ollama и теперь можно любую языковую модель (LLM), у которой на хабе есть GGUF от квантизации, запустить прямо в командной строке вбив строчку формата:
ollama run hf.co/{username}/{repository}
Можно попробовать на чём-то из этого:
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF
На память команды знать не обязательно. Ловчей будет зайти в хабе на страницу интересующей модели, перейти в Quantizations, выбрать создателя кванта (ориентируйтесь по скачиваниям), нажать "скопировать" рядом с названием модели, а дальше в командной строке вбить ollama run hf.co/ и вставить скопированное. Если нужна конкретная квантизация, например Q4_0, то она дописывается в конце рез двоеточие. LLM скачается и с ней можно будет общаться.
Также может понадобиться Ollama добавить в PATH, чтобы оно могло запускаться из любого места в командной строке. Для этого найдите куда приложение установлено (например нажав на иконке и открыв "расположение файла"). Это что-то вроде: C:\Users\PsyEyes\AppData\Local\Programs\Ollama. И в переменных среды найдите строчку Path » изменить » создайте новую строку и впишите в неё адрес.
Сегодня в заголовках
Nvidia с их тюном ламы, красиво светящимся на бенчах против последних моделей Claude и OpenAI. Просто GGUF весит 48 гб. Чтобы подрубить пожатый 1-битный и, возможно, нерепрезентативный квант, весящий 16 гигов и занимающий 20 ГБ VRAM, надо вбить:
ollama run hf.co/bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF:IQ1_M
Хотя мне конечно через командную строку общаться не близко. Нужен UI, чтоб можно было и чаты разные вести, и файлики свои подгружать, итд. Будет ништяк, если это подрубят в
OpenWebUI с Artifacts, а то там сейчас список поддерживаемых моделей ограничен.
АнонсСписок LLM на хаггинге