home.social

#локальные_модели — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #локальные_модели, aggregated by home.social.

  1. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

  2. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

  3. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

  4. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

  5. Ollama 0.23: Claude Desktop теперь запускается из терминала. Без бубна

    Заголовок звучит как что-то из разряда «хакерских трюков», но на деле это официальный релиз. 3 мая 2026 года (в мой день рождения) разработчики Ollama опубликовали версию 0.23 — и главным событием стала прямая интеграция с десктопным приложением Claude.

    habr.com/ru/articles/1031922/

    #Ollama #Claude_Desktop #интеграция #локальные_модели #запуск

  6. Токенная разработка: почему я плачу $200 в месяц, а не $800 за устаревшее железо

    $800 на видеокарту которая устареет через год или $200/мес с доступом к frontier-моделям? Вот мои цифры

    habr.com/ru/articles/1030678/

    #LLM #API #токены #GPU #локальные_модели #Ollama #tokenomics #AI_разработка #стоимость_разработки

  7. [Перевод] Как дообучать локальные LLM в 2026 году: практическое руководство

    В 2026 году дообучение локальных LLM перестало быть задачей «для тех, у кого есть кластер и бюджет». Снижение требований к VRAM, развитие QLoRA и появление инструментов вроде Unsloth сделали возможным запуск полноценного fine-tuning на обычной потребительской видеокарте. Это меняет практику: теперь модель можно адаптировать под свои задачи без облаков и внешних API, контролируя и данные, и поведение. В статье разбирается весь процесс — от момента, когда вообще стоит задуматься о дообучении, до подготовки датасета, настройки обучения и оценки результата. Без абстракций и с фокусом на реальных ограничениях: память, время, качество данных и то, как не получить на выходе модель, которая «что-то выучила», но работать с ней невозможно. Открыть материал

    habr.com/ru/companies/otus/art

    #LLM #локальные_llm #дообучение #fine_tuning #дообучение_LLM #локальные_модели #QLoRA #RAG #LoRA

  8. Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

    Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp. Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.

    habr.com/ru/articles/1026482/

    #llm #локальные_модели #qwen #moe #lm_studio #opencode #llamacpp #искусственный_интеллект #rtx_4070 #aiассистент

  9. Топ локальных нейросетей 2026: полный суверенитет без интернета

    Я долгое время была в отношениях с облачными нейросетями. Это было удобно, даже комфортно. Открыла браузер, написала промпт и через пару секунд получила ответ. Но в последнее время отношения начали давать трещину. Интернет стал неотъемлемой частью нашей жизни, но в 2026 году мир переживает непростые времена. Ситуация крайне нестабильна, и это вызывает у каждого чувство неуверенности. Возникает закономерный вопрос: а можно ли как-то подстраховаться? Чтобы нейросеть всегда была под рукой, даже когда провайдер решил устроить себе выходной или на телефон пришло очередное оповещение о беспилотной опасности. Оказалось, что можно. И не просто можно, а вполне себе комфортно. К 2026 году локальные нейросети доросли до того состояния, когда их действительно имеет смысл использовать. Не как хобби для гиков с тремя видеокартами в башне, а как рабочий инструмент. Они всё ещё требуют некоторых технических знаний (куда без них). Но порог входа заметно снизился. В этой статье я собрала шесть инструментов, которые работают полностью без интернета. Ну, почти полностью - устанавливать их придётся онлайн, но после этого можно смело отключать Wi-Fi и наслаждаться цифровым суверенитетом. Приятного прочтения!

    habr.com/ru/companies/bothub/a

    #ии #ии_и_машинное_обучение #ai #локальные_модели #ии_модели #облачные_нейросети #цифровой_суверенитет #Hugging_Face #GPT4All

  10. Топ локальных нейросетей 2026: полный суверенитет без интернета

    Я долгое время была в отношениях с облачными нейросетями. Это было удобно, даже комфортно. Открыла браузер, написала промпт и через пару секунд получила ответ. Но в последнее время отношения начали давать трещину. Интернет стал неотъемлемой частью нашей жизни, но в 2026 году мир переживает непростые времена. Ситуация крайне нестабильна, и это вызывает у каждого чувство неуверенности. Возникает закономерный вопрос: а можно ли как-то подстраховаться? Чтобы нейросеть всегда была под рукой, даже когда провайдер решил устроить себе выходной или на телефон пришло очередное оповещение о беспилотной опасности. Оказалось, что можно. И не просто можно, а вполне себе комфортно. К 2026 году локальные нейросети доросли до того состояния, когда их действительно имеет смысл использовать. Не как хобби для гиков с тремя видеокартами в башне, а как рабочий инструмент. Они всё ещё требуют некоторых технических знаний (куда без них). Но порог входа заметно снизился. В этой статье я собрала шесть инструментов, которые работают полностью без интернета. Ну, почти полностью - устанавливать их придётся онлайн, но после этого можно смело отключать Wi-Fi и наслаждаться цифровым суверенитетом. Приятного прочтения!

    habr.com/ru/companies/bothub/a

    #ии #ии_и_машинное_обучение #ai #локальные_модели #ии_модели #облачные_нейросети #цифровой_суверенитет #Hugging_Face #GPT4All

  11. Топ локальных нейросетей 2026: полный суверенитет без интернета

    Я долгое время была в отношениях с облачными нейросетями. Это было удобно, даже комфортно. Открыла браузер, написала промпт и через пару секунд получила ответ. Но в последнее время отношения начали давать трещину. Интернет стал неотъемлемой частью нашей жизни, но в 2026 году мир переживает непростые времена. Ситуация крайне нестабильна, и это вызывает у каждого чувство неуверенности. Возникает закономерный вопрос: а можно ли как-то подстраховаться? Чтобы нейросеть всегда была под рукой, даже когда провайдер решил устроить себе выходной или на телефон пришло очередное оповещение о беспилотной опасности. Оказалось, что можно. И не просто можно, а вполне себе комфортно. К 2026 году локальные нейросети доросли до того состояния, когда их действительно имеет смысл использовать. Не как хобби для гиков с тремя видеокартами в башне, а как рабочий инструмент. Они всё ещё требуют некоторых технических знаний (куда без них). Но порог входа заметно снизился. В этой статье я собрала шесть инструментов, которые работают полностью без интернета. Ну, почти полностью - устанавливать их придётся онлайн, но после этого можно смело отключать Wi-Fi и наслаждаться цифровым суверенитетом. Приятного прочтения!

    habr.com/ru/companies/bothub/a

    #ии #ии_и_машинное_обучение #ai #локальные_модели #ии_модели #облачные_нейросети #цифровой_суверенитет #Hugging_Face #GPT4All

  12. Топ локальных нейросетей 2026: полный суверенитет без интернета

    Я долгое время была в отношениях с облачными нейросетями. Это было удобно, даже комфортно. Открыла браузер, написала промпт и через пару секунд получила ответ. Но в последнее время отношения начали давать трещину. Интернет стал неотъемлемой частью нашей жизни, но в 2026 году мир переживает непростые времена. Ситуация крайне нестабильна, и это вызывает у каждого чувство неуверенности. Возникает закономерный вопрос: а можно ли как-то подстраховаться? Чтобы нейросеть всегда была под рукой, даже когда провайдер решил устроить себе выходной или на телефон пришло очередное оповещение о беспилотной опасности. Оказалось, что можно. И не просто можно, а вполне себе комфортно. К 2026 году локальные нейросети доросли до того состояния, когда их действительно имеет смысл использовать. Не как хобби для гиков с тремя видеокартами в башне, а как рабочий инструмент. Они всё ещё требуют некоторых технических знаний (куда без них). Но порог входа заметно снизился. В этой статье я собрала шесть инструментов, которые работают полностью без интернета. Ну, почти полностью - устанавливать их придётся онлайн, но после этого можно смело отключать Wi-Fi и наслаждаться цифровым суверенитетом. Приятного прочтения!

    habr.com/ru/companies/bothub/a

    #ии #ии_и_машинное_обучение #ai #локальные_модели #ии_модели #облачные_нейросети #цифровой_суверенитет #Hugging_Face #GPT4All

  13. Память для LLM-чата на Python. Часть 3: добавляем историю сообщений и контекст

    Во второй части мы сделали консольный чат с циклом и system prompt. Но у него был пробел: каждый запрос шёл к модели независимо, без контекста предыдущих реплик. В третьей части добавляем историю сообщений — и чат наконец начинает помнить разговор.

    habr.com/ru/articles/1018688/

    #python #ollama #litellm #llm #локальные_модели #искуственный_интеллект #npl #чатбот #ai #large_language_model

  14. Как установить DeepSeek на сервере: практическое руководство

    Рано или поздно наступает момент, когда понимаете: без LLM, работающей только на вас, дальше жить нельзя. Публичные модели, даже в платных подписках, — это всегда риск. Сомнения в том, не сливает ли какой-нибудь OpenAI или Alibaba вашу переписку, никуда не деваются, а внезапные «извините, этот сервис недоступен в вашем регионе» или жесткая цензура окончательно все портят. В этой статье попытаемся решить проблему — рассмотрим, как запустить DeepSeek

    habr.com/ru/companies/selectel

    #selectel #deepseek #ai #сервер #локальные_модели

  15. Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 2: делаем консольный чат

    Делаем из простого скрипта настоящий консольный чат: цикл общения, system prompt, обработка ошибок и первые шаги к “живому” AI-приложению на Python с Ollama и LiteLLM.

    habr.com/ru/articles/1012506/

    #llm #llmмодели #llmприложения #чатбот #ai #nlp #python #ollama #litellm #локальные_модели

  16. Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 2: делаем консольный чат

    Делаем из простого скрипта настоящий консольный чат: цикл общения, system prompt, обработка ошибок и первые шаги к “живому” AI-приложению на Python с Ollama и LiteLLM.

    habr.com/ru/articles/1012506/

    #llm #llmмодели #llmприложения #чатбот #ai #nlp #python #ollama #litellm #локальные_модели

  17. Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 2: делаем консольный чат

    Делаем из простого скрипта настоящий консольный чат: цикл общения, system prompt, обработка ошибок и первые шаги к “живому” AI-приложению на Python с Ollama и LiteLLM.

    habr.com/ru/articles/1012506/

    #llm #llmмодели #llmприложения #чатбот #ai #nlp #python #ollama #litellm #локальные_модели

  18. Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 2: делаем консольный чат

    Делаем из простого скрипта настоящий консольный чат: цикл общения, system prompt, обработка ошибок и первые шаги к “живому” AI-приложению на Python с Ollama и LiteLLM.

    habr.com/ru/articles/1012506/

    #llm #llmмодели #llmприложения #чатбот #ai #nlp #python #ollama #litellm #локальные_модели

  19. Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос

    Простой старт в LLM-разработке без API-ключей и облака: ставим Ollama, скачиваем модель и делаем первый вызов из Python через LiteLLM.

    habr.com/ru/articles/1012182/

    #Python #Ollama #LiteLLM #LLM #локальные_модели #искусственный_интеллект #NLP #чатбот #AI #large_language_model

  20. Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

    Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.

    habr.com/ru/articles/994618/

    #LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели

  21. [Перевод] OpenCode + Docker Model Runner для локальной разработки с ИИ

    Команда AI for Devs подготовила перевод статьи о том, как использовать OpenCode вместе с Docker Model Runner для локальной разработки с LLM. В центре внимания — контроль над кодом, данными и затратами: модели запускаются локально, контекст не уходит во внешние сервисы, а ИИ-ассистент становится частью вашей инфраструктуры, а не сторонним SaaS. Практический разбор для тех, кто хочет использовать ИИ в разработке без компромиссов по безопасности и стоимости.

    habr.com/ru/articles/987118/

    #runner #разработка #локальные_модели #llm #devops

  22. [Перевод] Парадокс безопасности локальных LLM

    Команда AI for Devs подготовила перевод исследования о парадоксе безопасности локальных LLM. Если вы запускаете модели на своём сервере ради приватности, эту статью стоит прочитать. Эксперименты показывают: локальные модели вроде gpt-oss-20b куда легче обмануть, чем облачные аналоги. Они чаще вставляют вредоносный код, не замечая подвоха, и превращаются в идеальную цель для атак.

    habr.com/ru/articles/960132/

    #LLM #безопасность #локальные_модели #атаки #бекдор #eval #exec #RedTeaming #приватность #разработка

  23. [Перевод] Парадокс безопасности локальных LLM

    Команда AI for Devs подготовила перевод исследования о парадоксе безопасности локальных LLM. Если вы запускаете модели на своём сервере ради приватности, эту статью стоит прочитать. Эксперименты показывают: локальные модели вроде gpt-oss-20b куда легче обмануть, чем облачные аналоги. Они чаще вставляют вредоносный код, не замечая подвоха, и превращаются в идеальную цель для атак.

    habr.com/ru/articles/960132/

    #LLM #безопасность #локальные_модели #атаки #бекдор #eval #exec #RedTeaming #приватность #разработка

  24. [Перевод] Парадокс безопасности локальных LLM

    Команда AI for Devs подготовила перевод исследования о парадоксе безопасности локальных LLM. Если вы запускаете модели на своём сервере ради приватности, эту статью стоит прочитать. Эксперименты показывают: локальные модели вроде gpt-oss-20b куда легче обмануть, чем облачные аналоги. Они чаще вставляют вредоносный код, не замечая подвоха, и превращаются в идеальную цель для атак.

    habr.com/ru/articles/960132/

    #LLM #безопасность #локальные_модели #атаки #бекдор #eval #exec #RedTeaming #приватность #разработка

  25. [Перевод] Парадокс безопасности локальных LLM

    Команда AI for Devs подготовила перевод исследования о парадоксе безопасности локальных LLM. Если вы запускаете модели на своём сервере ради приватности, эту статью стоит прочитать. Эксперименты показывают: локальные модели вроде gpt-oss-20b куда легче обмануть, чем облачные аналоги. Они чаще вставляют вредоносный код, не замечая подвоха, и превращаются в идеальную цель для атак.

    habr.com/ru/articles/960132/

    #LLM #безопасность #локальные_модели #атаки #бекдор #eval #exec #RedTeaming #приватность #разработка

  26. Локальные LLM модели: обзор и тестирование

    В ★5УГЛОВ мы часто работаем с языковыми моделями — как облачными, так и локальными. И если про онлайн-сервисы знают все, то локальные LLM до сих пор остаются недооцененным инструментом. Я решил поделиться личным опытом: какие модели можно запускать прямо на ПК, чем они полезны и зачем их вообще использовать в реальных проектах. Большие языковые модели (Large Language Model, LLM) уже давно не являются громоздкими программными продуктами, закрытыми от пользовательских доработок и требующими огромных вычислительных мощностей. Многие ИИ можно скачать и запустить на обычном компьютере без интернета. Популярны так называемые "дистиллированные" модели — сжатые версии основных нейросетей, имеющие меньше параметров. Они требуют меньше ресурсов и могут работать даже на не самых мощных настольных ПК или ноутбуках. За последнее время локальные ИИ заметно улучшились: они стали быстрее, стабильнее и качественнее. Если раньше многие из них стремились отвечать по-китайски (если явно не указать язык), то сегодня выбор значительно шире и работать с ними удобнее. Попробуем оценить самые популярные на разных задачах и выбрать лучшую.

    habr.com/ru/articles/946900/

    #LLM #локальные_модели #нейросети #искусственный_интеллект #машинное_обучение #генерация_кода #Ollama #qwen #gemma #deepseek