home.social

#qwen — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #qwen, aggregated by home.social.

  1. RT @stableAPY: Ich kann immer noch nicht fassen, dass meine 3060 12GB Qwen 3.6 35B mit 40 tok/s ausführt. Diese Karte kostet gebraucht etwa 200$, während alle über extrem teure 128GB Unified Memory oder RTX 6000-Karten schwärmen. Eine einzelne 3060 12GB kann für erste lokale KI-Experimente weit von ausreichend entfernt sein – sie ist günstig und in Kombination mit etwas RAM und einem einigermaßen ordentlichen CPU leistet sie ihren Dienst. Natürlich gibt es Decode-Einbrüche, wenn der Kontext wächst, und man kann keine mehreren Sub-Agents gleichzeitig ausführen, aber es ist ein günstiger Einstiegspunkt. Zum Beispiel paart sie sich sehr gut mit meiner 3090: 3090 läuft als Main-Agent 35B -np 2 = so kann ich 2 parallele Agents haben 3060 als Sub-Agent 35B -np1 Auf diese Weise kann mein Main-Hermes Arbeit an diesen Sub-Agent delegieren, während er an etwas anderem arbeitet. Ich führe auch einen Hermes-Cron-Job aus, damit sie den Main-Agent nicht überlasten, und es stört mich nicht, dass es langsamer ist, weil es im Hintergrund passiert.

    mehr auf Arint.info

    #3060 #Hardware #KI #LocalAI #OpenSource #Qwen #arint_info

    https://x.com/stableAPY/status/2054846979755200583#m

  2. AI Art: Exploring new worlds, meeting new people, exchanging new ideas - #Art #AIart #Qwen

  3. AI Art: Exploring new worlds, meeting new people, exchanging new ideas - #Art #AIart #Qwen

  4. AI Art: Exploring new worlds, meeting new people, exchanging new ideas - #Art #AIart #Qwen

  5. 用了幾天發現 #Qwen 3.6 plus 寫代碼是要聰明一些些

  6. 用了幾天發現 #Qwen 3.6 plus 寫代碼是要聰明一些些

  7. #DeepSeek V4 速度比 #Qwen 3.6 Plus 始終要慢好多,它的 CoT 比較長所以更慢,推理成本便宜所以總體來講性價比依然是一流,我目前主要用 Flash 模型,遇到很複雜的問題才會用 Pro 模型,而且基本上都是雙開,尤其是要一邊改代碼一邊寫SKILL

  8. #DeepSeek V4 速度比 #Qwen 3.6 Plus 始終要慢好多,它的 CoT 比較長所以更慢,推理成本便宜所以總體來講性價比依然是一流,我目前主要用 Flash 模型,遇到很複雜的問題才會用 Pro 模型,而且基本上都是雙開,尤其是要一邊改代碼一邊寫SKILL

  9. Qwen 3.6 Max Preview: Developer Guide & Benchmarks 2026

    Alibaba dropped Qwen 3.6 Max Preview on April 20, 2026 — and it immediately claimed the top spot on six major coding and agentic benchmarks, including a 57.3% score on SWE-bench...

    wowhow.cloud/blogs/qwen-3-6-ma

    #wowhow #qwen #alibaba #aicoding

  10. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  11. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  12. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  13. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  14. Been playing around with local models and found a setup that kinda works on a 24GB memory M4 Macbook Pro, here's the writeup #llm #qwen

    jola.dev/posts/running-local-m

  15. Been playing around with local models and found a setup that kinda works on a 24GB memory M4 Macbook Pro, here's the writeup #llm #qwen

    jola.dev/posts/running-local-m

  16. Been playing around with local models and found a setup that kinda works on a 24GB memory M4 Macbook Pro, here's the writeup #llm #qwen

    jola.dev/posts/running-local-m

  17. Been playing around with local models and found a setup that kinda works on a 24GB memory M4 Macbook Pro, here's the writeup #llm #qwen

    jola.dev/posts/running-local-m

  18. Been playing around with local models and found a setup that kinda works on a 24GB memory M4 Macbook Pro, here's the writeup #llm #qwen

    jola.dev/posts/running-local-m

  19. Локальный ИИ на «древнем» железе: выжимаем максимум из AMD RX 580 через Vulkan в Fedora (Llama 3.1, DeepSeek, Qwen 3.5) Я решил прове...

    #ollama #amd #vulkan #fedora #deepseek-r1 #llama #3.1 #qwen #3.5 #n8n #podman

    Origin | Interest | Match
  20. Локальный ИИ на «древнем» железе: выжимаем максимум из AMD RX 580 через Vulkan в Fedora (Llama 3.1, DeepSeek, Qwen 3.5) Я решил прове...

    #amd #Fedora #llama #3.1 #n8n #Ollama #podman #qwen #3.5

    Origin | Interest | Match
  21. @simondueckert @karstenpe Ich habe #Qwen
    Qwen2-VL-2B-Instruct
    Q4 (~1.3 GB on disk )
    Multimodal projector (vision encoder bridge) at Q8
    probiert und es kann mit dem CPU (ThinkPad T480s i5-8350U 16Gb RAM nixos) sehr langsam *einzelnen* Tabelle Einträge oder < 60% sicher #Tesseract ergebnisse richtig OCRen wo tesseract scheitert aber es war eine irre Quälerei mit claude code.
    Haben Sie ein local LLM gefunden???

  22. @simondueckert @karstenpe Ich habe
    Qwen2-VL-2B-Instruct
    Q4 (~1.3 GB on disk )
    Multimodal projector (vision encoder bridge) at Q8
    probiert und es kann mit dem CPU (ThinkPad T480s i5-8350U 16Gb RAM nixos) sehr langsam *einzelnen* Tabelle Einträge oder < 60% sicher ergebnisse richtig OCRen wo tesseract scheitert aber es war eine irre Quälerei mit claude code.
    Haben Sie ein local LLM gefunden???

  23. @simondueckert @karstenpe Ich habe #Qwen
    Qwen2-VL-2B-Instruct
    Q4 (~1.3 GB on disk )
    Multimodal projector (vision encoder bridge) at Q8
    probiert und es kann mit dem CPU (ThinkPad T480s i5-8350U 16Gb RAM nixos) sehr langsam *einzelnen* Tabelle Einträge oder < 60% sicher #Tesseract ergebnisse richtig OCRen wo tesseract scheitert aber es war eine irre Quälerei mit claude code.
    Haben Sie ein local LLM gefunden???

  24. @simondueckert @karstenpe Ich habe #Qwen
    Qwen2-VL-2B-Instruct
    Q4 (~1.3 GB on disk )
    Multimodal projector (vision encoder bridge) at Q8
    probiert und es kann mit dem CPU (ThinkPad T480s i5-8350U 16Gb RAM nixos) sehr langsam *einzelnen* Tabelle Einträge oder < 60% sicher #Tesseract ergebnisse richtig OCRen wo tesseract scheitert aber es war eine irre Quälerei mit claude code.
    Haben Sie ein local LLM gefunden???

  25. @simondueckert @karstenpe Ich habe #Qwen
    Qwen2-VL-2B-Instruct
    Q4 (~1.3 GB on disk )
    Multimodal projector (vision encoder bridge) at Q8
    probiert und es kann mit dem CPU (ThinkPad T480s i5-8350U 16Gb RAM nixos) sehr langsam *einzelnen* Tabelle Einträge oder < 60% sicher #Tesseract ergebnisse richtig OCRen wo tesseract scheitert aber es war eine irre Quälerei mit claude code.
    Haben Sie ein local LLM gefunden???

  26. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  27. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  28. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  29. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  30. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  31. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  32. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  33. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  34. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  35. Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

    В телеграме завирусился пост: якобы кто-то “дообучил Qwen 3.5 до уровня Claude 4.6 Opus и убрал цензуру через Heretic”. Я открыл карточку модели на HuggingFace и провёл вечер, разбираясь, что под капотом. Спойлер: там много интересной техники, но к Claude эта модель имеет такое же отношение, как кроссовки “Adibas” к Adidas. Разбираю distillation, depth upscaling и abliteration без маркетинговой обёртки.

    habr.com/ru/articles/1032324/

    #LLM #Qwen #abliteration #файнтюн #HuggingFace #distillation #intepretability #openweights

  36. Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

    В телеграме завирусился пост: якобы кто-то “дообучил Qwen 3.5 до уровня Claude 4.6 Opus и убрал цензуру через Heretic”. Я открыл карточку модели на HuggingFace и провёл вечер, разбираясь, что под капотом. Спойлер: там много интересной техники, но к Claude эта модель имеет такое же отношение, как кроссовки “Adibas” к Adidas. Разбираю distillation, depth upscaling и abliteration без маркетинговой обёртки.

    habr.com/ru/articles/1032324/

    #LLM #Qwen #abliteration #файнтюн #HuggingFace #distillation #intepretability #openweights