#qwen35 — Public Fediverse posts

https://habr.com/ru/companies/gram_ax/articles/1020248/

#бенчмарк #gemma_3 #gemma_4 #qwen35 #llm #ai

Habr @[email protected] · 2026-04-15 · 08:42 UTC

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/1020248/

#бенчмарк #gemma_3 #gemma_4 #qwen35 #llm #ai

Habr @[email protected] · 2026-04-15 · 08:42 UTC

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/1020248/

#бенчмарк #gemma_3 #gemma_4 #qwen35 #llm #ai

Habr @[email protected] · 2026-04-15 · 08:42 UTC

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в

#rag #ai #llm #qwen35 #gemma_4 #gemma_3

Zygmunt Krynicki @zygoon · 2026-04-08 · 16:06 UTC

I put #Ubuntu 26.04 on a 2019 #MacPro (7,1) with a 32GB HBM2 Vega II GPU. It's surprisingly AWESOME for both gaming (current-gen AAA GOG games through Heroic Launcher run very very well) AND quite awesome at local AI. #Qwen35 getting nearly 80 tokens per second was really unexpected for this nearly obsolete box. All in all, silent and pretty good. Definitely runs better than MacOS.

#ubuntu #macpro #qwen35

Zygmunt Krynicki @[email protected] · 2026-04-08 · 16:06 UTC

I put #Ubuntu 26.04 on a 2019 #MacPro (7,1) with a 32GB HBM2 Vega II GPU. It's surprisingly AWESOME for both gaming (current-gen AAA GOG games through Heroic Launcher run very very well) AND quite awesome at local AI. #Qwen35 getting nearly 80 tokens per second was really unexpected for this nearly obsolete box. All in all, silent and pretty good. Definitely runs better than MacOS.

#ubuntu #macpro #qwen35

Zygmunt Krynicki @[email protected] · 2026-04-08 · 16:06 UTC

I put #Ubuntu 26.04 on a 2019 #MacPro (7,1) with a 32GB HBM2 Vega II GPU. It's surprisingly AWESOME for both gaming (current-gen AAA GOG games through Heroic Launcher run very very well) AND quite awesome at local AI. #Qwen35 getting nearly 80 tokens per second was really unexpected for this nearly obsolete box. All in all, silent and pretty good. Definitely runs better than MacOS.

#ubuntu #macpro #qwen35

Zygmunt Krynicki @[email protected] · 2026-04-08 · 16:06 UTC

I put #Ubuntu 26.04 on a 2019 #MacPro (7,1) with a 32GB HBM2 Vega II GPU. It's surprisingly AWESOME for both gaming (current-gen AAA GOG games through Heroic Launcher run very very well) AND quite awesome at local AI. #Qwen35 getting nearly 80 tokens per second was really unexpected for this nearly obsolete box. All in all, silent and pretty good. Definitely runs better than MacOS.

#qwen35 #macpro #ubuntu

Zygmunt Krynicki @[email protected] · 2026-04-08 · 16:06 UTC

I put #Ubuntu 26.04 on a 2019 #MacPro (7,1) with a 32GB HBM2 Vega II GPU. It's surprisingly AWESOME for both gaming (current-gen AAA GOG games through Heroic Launcher run very very well) AND quite awesome at local AI. #Qwen35 getting nearly 80 tokens per second was really unexpected for this nearly obsolete box. All in all, silent and pretty good. Definitely runs better than MacOS.

#ubuntu #macpro #qwen35

Habr @[email protected] · 2026-04-06 · 15:32 UTC

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

#бенчмарк #qwen35 #gpt54 #теорема_байеса #chainofthought #архитектура

Habr @[email protected] · 2026-04-06 · 15:32 UTC

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

#бенчмарк #qwen35 #gpt54 #теорема_байеса #chainofthought #архитектура

Habr @[email protected] · 2026-04-06 · 15:32 UTC

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

#бенчмарк #qwen35 #gpt54 #теорема_байеса #chainofthought #архитектура

Habr @[email protected] · 2026-04-06 · 15:32 UTC

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought

Dr. Fortyseven 🥃 █▓▒░ @[email protected] · 2026-04-01 · 22:07 UTC

So I've found that #Qwen35's training data knows everything about #Artemis up to this launch, #Artemis2. Knew the astronaut names, etc.

I only had vague notions about future missions, so I asked about it. And it mentioned the "Lunar Gateway". I looked that up on Wikipedia and it was quite accurate. However... it had no way to know the Gateway (an orbiting lunar support station) was axed by the Trump administration in favor of going directly towards building a lunar base.

Sounds to me like some orange baby said _"I want my admin to put a base on the moon, not just another lame ISS! DO IT OR YOU DON'T GET FUNDING!!"_ 🤷

But I'm open to different interpretations, of course. I'm just skeptical and ignorant of the actual science needs.

https://en.wikipedia.org/wiki/Lunar_Gateway

> On July 4, 2025, President Donald Trump signed the One Big Beautiful Bill Act into law, allocating $2.6 billion for the program and requiring at least $750 million annually from FY 2026 through FY 2028.
>
> In early 2026, reports indicated that references to the station had been removed from congressional funding legislation. On February 26, 2026, reporting suggested that NASA Administrator Jared Isaacman was considering restructuring the program toward a lunar surface base effort in Houston.
>
> In March 2026, NASA announced it would no longer build the station and would instead focus on a lunar surface base between 2029 and 2036, repurposing Gateway hardware and partner contributions where possible. Carlos Garcia-Galan, NASA's program manager for the Lunar Gateway, was reassigned to lead the surface base effort but stated that a lunar orbiting outpost "has value in our overall exploration goals" and that NASA may consider it later, but that the agency is now focused on the surface.

#nasa #llm #localLLM

#qwen35 #artemis #artemis2 #nasa #llm #localllm

Dawid @[email protected] · 2026-03-30 · 19:48 UTC

LLMArena and specifically their coding leaderboard, where 27b Qwen model is 20 positions higher than 675b Mistral model shows really good, how slow Mistral is and how much they are lagging behine Chinese open source competition, not even mentioning American SOTA models.

#mistral #mistralai #qwen #qwen35 #ai #artificialintelligence

bosh @[email protected] · 2026-03-30 · 06:30 UTC

La precedente esperienza con Qwen3.5 non aveva dato i risultati sperati. Nonostante ore di lavoro e feedback continui, il modello non è mai riuscito a produrre un’applicazione funzionante: regressioni cicliche ed errori difficilmente superabili con le capacità dello strumento hanno bloccato ogni progresso.

Ho voluto quindi riprovare con Nemotron-Cascade-2, ma le sue richieste hardware si […]

#agenticAi #ai #claudeCode #nemotron #openrouter #qwen35 https://www.b0sh.net/2026/03/nemotron-3-super-vs-qwen3-5-costruire-unapp-con-lai-senza-scrivere-codice/

#agenticai #ai #claudecode #nemotron #openrouter #qwen35

Dr. Fortyseven 🥃 █▓▒░ @[email protected] · 2026-03-20 · 19:09 UTC

It's amusing that #Qwen35 has been particularly sensitive to dates set in "the future" of it's training set. It even called a bunch of recent MCU movies referenced in one particular article as "imaginary" and "just for fun". 😏

#llm #ai

#qwen35 #llm #ai

Maurizio Lo Nobile @[email protected] · 2026-03-09 · 14:11 UTC

Dopo tutto questo hype per il rilascio di Qwen 3.5 ho fatto un test: sviluppare una POC per un cliente nel l'ambito "log collection".
Ve la faccio breve: gli ho fatto produrre un documento .md che raccoglie tutta la POC e poi l'ho testato.

Esito:
- parecchi errori
- ordini ignorati
- inventa comandi nonostante la lettura della doc ufficiale
- centinaia di reiterazioni

IMHO girerà su tutto "come dice qualcuno" ma perdo troppo tempo a correggerlo continuamente.

#qwen35 #ia #logcollection #uno

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Из коробки не работает: запускаем свежие большие LLM

В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным. Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь. В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь. Итак, поехали.

#KimiK25 #DeepSeekv32 #GLM5 #Qwen35 #vllm #B200 #H200

#h200 #b200 #vllm #qwen35 #glm5 #deepseekv32

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Из коробки не работает: запускаем свежие большие LLM

В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным. Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь. В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь. Итак, поехали.

#KimiK25 #DeepSeekv32 #GLM5 #Qwen35 #vllm #B200 #H200

#h200 #b200 #vllm #qwen35 #glm5 #deepseekv32

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Из коробки не работает: запускаем свежие большие LLM

В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным. Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь. В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь. Итак, поехали.

#KimiK25 #DeepSeekv32 #GLM5 #Qwen35 #vllm #B200 #H200

#h200 #b200 #vllm #qwen35 #glm5 #deepseekv32

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Из коробки не работает: запускаем свежие большие LLM

В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным. Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь. В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь. Итак, поехали.