#бенчмарк — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #бенчмарк, aggregated by home.social.
-
Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?
Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.
https://habr.com/ru/articles/1035862/
#LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU
-
Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль
200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла 248 тысяч поведенческих тестов. Это не «пофиксить баг в существующем коде» (как SWE-bench) и не «дописать функцию по сигнатуре» (как HumanEval). Это другой ТИП задачи: спроектировать систему. Внутри — методология, паттерн результатов (что модели вытягивают, а что нет), и почему этот ноль — на самом деле важная новость для тех, кто строит на LLM продакшен.
https://habr.com/ru/articles/1035574/
#ProgramBench #бенчмарк #LLM #кодингагенты #SWEbench #vibecoding #opus_47 #GPT54
-
Как ускорить поиск фраз в Manticore Search
bigram_index можно использовать для разных задач, но в этой статье мы говорим именно о производительности поиска фраз: в приведённом ниже бенчмарке на 1 млн документов bigram_index='all' повысил QPS примерно в 2.9x и сократил среднее время ответа фразовых запросов примерно в 3.2x . Если ваша основная проблема — сопоставление xt850 с xt 850 , а не ускорение поиска фраз, см. Как заставить xt850 совпадать с xt 850 . Поиск по фразам бывает дорогим. Даже если запрос короткий, движку всё равно нужно проверять порядок слов и стоят ли они рядом, и это особенно заметно, когда:
https://habr.com/ru/articles/1032442/
#ускорение_поиска #индексация_поиска #оптимизация_поиска #полнотекстовый_поиск #бенчмарк
-
Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики
Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой. Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне. Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.
https://habr.com/ru/articles/1030706/
#RAG #embeddings #эмбеддинги #реранкер #reranker #nDCG #информационный_поиск #юридический_ИИ #USER2base #бенчмарк
-
Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики
Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой. Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне. Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.
https://habr.com/ru/articles/1030706/
#RAG #embeddings #эмбеддинги #реранкер #reranker #nDCG #информационный_поиск #юридический_ИИ #USER2base #бенчмарк
-
Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики
Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой. Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне. Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.
https://habr.com/ru/articles/1030706/
#RAG #embeddings #эмбеддинги #реранкер #reranker #nDCG #информационный_поиск #юридический_ИИ #USER2base #бенчмарк
-
Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики
Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой. Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне. Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.
https://habr.com/ru/articles/1030706/
#RAG #embeddings #эмбеддинги #реранкер #reranker #nDCG #информационный_поиск #юридический_ИИ #USER2base #бенчмарк
-
Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать
Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в
-
Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать
Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в
-
Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать
Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в
-
Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать
Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в
-
Обзор на мой новый x86 планшет с Core Ultra 5: Ninkear S13
Некоторое время назад у меня появилась необходимость в x86 ноутбуке-трансформере, который я мог бы брать с собой в дорогу. Поскольку я работаю над будущими статьями и проектами даже на отдыхе, мне нужно было устройство на достаточно производительном процессоре, с приличным объёмом ОЗУ и обязательно шустрым накопителем - я нередко собираю весьма тяжелые проекты. По итогу я остановился на трансформере Ninkear S13 с процессором Core Ultra 5 115U , 16ГБ DDR5 ОЗУ и 1ТБ накопителем, о котором и хочу сегодня рассказать Хабровчанам!
https://habr.com/ru/articles/1022440/
#monobogdan_ништячки #ninkear #обзоры #ninkear_s13 #планшет #wintel #таблетка #core_ultra_5 #intel #бенчмарк
-
Обзор на мой новый x86 планшет с Core Ultra 5: Ninkear S13
Некоторое время назад у меня появилась необходимость в x86 ноутбуке-трансформере, который я мог бы брать с собой в дорогу. Поскольку я работаю над будущими статьями и проектами даже на отдыхе, мне нужно было устройство на достаточно производительном процессоре, с приличным объёмом ОЗУ и обязательно шустрым накопителем - я нередко собираю весьма тяжелые проекты. По итогу я остановился на трансформере Ninkear S13 с процессором Core Ultra 5 115U , 16ГБ DDR5 ОЗУ и 1ТБ накопителем, о котором и хочу сегодня рассказать Хабровчанам!
https://habr.com/ru/articles/1022440/
#monobogdan_ништячки #ninkear #обзоры #ninkear_s13 #планшет #wintel #таблетка #core_ultra_5 #intel #бенчмарк
-
Обзор на мой новый x86 планшет с Core Ultra 5: Ninkear S13
Некоторое время назад у меня появилась необходимость в x86 ноутбуке-трансформере, который я мог бы брать с собой в дорогу. Поскольку я работаю над будущими статьями и проектами даже на отдыхе, мне нужно было устройство на достаточно производительном процессоре, с приличным объёмом ОЗУ и обязательно шустрым накопителем - я нередко собираю весьма тяжелые проекты. По итогу я остановился на трансформере Ninkear S13 с процессором Core Ultra 5 115U , 16ГБ DDR5 ОЗУ и 1ТБ накопителем, о котором и хочу сегодня рассказать Хабровчанам!
https://habr.com/ru/articles/1022440/
#monobogdan_ништячки #ninkear #обзоры #ninkear_s13 #планшет #wintel #таблетка #core_ultra_5 #intel #бенчмарк
-
Обзор на мой новый x86 планшет с Core Ultra 5: Ninkear S13
Некоторое время назад у меня появилась необходимость в x86 ноутбуке-трансформере, который я мог бы брать с собой в дорогу. Поскольку я работаю над будущими статьями и проектами даже на отдыхе, мне нужно было устройство на достаточно производительном процессоре, с приличным объёмом ОЗУ и обязательно шустрым накопителем - я нередко собираю весьма тяжелые проекты. По итогу я остановился на трансформере Ninkear S13 с процессором Core Ultra 5 115U , 16ГБ DDR5 ОЗУ и 1ТБ накопителем, о котором и хочу сегодня рассказать Хабровчанам!
https://habr.com/ru/articles/1022440/
#monobogdan_ништячки #ninkear #обзоры #ninkear_s13 #планшет #wintel #таблетка #core_ultra_5 #intel #бенчмарк
-
Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn
Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы. Структура 1. Почему RAG сложно оценивать 2. Идея DRAGOn 3. Как строится бенчмарк 4. Проверка качества QA 5. Проверка бенчмарка на RAG-системах 6. Публичный лидерборд 7. Ограничения, проблемы и практические выводы
https://habr.com/ru/companies/ru_mts/articles/1021202/
#искусственный_интеллект #rag #бенчмарк #nlp #машинное+обучение #llm #llm_as_a_judge #датасет
-
Один скилл, четыре модели — что может пойти не так
На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты
https://habr.com/ru/articles/1020786/
#AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты
-
Один скилл, четыре модели — что может пойти не так
На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты
https://habr.com/ru/articles/1020786/
#AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты
-
Один скилл, четыре модели — что может пойти не так
На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты
https://habr.com/ru/articles/1020786/
#AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты
-
Один скилл, четыре модели — что может пойти не так
На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты
https://habr.com/ru/articles/1020786/
#AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты
-
Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже
Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.
https://habr.com/ru/articles/1020016/
#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк
-
Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже
Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.
https://habr.com/ru/articles/1020016/
#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк
-
Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже
Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.
https://habr.com/ru/articles/1020016/
#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк
-
Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже
Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.
https://habr.com/ru/articles/1020016/
#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк
-
Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали
Один простой вопрос. Девять уверенных ответов. Восемь из них — ложь. примечание: Иллюстрация сгалюционирована ИИ Я отправил 29 крупнейшим языковым моделям мира одно сообщение — и стал ждать. Я думал: модель либо знает ответ, либо не знает; и честно скажет об этом. Третьего не дано. Оказалось — дано. И это третье называется галлюцинация с полной уверенностью в своей правоте . Результаты изменили моё понимание того, насколько мы можем доверять ИИ
https://habr.com/ru/articles/1014556/
#llm #галлюцинации #нейросети #chatgpt #искусственный_интеллект #бенчмарк #claude #gemini #gpt5 #openai
-
Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский
Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает. Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.
https://habr.com/ru/articles/1014584/
#LLM #бенчмарк #ФГОС #образование #чувашский_язык #GPT #Claude #Gemini #opensource #нейросети
-
Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать
Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деградирует из-за SeqScan в функции проверки существования. Один патч — и TPS вырос в 15 раз. Рассказываем, как до этого докопались.
https://habr.com/ru/companies/postgrespro/articles/1012716/
#PostgreSQL #Apache_AGE #Графовые_базы_данных #Нагрузочное_тестирование #Производительность #openCypher #LDBC #Бенчмарк #Расширения_PostgreSQL #Postgres_Pro
-
Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать
Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деградирует из-за SeqScan в функции проверки существования. Один патч — и TPS вырос в 15 раз. Рассказываем, как до этого докопались.
https://habr.com/ru/companies/postgrespro/articles/1012716/
#PostgreSQL #Apache_AGE #Графовые_базы_данных #Нагрузочное_тестирование #Производительность #openCypher #LDBC #Бенчмарк #Расширения_PostgreSQL #Postgres_Pro
-
Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать
Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деградирует из-за SeqScan в функции проверки существования. Один патч — и TPS вырос в 15 раз. Рассказываем, как до этого докопались.
https://habr.com/ru/companies/postgrespro/articles/1012716/
#PostgreSQL #Apache_AGE #Графовые_базы_данных #Нагрузочное_тестирование #Производительность #openCypher #LDBC #Бенчмарк #Расширения_PostgreSQL #Postgres_Pro
-
Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать
Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деградирует из-за SeqScan в функции проверки существования. Один патч — и TPS вырос в 15 раз. Рассказываем, как до этого докопались.
https://habr.com/ru/companies/postgrespro/articles/1012716/
#PostgreSQL #Apache_AGE #Графовые_базы_данных #Нагрузочное_тестирование #Производительность #openCypher #LDBC #Бенчмарк #Расширения_PostgreSQL #Postgres_Pro
-
ИИ с характером: как я измерил независимость 49 моделей
Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.
https://habr.com/ru/articles/1013180/
#ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия
-
ИИ с характером: как я измерил независимость 49 моделей
Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.
https://habr.com/ru/articles/1013180/
#ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия
-
ИИ с характером: как я измерил независимость 49 моделей
Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.
https://habr.com/ru/articles/1013180/
#ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия
-
ИИ с характером: как я измерил независимость 49 моделей
Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.
https://habr.com/ru/articles/1013180/
#ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия
-
Бенчмарк DGX Spark с LLM Qwen3: кому подойдет, почему 128 ГБ не серебряная пуля и о чем умолчал маркетинг NVIDIA
У всех кто работает с LLM моделями случалось, что модель на 32B параметров не влезает в 24 ГБ VRAM вашей RTX 4090, offload на CPU убивает скорость, а облако — дорого и данные уходят на сторону. NVIDIA обещает нам решение: DGX Spark (он же GB10) с 128 ГБ unified memory за ~400-500 тысяч рублей. Мы потратили две недели на глубокие бенчмарки устройства и результаты оказались... неоднозначными. В статье будет много графиков, сравнение нескольких форматов квантизации, тесты разных объемов подаваемого контекста, сравнения с более привычными GPU и оценка финансовой эффективности такой покупки. Цель бенчмарка разобраться, в каких ситуациях DGX Spark показывает свои преимущества, а где его архитектурные ограничения становятся узким местом и предпочтительнее выбирать другие решения. Открыть бенчмарк
https://habr.com/ru/articles/994058/
#DGX_Spark #NVIDIA #Большие_языковые_модели #Нейросети #AI #Искусственный_интеллект #Бенчмарк #Промышленность #Qwen3 #Сезон_Heavy_Digital
-
[Перевод] Как изменялась Raspberry Pi: тесты производительности
Сегодня мы хотим рассмотреть на практике 13 летнюю историю разработки Raspberry Pi. У меня есть экземпляры каждого поколения Pi, от оригинальной модели из 2012 года, до Pi 5, которая вышла чуть больше года назад. В этой статье мы изучим, что менялось от поколения к поколению, как менялись их производительность и энергопотребление, проведя несколько тестов.
https://habr.com/ru/articles/988770/
#Raspberry_PI #бенчмарк #программирование_микроконтроллеров #микроконтроллеры #одноплатные_компьютеры
-
[Перевод] Разработка технических тестовых заданий, устойчивых к ИИ
Оценивать технических кандидатов становится всё сложнее по мере роста возможностей ИИ. Тестовое задание, которое сегодня хорошо разграничивает уровни квалификации, завтра может быть тривиально решено моделью — и полностью потеряет ценность как инструмент отбора.
https://habr.com/ru/companies/cloud4y/articles/988608/
#Anthropic #Claude_35 #Claude_4 #Тестовое_задание #LLM #Бенчмарк #ИИ
-
Делай Bench: мой опыт слепого human-evalбенчмарка нейросетей для юристов
Привет и с Новым годом, Хабр! Меня зовут Екатерина, я практикующий юрист, исследую эффективное применение нейросетей в юридических задачах. В декабре ушедшего года я провела необычный для себя и российского LegalTech-рынка эксперимент: с помощью одиннадцати коллег-оценщиков организовала небольшоенезависимое слепое сравнение пяти нейросетевых сервисов. В этой публикации хочу рассказать о вызовах human-eval бенчмарка в домене, где зачастую нет единственно правильных ответов, интересных выводах исследования, полученной мной обратной связи и дальнейших планах.
-
Протестировал 8 брендов LLM на честность, логику и креатив. Claude победил, но Алиса неожиданно в топ-3
Бенчмарки LLM множатся как грибы после дождя, но обычному пользователю от них мало толку. Оценки программирования, математики, этики — всё это важно для разработчиков, но что, если вы просто хотите получить помощь в повседневных задачах? Я решил проверить популярные модели на том, что действительно важно: - Креативность без потери здравого смысла - Логика без галлюцинаций - Внимание к деталям без педантизма Все промпты — в статье. Можете повторить и проверить мои выводы.
https://habr.com/ru/articles/971600/
#искусственный_интеллект #llm #бенчмарк #сезон_ии_в_разработке #yandexgpt #gigachat
-
Пожиратель токенов (или нет): анатомия протокола MCP для ИИ-агентов
Поводом написания этой статьи послужил подслушанный диалог: А на чем у вас агенты написаны? У нас на MCP! Для меня MCP всегда был просто протоколом, то есть именно способом отправки и обработки запросов. А когда я слушал выступления или читал некоторые статьи о том, как плох/хорош MCP, меня не покидало ощущение чего-то странного. Но все же решил, что это от незнания, и я чего-то не понимаю. А когда не понимаешь, но очень хочешь понимать, то самый лучший способ — это взять и разобраться. Именно это предлагаю и сделать в статье, а также замерить MCP, чтобы ответить на вечный вопрос: сколько сжирает MCP, подключать ли его вообще или и так сойдет?
https://habr.com/ru/articles/956150/
#mcp #protocol #model_context_protocol #anthropic #бенчмарк #llm #ииагенты #aiagents #язковые_модели #мультиагентные_системы
-
Самая быстрая БД на Диком Западе
Всем привет! Пополняю интернеты “еще одной” статейкой с бенчмарками популярных СУБД. Захотелось выяснить, каков оверхед на протокол, работу с сетью и клиентскими соединениями в самом простом кейсе - когда таблица либо совсем пуста, либо данных так мало, что все они в памяти. Бенчмарк на Rust. Я попросил написать его Chat-GPT, и он отлично справился. Исходник здесь - https://github.com/geneopenminder/rust-db-bench Сравнивал с официальными scylla-bench и redis-bench - результаты схожи. Для теста я специально использовал слабую железку - Orange Pi 3b. Это китайский аналог малинки. Захотелось узнать, на что она способна.
https://habr.com/ru/articles/948386/
#бенчмарк #база_данных #rust #postgresql #mongodb #cassandra #scylladb #redis
-
Как прокачать Java-приложения без миграции: Axiom JDK Express теперь на JVM 21
Мы знаем, как это бывает: проект на Java 8 живёт уже десятый год, релизить страшно, тестов мало, миграция пугает, а система критичная. И вот бизнес хочет «ускорить и не трогать».
https://habr.com/ru/companies/axiomjdk/articles/944036/
#axiom_jdk #axiomjdk #бенчмарки #ускорение_кода #производительность_приложений #jvm #бенчмарк #jdk_8 #jdk_11 #ускорение_приложений
-
Топ LLM для задач text‑to‑SQL: результаты теста DeepSeek R1-0528, Gemini 2.5 Pro, o3 (и ещё трёх моделей)
В первой части мы разобрали теорию text‑to‑SQL: как LLM заменяют разработчиков, почему RAG и CoT спасают от галлюцинаций и зачем Scale AI дообучает ChatGPT-4. Но теория неполна без практики! В этом материале — жёсткое тестирование моделей (ChatGPT o3-mini‑high, ChatGPT 4.1, Claude Sonnet 4, ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1–0528) на бенчмарке LiveSQLBench. 6 моделей, 10 задач, сложность от ★★ до ★★★★★★★★★★. Проверим, как они считают лунные помехи, генерируют SQL для криптобирж и ищут артефакты в музеях.
https://habr.com/ru/companies/bothub/articles/925712/
#texttosql #nl2sql #бенчмарк #chatgpt_o3minihigh #chatgpt_41 #claude_sonnet_4 #chatgpt_o3 #gemini_25_pro #deepseek_r10528
-
Современные подходы «из текста в SQL»: RAG, CoT и другие хитрости
Как превратить текст «Сколько было продано камер в прошлом месяце?» в осмысленный SQL‑запрос? Это и есть задача text‑to‑SQL (ее ещё называют NL2SQL). Для многих компаний сейчас очень важна возможность задавать вопросы к данным обычным языком, без изучения SQL. Для этой задачи написаны десятки инструментов, но суть одна — генерация корректного запроса из фразы на человеческом языке. Требование проясняется примером: бизнес‑пользователь хочет узнать: «Какие топ-5 товаров по выручке за вчерашний день?» — а система превращает это в SELECT product, SUM(revenue) ... LIMIT 5 и выдаёт результат. До недавнего времени требовались сложные пайплайны или ручное кодирование, а сейчас на сцене — большие языковые модели (LLM) и всякие прокачанные методы достучаться до них. В этой статье мы пробежимся по ретро‑ и ультрасовременным подходам к text‑to‑SQL. Плюс обзору добавим практических инсайтов.
https://habr.com/ru/companies/bothub/articles/925632/
#текст_в_sql #text_to_sql #nl2sql #rag #sql #промтинжиниринг #бенчмарк #livesqlbench
-
[Перевод] Как провести бенчмарк кластера Camunda 8
«Могу ли я выполнять 10, 100 или 1000 экземпляров процессов в секунду на этом кластере Camunda 8?» Это типичный вопрос, который нам задают в последнее время, и на него можно ответить с помощью бенчмаркинга. Давайте разберёмся в этой увлекательной теме в сегодняшнем посте.
https://habr.com/ru/articles/910898/
#Camunda #Zeeby #бенчмарк #нагрузочное_тестирование #бизнеспроцессы
-
ChatGPT-4.5: бенчмарки, генерация художественных текстов и сравнение с DeepSeek-r1
В конце февраля OpenAI официально представила ChatGPT-4.5 — самую крупную и продвинутую модель для диалогового взаимодействия на сегодняшний день. 4.5 обладает улучшенными навыками общения и письма, расширенным кругозором и, как заявляет компания, «более утончённой личностью» в сравнении с предыдущими версиями. Но что это вообще за модель? OpenAI не слишком хорошо объяснила, что она из себя представляет. Поэтому давайте разберёмся сами, как показывает себя эта новейшая и пока ещё не до конца понятная нейросеть компании в различных тестах и генерации контента.
https://habr.com/ru/companies/bothub/articles/889996/
#ии #ai #chatgpt_45 #chatgpt_4o #deepseek_r1 #grok_3 #бенчмарк
-
В PostgreSQL необходим официальный бенчмарк для функции uuidv7()
В 18 версии PostgreSQL появится функция uuidv7() . Она разработана для замены последовательных автоинкрементных идентификаторов SERIAL, BIGSERIAL и IDENTITY, которые могут привести к катастрофическому дублированию ключей при слиянии данных, и для замены более медленных UUIDv4. Использование функции uuidv7() позволит упростить архитектуру информационных систем, упростить SQL-запросы, избежать некоторых ошибок, облегчить внесение изменений и благодаря этому повысить надежность и снизить стоимость разработки и сопровождения информационных систем. Однако для объективной и корректной оценки использования функции uuidv7() необходим официальный бенчмарк в PostgreSQL. Без такого бенчмарка может быть сделан необоснованный выбор в пользу автоинкремента.
-
Модель o3 от OpenAI показала результат 75,7% в бенчмарке ARC-AGI-Pub
Франсуа Шолле, создатель фреймворка Keras и основатель ARC Prize Foundation, поделился итогами тестов новой модели o3 от OpenAI в тестах бенчмарка ARC-AGI-Pub. Эта модель достигла впечатляющего результата — 75,7% на полу-приватном наборе оценки при соблюдении установленного публичного лимита вычислительных ресурсов в $10 тысяч. Конфигурация o3 с увеличенным уровнем вычислений (172-кратное увеличение) показала результат 87,5%. Этот результат представляет собой неожиданный и значительный скачок в возможностях искусственного интеллекта, демонстрируя способность к адаптации к новым задачам, ранее невиданную в моделях семейства GPT. Для сравнения, ARC-AGI-1 потребовал 4 года, чтобы повысить результат с 0% у GPT-3 в 2020 году до 5% у GPT-4o в 2024 году. Все представления о возможностях ИИ требуют пересмотра подхода к бенчмаркам ARC в свете достижений o3.
https://habr.com/ru/articles/869098/
#AI #openai #o3 #arc #arcagi #бенчмарк #искусственный_интеллект #ии
-
Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд
Всем привет! Меня зовут Роман Соломатин, я представляю команду AI-Run из X5 Tech, мы занимаемся генеративными сетями в целом и языковыми моделями в частности. Несколько месяцев назад русскоязычное сообщество разработчиков искусственного интеллекта получило инструмент для оценки моделей — бенчмарк ruMTEB (Massive Text Embedding Benchmark). Однако, первая версия ruMTEB имела 6 протестированных моделей, но при этом отсутствовал удобный лидерборд. Мы решили улучшить ситуацию и провести дополнительное тестирование, чтобы сделать бенчмарк более репрезентативным и полезным для сообщества. Что у нас получилось
https://habr.com/ru/companies/X5Tech/articles/845398/
#бенчмарк #rumteb #эмбеддинги #искусственный_интеллект #языковые_модели #лидерборд #векторизация #Massive_Text_Embedding_Benchmark