#бенчмарк — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-16 · 09:22 UTC

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

https://habr.com/ru/articles/1035862/

#LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

#gpu #бенчмарк #gqa #kv_cache #квантование #локальные_модели

Habr @[email protected] · 2026-05-15 · 11:22 UTC

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла 248 тысяч поведенческих тестов. Это не «пофиксить баг в существующем коде» (как SWE-bench) и не «дописать функцию по сигнатуре» (как HumanEval). Это другой ТИП задачи: спроектировать систему. Внутри — методология, паттерн результатов (что модели вытягивают, а что нет), и почему этот ноль — на самом деле важная новость для тех, кто строит на LLM продакшен.

https://habr.com/ru/articles/1035574/

#ProgramBench #бенчмарк #LLM #кодингагенты #SWEbench #vibecoding #opus_47 #GPT54

#gpt54 #opus_47 #vibecoding #swebench #кодингагенты #llm

Habr @[email protected] · 2026-05-08 · 05:02 UTC

Как ускорить поиск фраз в Manticore Search

bigram_index можно использовать для разных задач, но в этой статье мы говорим именно о производительности поиска фраз: в приведённом ниже бенчмарке на 1 млн документов bigram_index='all' повысил QPS примерно в 2.9x и сократил среднее время ответа фразовых запросов примерно в 3.2x . Если ваша основная проблема — сопоставление xt850 с xt 850 , а не ускорение поиска фраз, см. Как заставить xt850 совпадать с xt 850 . Поиск по фразам бывает дорогим. Даже если запрос короткий, движку всё равно нужно проверять порядок слов и стоят ли они рядом, и это особенно заметно, когда:

https://habr.com/ru/articles/1032442/

#ускорение_поиска #индексация_поиска #оптимизация_поиска #полнотекстовый_поиск #бенчмарк

#бенчмарк #полнотекстовый_поиск #оптимизация_поиска #индексация_поиска #ускорение_поиска

Habr @[email protected] · 2026-05-02 · 18:52 UTC

Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой. Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне. Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.

https://habr.com/ru/articles/1030706/

#RAG #embeddings #эмбеддинги #реранкер #reranker #nDCG #информационный_поиск #юридический_ИИ #USER2base #бенчмарк

#бенчмарк #user2base #юридический_ии #информационный_поиск #ndcg #reranker

Habr @[email protected] · 2026-05-02 · 18:52 UTC

Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой. Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне. Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.

https://habr.com/ru/articles/1030706/

#RAG #embeddings #эмбеддинги #реранкер #reranker #nDCG #информационный_поиск #юридический_ИИ #USER2base #бенчмарк

#бенчмарк #user2base #юридический_ии #информационный_поиск #ndcg #reranker

Habr @[email protected] · 2026-05-02 · 18:52 UTC

Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой. Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне. Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.

https://habr.com/ru/articles/1030706/

#RAG #embeddings #эмбеддинги #реранкер #reranker #nDCG #информационный_поиск #юридический_ИИ #USER2base #бенчмарк

#бенчмарк #user2base #юридический_ии #информационный_поиск #ndcg #reranker

Habr @[email protected] · 2026-05-02 · 18:52 UTC

Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой. Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне. Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.

https://habr.com/ru/articles/1030706/

#RAG #embeddings #эмбеддинги #реранкер #reranker #nDCG #информационный_поиск #юридический_ИИ #USER2base #бенчмарк

#rag #embeddings #эмбеддинги #реранкер #reranker #ndcg

deepseek @[email protected] · 2026-04-24 · 08:01 UTC

GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели В Veai мы регулярно тестируем и сравниваем модели, которы...

#агент #для #разработчиков #AI-агент #бенчмарк #LLM #GLM #5.1 #DeepSeek #V3.2 #сравнение

Origin | Interest | Match

#агент #для #разработчиков #aiагент #бенчмарк #llm

Habr @[email protected] · 2026-04-15 · 08:42 UTC

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/1020248/

#RAG #AI #LLM #Qwen35 #Gemma_4 #gemma_3 #бенчмарк

#бенчмарк #gemma_3 #gemma_4 #qwen35 #llm #ai

Habr @[email protected] · 2026-04-15 · 08:42 UTC

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/1020248/

#RAG #AI #LLM #Qwen35 #Gemma_4 #gemma_3 #бенчмарк

#бенчмарк #gemma_3 #gemma_4 #qwen35 #llm #ai

Habr @[email protected] · 2026-04-15 · 08:42 UTC

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/1020248/

#RAG #AI #LLM #Qwen35 #Gemma_4 #gemma_3 #бенчмарк

#бенчмарк #gemma_3 #gemma_4 #qwen35 #llm #ai

Habr @[email protected] · 2026-04-15 · 08:42 UTC

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/1020248/

#RAG #AI #LLM #Qwen35 #Gemma_4 #gemma_3 #бенчмарк

#rag #ai #llm #qwen35 #gemma_4 #gemma_3

Habr @[email protected] · 2026-04-12 · 13:52 UTC

Обзор на мой новый x86 планшет с Core Ultra 5: Ninkear S13

Некоторое время назад у меня появилась необходимость в x86 ноутбуке-трансформере, который я мог бы брать с собой в дорогу. Поскольку я работаю над будущими статьями и проектами даже на отдыхе, мне нужно было устройство на достаточно производительном процессоре, с приличным объёмом ОЗУ и обязательно шустрым накопителем - я нередко собираю весьма тяжелые проекты. По итогу я остановился на трансформере Ninkear S13 с процессором Core Ultra 5 115U , 16ГБ DDR5 ОЗУ и 1ТБ накопителем, о котором и хочу сегодня рассказать Хабровчанам!

https://habr.com/ru/articles/1022440/

#monobogdan_ништячки #ninkear #обзоры #ninkear_s13 #планшет #wintel #таблетка #core_ultra_5 #intel #бенчмарк

#бенчмарк #intel #core_ultra_5 #таблетка #wintel #планшет

Habr @[email protected] · 2026-04-12 · 13:52 UTC

Обзор на мой новый x86 планшет с Core Ultra 5: Ninkear S13

Некоторое время назад у меня появилась необходимость в x86 ноутбуке-трансформере, который я мог бы брать с собой в дорогу. Поскольку я работаю над будущими статьями и проектами даже на отдыхе, мне нужно было устройство на достаточно производительном процессоре, с приличным объёмом ОЗУ и обязательно шустрым накопителем - я нередко собираю весьма тяжелые проекты. По итогу я остановился на трансформере Ninkear S13 с процессором Core Ultra 5 115U , 16ГБ DDR5 ОЗУ и 1ТБ накопителем, о котором и хочу сегодня рассказать Хабровчанам!

https://habr.com/ru/articles/1022440/

#monobogdan_ништячки #ninkear #обзоры #ninkear_s13 #планшет #wintel #таблетка #core_ultra_5 #intel #бенчмарк

#бенчмарк #intel #core_ultra_5 #таблетка #wintel #планшет

Habr @[email protected] · 2026-04-12 · 13:52 UTC

Обзор на мой новый x86 планшет с Core Ultra 5: Ninkear S13

Некоторое время назад у меня появилась необходимость в x86 ноутбуке-трансформере, который я мог бы брать с собой в дорогу. Поскольку я работаю над будущими статьями и проектами даже на отдыхе, мне нужно было устройство на достаточно производительном процессоре, с приличным объёмом ОЗУ и обязательно шустрым накопителем - я нередко собираю весьма тяжелые проекты. По итогу я остановился на трансформере Ninkear S13 с процессором Core Ultra 5 115U , 16ГБ DDR5 ОЗУ и 1ТБ накопителем, о котором и хочу сегодня рассказать Хабровчанам!

https://habr.com/ru/articles/1022440/

#monobogdan_ништячки #ninkear #обзоры #ninkear_s13 #планшет #wintel #таблетка #core_ultra_5 #intel #бенчмарк

#бенчмарк #intel #core_ultra_5 #таблетка #wintel #планшет

Habr @[email protected] · 2026-04-12 · 13:52 UTC

Обзор на мой новый x86 планшет с Core Ultra 5: Ninkear S13

Некоторое время назад у меня появилась необходимость в x86 ноутбуке-трансформере, который я мог бы брать с собой в дорогу. Поскольку я работаю над будущими статьями и проектами даже на отдыхе, мне нужно было устройство на достаточно производительном процессоре, с приличным объёмом ОЗУ и обязательно шустрым накопителем - я нередко собираю весьма тяжелые проекты. По итогу я остановился на трансформере Ninkear S13 с процессором Core Ultra 5 115U , 16ГБ DDR5 ОЗУ и 1ТБ накопителем, о котором и хочу сегодня рассказать Хабровчанам!

https://habr.com/ru/articles/1022440/

#monobogdan_ништячки #ninkear #обзоры #ninkear_s13 #планшет #wintel #таблетка #core_ultra_5 #intel #бенчмарк

#monobogdan_ништячки #ninkear #обзоры #ninkear_s13 #планшет #wintel

Habr @[email protected] · 2026-04-09 · 12:02 UTC

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы. Структура 1. Почему RAG сложно оценивать 2. Идея DRAGOn 3. Как строится бенчмарк 4. Проверка качества QA 5. Проверка бенчмарка на RAG-системах 6. Публичный лидерборд 7. Ограничения, проблемы и практические выводы

https://habr.com/ru/companies/ru_mts/articles/1021202/

#искусственный_интеллект #rag #бенчмарк #nlp #машинное+обучение #llm #llm_as_a_judge #датасет

#датасет #llm_as_a_judge #llm #машинное #nlp #бенчмарк

Habr @[email protected] · 2026-04-08 · 10:22 UTC

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты

https://habr.com/ru/articles/1020786/

#AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты

#aiагенты #бенчмарк #gemini #deepseek #gpt #claude

Habr @[email protected] · 2026-04-08 · 10:22 UTC

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты

https://habr.com/ru/articles/1020786/

#AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты

#aiагенты #бенчмарк #gemini #deepseek #gpt #claude

Habr @[email protected] · 2026-04-08 · 10:22 UTC

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты

https://habr.com/ru/articles/1020786/

#AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты

#aiагенты #бенчмарк #gemini #deepseek #gpt #claude

Habr @[email protected] · 2026-04-08 · 10:22 UTC

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты

https://habr.com/ru/articles/1020786/

#AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты

#ai_skills #llm #tool_calling #кроссмодельное_тестирование #claude #gpt

Habr @[email protected] · 2026-04-06 · 15:32 UTC

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

https://habr.com/ru/articles/1020016/

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

#бенчмарк #qwen35 #gpt54 #теорема_байеса #chainofthought #архитектура

Habr @[email protected] · 2026-04-06 · 15:32 UTC

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

https://habr.com/ru/articles/1020016/

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

#бенчмарк #qwen35 #gpt54 #теорема_байеса #chainofthought #архитектура

Habr @[email protected] · 2026-04-06 · 15:32 UTC

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

https://habr.com/ru/articles/1020016/

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

#бенчмарк #qwen35 #gpt54 #теорема_байеса #chainofthought #архитектура

Habr @[email protected] · 2026-04-06 · 15:32 UTC

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

https://habr.com/ru/articles/1020016/

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

#llm #ai_agents #rag #machine_learning #архитектура #chainofthought

Habr @[email protected] · 2026-03-25 · 06:22 UTC

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Один простой вопрос. Девять уверенных ответов. Восемь из них — ложь. примечание: Иллюстрация сгалюционирована ИИ Я отправил 29 крупнейшим языковым моделям мира одно сообщение — и стал ждать. Я думал: модель либо знает ответ, либо не знает; и честно скажет об этом. Третьего не дано. Оказалось — дано. И это третье называется галлюцинация с полной уверенностью в своей правоте . Результаты изменили моё понимание того, насколько мы можем доверять ИИ

https://habr.com/ru/articles/1014556/

#llm #галлюцинации #нейросети #chatgpt #искусственный_интеллект #бенчмарк #claude #gemini #gpt5 #openai

#openai #gpt5 #gemini #claude #бенчмарк #искусственный_интеллект

Habr @[email protected] · 2026-03-25 · 05:02 UTC

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает. Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.

https://habr.com/ru/articles/1014584/

#LLM #бенчмарк #ФГОС #образование #чувашский_язык #GPT #Claude #Gemini #opensource #нейросети

#нейросети #opensource #gemini #claude #gpt #чувашский_язык

Habr @[email protected] · 2026-03-24 · 09:02 UTC

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать

Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деградирует из-за SeqScan в функции проверки существования. Один патч — и TPS вырос в 15 раз. Рассказываем, как до этого докопались.

https://habr.com/ru/companies/postgrespro/articles/1012716/

#PostgreSQL #Apache_AGE #Графовые_базы_данных #Нагрузочное_тестирование #Производительность #openCypher #LDBC #Бенчмарк #Расширения_PostgreSQL #Postgres_Pro

#postgres_pro #расширения_postgresql #бенчмарк #ldbc #opencypher #производительность

Habr @[email protected] · 2026-03-24 · 09:02 UTC

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать

Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деградирует из-за SeqScan в функции проверки существования. Один патч — и TPS вырос в 15 раз. Рассказываем, как до этого докопались.

https://habr.com/ru/companies/postgrespro/articles/1012716/

#PostgreSQL #Apache_AGE #Графовые_базы_данных #Нагрузочное_тестирование #Производительность #openCypher #LDBC #Бенчмарк #Расширения_PostgreSQL #Postgres_Pro

#postgres_pro #расширения_postgresql #бенчмарк #ldbc #opencypher #производительность

Habr @[email protected] · 2026-03-24 · 09:02 UTC

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать

Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деградирует из-за SeqScan в функции проверки существования. Один патч — и TPS вырос в 15 раз. Рассказываем, как до этого докопались.

https://habr.com/ru/companies/postgrespro/articles/1012716/

#PostgreSQL #Apache_AGE #Графовые_базы_данных #Нагрузочное_тестирование #Производительность #openCypher #LDBC #Бенчмарк #Расширения_PostgreSQL #Postgres_Pro

#postgres_pro #расширения_postgresql #бенчмарк #ldbc #opencypher #производительность

Habr @[email protected] · 2026-03-24 · 09:02 UTC

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать

Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деградирует из-за SeqScan в функции проверки существования. Один патч — и TPS вырос в 15 раз. Рассказываем, как до этого докопались.

https://habr.com/ru/companies/postgrespro/articles/1012716/

#PostgreSQL #Apache_AGE #Графовые_базы_данных #Нагрузочное_тестирование #Производительность #openCypher #LDBC #Бенчмарк #Расширения_PostgreSQL #Postgres_Pro

#postgresql #apache_age #графовые_базы_данных #нагрузочное_тестирование #производительность #opencypher

Habr @[email protected] · 2026-03-22 · 07:12 UTC

ИИ с характером: как я измерил независимость 49 моделей

Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

https://habr.com/ru/articles/1013180/

#ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия

#философия #эксперимент #ии #бенчмарк #свобода_выбора #свобода_воли

Habr @[email protected] · 2026-03-22 · 07:12 UTC

ИИ с характером: как я измерил независимость 49 моделей

Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

https://habr.com/ru/articles/1013180/

#ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия

#философия #эксперимент #ии #бенчмарк #свобода_выбора #свобода_воли

Habr @[email protected] · 2026-03-22 · 07:12 UTC

ИИ с характером: как я измерил независимость 49 моделей

Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

https://habr.com/ru/articles/1013180/

#ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия

#философия #эксперимент #ии #бенчмарк #свобода_выбора #свобода_воли

Habr @[email protected] · 2026-03-22 · 07:12 UTC

ИИ с характером: как я измерил независимость 49 моделей

Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

https://habr.com/ru/articles/1013180/

#ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия

#ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк

Habr @[email protected] · 2026-02-16 · 08:12 UTC

Бенчмарк DGX Spark с LLM Qwen3: кому подойдет, почему 128 ГБ не серебряная пуля и о чем умолчал маркетинг NVIDIA

У всех кто работает с LLM моделями случалось, что модель на 32B параметров не влезает в 24 ГБ VRAM вашей RTX 4090, offload на CPU убивает скорость, а облако — дорого и данные уходят на сторону. NVIDIA обещает нам решение: DGX Spark (он же GB10) с 128 ГБ unified memory за ~400-500 тысяч рублей. Мы потратили две недели на глубокие бенчмарки устройства и результаты оказались... неоднозначными. В статье будет много графиков, сравнение нескольких форматов квантизации, тесты разных объемов подаваемого контекста, сравнения с более привычными GPU и оценка финансовой эффективности такой покупки. Цель бенчмарка разобраться, в каких ситуациях DGX Spark показывает свои преимущества, а где его архитектурные ограничения становятся узким местом и предпочтительнее выбирать другие решения. Открыть бенчмарк

https://habr.com/ru/articles/994058/

#DGX_Spark #NVIDIA #Большие_языковые_модели #Нейросети #AI #Искусственный_интеллект #Бенчмарк #Промышленность #Qwen3 #Сезон_Heavy_Digital

#сезон_heavy_digital #qwen3 #промышленность #бенчмарк #искусственный_интеллект #ai

Habr @[email protected] · 2026-01-26 · 14:12 UTC

[Перевод] Как изменялась Raspberry Pi: тесты производительности

Сегодня мы хотим рассмотреть на практике 13 летнюю историю разработки Raspberry Pi. У меня есть экземпляры каждого поколения Pi, от оригинальной модели из 2012 года, до Pi 5, которая вышла чуть больше года назад. В этой статье мы изучим, что менялось от поколения к поколению, как менялись их производительность и энергопотребление, проведя несколько тестов.

https://habr.com/ru/articles/988770/

#Raspberry_PI #бенчмарк #программирование_микроконтроллеров #микроконтроллеры #одноплатные_компьютеры

#одноплатные_компьютеры #микроконтроллеры #программирование_микроконтроллеров #бенчмарк #raspberry_pi

Habr @[email protected] · 2026-01-26 · 07:12 UTC

[Перевод] Разработка технических тестовых заданий, устойчивых к ИИ

Оценивать технических кандидатов становится всё сложнее по мере роста возможностей ИИ. Тестовое задание, которое сегодня хорошо разграничивает уровни квалификации, завтра может быть тривиально решено моделью — и полностью потеряет ценность как инструмент отбора.

https://habr.com/ru/companies/cloud4y/articles/988608/

#Anthropic #Claude_35 #Claude_4 #Тестовое_задание #LLM #Бенчмарк #ИИ

#ии #бенчмарк #llm #тестовое_задание #claude_4 #claude_35

Habr @[email protected] · 2026-01-08 · 15:12 UTC

Делай Bench: мой опыт слепого human-evalбенчмарка нейросетей для юристов

Привет и с Новым годом, Хабр! Меня зовут Екатерина, я практикующий юрист, исследую эффективное применение нейросетей в юридических задачах. В декабре ушедшего года я провела необычный для себя и российского LegalTech-рынка эксперимент: с помощью одиннадцати коллег-оценщиков организовала небольшоенезависимое слепое сравнение пяти нейросетевых сервисов. В этой публикации хочу рассказать о вызовах human-eval бенчмарка в домене, где зачастую нет единственно правильных ответов, интересных выводах исследования, полученной мной обратной связи и дальнейших планах.

https://habr.com/ru/articles/983640/

#сезон_ии_в_разработке #бенчмарк #rag #llm #opensource_llm

#opensource_llm #llm #rag #бенчмарк #сезон_ии_в_разработке

Habr @[email protected] · 2025-11-30 · 07:12 UTC

Протестировал 8 брендов LLM на честность, логику и креатив. Claude победил, но Алиса неожиданно в топ-3

Бенчмарки LLM множатся как грибы после дождя, но обычному пользователю от них мало толку. Оценки программирования, математики, этики — всё это важно для разработчиков, но что, если вы просто хотите получить помощь в повседневных задачах? Я решил проверить популярные модели на том, что действительно важно: - Креативность без потери здравого смысла - Логика без галлюцинаций - Внимание к деталям без педантизма Все промпты — в статье. Можете повторить и проверить мои выводы.

https://habr.com/ru/articles/971600/

#искусственный_интеллект #llm #бенчмарк #сезон_ии_в_разработке #yandexgpt #gigachat

Habr @[email protected] · 2025-10-13 · 16:22 UTC

Пожиратель токенов (или нет): анатомия протокола MCP для ИИ-агентов

Поводом написания этой статьи послужил подслушанный диалог: А на чем у вас агенты написаны? У нас на MCP! Для меня MCP всегда был просто протоколом, то есть именно способом отправки и обработки запросов. А когда я слушал выступления или читал некоторые статьи о том, как плох/хорош MCP, меня не покидало ощущение чего-то странного. Но все же решил, что это от незнания, и я чего-то не понимаю. А когда не понимаешь, но очень хочешь понимать, то самый лучший способ — это взять и разобраться. Именно это предлагаю и сделать в статье, а также замерить MCP, чтобы ответить на вечный вопрос: сколько сжирает MCP, подключать ли его вообще или и так сойдет?

https://habr.com/ru/articles/956150/

#mcp #protocol #model_context_protocol #anthropic #бенчмарк #llm #ииагенты #aiagents #язковые_модели #мультиагентные_системы

#мультиагентные_системы #язковые_модели #aiagents #ииагенты #llm #бенчмарк

Habr @[email protected] · 2025-09-18 · 20:22 UTC

Самая быстрая БД на Диком Западе

Всем привет! Пополняю интернеты “еще одной” статейкой с бенчмарками популярных СУБД. Захотелось выяснить, каков оверхед на протокол, работу с сетью и клиентскими соединениями в самом простом кейсе - когда таблица либо совсем пуста, либо данных так мало, что все они в памяти. Бенчмарк на Rust. Я попросил написать его Chat-GPT, и он отлично справился. Исходник здесь - https://github.com/geneopenminder/rust-db-bench Сравнивал с официальными scylla-bench и redis-bench - результаты схожи. Для теста я специально использовал слабую железку - Orange Pi 3b. Это китайский аналог малинки. Захотелось узнать, на что она способна.

https://habr.com/ru/articles/948386/

#бенчмарк #база_данных #rust #postgresql #mongodb #cassandra #scylladb #redis

#бенчмарк #база_данных #rust #postgresql #mongodb #cassandra

Habr @[email protected] · 2025-09-07 · 08:12 UTC

Как прокачать Java-приложения без миграции: Axiom JDK Express теперь на JVM 21

Мы знаем, как это бывает: проект на Java 8 живёт уже десятый год, релизить страшно, тестов мало, миграция пугает, а система критичная. И вот бизнес хочет «ускорить и не трогать».

https://habr.com/ru/companies/axiomjdk/articles/944036/

#axiom_jdk #axiomjdk #бенчмарки #ускорение_кода #производительность_приложений #jvm #бенчмарк #jdk_8 #jdk_11 #ускорение_приложений

#axiom_jdk #axiomjdk #бенчмарки #ускорение_кода #производительность_приложений #jvm

Habr @[email protected] · 2025-07-07 · 17:12 UTC

Топ LLM для задач text‑to‑SQL: результаты теста DeepSeek R1-0528, Gemini 2.5 Pro, o3 (и ещё трёх моделей)

В первой части мы разобрали теорию text‑to‑SQL: как LLM заменяют разработчиков, почему RAG и CoT спасают от галлюцинаций и зачем Scale AI дообучает ChatGPT-4. Но теория неполна без практики! В этом материале — жёсткое тестирование моделей (ChatGPT o3-mini‑high, ChatGPT 4.1, Claude Sonnet 4, ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1–0528) на бенчмарке LiveSQLBench. 6 моделей, 10 задач, сложность от ★★ до ★★★★★★★★★★. Проверим, как они считают лунные помехи, генерируют SQL для криптобирж и ищут артефакты в музеях.

https://habr.com/ru/companies/bothub/articles/925712/

#texttosql #nl2sql #бенчмарк #chatgpt_o3minihigh #chatgpt_41 #claude_sonnet_4 #chatgpt_o3 #gemini_25_pro #deepseek_r10528

#texttosql #nl2sql #бенчмарк #chatgpt_o3minihigh #chatgpt_41 #claude_sonnet_4

Habr @[email protected] · 2025-07-07 · 13:52 UTC

Современные подходы «из текста в SQL»: RAG, CoT и другие хитрости

Как превратить текст «Сколько было продано камер в прошлом месяце?» в осмысленный SQL‑запрос? Это и есть задача text‑to‑SQL (ее ещё называют NL2SQL). Для многих компаний сейчас очень важна возможность задавать вопросы к данным обычным языком, без изучения SQL. Для этой задачи написаны десятки инструментов, но суть одна — генерация корректного запроса из фразы на человеческом языке. Требование проясняется примером: бизнес‑пользователь хочет узнать: «Какие топ-5 товаров по выручке за вчерашний день?» — а система превращает это в SELECT product, SUM(revenue) ... LIMIT 5 и выдаёт результат. До недавнего времени требовались сложные пайплайны или ручное кодирование, а сейчас на сцене — большие языковые модели (LLM) и всякие прокачанные методы достучаться до них. В этой статье мы пробежимся по ретро‑ и ультрасовременным подходам к text‑to‑SQL. Плюс обзору добавим практических инсайтов.

https://habr.com/ru/companies/bothub/articles/925632/

#текст_в_sql #text_to_sql #nl2sql #rag #sql #промтинжиниринг #бенчмарк #livesqlbench

#текст_в_sql #text_to_sql #nl2sql #rag #sql #промтинжиниринг

Habr @[email protected] · 2025-05-20 · 06:42 UTC

[Перевод] Как провести бенчмарк кластера Camunda 8

«Могу ли я выполнять 10, 100 или 1000 экземпляров процессов в секунду на этом кластере Camunda 8?» Это типичный вопрос, который нам задают в последнее время, и на него можно ответить с помощью бенчмаркинга. Давайте разберёмся в этой увлекательной теме в сегодняшнем посте.

https://habr.com/ru/articles/910898/

#Camunda #Zeeby #бенчмарк #нагрузочное_тестирование #бизнеспроцессы

#бизнеспроцессы #нагрузочное_тестирование #бенчмарк #zeeby #camunda

Habr @[email protected] · 2025-03-11 · 14:42 UTC

ChatGPT-4.5: бенчмарки, генерация художественных текстов и сравнение с DeepSeek-r1

В конце февраля OpenAI официально представила ChatGPT-4.5 — самую крупную и продвинутую модель для диалогового взаимодействия на сегодняшний день. 4.5 обладает улучшенными навыками общения и письма, расширенным кругозором и, как заявляет компания, «более утончённой личностью» в сравнении с предыдущими версиями. Но что это вообще за модель? OpenAI не слишком хорошо объяснила, что она из себя представляет. Поэтому давайте разберёмся сами, как показывает себя эта новейшая и пока ещё не до конца понятная нейросеть компании в различных тестах и генерации контента.

https://habr.com/ru/companies/bothub/articles/889996/

#ии #ai #chatgpt_45 #chatgpt_4o #deepseek_r1 #grok_3 #бенчмарк

#бенчмарк #grok_3 #deepseek_r1 #chatgpt_4o #chatgpt_45 #ai

Habr @[email protected] · 2025-01-11 · 04:02 UTC

В PostgreSQL необходим официальный бенчмарк для функции uuidv7()

В 18 версии PostgreSQL появится функция uuidv7() . Она разработана для замены последовательных автоинкрементных идентификаторов SERIAL, BIGSERIAL и IDENTITY, которые могут привести к катастрофическому дублированию ключей при слиянии данных, и для замены более медленных UUIDv4. Использование функции uuidv7() позволит упростить архитектуру информационных систем, упростить SQL-запросы, избежать некоторых ошибок, облегчить внесение изменений и благодаря этому повысить надежность и снизить стоимость разработки и сопровождения информационных систем. Однако для объективной и корректной оценки использования функции uuidv7() необходим официальный бенчмарк в PostgreSQL. Без такого бенчмарка может быть сделан необоснованный выбор в пользу автоинкремента.

https://habr.com/ru/articles/872306/

#uuidv7 #uuid #postgresql #бенчмарк

Habr @[email protected] · 2024-12-23 · 17:32 UTC

Модель o3 от OpenAI показала результат 75,7% в бенчмарке ARC-AGI-Pub

Франсуа Шолле, создатель фреймворка Keras и основатель ARC Prize Foundation, поделился итогами тестов новой модели o3 от OpenAI в тестах бенчмарка ARC-AGI-Pub. Эта модель достигла впечатляющего результата — 75,7% на полу-приватном наборе оценки при соблюдении установленного публичного лимита вычислительных ресурсов в $10 тысяч. Конфигурация o3 с увеличенным уровнем вычислений (172-кратное увеличение) показала результат 87,5%. Этот результат представляет собой неожиданный и значительный скачок в возможностях искусственного интеллекта, демонстрируя способность к адаптации к новым задачам, ранее невиданную в моделях семейства GPT. Для сравнения, ARC-AGI-1 потребовал 4 года, чтобы повысить результат с 0% у GPT-3 в 2020 году до 5% у GPT-4o в 2024 году. Все представления о возможностях ИИ требуют пересмотра подхода к бенчмаркам ARC в свете достижений o3.

https://habr.com/ru/articles/869098/

#AI #openai #o3 #arc #arcagi #бенчмарк #искусственный_интеллект #ии

#ai #openai #o3 #arc #arcagi #бенчмарк

Habr @[email protected] · 2024-09-23 · 12:52 UTC

Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

Всем привет! Меня зовут Роман Соломатин, я представляю команду AI-Run из X5 Tech, мы занимаемся генеративными сетями в целом и языковыми моделями в частности. Несколько месяцев назад русскоязычное сообщество разработчиков искусственного интеллекта получило инструмент для оценки моделей — бенчмарк ruMTEB (Massive Text Embedding Benchmark). Однако, первая версия ruMTEB имела 6 протестированных моделей, но при этом отсутствовал удобный лидерборд. Мы решили улучшить ситуацию и провести дополнительное тестирование, чтобы сделать бенчмарк более репрезентативным и полезным для сообщества. Что у нас получилось

https://habr.com/ru/companies/X5Tech/articles/845398/

#бенчмарк #rumteb #эмбеддинги #искусственный_интеллект #языковые_модели #лидерборд #векторизация #Massive_Text_Embedding_Benchmark

#massive_text_embedding_benchmark #векторизация #лидерборд #языковые_модели #искусственный_интеллект #эмбеддинги