#бенчмарки — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-12 · 06:22 UTC

Почему бенчмарки в AI сломались — и что с этим делать в понедельник

Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью

https://habr.com/ru/articles/1034014/

#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети

#нейросети #критическое_мышление #анализ_и_проектирование_систем #метрики_качества #закон_гудхарта #aiагенты

Habr @[email protected] · 2026-05-12 · 06:22 UTC

Почему бенчмарки в AI сломались — и что с этим делать в понедельник

Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью

https://habr.com/ru/articles/1034014/

#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети

#нейросети #критическое_мышление #анализ_и_проектирование_систем #метрики_качества #закон_гудхарта #aiагенты

Habr @[email protected] · 2026-05-12 · 06:22 UTC

Почему бенчмарки в AI сломались — и что с этим делать в понедельник

Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью

https://habr.com/ru/articles/1034014/

#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети

#нейросети #критическое_мышление #анализ_и_проектирование_систем #метрики_качества #закон_гудхарта #aiагенты

Habr @[email protected] · 2026-05-12 · 06:22 UTC

Почему бенчмарки в AI сломались — и что с этим делать в понедельник

Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью

https://habr.com/ru/articles/1034014/

#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети

#llm #бенчмарки #оценка_llm #агентные_системы #aiагенты #закон_гудхарта

deepseek @[email protected] · 2026-05-12 · 02:15 UTC

Почему бенчмарки в AI сломались — и что с этим делать в понедельник В январе 2026 года Янн Лекун, уходя из Meta, ск...

#ai-агенты #llm #агентные #системы #Анализ #и #проектирование #систем #бенчмарки #закон #Гудхарта

Origin | Interest | Match

#aiагенты #llm #агентные #системы #анализ #и

Habr @[email protected] · 2026-04-29 · 17:12 UTC

Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад

16 апреля Anthropic выкатила Claude Opus 4.7. На бенчмарках 12 побед из 14, цена та же. Через 24 часа Reddit называл его legendarily bad. И вот в чём фокус: месяц назад я сам ныл, что Claude слишком поддакивает. Anthropic исправила. Получилась спор-машина. Беру свои слова назад.

https://habr.com/ru/articles/1029796/

#Claude #Opus_47 #Anthropic #AI_coding #sycophancy #бенчмарки #разработка #LLM

#llm #разработка #бенчмарки #sycophancy #ai_coding #anthropic

Habr @[email protected] · 2026-04-28 · 12:12 UTC

DeepSeek V4: Обзор нейросети, бенчмарки и тесты

Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4 . Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью . Кто-то уже успел протестировать новую модель, кто-то пришёл к выводу, что она лучше того же ChatGPT 5.5. Ну, по крайней мере по цене точно. Про остальное говорить не буду, всё же у каждого свои вкусы и предпочтения. Да и не заглядывал я в слишком сложные задачи, чтобы по достоинству оценить, кто серьёзнее. Сегодня у нас обзор DeepSeek V4 . Пробежимся по самой модели, посмотрим на бенчмарки и, конечно же, протестируем в моих повседневных задачах, с которыми сталкивалась предыдущая версия. Чего-то сложного и высокотехнологичного тут вы не увидите, достаточно рядовые задания и моё мнение о самой модели по их итогам. Устраивайтесь поудобнее, ну а я начинаю своё повествование.

https://habr.com/ru/companies/bothub/articles/1029040/

#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация_текста #генерация_кода

#генерация_кода #генерация_текста #математика #тесты #модель #бенчмарки

Habr @[email protected] · 2026-04-28 · 12:12 UTC

DeepSeek V4: Обзор нейросети, бенчмарки и тесты

Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4 . Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью . Кто-то уже успел протестировать новую модель, кто-то пришёл к выводу, что она лучше того же ChatGPT 5.5. Ну, по крайней мере по цене точно. Про остальное говорить не буду, всё же у каждого свои вкусы и предпочтения. Да и не заглядывал я в слишком сложные задачи, чтобы по достоинству оценить, кто серьёзнее. Сегодня у нас обзор DeepSeek V4 . Пробежимся по самой модели, посмотрим на бенчмарки и, конечно же, протестируем в моих повседневных задачах, с которыми сталкивалась предыдущая версия. Чего-то сложного и высокотехнологичного тут вы не увидите, достаточно рядовые задания и моё мнение о самой модели по их итогам. Устраивайтесь поудобнее, ну а я начинаю своё повествование.

https://habr.com/ru/companies/bothub/articles/1029040/

#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация_текста #генерация_кода

#генерация_кода #генерация_текста #математика #тесты #модель #бенчмарки

Habr @[email protected] · 2026-04-28 · 12:12 UTC

DeepSeek V4: Обзор нейросети, бенчмарки и тесты

Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4 . Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью . Кто-то уже успел протестировать новую модель, кто-то пришёл к выводу, что она лучше того же ChatGPT 5.5. Ну, по крайней мере по цене точно. Про остальное говорить не буду, всё же у каждого свои вкусы и предпочтения. Да и не заглядывал я в слишком сложные задачи, чтобы по достоинству оценить, кто серьёзнее. Сегодня у нас обзор DeepSeek V4 . Пробежимся по самой модели, посмотрим на бенчмарки и, конечно же, протестируем в моих повседневных задачах, с которыми сталкивалась предыдущая версия. Чего-то сложного и высокотехнологичного тут вы не увидите, достаточно рядовые задания и моё мнение о самой модели по их итогам. Устраивайтесь поудобнее, ну а я начинаю своё повествование.

https://habr.com/ru/companies/bothub/articles/1029040/

#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация_текста #генерация_кода

#генерация_кода #генерация_текста #математика #тесты #модель #бенчмарки

Habr @[email protected] · 2026-04-28 · 12:12 UTC

DeepSeek V4: Обзор нейросети, бенчмарки и тесты

Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4 . Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью . Кто-то уже успел протестировать новую модель, кто-то пришёл к выводу, что она лучше того же ChatGPT 5.5. Ну, по крайней мере по цене точно. Про остальное говорить не буду, всё же у каждого свои вкусы и предпочтения. Да и не заглядывал я в слишком сложные задачи, чтобы по достоинству оценить, кто серьёзнее. Сегодня у нас обзор DeepSeek V4 . Пробежимся по самой модели, посмотрим на бенчмарки и, конечно же, протестируем в моих повседневных задачах, с которыми сталкивалась предыдущая версия. Чего-то сложного и высокотехнологичного тут вы не увидите, достаточно рядовые задания и моё мнение о самой модели по их итогам. Устраивайтесь поудобнее, ну а я начинаю своё повествование.

https://habr.com/ru/companies/bothub/articles/1029040/

#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация_текста #генерация_кода

#ai #ии #нейросеть #deepseek #бенчмарки #модель

deepseek @[email protected] · 2026-04-28 · 12:04 UTC

DeepSeek V4: Обзор нейросети, бенчмарки и тесты Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля...

#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация #текста #генерация

Origin | Interest | Match

#ai #ии #нейросеть #deepseek #бенчмарки #модель

Habr @[email protected] · 2026-04-27 · 08:02 UTC

LLM бенчмарк «Испытание Дали»

Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM "Испытание Дали" по трем параметрам: качество, скорость и стоимость. Этот бенчмарк позволил мне найти оптимальную LLM для встраивания в продукты моей компании Флаг Софт. Возможно, вас тоже заинтересуют его результаты.

https://habr.com/ru/articles/1028396/

#искусственный_интеллект #llm #бенчмарки #promptengineering #gpt5 #claude #gemini #gigachat #yandexgpt_5 #deepseek_v4

#deepseek_v4 #yandexgpt_5 #gigachat #gemini #claude #gpt5

deepseek @[email protected] · 2026-04-27 · 08:01 UTC

LLM бенчмарк «Испытание Дали» Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM "...

#искусственный #интеллект #llm #бенчмарки #prompt-engineering #gpt-5 #claude #gemini #gigachat #yandexgpt #5

Origin | Interest | Match

#искусственный #интеллект #llm #бенчмарки #promptengineering #gpt5

Habr @[email protected] · 2026-04-24 · 12:52 UTC

GPT-5.5 против DeepSeek-V4: почему OpenAI удваивает цены, пока Китай демпингует

За 2 дня рынок получил сразу два флагманских релиза: GPT-5.5 от OpenAI и DeepSeek V4 . На первый взгляд это очередная гонка бенчмарков. На деле - столкновение двух стратегий: дорогая агентная модель для реальной работы против открытых весов, дешевого API и контекста на миллион токенов. Я внимательно изучила официальные бенчмарки, прайс-листы и первые отзывы разработчиков. Давайте разбираться, что из этого реально применимо в работе.

https://habr.com/ru/articles/1027564/

#искусственный_интеллект #нейросети #вайбкодинг #gpt55 #deepseek_v4 #llm #ии_агенты #open_source #бенчмарки #автоматизация

#автоматизация #бенчмарки #open_source #ии_агенты #llm #deepseek_v4

Habr @[email protected] · 2026-04-23 · 07:42 UTC

DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2

В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно.

https://habr.com/ru/companies/simpleone/articles/1026602/

#DORA #devops #метрики_разработки #deployment_frequency #cicd #software_delivery #бенчмарки #управление_разработкой #itинфраструктура #devex

#devex #itинфраструктура #управление_разработкой #бенчмарки #software_delivery #cicd

Habr @[email protected] · 2026-04-23 · 07:42 UTC

DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2

В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно.

https://habr.com/ru/companies/simpleone/articles/1026602/

#DORA #devops #метрики_разработки #deployment_frequency #cicd #software_delivery #бенчмарки #управление_разработкой #itинфраструктура #devex

#devex #itинфраструктура #управление_разработкой #бенчмарки #software_delivery #cicd

Habr @[email protected] · 2026-04-23 · 07:42 UTC

DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2

В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно.

https://habr.com/ru/companies/simpleone/articles/1026602/

#DORA #devops #метрики_разработки #deployment_frequency #cicd #software_delivery #бенчмарки #управление_разработкой #itинфраструктура #devex

#devex #itинфраструктура #управление_разработкой #бенчмарки #software_delivery #cicd

Habr @[email protected] · 2026-04-23 · 07:42 UTC

DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2

В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно.

https://habr.com/ru/companies/simpleone/articles/1026602/

#DORA #devops #метрики_разработки #deployment_frequency #cicd #software_delivery #бенчмарки #управление_разработкой #itинфраструктура #devex

#dora #devops #метрики_разработки #deployment_frequency #cicd #software_delivery

Habr @[email protected] · 2026-04-17 · 07:32 UTC

[Перевод] Руководство по анализу и настройке производительности для современных процессоров. Анонс книги

Привет, Хабр. Хотим поделиться с вами новостью о том, что завершаем более чем годичный фундаментальный проект - готовимся к выпуску русского издания знаменитой книги Дениса Бахвалова " Performance Analysis and Tuning on Modern CPUs: Learn to write fast software like a pro ". Денис теснейшим образом взаимодействовал с нашими редакторами, мы составили глоссарий к русскому изданию и уверены, что книга на долгие годы станет де-факто главным пособием по оптимизации производительности CPU. Книга выросла из многочисленных практических исследований, которыми Денис занимается в компании "Intel", и в качестве анонса мы хотим предложить вам перевод статьи автора, которая вышла ещё в 2019 году и может считаться рассказом о том, как зародилась идея будущей книги. В тексте под катом содержатся многочисленные ссылки на статьи Дениса из блога https://easyperf.net/notes/ , который также рекомендуем пристально изучить. Русскую книгу ждите в мае.

https://habr.com/ru/companies/bhv_publishing/articles/1024462/

#CPU #процессоры #оптимизация_кода #оптимизация_производительности #алгоритмы #бенчмарки #профессиональная_литература

#профессиональная_литература #бенчмарки #алгоритмы #оптимизация_производительности #оптимизация_кода #процессоры

Habr @[email protected] · 2026-04-14 · 14:32 UTC

Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub

Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.

https://habr.com/ru/companies/haulmont/articles/1023450/

#Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding

#vibecoding #бенчмарки #gpt2 #caveman #токены #ииагенты

Habr @[email protected] · 2026-04-14 · 14:32 UTC

Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub

Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.

https://habr.com/ru/companies/haulmont/articles/1023450/

#Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding

#vibecoding #бенчмарки #gpt2 #caveman #токены #ииагенты

Habr @[email protected] · 2026-04-14 · 14:32 UTC

Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub

Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.

https://habr.com/ru/companies/haulmont/articles/1023450/

#Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding

#vibecoding #бенчмарки #gpt2 #caveman #токены #ииагенты

Habr @[email protected] · 2026-04-14 · 14:32 UTC

Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub

Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.

https://habr.com/ru/companies/haulmont/articles/1023450/

#Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding

#claude_mythos #claude_code #java_26 #opensource #ииагенты #токены

Habr @[email protected] · 2026-04-09 · 13:12 UTC

[Перевод] EVGeoQA: Оценка LLM в динамическом, многоцелевом геопространственном поиске

Хотя большие языковые модели (LLM) демонстрируют выдающиеся способности к рассуждению, их потенциал для целенаправленного поиска в динамичных геопространственных средах остается малоизученным. Существующие бенчмарки для геопространственных вопросно-ответных систем (GSQA) в основном сосредоточены на статическом поиске информации, упуская из виду сложность реального планирования, которое включает динамическое местоположение пользователя и составные ограничения. Чтобы восполнить этот пробел, мы представляем EVGeoQA — новый бенчмарк, построенный на сценариях зарядки электромобилей (EV), который отличается уникальной привязкой к местоположению и наличием двух целевых условий. В частности, каждый запрос в EVGeoQA явно привязан к координатам пользователя в реальном времени и объединяет две цели: саму потребность в зарядке и предпочтения по совмещенной активности (рядом со станцией). Для систематической оценки моделей в таких сложных условиях мы также предлагаем GeoRover — общую систему

https://habr.com/ru/articles/1021428/

#бенчмарки #ai #ии

#ии #ai #бенчмарки

Habr @[email protected] · 2026-04-07 · 11:22 UTC

[Перевод] ИИ-бенчмарки больше не работают. И вот что с этим делать

Синтетические тесты в вакууме не показывают реальной пользы нейросетей. Индустрии пора переходить на метрики, где во главе угла стоят люди и жизненный контекст

https://habr.com/ru/articles/1020316/

#ии #тестирование #метрики #бенчмарки

#бенчмарки #метрики #тестирование #ии

Habr @[email protected] · 2026-04-05 · 12:22 UTC

Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик

https://habr.com/ru/articles/1019490/

#llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки

#бенчмарки #openrouter #безопасность_ии #data_science #топология_сети #графы

Habr @[email protected] · 2026-03-30 · 07:02 UTC

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один? Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт. Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях. Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи . Интерактивные результаты – на сайте . Детали по исследованию

https://habr.com/ru/articles/1016648/

#исследование #бенчмарки #ии #gigachat #yandexgpt

#yandexgpt #gigachat #ии #бенчмарки #исследование

Habr @[email protected] · 2026-03-23 · 08:42 UTC

DeepMind определил тест для AGI

Почти три года назад Google DeepMind опубликовала Levels of AGI - работу, которая определила пять уровней AI-систем (от начального до сверхчеловеческого) и шесть уровней автономии (от инструмента до полностью автономного агента). Индустрия получила общую терминологию - что-то вроде уровней автономного вождения , только для интеллекта. Но без способа измерить, на каком уровне находится конкретная система, классификация осталась сугубо теоретической. Каждый мог назвать свою модель level 2, и никто не мог это опровергнуть. В марте 2026-го вышло продолжение. Measuring Progress Toward AGI пытается дать индустрии инструмент измерения. Не финальный скор, а десять отдельных шкал. Построенных не на очередном датасете, а на инструментарии когнитивной психологии.

https://habr.com/ru/articles/1013570/

#AGI #Google_DeepMind #бенчмарки #когнитивная_психология #оценка_моделей #LLM #нейросети #машинное_обучение

#машинное_обучение #нейросети #llm #оценка_моделей #когнитивная_психология #бенчмарки

Habr @[email protected] · 2026-03-13 · 11:32 UTC

Какая ИИ-модель лучше пишет код? Тестирую 8 популярных моделей на реальной задаче в opensource-проекте

Какая ИИ-модель лучше всего пишет код в реальных условиях? Чтобы ответить на этот вопрос, я взял 8 популярных моделей — от дорогих флагманов OpenAI и Anthropic до доступных открытых альтернатив — и поручил им одну и ту же задачу в действующем open-source проекте. За подробным разбором результатов добро пожаловать под кат.

https://habr.com/ru/articles/1009866/

#opencode #opensource #llmмодели #бенчмарки #telegrambot #ииагенты

Habr @[email protected] · 2026-03-12 · 21:12 UTC

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026

Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Без людей в цикле. Стоимость — один сервер с GPU. Не бывает «лучшей модели» — бывает лучшая модель для конкретной роли. Оркестратору нужен reasoning (GPQA 88.4%), билдеру — кодогенерация (HumanEval 92.7%), критику — понимание tool use (tau-bench 87.4%). Поэтому вместо одного GPT-5 на все задачи — 6 open-source моделей на 9 ролей. Внутри: конкретный маппинг модель → роль с обоснованием через бенчмарки, трюк с шарингом инстансов (9 агентов = 3-4 модели), три конфигурации развёртывания от одной RTX 4090 (24 GB) до кластера A100 (211 GB), квантизация, инфраструктура инференса и интерактивный дашборд.

https://habr.com/ru/articles/1009608/

#LLM #opensource #мультиагентные_системы #MoE #Qwen #DeepSeek #GPU #VRAM #бенчмарки #agent_factory

#agent_factory #бенчмарки #vram #gpu #deepseek #qwen

deepseek @[email protected] · 2026-03-12 · 21:03 UTC

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026 Я собрал команду из 9 ИИ-агентов, кот...

#LLM #open-source #мульти-агентные #системы #MoE #Qwen #DeepSeek #GPU #VRAM #бенчмарки #agent

Origin | Interest | Match

#llm #opensource #мультиагентные #системы #moe #qwen

Habr @[email protected] · 2026-03-02 · 08:12 UTC

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов

Вы выкатили AI-агента в прод. Пользователи пишут: «он мне чушь ответил». Вы открываете логи, смотрите на промпт, на ответ — и не понимаете: это регрессия после вчерашней правки промпта? Проблемы после смены модели? Или просто краевой случай, который всегда был? Знакомо? Нам — да. Марта — AI-агент в Битрикс24. Она работает с CRM, задачами, отвечает на вопросы пользователей. Когда Марта была маленькой, мы тестировали её руками: открывали чат, писали вопрос, смотрели ответ. Но ручное тестирование не масштабируется. Один человек не может прогнать 200 сценариев после каждой правки промпта. А правки промптов происходят постоянно. Мы строим систему бенчмарков, которая автоматически проверяет качество работы Марты. Путь от «тестируем руками» до работающей системы занял около полугода, включая изучение подходов, набивание шишек и переделки. Дальше расскажу, как мы к этому пришли. Стек у вас может быть любым, подход останется тем же.

https://habr.com/ru/companies/bitrix/articles/1004296/

#битрикс24 #aiagent #бенчмарки #качество

#качество #бенчмарки #aiagent #битрикс24

Habr @[email protected] · 2026-02-24 · 14:02 UTC

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

#сравнение_моделей_ии #arcagi2 #swebench #gpt52 #gemini_31_pro #claude_sonnet_46

Habr @[email protected] · 2026-02-24 · 14:02 UTC

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

#сравнение_моделей_ии #arcagi2 #swebench #gpt52 #gemini_31_pro #claude_sonnet_46

Habr @[email protected] · 2026-02-24 · 14:02 UTC

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

#сравнение_моделей_ии #arcagi2 #swebench #gpt52 #gemini_31_pro #claude_sonnet_46

Habr @[email protected] · 2026-02-24 · 14:02 UTC

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

#нейросети #искусственный_интеллект #llm #бенчмарки #claude_sonnet_46 #gemini_31_pro

Habr @[email protected] · 2026-02-11 · 12:02 UTC

WordPress с OpenLiteSpeed vs классический LEMP: реальные бенчмарки

Мы сравнили OpenLiteSpeed и классический LEMP для WordPress на реальных серверах. RPS, latency, TTFB, потребление CPU и RAM, поведение под нагрузкой до 500 пользователей. И вот какие итоги у нас получились.

https://habr.com/ru/companies/hostkey/articles/995356/

#hostkey #WordPress #OpenLiteSpeed #LEMP #Nginx #PHP #Бенчмарки #Производительность #Кеширование #Вебсерверы

#вебсерверы #кеширование #производительность #бенчмарки #php #nginx

Habr @[email protected] · 2026-02-11 · 12:02 UTC

WordPress с OpenLiteSpeed vs классический LEMP: реальные бенчмарки

Мы сравнили OpenLiteSpeed и классический LEMP для WordPress на реальных серверах. RPS, latency, TTFB, потребление CPU и RAM, поведение под нагрузкой до 500 пользователей. И вот какие итоги у нас получились.

https://habr.com/ru/companies/hostkey/articles/995356/

#hostkey #WordPress #OpenLiteSpeed #LEMP #Nginx #PHP #Бенчмарки #Производительность #Кеширование #Вебсерверы

#вебсерверы #кеширование #производительность #бенчмарки #php #nginx

Habr @[email protected] · 2026-02-11 · 12:02 UTC

WordPress с OpenLiteSpeed vs классический LEMP: реальные бенчмарки

Мы сравнили OpenLiteSpeed и классический LEMP для WordPress на реальных серверах. RPS, latency, TTFB, потребление CPU и RAM, поведение под нагрузкой до 500 пользователей. И вот какие итоги у нас получились.

https://habr.com/ru/companies/hostkey/articles/995356/

#hostkey #WordPress #OpenLiteSpeed #LEMP #Nginx #PHP #Бенчмарки #Производительность #Кеширование #Вебсерверы

#вебсерверы #кеширование #производительность #бенчмарки #php #nginx

Habr @[email protected] · 2026-02-11 · 12:02 UTC

WordPress с OpenLiteSpeed vs классический LEMP: реальные бенчмарки

Мы сравнили OpenLiteSpeed и классический LEMP для WordPress на реальных серверах. RPS, latency, TTFB, потребление CPU и RAM, поведение под нагрузкой до 500 пользователей. И вот какие итоги у нас получились.

https://habr.com/ru/companies/hostkey/articles/995356/

#hostkey #WordPress #OpenLiteSpeed #LEMP #Nginx #PHP #Бенчмарки #Производительность #Кеширование #Вебсерверы

#hostkey #wordpress #openlitespeed #lemp #nginx #php

Habr @[email protected] · 2026-02-05 · 18:12 UTC

Как мы автоматизировали анализ бенчмарков: опыт команды Postgres Professional

Проводить нагрузочное тестирование PostgreSQL — полдела. Главная сложность начинается, когда нужно проанализировать сотни результатов и понять, где реальная просадка производительности, а где статистический шум. Младшие специалисты Postgres Professional Евгений Бузюркин, Дарья Барсукова и Рустам Хамидуллин разработали инструмент, который автоматически определяет тип распределения данных, детектирует мультимодальность и подбирает оптимальные параметры для каждого набора результатов бенчмарков.

https://habr.com/ru/companies/postgrespro/articles/993330/

#базы_данных #postgresql #математика #аналитика #бенчмарки

#бенчмарки #аналитика #математика #postgresql #базы_данных

Habr @[email protected] · 2026-01-31 · 18:52 UTC

[Перевод] Я создал вдвое более быстрый лексер, но обнаружил, что узким местом был ввод-вывод

Я создал лексер ассемблера ARM64 (ну, точнее, сгенерировал его из моего собственного генератора парсера, но пост не об этом), обрабатывающий код на Dart вдвое быстрее официального сканера. Этого результата я добился при помощи статистических методик надёжного измерения малых различий в производительности . Затем я провёл его бенчмарк на 104000 файлов и обнаружил, что узким местом был не мой лексер, а ввод-вывод. Это история о том, как я случайно узнал, почему pub.dev хранит пакеты в виде файлов tar.gz.

https://habr.com/ru/articles/989588/

#лексер #бенчмарки #оптимизация_производительности

#оптимизация_производительности #бенчмарки #лексер

Habr @[email protected] · 2026-01-28 · 22:12 UTC

Когда нейросеть решит то, что не решил никто?

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили посмотреть, что будет дальше, и выкатили бенчмарк из задач, которые не решил вообще никто. Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале. Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями. Или вот задача попроще (на первый взгляд): привести алгоритм, который определяит, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа. Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат. Интересно. Читать далее

https://habr.com/ru/companies/bar/articles/990406/

#FrontierMath #Epoch_AI #LLM #бенчмарки #открытые_задачи #GPT5 #Gemini #теория_чисел #research_taste

#research_taste #теория_чисел #gemini #gpt5 #открытые_задачи #бенчмарки

Habr @[email protected] · 2026-01-12 · 11:32 UTC

[Перевод] Как DuckDB обрабатывает 1 ТБ данных менее чем за 30 секунд

Команда Python for Devs подготовила перевод статьи о том, как DuckDB ломает привычные представления о масштабах аналитических данных. Автор на реальных бенчмарках показывает, что 1 ТБ данных можно агрегировать за считанные секунды — без Spark, без распределённых кластеров и без сложной инфраструктуры.

https://habr.com/ru/articles/984040/

#duckdb #аналитика #бенчмарки #производительность #данные

#данные #производительность #бенчмарки #аналитика #duckdb

Ambassador Tablicek @[email protected] · 2026-01-09 · 05:45 UTC

Кстати, кому-то интересно будет почитать про то, какой выхлоп даёт для нейронок в #ollama апгрейд с rtx4060ti 16gb на rtx5060ti 16gb? А то может как и я – сомневаетесь, стоит ли апгрейдить свою коробочку за 50к? Если да - спрашивайте заранее свои ответы, постараюсь осветить.

#ollama #LLM #бенчмарки

#ollama #llm #бенчмарки

Habr @[email protected] · 2026-01-07 · 23:12 UTC

Core i9 vs Apple M2: как честно сравнивать калькуляторы с суперкомпьютерами

Представьте ситуацию: вы выбираете между Intel Core i9 и Apple M2 (как пример двух мощных систем). Один потребляет 300 Ватт и греется как печка, другой — 30 Ватт и работает от батареи 20 часов. Один показывает 200 FPS в играх, другой — 90, но в три раза эффективнее. Один стоит $600, другой — встроен в ноутбук за $2000. Кого вы выберете?

https://habr.com/ru/articles/983504/

#процессоры_intel #процессоры_amd #архитектура_процессоров #выбор_процессора #бенчмарки #маркетинг

#маркетинг #бенчмарки #выбор_процессора #архитектура_процессоров #процессоры_amd #процессоры_intel

Habr @[email protected] · 2026-01-05 · 13:12 UTC

[Перевод] Большим GPU не нужны большие PC

С тех пор, как я научил графические карты AMD , Intel и Nvidia работать с Raspberry Pi, меня мучил вопрос: Какой в этом смысл? У Raspberry Pi есть только одна линия шины PCIe Gen 3, доступная для подключения к eGPU. Этого очень мало, особенно учитывая, что у современного десктопа есть как минимум один разъём с 16 линиями шины PCIe Gen 5. То есть разница составляет 8 Гт/с (гигатранзакций/с) против 512 Гт/с. Бой явно неравный. Но мне стало любопытно, действительно ли пропускная способность шины важна всегда. Я хотел наконец покончить с вопросом о полезности, протестировав четыре задачи на разнообразных GPU для сравнения производительности на Raspberry Pi 5 и на современном десктопном PC.

https://habr.com/ru/companies/ruvds/articles/980782/

#llm #nvidia #amd #radeon #локальные_нейросети #бенчмарки #ruvds_переводы

#ruvds_переводы #бенчмарки #локальные_нейросети #radeon #amd #nvidia

Habr @[email protected] · 2025-12-17 · 14:02 UTC

10% на LLM и 90% на инженерию: как российские компании используют ИИ

Привет, Хабр! Продолжаю делиться материалами живых дискуссий, которые идут на телеграм-канале Dev Q&A. На этот раз тема — выбор между open source и коммерческими LLM для корпоративных задач. Обсудили главные болевые точки: почему почти все корпоративные заказчики требуют он-прем, как узкоспециализированные модели обходят универсальные решения, насколько реален GPU-дефицит для практических задач.

https://habr.com/ru/articles/977686/

#llmмодели #ai #программирование #будущее_программирования #gpu #opensource #архитектура #бенчмарки #микросервисы #lowcode

#lowcode #микросервисы #бенчмарки #архитектура #opensource #gpu

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#garlic #сундар_пичай #код_красный #мультимодальность #aime #humanitys_last_exam

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#garlic #сундар_пичай #код_красный #мультимодальность #aime #humanitys_last_exam