#бенчмарки — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #бенчмарки, aggregated by home.social.
-
Почему бенчмарки в AI сломались — и что с этим делать в понедельник
Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью
https://habr.com/ru/articles/1034014/
#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети
-
Почему бенчмарки в AI сломались — и что с этим делать в понедельник
Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью
https://habr.com/ru/articles/1034014/
#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети
-
Почему бенчмарки в AI сломались — и что с этим делать в понедельник
Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью
https://habr.com/ru/articles/1034014/
#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети
-
Почему бенчмарки в AI сломались — и что с этим делать в понедельник
Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью
https://habr.com/ru/articles/1034014/
#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети
-
Почему бенчмарки в AI сломались — и что с этим делать в понедельник В январе 2026 года Янн Лекун, уходя из Meta, ск...
#ai-агенты #llm #агентные #системы #Анализ #и #проектирование #систем #бенчмарки #закон #Гудхарта
Origin | Interest | Match -
Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад
16 апреля Anthropic выкатила Claude Opus 4.7. На бенчмарках 12 побед из 14, цена та же. Через 24 часа Reddit называл его legendarily bad. И вот в чём фокус: месяц назад я сам ныл, что Claude слишком поддакивает. Anthropic исправила. Получилась спор-машина. Беру свои слова назад.
https://habr.com/ru/articles/1029796/
#Claude #Opus_47 #Anthropic #AI_coding #sycophancy #бенчмарки #разработка #LLM
-
DeepSeek V4: Обзор нейросети, бенчмарки и тесты
Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4 . Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью . Кто-то уже успел протестировать новую модель, кто-то пришёл к выводу, что она лучше того же ChatGPT 5.5. Ну, по крайней мере по цене точно. Про остальное говорить не буду, всё же у каждого свои вкусы и предпочтения. Да и не заглядывал я в слишком сложные задачи, чтобы по достоинству оценить, кто серьёзнее. Сегодня у нас обзор DeepSeek V4 . Пробежимся по самой модели, посмотрим на бенчмарки и, конечно же, протестируем в моих повседневных задачах, с которыми сталкивалась предыдущая версия. Чего-то сложного и высокотехнологичного тут вы не увидите, достаточно рядовые задания и моё мнение о самой модели по их итогам. Устраивайтесь поудобнее, ну а я начинаю своё повествование.
https://habr.com/ru/companies/bothub/articles/1029040/
#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация_текста #генерация_кода
-
DeepSeek V4: Обзор нейросети, бенчмарки и тесты
Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4 . Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью . Кто-то уже успел протестировать новую модель, кто-то пришёл к выводу, что она лучше того же ChatGPT 5.5. Ну, по крайней мере по цене точно. Про остальное говорить не буду, всё же у каждого свои вкусы и предпочтения. Да и не заглядывал я в слишком сложные задачи, чтобы по достоинству оценить, кто серьёзнее. Сегодня у нас обзор DeepSeek V4 . Пробежимся по самой модели, посмотрим на бенчмарки и, конечно же, протестируем в моих повседневных задачах, с которыми сталкивалась предыдущая версия. Чего-то сложного и высокотехнологичного тут вы не увидите, достаточно рядовые задания и моё мнение о самой модели по их итогам. Устраивайтесь поудобнее, ну а я начинаю своё повествование.
https://habr.com/ru/companies/bothub/articles/1029040/
#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация_текста #генерация_кода
-
DeepSeek V4: Обзор нейросети, бенчмарки и тесты
Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4 . Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью . Кто-то уже успел протестировать новую модель, кто-то пришёл к выводу, что она лучше того же ChatGPT 5.5. Ну, по крайней мере по цене точно. Про остальное говорить не буду, всё же у каждого свои вкусы и предпочтения. Да и не заглядывал я в слишком сложные задачи, чтобы по достоинству оценить, кто серьёзнее. Сегодня у нас обзор DeepSeek V4 . Пробежимся по самой модели, посмотрим на бенчмарки и, конечно же, протестируем в моих повседневных задачах, с которыми сталкивалась предыдущая версия. Чего-то сложного и высокотехнологичного тут вы не увидите, достаточно рядовые задания и моё мнение о самой модели по их итогам. Устраивайтесь поудобнее, ну а я начинаю своё повествование.
https://habr.com/ru/companies/bothub/articles/1029040/
#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация_текста #генерация_кода
-
DeepSeek V4: Обзор нейросети, бенчмарки и тесты
Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4 . Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью . Кто-то уже успел протестировать новую модель, кто-то пришёл к выводу, что она лучше того же ChatGPT 5.5. Ну, по крайней мере по цене точно. Про остальное говорить не буду, всё же у каждого свои вкусы и предпочтения. Да и не заглядывал я в слишком сложные задачи, чтобы по достоинству оценить, кто серьёзнее. Сегодня у нас обзор DeepSeek V4 . Пробежимся по самой модели, посмотрим на бенчмарки и, конечно же, протестируем в моих повседневных задачах, с которыми сталкивалась предыдущая версия. Чего-то сложного и высокотехнологичного тут вы не увидите, достаточно рядовые задания и моё мнение о самой модели по их итогам. Устраивайтесь поудобнее, ну а я начинаю своё повествование.
https://habr.com/ru/companies/bothub/articles/1029040/
#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация_текста #генерация_кода
-
DeepSeek V4: Обзор нейросети, бенчмарки и тесты Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля...
#AI #ИИ #нейросеть #deepseek #бенчмарки #модель #тесты #математика #генерация #текста #генерация
Origin | Interest | Match -
LLM бенчмарк «Испытание Дали»
Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM "Испытание Дали" по трем параметрам: качество, скорость и стоимость. Этот бенчмарк позволил мне найти оптимальную LLM для встраивания в продукты моей компании Флаг Софт. Возможно, вас тоже заинтересуют его результаты.
https://habr.com/ru/articles/1028396/
#искусственный_интеллект #llm #бенчмарки #promptengineering #gpt5 #claude #gemini #gigachat #yandexgpt_5 #deepseek_v4
-
LLM бенчмарк «Испытание Дали» Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM "...
#искусственный #интеллект #llm #бенчмарки #prompt-engineering #gpt-5 #claude #gemini #gigachat #yandexgpt #5
Origin | Interest | Match -
GPT-5.5 против DeepSeek-V4: почему OpenAI удваивает цены, пока Китай демпингует
За 2 дня рынок получил сразу два флагманских релиза: GPT-5.5 от OpenAI и DeepSeek V4 . На первый взгляд это очередная гонка бенчмарков. На деле - столкновение двух стратегий: дорогая агентная модель для реальной работы против открытых весов, дешевого API и контекста на миллион токенов. Я внимательно изучила официальные бенчмарки, прайс-листы и первые отзывы разработчиков. Давайте разбираться, что из этого реально применимо в работе.
https://habr.com/ru/articles/1027564/
#искусственный_интеллект #нейросети #вайбкодинг #gpt55 #deepseek_v4 #llm #ии_агенты #open_source #бенчмарки #автоматизация
-
DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2
В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно.
https://habr.com/ru/companies/simpleone/articles/1026602/
#DORA #devops #метрики_разработки #deployment_frequency #cicd #software_delivery #бенчмарки #управление_разработкой #itинфраструктура #devex
-
DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2
В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно.
https://habr.com/ru/companies/simpleone/articles/1026602/
#DORA #devops #метрики_разработки #deployment_frequency #cicd #software_delivery #бенчмарки #управление_разработкой #itинфраструктура #devex
-
DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2
В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно.
https://habr.com/ru/companies/simpleone/articles/1026602/
#DORA #devops #метрики_разработки #deployment_frequency #cicd #software_delivery #бенчмарки #управление_разработкой #itинфраструктура #devex
-
DORA-метрики: как собирать, интерпретировать и не переусердствовать, часть 2
В первой части мы разобрали, как устроены DORA-метрики и что стоит за каждым из пяти показателей. Сложнее другое: одни используют их как инструмент улучшения процессов, другие – как универсальную шкалу зрелости. Разбираемся, почему контекст здесь важнее любого бенчмарка – и с чего начать команде, которая хочет считать метрики осмысленно.
https://habr.com/ru/companies/simpleone/articles/1026602/
#DORA #devops #метрики_разработки #deployment_frequency #cicd #software_delivery #бенчмарки #управление_разработкой #itинфраструктура #devex
-
[Перевод] Руководство по анализу и настройке производительности для современных процессоров. Анонс книги
Привет, Хабр. Хотим поделиться с вами новостью о том, что завершаем более чем годичный фундаментальный проект - готовимся к выпуску русского издания знаменитой книги Дениса Бахвалова " Performance Analysis and Tuning on Modern CPUs: Learn to write fast software like a pro ". Денис теснейшим образом взаимодействовал с нашими редакторами, мы составили глоссарий к русскому изданию и уверены, что книга на долгие годы станет де-факто главным пособием по оптимизации производительности CPU. Книга выросла из многочисленных практических исследований, которыми Денис занимается в компании "Intel", и в качестве анонса мы хотим предложить вам перевод статьи автора, которая вышла ещё в 2019 году и может считаться рассказом о том, как зародилась идея будущей книги. В тексте под катом содержатся многочисленные ссылки на статьи Дениса из блога https://easyperf.net/notes/ , который также рекомендуем пристально изучить. Русскую книгу ждите в мае.
https://habr.com/ru/companies/bhv_publishing/articles/1024462/
#CPU #процессоры #оптимизация_кода #оптимизация_производительности #алгоритмы #бенчмарки #профессиональная_литература
-
Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub
Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.
https://habr.com/ru/companies/haulmont/articles/1023450/
#Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding
-
Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub
Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.
https://habr.com/ru/companies/haulmont/articles/1023450/
#Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding
-
Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub
Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.
https://habr.com/ru/companies/haulmont/articles/1023450/
#Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding
-
Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub
Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.
https://habr.com/ru/companies/haulmont/articles/1023450/
#Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding
-
[Перевод] EVGeoQA: Оценка LLM в динамическом, многоцелевом геопространственном поиске
Хотя большие языковые модели (LLM) демонстрируют выдающиеся способности к рассуждению, их потенциал для целенаправленного поиска в динамичных геопространственных средах остается малоизученным. Существующие бенчмарки для геопространственных вопросно-ответных систем (GSQA) в основном сосредоточены на статическом поиске информации, упуская из виду сложность реального планирования, которое включает динамическое местоположение пользователя и составные ограничения. Чтобы восполнить этот пробел, мы представляем EVGeoQA — новый бенчмарк, построенный на сценариях зарядки электромобилей (EV), который отличается уникальной привязкой к местоположению и наличием двух целевых условий. В частности, каждый запрос в EVGeoQA явно привязан к координатам пользователя в реальном времени и объединяет две цели: саму потребность в зарядке и предпочтения по совмещенной активности (рядом со станцией). Для систематической оценки моделей в таких сложных условиях мы также предлагаем GeoRover — общую систему
-
[Перевод] ИИ-бенчмарки больше не работают. И вот что с этим делать
Синтетические тесты в вакууме не показывают реальной пользы нейросетей. Индустрии пора переходить на метрики, где во главе угла стоят люди и жизненный контекст
-
Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает
Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик
https://habr.com/ru/articles/1019490/
#llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки
-
Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN
Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один? Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт. Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях. Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи . Интерактивные результаты – на сайте . Детали по исследованию
-
DeepMind определил тест для AGI
Почти три года назад Google DeepMind опубликовала Levels of AGI - работу, которая определила пять уровней AI-систем (от начального до сверхчеловеческого) и шесть уровней автономии (от инструмента до полностью автономного агента). Индустрия получила общую терминологию - что-то вроде уровней автономного вождения , только для интеллекта. Но без способа измерить, на каком уровне находится конкретная система, классификация осталась сугубо теоретической. Каждый мог назвать свою модель level 2, и никто не мог это опровергнуть. В марте 2026-го вышло продолжение. Measuring Progress Toward AGI пытается дать индустрии инструмент измерения. Не финальный скор, а десять отдельных шкал. Построенных не на очередном датасете, а на инструментарии когнитивной психологии.
https://habr.com/ru/articles/1013570/
#AGI #Google_DeepMind #бенчмарки #когнитивная_психология #оценка_моделей #LLM #нейросети #машинное_обучение
-
Какая ИИ-модель лучше пишет код? Тестирую 8 популярных моделей на реальной задаче в opensource-проекте
Какая ИИ-модель лучше всего пишет код в реальных условиях? Чтобы ответить на этот вопрос, я взял 8 популярных моделей — от дорогих флагманов OpenAI и Anthropic до доступных открытых альтернатив — и поручил им одну и ту же задачу в действующем open-source проекте. За подробным разбором результатов добро пожаловать под кат.
https://habr.com/ru/articles/1009866/
#opencode #opensource #llmмодели #бенчмарки #telegrambot #ииагенты
-
9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026
Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Без людей в цикле. Стоимость — один сервер с GPU. Не бывает «лучшей модели» — бывает лучшая модель для конкретной роли. Оркестратору нужен reasoning (GPQA 88.4%), билдеру — кодогенерация (HumanEval 92.7%), критику — понимание tool use (tau-bench 87.4%). Поэтому вместо одного GPT-5 на все задачи — 6 open-source моделей на 9 ролей. Внутри: конкретный маппинг модель → роль с обоснованием через бенчмарки, трюк с шарингом инстансов (9 агентов = 3-4 модели), три конфигурации развёртывания от одной RTX 4090 (24 GB) до кластера A100 (211 GB), квантизация, инфраструктура инференса и интерактивный дашборд.
https://habr.com/ru/articles/1009608/
#LLM #opensource #мультиагентные_системы #MoE #Qwen #DeepSeek #GPU #VRAM #бенчмарки #agent_factory
-
9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026 Я собрал команду из 9 ИИ-агентов, кот...
#LLM #open-source #мульти-агентные #системы #MoE #Qwen #DeepSeek #GPU #VRAM #бенчмарки #agent
Origin | Interest | Match -
От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов
Вы выкатили AI-агента в прод. Пользователи пишут: «он мне чушь ответил». Вы открываете логи, смотрите на промпт, на ответ — и не понимаете: это регрессия после вчерашней правки промпта? Проблемы после смены модели? Или просто краевой случай, который всегда был? Знакомо? Нам — да. Марта — AI-агент в Битрикс24. Она работает с CRM, задачами, отвечает на вопросы пользователей. Когда Марта была маленькой, мы тестировали её руками: открывали чат, писали вопрос, смотрели ответ. Но ручное тестирование не масштабируется. Один человек не может прогнать 200 сценариев после каждой правки промпта. А правки промптов происходят постоянно. Мы строим систему бенчмарков, которая автоматически проверяет качество работы Марты. Путь от «тестируем руками» до работающей системы занял около полугода, включая изучение подходов, набивание шишек и переделки. Дальше расскажу, как мы к этому пришли. Стек у вас может быть любым, подход останется тем же.
-
Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»
Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".
https://habr.com/ru/articles/1003130/
#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ
-
Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»
Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".
https://habr.com/ru/articles/1003130/
#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ
-
Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»
Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".
https://habr.com/ru/articles/1003130/
#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ
-
Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»
Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".
https://habr.com/ru/articles/1003130/
#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ
-
WordPress с OpenLiteSpeed vs классический LEMP: реальные бенчмарки
Мы сравнили OpenLiteSpeed и классический LEMP для WordPress на реальных серверах. RPS, latency, TTFB, потребление CPU и RAM, поведение под нагрузкой до 500 пользователей. И вот какие итоги у нас получились.
https://habr.com/ru/companies/hostkey/articles/995356/
#hostkey #WordPress #OpenLiteSpeed #LEMP #Nginx #PHP #Бенчмарки #Производительность #Кеширование #Вебсерверы
-
WordPress с OpenLiteSpeed vs классический LEMP: реальные бенчмарки
Мы сравнили OpenLiteSpeed и классический LEMP для WordPress на реальных серверах. RPS, latency, TTFB, потребление CPU и RAM, поведение под нагрузкой до 500 пользователей. И вот какие итоги у нас получились.
https://habr.com/ru/companies/hostkey/articles/995356/
#hostkey #WordPress #OpenLiteSpeed #LEMP #Nginx #PHP #Бенчмарки #Производительность #Кеширование #Вебсерверы
-
WordPress с OpenLiteSpeed vs классический LEMP: реальные бенчмарки
Мы сравнили OpenLiteSpeed и классический LEMP для WordPress на реальных серверах. RPS, latency, TTFB, потребление CPU и RAM, поведение под нагрузкой до 500 пользователей. И вот какие итоги у нас получились.
https://habr.com/ru/companies/hostkey/articles/995356/
#hostkey #WordPress #OpenLiteSpeed #LEMP #Nginx #PHP #Бенчмарки #Производительность #Кеширование #Вебсерверы
-
WordPress с OpenLiteSpeed vs классический LEMP: реальные бенчмарки
Мы сравнили OpenLiteSpeed и классический LEMP для WordPress на реальных серверах. RPS, latency, TTFB, потребление CPU и RAM, поведение под нагрузкой до 500 пользователей. И вот какие итоги у нас получились.
https://habr.com/ru/companies/hostkey/articles/995356/
#hostkey #WordPress #OpenLiteSpeed #LEMP #Nginx #PHP #Бенчмарки #Производительность #Кеширование #Вебсерверы
-
Как мы автоматизировали анализ бенчмарков: опыт команды Postgres Professional
Проводить нагрузочное тестирование PostgreSQL — полдела. Главная сложность начинается, когда нужно проанализировать сотни результатов и понять, где реальная просадка производительности, а где статистический шум. Младшие специалисты Postgres Professional Евгений Бузюркин, Дарья Барсукова и Рустам Хамидуллин разработали инструмент, который автоматически определяет тип распределения данных, детектирует мультимодальность и подбирает оптимальные параметры для каждого набора результатов бенчмарков.
-
[Перевод] Я создал вдвое более быстрый лексер, но обнаружил, что узким местом был ввод-вывод
Я создал лексер ассемблера ARM64 (ну, точнее, сгенерировал его из моего собственного генератора парсера, но пост не об этом), обрабатывающий код на Dart вдвое быстрее официального сканера. Этого результата я добился при помощи статистических методик надёжного измерения малых различий в производительности . Затем я провёл его бенчмарк на 104000 файлов и обнаружил, что узким местом был не мой лексер, а ввод-вывод. Это история о том, как я случайно узнал, почему pub.dev хранит пакеты в виде файлов tar.gz.
-
Когда нейросеть решит то, что не решил никто?
В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили посмотреть, что будет дальше, и выкатили бенчмарк из задач, которые не решил вообще никто. Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале. Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями. Или вот задача попроще (на первый взгляд): привести алгоритм, который определяит, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа. Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат. Интересно. Читать далее
https://habr.com/ru/companies/bar/articles/990406/
#FrontierMath #Epoch_AI #LLM #бенчмарки #открытые_задачи #GPT5 #Gemini #теория_чисел #research_taste
-
[Перевод] Как DuckDB обрабатывает 1 ТБ данных менее чем за 30 секунд
Команда Python for Devs подготовила перевод статьи о том, как DuckDB ломает привычные представления о масштабах аналитических данных. Автор на реальных бенчмарках показывает, что 1 ТБ данных можно агрегировать за считанные секунды — без Spark, без распределённых кластеров и без сложной инфраструктуры.
-
Кстати, кому-то интересно будет почитать про то, какой выхлоп даёт для нейронок в #ollama апгрейд с rtx4060ti 16gb на rtx5060ti 16gb? А то может как и я – сомневаетесь, стоит ли апгрейдить свою коробочку за 50к? Если да - спрашивайте заранее свои ответы, постараюсь осветить.
-
Core i9 vs Apple M2: как честно сравнивать калькуляторы с суперкомпьютерами
Представьте ситуацию: вы выбираете между Intel Core i9 и Apple M2 (как пример двух мощных систем). Один потребляет 300 Ватт и греется как печка, другой — 30 Ватт и работает от батареи 20 часов. Один показывает 200 FPS в играх, другой — 90, но в три раза эффективнее. Один стоит $600, другой — встроен в ноутбук за $2000. Кого вы выберете?
https://habr.com/ru/articles/983504/
#процессоры_intel #процессоры_amd #архитектура_процессоров #выбор_процессора #бенчмарки #маркетинг
-
[Перевод] Большим GPU не нужны большие PC
С тех пор, как я научил графические карты AMD , Intel и Nvidia работать с Raspberry Pi, меня мучил вопрос: Какой в этом смысл? У Raspberry Pi есть только одна линия шины PCIe Gen 3, доступная для подключения к eGPU. Этого очень мало, особенно учитывая, что у современного десктопа есть как минимум один разъём с 16 линиями шины PCIe Gen 5. То есть разница составляет 8 Гт/с (гигатранзакций/с) против 512 Гт/с. Бой явно неравный. Но мне стало любопытно, действительно ли пропускная способность шины важна всегда. Я хотел наконец покончить с вопросом о полезности, протестировав четыре задачи на разнообразных GPU для сравнения производительности на Raspberry Pi 5 и на современном десктопном PC.
https://habr.com/ru/companies/ruvds/articles/980782/
#llm #nvidia #amd #radeon #локальные_нейросети #бенчмарки #ruvds_переводы
-
10% на LLM и 90% на инженерию: как российские компании используют ИИ
Привет, Хабр! Продолжаю делиться материалами живых дискуссий, которые идут на телеграм-канале Dev Q&A. На этот раз тема — выбор между open source и коммерческими LLM для корпоративных задач. Обсудили главные болевые точки: почему почти все корпоративные заказчики требуют он-прем, как узкоспециализированные модели обходят универсальные решения, насколько реален GPU-дефицит для практических задач.
https://habr.com/ru/articles/977686/
#llmмодели #ai #программирование #будущее_программирования #gpu #opensource #архитектура #бенчмарки #микросервисы #lowcode
-
Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки
Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.
https://habr.com/ru/companies/bothub/articles/976514/
#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic
-
Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки
Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.
https://habr.com/ru/companies/bothub/articles/976514/
#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic