#тестирование_ии — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-24 · 14:52 UTC

ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.

https://habr.com/ru/articles/1027638/

#ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация

#istqb_сертификация #istqb_пробный_экзамен #istqb_тренажер #istqb_подготовка #istqb #тестирование_ии_агентов

Habr @[email protected] · 2026-04-24 · 14:52 UTC

ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.

https://habr.com/ru/articles/1027638/

#ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация

#istqb_сертификация #istqb_пробный_экзамен #istqb_тренажер #istqb_подготовка #istqb #тестирование_ии_агентов

Habr @[email protected] · 2026-04-24 · 14:52 UTC

ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.

https://habr.com/ru/articles/1027638/

#ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация

#istqb_сертификация #istqb_пробный_экзамен #istqb_тренажер #istqb_подготовка #istqb #тестирование_ии_агентов

Habr @[email protected] · 2026-04-24 · 14:52 UTC

ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.

https://habr.com/ru/articles/1027638/

#ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация

#ии #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка

Habr @[email protected] · 2026-04-06 · 16:02 UTC

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

https://habr.com/ru/articles/1017082/

#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

#метрики_качества_llm #тестирование_ии #frontiermath #gpqa_diamond #arcagi #terminalbench

Habr @[email protected] · 2026-04-06 · 16:02 UTC

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

https://habr.com/ru/articles/1017082/

#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

#метрики_качества_llm #тестирование_ии #frontiermath #gpqa_diamond #arcagi #terminalbench

Habr @[email protected] · 2026-04-06 · 16:02 UTC

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

https://habr.com/ru/articles/1017082/

#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

#метрики_качества_llm #тестирование_ии #frontiermath #gpqa_diamond #arcagi #terminalbench

Habr @[email protected] · 2026-04-06 · 16:02 UTC

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

https://habr.com/ru/articles/1017082/

#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

#бенчмарки_llm #swebench #оценка_языковых_моделей #ai_бенчмарки_2025 #terminalbench #arcagi

Habr @[email protected] · 2025-03-09 · 18:02 UTC

Испытание ИИ-моделей. Sonnet vs qwen

Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси https://openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.

https://habr.com/ru/articles/889384/

#ИИ #тестирование_ии

#тестирование_ии #ии

Habr @[email protected] · 2025-03-09 · 18:02 UTC

Испытание ИИ-моделей. Sonnet vs qwen

Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси https://openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.

https://habr.com/ru/articles/889384/

#ИИ #тестирование_ии

#тестирование_ии #ии

Habr @[email protected] · 2025-03-09 · 18:02 UTC

Испытание ИИ-моделей. Sonnet vs qwen

Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси https://openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.

https://habr.com/ru/articles/889384/

#ИИ #тестирование_ии

#тестирование_ии #ии

Habr @[email protected] · 2025-03-09 · 18:02 UTC

Испытание ИИ-моделей. Sonnet vs qwen

Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси https://openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.

https://habr.com/ru/articles/889384/

#ИИ #тестирование_ии

#ии #тестирование_ии

Habr @[email protected] · 2024-12-18 · 08:32 UTC

Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде ‭ «ИИ научился обманывать чтобы спастись!‭» или ‭ «Нейросети вышли из-под контроля и пытались сбежать!‭» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.

https://habr.com/ru/companies/timeweb/articles/864914/

#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи

#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект

Habr @[email protected] · 2024-12-18 · 08:32 UTC

Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде ‭ «ИИ научился обманывать чтобы спастись!‭» или ‭ «Нейросети вышли из-под контроля и пытались сбежать!‭» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.

https://habr.com/ru/companies/timeweb/articles/864914/

#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи

#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект

Habr @[email protected] · 2024-12-18 · 08:32 UTC

Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде ‭ «ИИ научился обманывать чтобы спастись!‭» или ‭ «Нейросети вышли из-под контроля и пытались сбежать!‭» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.

https://habr.com/ru/companies/timeweb/articles/864914/

#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи

#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект

Habr @[email protected] · 2024-12-18 · 08:32 UTC

Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде ‭ «ИИ научился обманывать чтобы спастись!‭» или ‭ «Нейросети вышли из-под контроля и пытались сбежать!‭» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.

https://habr.com/ru/companies/timeweb/articles/864914/

#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи

#timeweb_статьи #тестирование_ии #искусственный_интеллект #gemini #claude #gpt