home.social

#тестирование_ии — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #тестирование_ии, aggregated by home.social.

  1. ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

    Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.

    habr.com/ru/articles/1027638/

    #ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация

  2. ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

    Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.

    habr.com/ru/articles/1027638/

    #ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация

  3. ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

    Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.

    habr.com/ru/articles/1027638/

    #ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация

  4. ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

    Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.

    habr.com/ru/articles/1027638/

    #ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация

  5. [Перевод] Разбираем 14 самых популярных бенчмарков для LLM

    Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

    habr.com/ru/articles/1017082/

    #бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

  6. [Перевод] Разбираем 14 самых популярных бенчмарков для LLM

    Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

    habr.com/ru/articles/1017082/

    #бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

  7. [Перевод] Разбираем 14 самых популярных бенчмарков для LLM

    Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

    habr.com/ru/articles/1017082/

    #бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

  8. [Перевод] Разбираем 14 самых популярных бенчмарков для LLM

    Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

    habr.com/ru/articles/1017082/

    #бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

  9. Испытание ИИ-моделей. Sonnet vs qwen

    Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.

    habr.com/ru/articles/889384/

    #ИИ #тестирование_ии

  10. Испытание ИИ-моделей. Sonnet vs qwen

    Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.

    habr.com/ru/articles/889384/

    #ИИ #тестирование_ии

  11. Испытание ИИ-моделей. Sonnet vs qwen

    Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.

    habr.com/ru/articles/889384/

    #ИИ #тестирование_ии

  12. Испытание ИИ-моделей. Sonnet vs qwen

    Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.

    habr.com/ru/articles/889384/

    #ИИ #тестирование_ии

  13. Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

    Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде ‭ «ИИ научился обманывать чтобы спастись!‭» или ‭ «Нейросети вышли из-под контроля и пытались сбежать!‭» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.

    habr.com/ru/companies/timeweb/

    #нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи

  14. Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

    Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде ‭ «ИИ научился обманывать чтобы спастись!‭» или ‭ «Нейросети вышли из-под контроля и пытались сбежать!‭» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.

    habr.com/ru/companies/timeweb/

    #нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи

  15. Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

    Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде ‭ «ИИ научился обманывать чтобы спастись!‭» или ‭ «Нейросети вышли из-под контроля и пытались сбежать!‭» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.

    habr.com/ru/companies/timeweb/

    #нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи

  16. Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

    Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде ‭ «ИИ научился обманывать чтобы спастись!‭» или ‭ «Нейросети вышли из-под контроля и пытались сбежать!‭» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.

    habr.com/ru/companies/timeweb/

    #нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи