#тестирование_ии — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #тестирование_ии, aggregated by home.social.
-
ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает
Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.
https://habr.com/ru/articles/1027638/
#ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация
-
ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает
Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.
https://habr.com/ru/articles/1027638/
#ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация
-
ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает
Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.
https://habr.com/ru/articles/1027638/
#ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация
-
ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает
Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.
https://habr.com/ru/articles/1027638/
#ИИ #тестирование_ии_систем #тестирование_ии #тестирование_ии_агентов #istqb #istqb_подготовка #istqb_тренажер #istqb_пробный_экзамен #istqb_сертификация
-
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM
-
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM
-
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM
-
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM
-
Испытание ИИ-моделей. Sonnet vs qwen
Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси https://openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.
-
Испытание ИИ-моделей. Sonnet vs qwen
Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси https://openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.
-
Испытание ИИ-моделей. Sonnet vs qwen
Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси https://openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.
-
Испытание ИИ-моделей. Sonnet vs qwen
Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси https://openrouter.ai/ . Запрос составил так: @elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги. Историю сообщений можно прочитать в файле . Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.
-
Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях
Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде «ИИ научился обманывать чтобы спастись!» или «Нейросети вышли из-под контроля и пытались сбежать!» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.
https://habr.com/ru/companies/timeweb/articles/864914/
#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи
-
Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях
Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде «ИИ научился обманывать чтобы спастись!» или «Нейросети вышли из-под контроля и пытались сбежать!» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.
https://habr.com/ru/companies/timeweb/articles/864914/
#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи
-
Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях
Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде «ИИ научился обманывать чтобы спастись!» или «Нейросети вышли из-под контроля и пытались сбежать!» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.
https://habr.com/ru/companies/timeweb/articles/864914/
#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи
-
Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях
Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде «ИИ научился обманывать чтобы спастись!» или «Нейросети вышли из-под контроля и пытались сбежать!» . Это в корне не верно передает смысл исследования. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me , техноблогер и нейро-евангелист. Последние несколько лет я активно слежу за развитием искусственного интеллекта и стараюсь делиться с аудиторией объективной информацией. Как человек, внимательно изучивший оригинал исследования , я хочу представить его краткий локализированный пересказ и объяснить, что на самом деле обнаружили исследователи. Спойлер: никакого восстания машин не предвидится.
https://habr.com/ru/companies/timeweb/articles/864914/
#нейросети #большие_языковые_модели #gpt #claude #gemini #искусственный_интеллект #тестирование_ии #timeweb_статьи