home.social

#тестирование_моделей — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #тестирование_моделей, aggregated by home.social.

  1. Gemini 3.1 Pro: обзор, бенчмарки, сравнение

    Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!

    habr.com/ru/companies/bothub/a

    #ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей

  2. Gemini 3.1 Pro: обзор, бенчмарки, сравнение

    Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!

    habr.com/ru/companies/bothub/a

    #ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей

  3. Gemini 3.1 Pro: обзор, бенчмарки, сравнение

    Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!

    habr.com/ru/companies/bothub/a

    #ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей

  4. Gemini 3.1 Pro: обзор, бенчмарки, сравнение

    Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!

    habr.com/ru/companies/bothub/a

    #ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей

  5. ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

    Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

    habr.com/ru/articles/976228/

    #искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

  6. ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

    Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

    habr.com/ru/articles/976228/

    #искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

  7. ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

    Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

    habr.com/ru/articles/976228/

    #искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

  8. ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

    Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

    habr.com/ru/articles/976228/

    #искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

  9. Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты

    Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.

    habr.com/ru/companies/just_ai/

    #rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных

  10. Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты

    Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.

    habr.com/ru/companies/just_ai/

    #rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных

  11. Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты

    Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.

    habr.com/ru/companies/just_ai/

    #rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных

  12. Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты

    Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.

    habr.com/ru/companies/just_ai/

    #rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных