#тестирование_моделей — Public Fediverse posts on home.social

Habr @[email protected] · 2026-02-22 · 18:22 UTC

Gemini 3.1 Pro: обзор, бенчмарки, сравнение

Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!

https://habr.com/ru/companies/bothub/articles/1002536/

#ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей

#мышление_моделей #ai #анонс_моделей_ии #тестирование_моделей #модели_ии #gemini_31_pro

Habr @[email protected] · 2026-02-22 · 18:22 UTC

Gemini 3.1 Pro: обзор, бенчмарки, сравнение

Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!

https://habr.com/ru/companies/bothub/articles/1002536/

#ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей

#мышление_моделей #ai #анонс_моделей_ии #тестирование_моделей #модели_ии #gemini_31_pro

Habr @[email protected] · 2026-02-22 · 18:22 UTC

Gemini 3.1 Pro: обзор, бенчмарки, сравнение

Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!

https://habr.com/ru/companies/bothub/articles/1002536/

#ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей

#мышление_моделей #ai #анонс_моделей_ии #тестирование_моделей #модели_ии #gemini_31_pro

Habr @[email protected] · 2026-02-22 · 18:22 UTC

Gemini 3.1 Pro: обзор, бенчмарки, сравнение

Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!

https://habr.com/ru/companies/bothub/articles/1002536/

#ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей

#ии #ии_и_машинное_обучение #google_deepmind #gemini_31_pro #модели_ии #тестирование_моделей

Habr @[email protected] · 2025-12-12 · 17:42 UTC

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

https://habr.com/ru/articles/976228/

#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

#arcagi #openai #генеративный_ии #тестирование_моделей #бенчмаркинг #бенчмарки

Habr @[email protected] · 2025-12-12 · 17:42 UTC

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

https://habr.com/ru/articles/976228/

#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

#arcagi #openai #генеративный_ии #тестирование_моделей #бенчмаркинг #бенчмарки

Habr @[email protected] · 2025-12-12 · 17:42 UTC

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

https://habr.com/ru/articles/976228/

#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

#arcagi #openai #генеративный_ии #тестирование_моделей #бенчмаркинг #бенчмарки

Habr @[email protected] · 2025-12-12 · 17:42 UTC

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

https://habr.com/ru/articles/976228/

#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей

Habr @[email protected] · 2025-04-11 · 11:52 UTC

Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты

Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.

https://habr.com/ru/companies/just_ai/articles/899704/

#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных

#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели

Habr @[email protected] · 2025-04-11 · 11:52 UTC

Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты

Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.

https://habr.com/ru/companies/just_ai/articles/899704/

#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных

#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели

Habr @[email protected] · 2025-04-11 · 11:52 UTC

Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты

Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.

https://habr.com/ru/companies/just_ai/articles/899704/

#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных

#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели

Habr @[email protected] · 2025-04-11 · 11:52 UTC

Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты

Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.

https://habr.com/ru/companies/just_ai/articles/899704/

#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных

#базы_данных #llm #llmмодели #тестирование_моделей #клиентский_опыт #нейросети