#тестирование_моделей — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #тестирование_моделей, aggregated by home.social.
-
Gemini 3.1 Pro: обзор, бенчмарки, сравнение
Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!
https://habr.com/ru/companies/bothub/articles/1002536/
#ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей
-
Gemini 3.1 Pro: обзор, бенчмарки, сравнение
Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!
https://habr.com/ru/companies/bothub/articles/1002536/
#ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей
-
Gemini 3.1 Pro: обзор, бенчмарки, сравнение
Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!
https://habr.com/ru/companies/bothub/articles/1002536/
#ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей
-
Gemini 3.1 Pro: обзор, бенчмарки, сравнение
Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro. Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее. Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование. Забегая вперёд, скажу, что новинка действительно впечатляет, но, как всегда, есть нюансы. Приятного прочтения!
https://habr.com/ru/companies/bothub/articles/1002536/
#ии #ии_и_машинное_обучение #Google_DeepMind #Gemini_31_Pro #модели_ии #тестирование_моделей #анонс_моделей_ии #ai #мышление_моделей
-
ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2
Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?
https://habr.com/ru/articles/976228/
#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi
-
ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2
Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?
https://habr.com/ru/articles/976228/
#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi
-
ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2
Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?
https://habr.com/ru/articles/976228/
#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi
-
ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2
Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?
https://habr.com/ru/articles/976228/
#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi
-
Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты
Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.
https://habr.com/ru/companies/just_ai/articles/899704/
#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных
-
Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты
Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.
https://habr.com/ru/companies/just_ai/articles/899704/
#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных
-
Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты
Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.
https://habr.com/ru/companies/just_ai/articles/899704/
#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных
-
Оценивание LLM в RAG на клиентских и синтетических датасетах: методология и результаты
Привет, Хабр! Меня зовут Таня, я аналитик качества в команде Базы Знаний Just AI. Наша команда занимается разработкой продукта для клиентских баз знаний на основе RAG и созданием таких баз под ключ. Одной из ключевых задач POC для наших заказчиков является оценка качества и точности ответов системы, а также выбор модели, которая обеспечит эти показатели. 90% точности ответов — одно из основных требований большинства наших клиентов при выборе Базы Знаний. В этом статье я расскажу о том, как мы проводим оценку точности и выбираем модель.
https://habr.com/ru/companies/just_ai/articles/899704/
#rag #искусственный_интеллект #нейросети #клиентский_опыт #тестирование_моделей #llmмодели #llm #базы_данных