#бенчмарки_ии — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #бенчмарки_ии, aggregated by home.social.
-
Leaderboard Illusion: что не так с Chatbot Arena
Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.
https://habr.com/ru/articles/906326/
#статистика #бенчмарки_ИИ #бенчмарки #Chatbot_Arena #большие_языковые_модели #БЯМ #научные_публикации #конфликты #пиар #завышенные_ожидания
-
Leaderboard Illusion: что не так с Chatbot Arena
Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.
https://habr.com/ru/articles/906326/
#статистика #бенчмарки_ИИ #бенчмарки #Chatbot_Arena #большие_языковые_модели #БЯМ #научные_публикации #конфликты #пиар #завышенные_ожидания
-
Leaderboard Illusion: что не так с Chatbot Arena
Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.
https://habr.com/ru/articles/906326/
#статистика #бенчмарки_ИИ #бенчмарки #Chatbot_Arena #большие_языковые_модели #БЯМ #научные_публикации #конфликты #пиар #завышенные_ожидания
-
Leaderboard Illusion: что не так с Chatbot Arena
Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.
https://habr.com/ru/articles/906326/
#статистика #бенчмарки_ИИ #бенчмарки #Chatbot_Arena #большие_языковые_модели #БЯМ #научные_публикации #конфликты #пиар #завышенные_ожидания