#результаты — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-08 · 06:12 UTC

[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста

Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современные ИИ-модели справляются с анализом текста: классификацией, кластеризацией, поиском похожих текстов, ранжированием. Кратко: Ученые создали тест, чтобы сравнить людей и самые современные ИИ-модели (те, которые переводят слова в числа — эмбеддинги) в заданиях на понимание смысла. И выяснили, что люди пока что умнее в "тонких" вещах, особенно с неродным для ИИ языком. Проблема: Мы часто хвалим ИИ за высокие баллы в бенчмарках (тестах). Но как понять, хорош ли результат 85%? Может, для человека эта задача проще, и он справился бы на 95%? Или, наоборот, задача настолько сложна и запутана, что человек показал бы только 60%? Без "человеческого ориентира" цифры теряют смысл. Авторы создали новый способ оценки ( HUME — Human Evaluation Framework for Text Embeddings), который позволяет напрямую сравнить людей с ИИ-моделями в задачах анализа текста. Результаты и выводы:

https://habr.com/ru/articles/1031020/

#Hume #сбер #результаты

#результаты #сбер #hume

Habr @[email protected] · 2026-05-08 · 06:12 UTC

[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста

Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современные ИИ-модели справляются с анализом текста: классификацией, кластеризацией, поиском похожих текстов, ранжированием. Кратко: Ученые создали тест, чтобы сравнить людей и самые современные ИИ-модели (те, которые переводят слова в числа — эмбеддинги) в заданиях на понимание смысла. И выяснили, что люди пока что умнее в "тонких" вещах, особенно с неродным для ИИ языком. Проблема: Мы часто хвалим ИИ за высокие баллы в бенчмарках (тестах). Но как понять, хорош ли результат 85%? Может, для человека эта задача проще, и он справился бы на 95%? Или, наоборот, задача настолько сложна и запутана, что человек показал бы только 60%? Без "человеческого ориентира" цифры теряют смысл. Авторы создали новый способ оценки ( HUME — Human Evaluation Framework for Text Embeddings), который позволяет напрямую сравнить людей с ИИ-моделями в задачах анализа текста. Результаты и выводы:

https://habr.com/ru/articles/1031020/

#Hume #сбер #результаты

#результаты #сбер #hume

Habr @[email protected] · 2026-05-08 · 06:12 UTC

[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста

Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современные ИИ-модели справляются с анализом текста: классификацией, кластеризацией, поиском похожих текстов, ранжированием. Кратко: Ученые создали тест, чтобы сравнить людей и самые современные ИИ-модели (те, которые переводят слова в числа — эмбеддинги) в заданиях на понимание смысла. И выяснили, что люди пока что умнее в "тонких" вещах, особенно с неродным для ИИ языком. Проблема: Мы часто хвалим ИИ за высокие баллы в бенчмарках (тестах). Но как понять, хорош ли результат 85%? Может, для человека эта задача проще, и он справился бы на 95%? Или, наоборот, задача настолько сложна и запутана, что человек показал бы только 60%? Без "человеческого ориентира" цифры теряют смысл. Авторы создали новый способ оценки ( HUME — Human Evaluation Framework for Text Embeddings), который позволяет напрямую сравнить людей с ИИ-моделями в задачах анализа текста. Результаты и выводы:

https://habr.com/ru/articles/1031020/

#Hume #сбер #результаты

#результаты #сбер #hume

Habr @[email protected] · 2026-05-08 · 06:12 UTC

[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста

Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современные ИИ-модели справляются с анализом текста: классификацией, кластеризацией, поиском похожих текстов, ранжированием. Кратко: Ученые создали тест, чтобы сравнить людей и самые современные ИИ-модели (те, которые переводят слова в числа — эмбеддинги) в заданиях на понимание смысла. И выяснили, что люди пока что умнее в "тонких" вещах, особенно с неродным для ИИ языком. Проблема: Мы часто хвалим ИИ за высокие баллы в бенчмарках (тестах). Но как понять, хорош ли результат 85%? Может, для человека эта задача проще, и он справился бы на 95%? Или, наоборот, задача настолько сложна и запутана, что человек показал бы только 60%? Без "человеческого ориентира" цифры теряют смысл. Авторы создали новый способ оценки ( HUME — Human Evaluation Framework for Text Embeddings), который позволяет напрямую сравнить людей с ИИ-моделями в задачах анализа текста. Результаты и выводы:

https://habr.com/ru/articles/1031020/

#Hume #сбер #результаты

#hume #сбер #результаты

:rss: Информационное агентство @[email protected] · 2024-11-09 · 12:06 UTC

Назван самый известный человек всех времен: вы точно знаете эту знаменитость
https://www.unian.net/lite/stars/maykl-dzhekson-stav-nayvidomishoyu-lyudinoyu-vsih-chasiv-hto-shche-pretenduvav-na-ce-zvannya-foto-12813006.html
#unian #МайклДжексон #опрос #певец #рейтинг #самыйизвестныйчеловеквмире #победа #первоеместо #актеры #политики #артисты #сеть #пользователи #талант #результаты #КоролеваЕлизаветаII #АнджелинаДжоли #ЭлвисПресли

#unian #майклджексон #опрос #певец #рейтинг #самыйизвестныйчеловеквмире

:rss: Информационное агентство @[email protected] · 2024-11-09 · 12:06 UTC

Назван самый известный человек всех времен: вы точно знаете эту знаменитость
https://www.unian.net/lite/stars/maykl-dzhekson-stav-nayvidomishoyu-lyudinoyu-vsih-chasiv-hto-shche-pretenduvav-na-ce-zvannya-foto-12813006.html
#unian #МайклДжексон #опрос #певец #рейтинг #самыйизвестныйчеловеквмире #победа #первоеместо #актеры #политики #артисты #сеть #пользователи #талант #результаты #КоролеваЕлизаветаII #АнджелинаДжоли #ЭлвисПресли

#элвиспресли #анджелинаджоли #королеваелизаветаii #результаты #талант #пользователи

Habr @[email protected] · 2024-05-21 · 14:52 UTC

«За короткий срок менеджер не может показать никаких результатов» (с)

В моей трудовой есть 1 место работы, на котором я еле-еле проработала 5 месяцев. Это крупная нефтяная компания, не будем тыкать пальцем. Я знаю, что я не одна такая и не только у меня с ней не сложилось. Тем не менее, за эти 5 месяцев я уволилась с выгоранием. Да, такое бывает, если все происходит очень быстро и интенсивно, а тебе не пофиг на твою работу. Это все предыстория. Основная тема такая. Однажды в компании, где работает мой муж, была открыта вакансия ПМ. И он такой: «О! Давай я твоё резюме закину! ». Ну я такая: « Ну ладно, давай, вместе поработаем ». Но не случилось) Руководительница обещала перезвонить, но так и не позвонила. А когда мой муж пошел поинтересоваться, а почему так. Выяснилось следующее: « Уууууу! 5 месяцев! ПЯТЬ! И что за это время можно успеть?! Я считаю, все вранье, поэтому больше нам такие резюме не приносите, своих родственников не продвигайте – и даром не возьмем такое *** ». Далее в статье описано, что я все же сделала, а от читателей Хабр хотелось бы получить мнение: это действительно – ничто? Или как? А также интересно, были ли вы в подобной ситуации?

https://habr.com/ru/articles/815977/

#project #project_management #resume #оценка_людей #мнение #справедливость #достижения #результаты

#результаты #достижения #справедливость #мнение #оценка_людей #resume