#оценка_llm — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #оценка_llm, aggregated by home.social.
-
Почему бенчмарки в AI сломались — и что с этим делать в понедельник
Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью
https://habr.com/ru/articles/1034014/
#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети
-
Почему бенчмарки в AI сломались — и что с этим делать в понедельник
Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью
https://habr.com/ru/articles/1034014/
#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети
-
Почему бенчмарки в AI сломались — и что с этим делать в понедельник
Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью
https://habr.com/ru/articles/1034014/
#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети
-
Почему бенчмарки в AI сломались — и что с этим делать в понедельник
Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент оценки остался прежним. В условиях высокого темпа этот разрыв не нейтрален. Команды, которые оптимизируют правильный класс свойств, накапливают то, что конкурент не измеряет — а значит, не строит. Преимущество аккумулируется асимметрично, в категориях, которых ещё нет в сравнительных таблицах. Почему бенчмарки в AI сломались, и что с этим делать в следующий понедельник. Читать полностью
https://habr.com/ru/articles/1034014/
#llm #бенчмарки #оценка_LLM #агентные_системы #aiагенты #закон_гудхарта #метрики_качества #анализ_и_проектирование_систем #критическое_мышление #нейросети
-
[Перевод] Как оценивать RAG-системы: метрики, методы и что измерять в первую очередь
Когда RAG-система дает сбой, по финальному ответу почти невозможно понять, где именно произошла ошибка. Генерация с дополнением через поиск – один из базовых паттернов работы с контекстом в LLM-приложениях: он расширяет знания модели за счет поиска, но одновременно усложняет диагностику. В результате без внятной системы оценки любые проблемы выглядят одинаково – как «неверный ответ». В этом материале разберем, что именно стоит измерять в RAG-конвейере, какие метрики действительно помогают находить причину сбоев и как выстроить оценку так, чтобы она показывала не факт ошибки, а ее источник. Разобраться
https://habr.com/ru/companies/otus/articles/1011464/
#RAG #retrievalaugmented_generation #оценка_LLM #метрики_качества #галлюцинации_моделей #информационный_поиск #эмбеддинги #ранжирование_документов #AIархитектура
-
[Перевод] Как оценивать RAG-системы: метрики, методы и что измерять в первую очередь
Когда RAG-система дает сбой, по финальному ответу почти невозможно понять, где именно произошла ошибка. Генерация с дополнением через поиск – один из базовых паттернов работы с контекстом в LLM-приложениях: он расширяет знания модели за счет поиска, но одновременно усложняет диагностику. В результате без внятной системы оценки любые проблемы выглядят одинаково – как «неверный ответ». В этом материале разберем, что именно стоит измерять в RAG-конвейере, какие метрики действительно помогают находить причину сбоев и как выстроить оценку так, чтобы она показывала не факт ошибки, а ее источник. Разобраться
https://habr.com/ru/companies/otus/articles/1011464/
#RAG #retrievalaugmented_generation #оценка_LLM #метрики_качества #галлюцинации_моделей #информационный_поиск #эмбеддинги #ранжирование_документов #AIархитектура
-
[Перевод] Как оценивать RAG-системы: метрики, методы и что измерять в первую очередь
Когда RAG-система дает сбой, по финальному ответу почти невозможно понять, где именно произошла ошибка. Генерация с дополнением через поиск – один из базовых паттернов работы с контекстом в LLM-приложениях: он расширяет знания модели за счет поиска, но одновременно усложняет диагностику. В результате без внятной системы оценки любые проблемы выглядят одинаково – как «неверный ответ». В этом материале разберем, что именно стоит измерять в RAG-конвейере, какие метрики действительно помогают находить причину сбоев и как выстроить оценку так, чтобы она показывала не факт ошибки, а ее источник. Разобраться
https://habr.com/ru/companies/otus/articles/1011464/
#RAG #retrievalaugmented_generation #оценка_LLM #метрики_качества #галлюцинации_моделей #информационный_поиск #эмбеддинги #ранжирование_документов #AIархитектура
-
[Перевод] Как оценивать RAG-системы: метрики, методы и что измерять в первую очередь
Когда RAG-система дает сбой, по финальному ответу почти невозможно понять, где именно произошла ошибка. Генерация с дополнением через поиск – один из базовых паттернов работы с контекстом в LLM-приложениях: он расширяет знания модели за счет поиска, но одновременно усложняет диагностику. В результате без внятной системы оценки любые проблемы выглядят одинаково – как «неверный ответ». В этом материале разберем, что именно стоит измерять в RAG-конвейере, какие метрики действительно помогают находить причину сбоев и как выстроить оценку так, чтобы она показывала не факт ошибки, а ее источник. Разобраться
https://habr.com/ru/companies/otus/articles/1011464/
#RAG #retrievalaugmented_generation #оценка_LLM #метрики_качества #галлюцинации_моделей #информационный_поиск #эмбеддинги #ранжирование_документов #AIархитектура