#llm_as_a_judge — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #llm_as_a_judge, aggregated by home.social.
-
Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn
Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы. Структура 1. Почему RAG сложно оценивать 2. Идея DRAGOn 3. Как строится бенчмарк 4. Проверка качества QA 5. Проверка бенчмарка на RAG-системах 6. Публичный лидерборд 7. Ограничения, проблемы и практические выводы
https://habr.com/ru/companies/ru_mts/articles/1021202/
#искусственный_интеллект #rag #бенчмарк #nlp #машинное+обучение #llm #llm_as_a_judge #датасет
-
分散成分分析で検証するLLM-as-a-Judgeの信頼性 — AIエージェントの一貫性実証に向けて
https://gihyo.jp/article/2026/03/aws-llmops-03?utm_source=feed#gihyo #技術評論社 #gihyo_jp #AWS #バックエンド #LLM #データ分析 #AgentCore_Observability #LLM_as_a_Judge
-
LLM Firewall: как вписать LLM в контур информационной безопасности
Привет, Хабр! Я Исмагилов Ильнур, разработчик команды Центра интеллектуальной автоматизации Innostage. В прошлой статье мы кратко рассмотрели угрозы ИИ‑сервисам и базовые меры защиты — этого достаточно, чтобы правильно стартовать внедрение ИИ в бизнес-процессы и заложить фундамент best‑практик для масштабирования. Во второй части мы смотрим на LLM Firewall как на рабочий элемент LLMSecOps: от требований приказа ФСТЭК до минимально достаточной архитектуры безопасной эксплуатации LLM в компании. Разбираем, какие защитные меры действительно имеют смысл, где проходит граница разумного контроля и как наращивать защиту по мере роста ИИ-систем, не уходя в overengineering. Материал будет полезен AI-инженерам, специалистам по информационной безопасности и руководителям ИТ и ИБ. Мы обсуждаем, как сохранить управляемость и контроль рисков при внедрении ИИ без лишних затрат, и показываем более глубокие техники выявления атак на LLM — от анализа поведенческой телеметрии до оценки угроз в реальном времени.
https://habr.com/ru/articles/981408/
#LLM_Firewall #LLMSecOps #AIGateway #LLM_as_a_judge #llm #prompt_injection