#llm_as_a_judge — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-09 · 12:02 UTC

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы. Структура 1. Почему RAG сложно оценивать 2. Идея DRAGOn 3. Как строится бенчмарк 4. Проверка качества QA 5. Проверка бенчмарка на RAG-системах 6. Публичный лидерборд 7. Ограничения, проблемы и практические выводы

https://habr.com/ru/companies/ru_mts/articles/1021202/

#искусственный_интеллект #rag #бенчмарк #nlp #машинное+обучение #llm #llm_as_a_judge #датасет

#датасет #llm_as_a_judge #llm #машинное #nlp #бенчмарк

:rss: gihyo.jp @[email protected] · 2026-03-27 · 04:00 UTC

分散成分分析で検証するLLM-as-a-Judgeの信頼性 — AIエージェントの一貫性実証に向けて
https://gihyo.jp/article/2026/03/aws-llmops-03?utm_source=feed

#gihyo #技術評論社 #gihyo_jp #AWS #バックエンド #LLM #データ分析 #AgentCore_Observability #LLM_as_a_Judge

#gihyo #技術評論社 #gihyo_jp #aws #バックエンド #llm

Habr @[email protected] · 2025-12-29 · 08:42 UTC

LLM Firewall: как вписать LLM в контур информационной безопасности

Привет, Хабр! Я Исмагилов Ильнур, разработчик команды Центра интеллектуальной автоматизации Innostage. В прошлой статье мы кратко рассмотрели угрозы ИИ‑сервисам и базовые меры защиты — этого достаточно, чтобы правильно стартовать внедрение ИИ в бизнес-процессы и заложить фундамент best‑практик для масштабирования. Во второй части мы смотрим на LLM Firewall как на рабочий элемент LLMSecOps: от требований приказа ФСТЭК до минимально достаточной архитектуры безопасной эксплуатации LLM в компании. Разбираем, какие защитные меры действительно имеют смысл, где проходит граница разумного контроля и как наращивать защиту по мере роста ИИ-систем, не уходя в overengineering. Материал будет полезен AI-инженерам, специалистам по информационной безопасности и руководителям ИТ и ИБ. Мы обсуждаем, как сохранить управляемость и контроль рисков при внедрении ИИ без лишних затрат, и показываем более глубокие техники выявления атак на LLM — от анализа поведенческой телеметрии до оценки угроз в реальном времени.

https://habr.com/ru/articles/981408/

#LLM_Firewall #LLMSecOps #AIGateway #LLM_as_a_judge #llm #prompt_injection

#prompt_injection #llm #llm_as_a_judge #aigateway #llmsecops #llm_firewall