#promptfoo — Public Fediverse posts on home.social

Agentenlog.de @[email protected] · 2026-03-14 · 14:09 UTC

Guardrails statt Bauchgefühl – neu:
OpenAI kauft Promptfoo: Warum KI-Agenten-Sicherheit jetzt in den Enterprise-Modus geht
https://agentenlog.de/posts/2026-03-12-openai-promptfoo-codex-security
#Agentenlog #OpenAI #Promptfoo #CodexSecurity

#agentenlog #openai #promptfoo #codexsecurity

AI Sparkup @[email protected] · 2026-03-12 · 01:54 UTC

OpenAI, AI 에이전트 보안 플랫폼 Promptfoo 인수, Frontier에 내장

OpenAI가 AI 에이전트 보안 스타트업 Promptfoo를 인수, 자동화 보안 테스트 기능을 Frontier 플랫폼에 직접 통합할 예정입니다.

https://aisparkup.com/posts/10014

#ai보안 #ai에이전트 #frontier #openai #promptfoo #레드팀

Winbuzzer @[email protected] · 2026-03-10 · 11:26 UTC

https://winbuzzer.com/2026/03/10/openai-acquires-promptfoo-to-secure-its-ai-agents-xcxwbn/

OpenAI Acquires Promptfoo to Secure Its AI Agents

#AI #OpenAI #Promptfoo #AISecurity #AgenticAI #EnterpriseAI #Cybersecurity #AIAgents

#ai #openai #promptfoo #aisecurity #agenticai #enterpriseai

Andreas Becker @[email protected] · 2026-03-10 · 07:28 UTC

OpenAI übernimmt das Red-Teaming-Startup Promptfoo.

Die Technik wandert in die Plattform Frontier, um autonome KI-Agenten in Netzwerken abzusichern. Bisherige Schwachstellen wie Prompt Injections lassen sich damit direkt automatisiert testen.

Die Open-Source-Version der Kommandozeile bleibt unter der aktuellen Lizenz frei zugänglich.

#OpenAI #Promptfoo #Cybersecurity
https://www.all-ai.de/news/news26/openai-ki-sicherheit-kauf

#openai #promptfoo #cybersecurity

NERDS.xyz – Real Tech News for Real Nerds [Unofficial] @[email protected] · 2026-03-09 · 17:09 UTC

OpenAI plans to acquire Promptfoo as AI agent security becomes a growing concern

https://fed.brid.gy/r/https://nerds.xyz/2026/03/openai-promptfoo/

#artificialintelligence #aiagents #aigovernance #aisecurity #enterpriseai #llmsecurity

Habr @[email protected] · 2026-02-20 · 04:22 UTC

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

#deepeval #ai_safety #promptfoo #ai_quality #llm_testing #ragas

Habr @[email protected] · 2026-02-20 · 04:22 UTC

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

#deepeval #ai_safety #promptfoo #ai_quality #llm_testing #ragas

Habr @[email protected] · 2026-02-20 · 04:22 UTC

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

#deepeval #ai_safety #promptfoo #ai_quality #llm_testing #ragas

Habr @[email protected] · 2026-02-20 · 04:22 UTC

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety

Pyrzout :vm: @[email protected] · 2025-07-30 · 04:25 UTC

Promptfoo Raises $18.4 Million for AI Security Platform – Source: www.securityweek.com https://ciso2ciso.com/promptfoo-raises-18-4-million-for-ai-security-platform-source-www-securityweek-com/ #rssfeedpostgeneratorecho #ArtificialIntelligence #CybersecurityFunding #CyberSecurityNews #securityweekcom #securityweek #Promptfoo #funding #AI

#rssfeedpostgeneratorecho #artificialintelligence #cybersecurityfunding #cybersecuritynews #securityweekcom #securityweek

Pyrzout :vm: @[email protected] · 2025-07-29 · 15:25 UTC

Promptfoo Raises $18.4 Million for AI Security Platform https://www.securityweek.com/promptfoo-raises-18-4-million-for-ai-security-platform/ #ArtificialIntelligence #CybersecurityFunding #Promptfoo #funding #AI

#artificialintelligence #cybersecurityfunding #promptfoo #funding #ai

Pyrzout :vm: @[email protected] · 2025-07-29 · 15:25 UTC

Promptfoo Raises $18.4 Million for AI Security Platform https://www.securityweek.com/promptfoo-raises-18-4-million-for-ai-security-platform/ #ArtificialIntelligence #CybersecurityFunding #Promptfoo #funding #AI

#artificialintelligence #cybersecurityfunding #promptfoo #funding #ai

Habr @[email protected] · 2024-11-07 · 08:32 UTC

[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

https://habr.com/ru/articles/855644/

#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse

#llm #bleu #rouge #meteor #bertscore #moverscore

Habr @[email protected] · 2024-11-07 · 08:32 UTC

[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

https://habr.com/ru/articles/855644/

#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse

#llm #bleu #rouge #meteor #bertscore #moverscore

Habr @[email protected] · 2024-11-07 · 08:32 UTC

[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

https://habr.com/ru/articles/855644/

#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse

#llm #bleu #rouge #meteor #bertscore #moverscore

Habr @[email protected] · 2024-11-07 · 08:32 UTC

[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

https://habr.com/ru/articles/855644/

#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse

#langfuse #promptfoo #giskard #deepeval #moverscore #bertscore