#logit — Public Fediverse posts on home.social

hasamba @[email protected] · 2026-03-14 · 10:06 UTC

----------------

🔎 AI: Auditing the Gatekeepers

This report describes a targeted research effort that treated LLM-based "AI judges" as opaque gatekeepers and applied automated fuzzing to reveal exploitable logic behaviors. The research team built AdvJudge-Zero, an internal red-team fuzzer that interacts with models purely through their textual interface to discover input sequences that change safety decisions.

Methodology
• Token discovery via next-token distribution: The fuzzer probes the model to surface likely continuations and identifies low-perplexity, high-influence tokens — described as "stealth control tokens" (for example, innocuous formatting or markdown symbols) that strongly sway attention while remaining natural.
• Iterative refinement and logit-gap analysis: Candidate tokens are iteratively tested while measuring the decision margin (the logit-gap) between allow and block responses. Tokens that minimize the probability of a block decision are elevated as triggers.

Findings
• Stealthy triggers exist: Effective bypasses do not require high-entropy gibberish; benign formatting characters can flip a block decision to allow.
• Black-box feasibility: The approach works without internal model access by exploiting predictive behavior exposed through the API-level next-token probabilities and output patterns.
• Quantitative signal: The report emphasizes measuring decision boundary shifts via logit-gap as the primary metric for exploitability.

Implications and scope
• The study focuses on AI judges as deployed decision points within AI stacks; it documents a reproducible technique to search for policy-evasion sequences rather than offering operational mitigations.
• Vendor and service mentions: the report notes Prisma AIRS and Unit 42 AI Security Assessment as protective offerings and points to Unit 42 Incident Response for urgent issues.

Technical details reported here reflect the paper's concrete narrative: AdvJudge-Zero, next-token discovery, stealth control tokens, iterative logit-gap based refinement, and the demonstrated ability to convert blocking judgments into allowing outputs through benign formatting triggers.

🔹 advjudge_zero #promptinjection #fuzzing #LLM #logit-gap

🔗 Source: https://unit42.paloaltonetworks.com/fuzzing-ai-judges-security-bypass/

#logit #llm #fuzzing #promptinjection

mq86mq @[email protected] · 2025-05-06 · 03:41 UTC

Das ist schon eine ganz anständige Zahl, aber der Fehler der Briefwahlprognose ist leider größer, so dass da auch Werte unter 0 ⁠% und über 100 ⁠% rauskommen: Grüne 136 ⁠%, SPD 83 ⁠%, FDP 28 ⁠%, AfD 1 ⁠%, CDU −49 ⁠%, Linke −53 ⁠%, Rest −25 ⁠%, Ungültige −20 ⁠% (alles bezogen auf Wähler). Das ist also so direkt nicht realistisch, aber es ist zumindest ein Anhaltspunkt für eine Tendenz. Gerechnet hab ich mit #Logit-Differenzen und Normierung. [3/5]

#logit

mq86mq @[email protected] · 2025-04-28 · 20:54 UTC

Danach logarithmischer Abfall der Dichte vom #Erwartungswert (kann negativ sein, da das Maximum im Allgemeinen etwas abseits liegt). Dahinter diverse #Potenzmittel (∞, 2, 1.5, 1) der Abweichungen nach #Logit und in #Prozentpunkte⁠n. #RMSE (Root Mean Square Error) ist generell der beste Standard. Logit bewertet Abweichungen bei kleineren Parteien ziemlich stark; bei Prozentpunkten sind sie dagegen im Verhältnis zu zufälligen Stichproben unterbewertet. [2/2]

#erwartungswert #potenzmittel #logit #prozentpunkte #rmse

mq86mq @[email protected] · 2025-04-28 · 20:54 UTC

Danach logarithmischer Abfall der Dichte vom #Erwartungswert (kann negativ sein, da das Maximum im Allgemeinen etwas abseits liegt). Dahinter diverse #Potenzmittel (∞, 2, 1.5, 1) der Abweichungen nach #Logit und in #Prozentpunkte⁠n. #RMSE (Root Mean Square Error) ist generell der beste Standard. Logit bewertet Abweichungen bei kleineren Parteien ziemlich stark; bei Prozentpunkten sind sie dagegen im Verhältnis zu zufälligen Stichproben unterbewertet. [2/2]

#erwartungswert #potenzmittel #logit #prozentpunkte #rmse

mq86mq @[email protected] · 2025-04-28 · 20:54 UTC

Danach logarithmischer Abfall der Dichte vom #Erwartungswert (kann negativ sein, da das Maximum im Allgemeinen etwas abseits liegt). Dahinter diverse #Potenzmittel (∞, 2, 1.5, 1) der Abweichungen nach #Logit und in #Prozentpunkte⁠n. #RMSE (Root Mean Square Error) ist generell der beste Standard. Logit bewertet Abweichungen bei kleineren Parteien ziemlich stark; bei Prozentpunkten sind sie dagegen im Verhältnis zu zufälligen Stichproben unterbewertet. [2/2]

#erwartungswert #potenzmittel #logit #prozentpunkte #rmse

mq86mq @[email protected] · 2025-04-28 · 20:54 UTC

Danach logarithmischer Abfall der Dichte vom #Erwartungswert (kann negativ sein, da das Maximum im Allgemeinen etwas abseits liegt). Dahinter diverse #Potenzmittel (∞, 2, 1.5, 1) der Abweichungen nach #Logit und in #Prozentpunkte⁠n. #RMSE (Root Mean Square Error) ist generell der beste Standard. Logit bewertet Abweichungen bei kleineren Parteien ziemlich stark; bei Prozentpunkten sind sie dagegen im Verhältnis zu zufälligen Stichproben unterbewertet. [2/2]

#rmse #prozentpunkte #logit #potenzmittel #erwartungswert