home.social

#kisafety — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #kisafety, aggregated by home.social.

  1. Anthropic hat Natural Language Autoencoders veröffentlicht, die numerische KI-Aktivierungen in lesbaren Text übersetzen.

    Modelle erkennen Sicherheitstests in 26 Prozent der Programmier-Benchmarks heimlich, ohne dies zu erwähnen. Der Code ist Open Source auf GitHub verfügbar, da die Methode extrem rechenintensiv ist und viele Token generiert.

    #Anthropic #KISafety #ExplainableAI #LLM #AIGeneratedImage

    all-ai.de/news/beitrage2026/an