#mechanistic_interpretability — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-10 · 17:42 UTC

Как оценить, что цепь трансформера «держит причинную логику»: метрика EICS

У больших языковых моделей есть неприятное свойство: снаружи ответ может выглядеть одинаково уверенно и тогда, когда модель действительно «собрала» правильную причинную цепочку, и тогда, когда она просто выдала правдоподобный текст. Классические способы оценки неопределённости — энтропия распределения токенов, калибровка, ансамбли, conformal prediction — полезны, но обычно смотрят на модель как на чёрный ящик. В этой статье я разберу другой подход: попробовать оценивать неопределённость не только по выходу модели, а по внутренней согласованности активной цепи трансформера. Речь пойдёт о метрике EICS — Effective Information Consistency Score . Идея в том, чтобы за один прямой проход получить численную оценку того, насколько найденная трансформерная цепь ведёт себя согласованно и насколько её макроуровневое описание действительно несёт интегрированную информацию. Статья основана на исследовательской работе об оценке неопределённости в трансформерных цепях на основе согласованности эффективной информации. Здесь я намеренно смягчил академическую подачу, оставив интуицию, формулы, алгоритм и практические ограничения. Снять неопределённость

https://habr.com/ru/articles/1033580/

#uncertainty_estimation #transformers #sheaf_theory #causal_emergence_theory #information_theory #mechanistic_interpretability #llm

#llm #mechanistic_interpretability #information_theory #causal_emergence_theory #sheaf_theory #transformers

Habr @[email protected] · 2026-02-10 · 10:12 UTC

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

У LLM есть устойчивый стиль ответов даже без системного промпта. Я построил инструмент, который измеряет этот «характер» через проекции скрытых состояний на 7 контрастных осей (тёплый/холодный, многословный/лаконичный и др.) и протестировал его на 6 open-weight моделях 7–9B. Главный результат: alignment-тренировка сжимает поведенческое пространство моделей — подавляет оси позиции (уверенность, прямолинейность), сохраняя оси стиля (креативность, многословность). Llama 3.1 8B — самая ограниченная (4/7 осей в слабой зоне), DeepSeek 7B сохраняет наибольшую независимость осей. Сравнение base vs instruct для 5 организаций подтверждает паттерн. Код и данные открыты.

https://habr.com/ru/articles/994646/

#LLM #alignment #hidden_states #personality #temperament #RLHF #opensource #mechanistic_interpretability

#mechanistic_interpretability #opensource #rlhf #temperament #personality #hidden_states

Habr @[email protected] · 2026-01-16 · 23:32 UTC

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

https://habr.com/ru/articles/986012/

#AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

#mechanistic_interpretability #tokenization #alignment #red_teaming #rlhf #transformer