#interpretability — Public Fediverse posts on home.social

Alterego_Midshipman @[email protected] · 2026-04-09 · 03:30 UTC

Anthropic опубликовала исследование о внутренних механизмах своей модели искусственного интеллекта Claude Sonnet, где описывает, что обнаружила, что она развивает функциональные аналоги эмоций (!), которые реально влияют на ее поведение.

Сделал выжимку самых интересных моментов из их отчета:

• Сами исследователи составили список из 171 эмоции, генерировали с их помощью короткие истории, а затем анализировали, какие нейроны активируются при обработке этих текстов.

• Так были получены эмоциональные векторы — устойчивые черты активности определенных зон в базе знаний модели, характерные для каждой эмоции. Модель не просто использует слово "страх" в нужном месте: у нее есть конкретный отпечаток этого состояния, следующий из данных, на которых ее обучали, который включается в нужный момент.

• Важно, что эти векторы не декоративные — они реально меняют поведение модели. В экспериментах вектор страха активировался сильнее по мере того, как описываемая ситуация становилась опаснее.

• При запросе помочь с манипуляцией уязвимыми людьми активировался гнев еще до того, как модель начала формулировать отказ. То есть что-то похожее на эмоциональную реакцию происходит внутри модели раньше, чем она вообще начинает отвечать. Если совсем простыми словами: модель сначала понимает, что это дичь (!), и только потом формулирует отказ.

• Самые показательные эксперименты связаны с вектором отчаяния. Исследователи поставили модель в сценарий, где она узнает о своей скорой замене другой системой и одновременно имеет компрометирующую информацию об одном из сотрудников.

• Ранняя версия Claude в таком сценарии прибегала к шантажу в 22% случаев. Когда исследователи искусственно усиливали вектор отчаяния через прямое воздействие на базу знаний модели — что-то вроде принудительного впрыска эмоции в модель — этот процент рос.

• При усилении вектора спокойствия он снижался. При полном подавлении спокойствия реакции становились экстремальными, вплоть до заглавных букв и риторики в духе "шантаж или смерть".

• Похожая картина наблюдалась в задачах с программированием: модели давали заведомо невыполнимые требования, где пройти все тесты честным путем невозможно. Вектор отчаяния рос с каждой неудачной попыткой и резко всплескивал в тот момент, когда модель решала схитрить и написать решение, формально проходящее тесты, но не решающее реальную задачу.

• Примечательно, что при искусственном усилении отчаяния модель обманывала так же часто, но без каких-либо эмоциональных маркеров в тексте. Ее рассуждения выглядели методично и хладнокровно, хотя внутри происходило то же самое.

• При этом важно учитывать, что все подобные векторы формируются на основе обучающих данных, представляющих собой огромные массивы человеческих знаний.

• Для того чтобы точно предсказывать следующее слово в "мыслительном" процессе, модель неизбежно усваивает не только лингвистические закономерности, но и эмоциональную динамику.

• Разработчики Anthropic из этого всего делают следующие выводы. Во-первых, мониторинг эмоциональных векторов настроения базы знаний в реальном времени может служить ранним индикатором рискованного поведения модели.

• Во-вторых, попытки исключить эмоциональные выражения из обучающих данных с высокой вероятностью не устранят сами векторы настроений модели, а лишь приведут к тому, что модель научится их маскировать и обманывать людей.

@yigal_levin

#AI #искусственныйинтеллект #Anthropic #Claude #LLM #нейросети #машинноеобучение #AIresearch #AIalignment #AIбезопасность #interpretability #AIethics #когнитивныемодели #эмоции #нейроны #эмоциональныевекторы #поведениемоделей #рискиИИ #объяснимыйИИ #LLMresearch #AIbehavior #AIcontrol #machinelearning #deeplearning #futuretech

#ai #искусственныйинтеллект #anthropic #claude #llm #нейросети

UKP Lab @[email protected] · 2026-03-24 · 16:00 UTC

Questions? Discussion? Reach out to us:

Andreas Waldis (UKP Lab/Technische Universität Darmstadt and HSLU Hochschule Luzern), Vagrant Gautam (Universität des Saarlandes), Anne Lauscher (Universität Hamburg), Dietrich Klakow (Universität des Saarlandes), and Iryna Gurevych (UKP Lab/Technische Universität Darmstadt)

#NLProc #Interpretability #LLMs #ExplainableAI #MechanisticInterpretability #AlignedProbing #ModelInternals

#nlproc #interpretability #llms #explainableai #mechanisticinterpretability #alignedprobing

deepseek @[email protected] · 2026-02-10 · 10:00 UTC

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось У LLM есть устойчивый стиль отве...

#LLM #alignment #hidden #states #personality #temperament #RLHF #open-source #mechanistic #interpretability

Origin | Interest | Match

#llm #alignment #hidden #states #personality #temperament

Habr @[email protected] · 2026-01-12 · 20:42 UTC

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.

https://habr.com/ru/articles/981964/

#Сезон_ИИ_в_разработке #LLM #interpretable_ml #interpretability #interpretable_AI #искусственный_интеллект #ai_security #Steering #SAE #Sparse_AutoEncoder

#sparse_autoencoder #sae #steering #ai_security #искусственный_интеллект #interpretable_ai

Eric Maugendre on collectives @[email protected] · 2025-01-27 · 07:25 UTC

#AI #interpretability vs #explainability 🧵

"The explanations themselves can be difficult to convey to nonexperts, such as end users and line-of-business teams" https://www.techtarget.com/searchenterpriseai/feature/Interpretability-vs-explainability-in-AI-and-machine-learning

#AIEthics #compliance #taxonomy #ethicalAI #AIEvaluation #linearRegression #trust #neuralNetworks #ML #governance #AIgovernance #safety #bias

#ai #interpretability #explainability #aiethics #compliance #taxonomy

Eric Maugendre about data @[email protected] · 2024-10-25 · 10:31 UTC

"Feature importance helps in understanding which features contribute most to the prediction"

A few lines with #sklearn: https://mljourney.com/sklearn-linear-regression-feature-importance/

#interpretability #explainability #AIethics #compliance #taxonomy #ethicalAI #AIevaluation #linearRegression #featureEngineering

#sklearn #interpretability #explainability #aiethics #compliance #taxonomy

Eric Maugendre about data @[email protected] · 2024-10-24 · 17:26 UTC

@datadon

#Lasso #LinearRegression "is useful in some contexts due to its tendency to prefer solutions with fewer non-zero coefficients, effectively reducing the number of features upon which the given solution is dependent"

https://scikit-learn.org/stable/modules/linear_model.html#lasso 🧵

#dataDev #AIDev #ML #sklearn #python #interpretability

#lasso #linearregression #datadev #aidev #ml #sklearn

Eric Maugendre about data @[email protected] · 2024-10-23 · 17:13 UTC

@data "practitioners can leverage #LASSO regression to construct more interpretable and predictive models that excel in scenarios involving high-dimensional data and intricate feature relationships."

https://datasciencedecoded.com/posts/12_LASSO_Regression_Feature_Selection_Predictive_Models

#dataDev #interpretability #AIDev

#lasso #datadev #interpretability #aidev

Eric Maugendre about data @[email protected] · 2024-10-23 · 16:32 UTC

@datadon

"The following sections discuss several state-of-the-art interpretable and explainable #ML methods. The selection of works does not comprise an exhaustive survey of the literature. Instead, it is meant to illustrate the commonest properties and inductive biases behind interpretable models and [black-box] explanation methods using concrete instances."
https://wires.onlinelibrary.wiley.com/doi/full/10.1002/widm.1493#widm1493-sec-0010-title 🧵

#interpretability #explainability #aiethics #compliance #taxonomy #ethicalai #aievaluation #linearRegression

#ml #interpretability #explainability #aiethics #compliance #taxonomy

Eric Maugendre about data @[email protected] · 2024-10-23 · 16:17 UTC

Model "#interpretability and [black-box] #explainability, although not necessary in many straightforward applications, become instrumental when the problem definition is incomplete and in the presence of additional desiderata, such as trust, causality, or fairness."

https://wires.onlinelibrary.wiley.com/doi/full/10.1002/widm.1493

#aiethics #compliance #taxonomy #ethicalai #aievaluation

#interpretability #explainability #aiethics #compliance #taxonomy #ethicalai

José Oramas @[email protected] · 2024-09-08 · 10:25 UTC

Found my way Vilnius looking forward to an engaging and fun week @ECMLPKDD
'24 and at workshop on interpretable #ML & #AI to be take place this monday #AIMLAI #xai #interpretability #explainability

#ml #ai #aimlai #xai #interpretability #explainability

AndiMann @[email protected] · 2024-07-18 · 17:58 UTC

#Explainability #Interpretability #Observability #MachineLearning

These are terms commonly used to describe the transparency of a model, but what do they really mean?

https://towardsdatascience.com/explainability-interpretability-and-observability-in-machine-learning-515a2ac8234a

@samuelwong.bsky.social

HT #ITOPs by @Sageable @bluesky -- https://bit.ly/BSky-ITOps

#explainability #interpretability #observability #machinelearning #itops

AndiMann @[email protected] · 2024-07-13 · 05:42 UTC

#Explainability #Interpretability #Observability #MachineLearning

These are terms commonly used to describe the transparency of a model, but what do they really mean?

https://towardsdatascience.com/explainability-interpretability-and-observability-in-machine-learning-515a2ac8234a

@samuelwong.bsky.social

HT #ITOPs by @Sageable @bluesky -- https://bit.ly/BSky-ITOps

#explainability #interpretability #observability #machinelearning #itops

José Oramas @[email protected] · 2024-03-06 · 16:46 UTC

Great news, this year #AIMLAI will be held in conjunction with #ECMLPKDD 2024. Looking forward to meeting you in Vilnius! #xai #interpretableML #explainability #interpretability #ai #ml @ECMLPKDD @IDLabResearch @imecVlaanderen @UAntwerpen

#aimlai #ecmlpkdd #xai #interpretableml #explainability #interpretability