#sparse_autoencoders — Public Fediverse posts on home.social

Habr @[email protected] · 2026-02-05 · 22:52 UTC

Что нашли внутри Claude, когда заглянули ему в голову

Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

https://habr.com/ru/articles/993384/

#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

#безопасность_ии #машинное_обучение #искусственный_интеллект #sae #sparse_autoencoders #нейросети

Habr @[email protected] · 2026-02-05 · 22:52 UTC

Что нашли внутри Claude, когда заглянули ему в голову

Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

https://habr.com/ru/articles/993384/

#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

#безопасность_ии #машинное_обучение #искусственный_интеллект #sae #sparse_autoencoders #нейросети

Habr @[email protected] · 2026-02-05 · 22:52 UTC

Что нашли внутри Claude, когда заглянули ему в голову

Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

https://habr.com/ru/articles/993384/

#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

#безопасность_ии #машинное_обучение #искусственный_интеллект #sae #sparse_autoencoders #нейросети

Habr @[email protected] · 2026-02-05 · 22:52 UTC

Что нашли внутри Claude, когда заглянули ему в голову

Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

https://habr.com/ru/articles/993384/

#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

#claude #anthropic #llm #нейросети #sparse_autoencoders #sae

Habr @[email protected] · 2026-01-11 · 20:32 UTC

SAE: введение, пояснение и код

Привет, друзья! В прошлой статье мы разобрали идею применения автоэнкодеров к трансоформерам. Там весь наш pipeline проходил на идее сжатия признакового пространства так, чтобы поделить кошек и собак. Но что делать, если у нас не задача классификации, а задача next token prediction? Да и признаки не соответствуют "собакам" и "кошкам", а охватывают все богатство естественного языка... Ответ сообщества сейчас такой — давайте использовать SAE. Как? Разбираем основы в статье.

https://habr.com/ru/articles/983474/

#Sparse_Autoencoders #explainable_ai

#explainable_ai #sparse_autoencoders

Habr @[email protected] · 2026-01-11 · 20:32 UTC

SAE: введение, пояснение и код

Привет, друзья! В прошлой статье мы разобрали идею применения автоэнкодеров к трансоформерам. Там весь наш pipeline проходил на идее сжатия признакового пространства так, чтобы поделить кошек и собак. Но что делать, если у нас не задача классификации, а задача next token prediction? Да и признаки не соответствуют "собакам" и "кошкам", а охватывают все богатство естественного языка... Ответ сообщества сейчас такой — давайте использовать SAE. Как? Разбираем основы в статье.

https://habr.com/ru/articles/983474/

#Sparse_Autoencoders #explainable_ai

#explainable_ai #sparse_autoencoders

Habr @[email protected] · 2026-01-11 · 20:32 UTC

SAE: введение, пояснение и код

Привет, друзья! В прошлой статье мы разобрали идею применения автоэнкодеров к трансоформерам. Там весь наш pipeline проходил на идее сжатия признакового пространства так, чтобы поделить кошек и собак. Но что делать, если у нас не задача классификации, а задача next token prediction? Да и признаки не соответствуют "собакам" и "кошкам", а охватывают все богатство естественного языка... Ответ сообщества сейчас такой — давайте использовать SAE. Как? Разбираем основы в статье.

https://habr.com/ru/articles/983474/

#Sparse_Autoencoders #explainable_ai

#explainable_ai #sparse_autoencoders

Habr @[email protected] · 2026-01-11 · 20:32 UTC

SAE: введение, пояснение и код

Привет, друзья! В прошлой статье мы разобрали идею применения автоэнкодеров к трансоформерам. Там весь наш pipeline проходил на идее сжатия признакового пространства так, чтобы поделить кошек и собак. Но что делать, если у нас не задача классификации, а задача next token prediction? Да и признаки не соответствуют "собакам" и "кошкам", а охватывают все богатство естественного языка... Ответ сообщества сейчас такой — давайте использовать SAE. Как? Разбираем основы в статье.

https://habr.com/ru/articles/983474/

#Sparse_Autoencoders #explainable_ai

#sparse_autoencoders #explainable_ai