#interpretable_ml — Public Fediverse posts on home.social

Habr @[email protected] · 2026-01-12 · 20:42 UTC

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.

https://habr.com/ru/articles/981964/

#Сезон_ИИ_в_разработке #LLM #interpretable_ml #interpretability #interpretable_AI #искусственный_интеллект #ai_security #Steering #SAE #Sparse_AutoEncoder

#sparse_autoencoder #sae #steering #ai_security #искусственный_интеллект #interpretable_ai

Habr @[email protected] · 2026-01-12 · 20:42 UTC

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.

https://habr.com/ru/articles/981964/

#Сезон_ИИ_в_разработке #LLM #interpretable_ml #interpretability #interpretable_AI #искусственный_интеллект #ai_security #Steering #SAE #Sparse_AutoEncoder

#sparse_autoencoder #sae #steering #ai_security #искусственный_интеллект #interpretable_ai

Habr @[email protected] · 2026-01-12 · 20:42 UTC

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.

https://habr.com/ru/articles/981964/

#Сезон_ИИ_в_разработке #LLM #interpretable_ml #interpretability #interpretable_AI #искусственный_интеллект #ai_security #Steering #SAE #Sparse_AutoEncoder

#sparse_autoencoder #sae #steering #ai_security #искусственный_интеллект #interpretable_ai

Habr @[email protected] · 2026-01-12 · 20:42 UTC

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.

https://habr.com/ru/articles/981964/

#Сезон_ИИ_в_разработке #LLM #interpretable_ml #interpretability #interpretable_AI #искусственный_интеллект #ai_security #Steering #SAE #Sparse_AutoEncoder

#сезон_ии_в_разработке #llm #interpretable_ml #interpretability #interpretable_ai #искусственный_интеллект

Habr @[email protected] · 2024-09-11 · 05:12 UTC

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. Узнать →

https://habr.com/ru/companies/ods/articles/839694/

#chatgpt #нейросети #openai #языковые_модели #llm #natural_language_processing #gpt4 #interpretable_deep_learning #interpretable_ml #длиннопост

#длиннопост #interpretable_ml #interpretable_deep_learning #gpt4 #natural_language_processing #llm

Habr @[email protected] · 2024-09-11 · 05:12 UTC

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. Узнать →

https://habr.com/ru/companies/ods/articles/839694/

#chatgpt #нейросети #openai #языковые_модели #llm #natural_language_processing #gpt4 #interpretable_deep_learning #interpretable_ml #длиннопост

#длиннопост #interpretable_ml #interpretable_deep_learning #gpt4 #natural_language_processing #llm

Habr @[email protected] · 2024-09-11 · 05:12 UTC

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. Узнать →

https://habr.com/ru/companies/ods/articles/839694/

#chatgpt #нейросети #openai #языковые_модели #llm #natural_language_processing #gpt4 #interpretable_deep_learning #interpretable_ml #длиннопост

#chatgpt #нейросети #openai #языковые_модели #llm #natural_language_processing