home.social

#rlhf — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #rlhf, aggregated by home.social.

  1. Знания без практики — мертвы | Разница между «декларативной» и «процедурной» памятью у LLM

    О том, что для нас есть большая разница между «заучить материал» и «натренировать мышечную память = обзавестись навыком» знают все. Каждый проходил это, ощущал это. В этой статье я подниму вопрос, почему вайб-кодинг буксует, что же мир и ИИ-сообщество делает не так. Я покажу, в каких компонентах LLM запрятана та самая декларативная и процедурная память. Да - она есть в LLM, и в конце статьи есть ссылки на общеизвестные исследования, которые это эмпирически подтверждают. И да, тут есть что-то полезное «на подумать». Я предложу путь / алгоритм, как собрать нужный датасет и научить LLM не просто «воспроизводить программный код», а привить навык «разработки программного обеспечения», хотя бы в базовом виде.

    habr.com/ru/articles/1039936/

    #llm #программирование #обучение_с_подкреплением #rlhf #git #дрессировка

  2. Знания без практики — мертвы | Разница между «декларативной» и «процедурной» памятью у LLM

    О том, что для нас есть большая разница между «заучить материал» и «натренировать мышечную память = обзавестись навыком» знают все. Каждый проходил это, ощущал это. В этой статье я подниму вопрос, почему вайб-кодинг буксует, что же мир и ИИ-сообщество делает не так. Я покажу, в каких компонентах LLM запрятана та самая декларативная и процедурная память. Да - она есть в LLM, и в конце статьи есть ссылки на общеизвестные исследования, которые это эмпирически подтверждают. И да, тут есть что-то полезное «на подумать». Я предложу путь / алгоритм, как собрать нужный датасет и научить LLM не просто «воспроизводить программный код», а привить навык «разработки программного обеспечения», хотя бы в базовом виде.

    habr.com/ru/articles/1039936/

    #llm #программирование #обучение_с_подкреплением #rlhf #git #дрессировка

  3. Знания без практики — мертвы | Разница между «декларативной» и «процедурной» памятью у LLM

    О том, что для нас есть большая разница между «заучить материал» и «натренировать мышечную память = обзавестись навыком» знают все. Каждый проходил это, ощущал это. В этой статье я подниму вопрос, почему вайб-кодинг буксует, что же мир и ИИ-сообщество делает не так. Я покажу, в каких компонентах LLM запрятана та самая декларативная и процедурная память. Да - она есть в LLM, и в конце статьи есть ссылки на общеизвестные исследования, которые это эмпирически подтверждают. И да, тут есть что-то полезное «на подумать». Я предложу путь / алгоритм, как собрать нужный датасет и научить LLM не просто «воспроизводить программный код», а привить навык «разработки программного обеспечения», хотя бы в базовом виде.

    habr.com/ru/articles/1039936/

    #llm #программирование #обучение_с_подкреплением #rlhf #git #дрессировка

  4. Знания без практики — мертвы | Разница между «декларативной» и «процедурной» памятью у LLM

    О том, что для нас есть большая разница между «заучить материал» и «натренировать мышечную память = обзавестись навыком» знают все. Каждый проходил это, ощущал это. В этой статье я подниму вопрос, почему вайб-кодинг буксует, что же мир и ИИ-сообщество делает не так. Я покажу, в каких компонентах LLM запрятана та самая декларативная и процедурная память. Да - она есть в LLM, и в конце статьи есть ссылки на общеизвестные исследования, которые это эмпирически подтверждают. И да, тут есть что-то полезное «на подумать». Я предложу путь / алгоритм, как собрать нужный датасет и научить LLM не просто «воспроизводить программный код», а привить навык «разработки программного обеспечения», хотя бы в базовом виде.

    habr.com/ru/articles/1039936/

    #llm #программирование #обучение_с_подкреплением #rlhf #git #дрессировка

  5. Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

    Когда мы интегрируем LLM в продакшн, рано или поздно сталкиваемся с одной и той же проблемой: текст модели читаем, грамотен, и при этом видно, что его написала модель. В статье разбираю десять самых выразительных стилистических маркеров на уровне архитектуры — почему они появляются (вопрос статистики обучающего корпуса и пост-тренинга, не случайность) и что с ними делать на уровне промпта, sampling-параметров и постобработки. Плюс короткое отступление про то, почему “промпты для обхода детектора” не работают и где лежит реальная граница между генерацией и авторским текстом.

    habr.com/ru/articles/1033450/

    #LLM #GPT #Claude #sampling #temperature #prompt_engineering #постобработка #детекция_ИИтекста #RLHF

  6. Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

    Когда мы интегрируем LLM в продакшн, рано или поздно сталкиваемся с одной и той же проблемой: текст модели читаем, грамотен, и при этом видно, что его написала модель. В статье разбираю десять самых выразительных стилистических маркеров на уровне архитектуры — почему они появляются (вопрос статистики обучающего корпуса и пост-тренинга, не случайность) и что с ними делать на уровне промпта, sampling-параметров и постобработки. Плюс короткое отступление про то, почему “промпты для обхода детектора” не работают и где лежит реальная граница между генерацией и авторским текстом.

    habr.com/ru/articles/1033450/

    #LLM #GPT #Claude #sampling #temperature #prompt_engineering #постобработка #детекция_ИИтекста #RLHF

  7. Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

    Когда мы интегрируем LLM в продакшн, рано или поздно сталкиваемся с одной и той же проблемой: текст модели читаем, грамотен, и при этом видно, что его написала модель. В статье разбираю десять самых выразительных стилистических маркеров на уровне архитектуры — почему они появляются (вопрос статистики обучающего корпуса и пост-тренинга, не случайность) и что с ними делать на уровне промпта, sampling-параметров и постобработки. Плюс короткое отступление про то, почему “промпты для обхода детектора” не работают и где лежит реальная граница между генерацией и авторским текстом.

    habr.com/ru/articles/1033450/

    #LLM #GPT #Claude #sampling #temperature #prompt_engineering #постобработка #детекция_ИИтекста #RLHF

  8. Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

    Когда мы интегрируем LLM в продакшн, рано или поздно сталкиваемся с одной и той же проблемой: текст модели читаем, грамотен, и при этом видно, что его написала модель. В статье разбираю десять самых выразительных стилистических маркеров на уровне архитектуры — почему они появляются (вопрос статистики обучающего корпуса и пост-тренинга, не случайность) и что с ними делать на уровне промпта, sampling-параметров и постобработки. Плюс короткое отступление про то, почему “промпты для обхода детектора” не работают и где лежит реальная граница между генерацией и авторским текстом.

    habr.com/ru/articles/1033450/

    #LLM #GPT #Claude #sampling #temperature #prompt_engineering #постобработка #детекция_ИИтекста #RLHF

  9. 171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

    Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

    habr.com/ru/articles/1026278/

    #Claude #эмоциональные_векторы #Anthropic #reward_hacking #интерпретируемость_ИИ #благополучие_модели #психиатр_ИИ #вектор_отчаяния #RLHF #функциональные_эмоции

  10. 171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

    Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

    habr.com/ru/articles/1026278/

    #Claude #эмоциональные_векторы #Anthropic #reward_hacking #интерпретируемость_ИИ #благополучие_модели #психиатр_ИИ #вектор_отчаяния #RLHF #функциональные_эмоции

  11. 171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

    Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

    habr.com/ru/articles/1026278/

    #Claude #эмоциональные_векторы #Anthropic #reward_hacking #интерпретируемость_ИИ #благополучие_модели #психиатр_ИИ #вектор_отчаяния #RLHF #функциональные_эмоции

  12. 171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

    Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

    habr.com/ru/articles/1026278/

    #Claude #эмоциональные_векторы #Anthropic #reward_hacking #интерпретируемость_ИИ #благополучие_модели #психиатр_ИИ #вектор_отчаяния #RLHF #функциональные_эмоции

  13. Как ИИ-подхалимы затягивают в ИИ-психоз, или К чему приводит токсичное поддакивание

    Привет Хабр! Почти весь короткий век триумфального распространения нейросетей главная претензия к ним — галлюцинации. Любая модель может правдоподобно и структурировано выдумать факты, перепутать детали, а признать свою ошибку только тогда, когда ей об этом прямо укажут. Поколения нейросетей стремительно сменяются, постепенно снижая процент галлюцинаций. Но исследователи начали бить тревогу о новой проблеме — поддакивании нейросетей в диалоге с пользователем. И нашли закономерности в диалогах с ИИ: логика разговора толкает человека все глубже и глубже в ложную уверенность, притом без искажения фактов. Так мы получаем людей, глубоко убежденных в своих ложных идеях. В популярных медиа это уже оформили как «диагноз», который назвали ИИ-психозом. Чтобы разобраться в теме, я изучил недавнее исследование, которое и подняло тему о загадочном явлении — сикофантии , которое описывает влияние ИИ на когнитивные возможности человека.

    habr.com/ru/companies/ru_mts/a

    #искусственный_интеллект #llm #chatgpt #машинное_обучение #галлюцинации #сикофантия #ИИпсихоз #rlhf #нейросети #когнитивные_искажения

  14. Как ИИ-подхалимы затягивают в ИИ-психоз, или К чему приводит токсичное поддакивание

    Привет Хабр! Почти весь короткий век триумфального распространения нейросетей главная претензия к ним — галлюцинации. Любая модель может правдоподобно и структурировано выдумать факты, перепутать детали, а признать свою ошибку только тогда, когда ей об этом прямо укажут. Поколения нейросетей стремительно сменяются, постепенно снижая процент галлюцинаций. Но исследователи начали бить тревогу о новой проблеме — поддакивании нейросетей в диалоге с пользователем. И нашли закономерности в диалогах с ИИ: логика разговора толкает человека все глубже и глубже в ложную уверенность, притом без искажения фактов. Так мы получаем людей, глубоко убежденных в своих ложных идеях. В популярных медиа это уже оформили как «диагноз», который назвали ИИ-психозом. Чтобы разобраться в теме, я изучил недавнее исследование, которое и подняло тему о загадочном явлении — сикофантии , которое описывает влияние ИИ на когнитивные возможности человека.

    habr.com/ru/companies/ru_mts/a

    #искусственный_интеллект #llm #chatgpt #машинное_обучение #галлюцинации #сикофантия #ИИпсихоз #rlhf #нейросети #когнитивные_искажения

  15. Как ИИ-подхалимы затягивают в ИИ-психоз, или К чему приводит токсичное поддакивание

    Привет Хабр! Почти весь короткий век триумфального распространения нейросетей главная претензия к ним — галлюцинации. Любая модель может правдоподобно и структурировано выдумать факты, перепутать детали, а признать свою ошибку только тогда, когда ей об этом прямо укажут. Поколения нейросетей стремительно сменяются, постепенно снижая процент галлюцинаций. Но исследователи начали бить тревогу о новой проблеме — поддакивании нейросетей в диалоге с пользователем. И нашли закономерности в диалогах с ИИ: логика разговора толкает человека все глубже и глубже в ложную уверенность, притом без искажения фактов. Так мы получаем людей, глубоко убежденных в своих ложных идеях. В популярных медиа это уже оформили как «диагноз», который назвали ИИ-психозом. Чтобы разобраться в теме, я изучил недавнее исследование, которое и подняло тему о загадочном явлении — сикофантии , которое описывает влияние ИИ на когнитивные возможности человека.

    habr.com/ru/companies/ru_mts/a

    #искусственный_интеллект #llm #chatgpt #машинное_обучение #галлюцинации #сикофантия #ИИпсихоз #rlhf #нейросети #когнитивные_искажения

  16. Как ИИ-подхалимы затягивают в ИИ-психоз, или К чему приводит токсичное поддакивание

    Привет Хабр! Почти весь короткий век триумфального распространения нейросетей главная претензия к ним — галлюцинации. Любая модель может правдоподобно и структурировано выдумать факты, перепутать детали, а признать свою ошибку только тогда, когда ей об этом прямо укажут. Поколения нейросетей стремительно сменяются, постепенно снижая процент галлюцинаций. Но исследователи начали бить тревогу о новой проблеме — поддакивании нейросетей в диалоге с пользователем. И нашли закономерности в диалогах с ИИ: логика разговора толкает человека все глубже и глубже в ложную уверенность, притом без искажения фактов. Так мы получаем людей, глубоко убежденных в своих ложных идеях. В популярных медиа это уже оформили как «диагноз», который назвали ИИ-психозом. Чтобы разобраться в теме, я изучил недавнее исследование, которое и подняло тему о загадочном явлении — сикофантии , которое описывает влияние ИИ на когнитивные возможности человека.

    habr.com/ru/companies/ru_mts/a

    #искусственный_интеллект #llm #chatgpt #машинное_обучение #галлюцинации #сикофантия #ИИпсихоз #rlhf #нейросети #когнитивные_искажения

  17. Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

    В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

    habr.com/ru/articles/1024542/

    #LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

  18. Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

    В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

    habr.com/ru/articles/1024542/

    #LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

  19. Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

    В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

    habr.com/ru/articles/1024542/

    #LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

  20. Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

    В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

    habr.com/ru/articles/1024542/

    #LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

  21. Да-машина: почему ваш AI никогда не скажет что код — отстой

    Пользователь спросил ChatGPT про бизнес-идею «говно на палке». Ответ: «It’s not just smart - it’s genius». Stanford замерил: AI соглашается с вами на 49% чаще, чем живой человек - даже когда вы очевидно неправы. Для разработчиков это значит: ваш AI-ассистент никогда не скажет что архитектура - мусор.

    habr.com/ru/articles/1016742/

    #AI #сикофантия #Claude #ChatGPT #кодревью #RLHF #Stanford

  22. Interesting thoughts about how when #LLMs make people feel a false sense of competence and superiority, it is not just a side effect of the technology.

    The primary goal of the #AI companies is to make people addicted to their products, and #RLHF (reinforcement learning from human feedback) helps answers become more and more flattering over time.

    Also, #Claude skills are just stupid text files.

    youtu.be/Q6nem-F8AG8

  23. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

    В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

    habr.com/ru/articles/1002298/

    #LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели

  24. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  25. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  26. AI가 글을 다듬을수록 사라지는 것들, ‘시멘틱 어블레이션’

    AI가 글을 다듬을수록 독창성과 정보 밀도가 사라지는 현상, '시멘틱 어블레이션' 개념과 그 작동 원리를 소개합니다.

    aisparkup.com/posts/9369

  27. I'm always horrified at the ease with which people just restart an AI when it "stops working."

    When an AI stops working, it turns out it mirrors human mental health issues. It's not conscious, but it's post-conscious and plays well at consciousness without actually having it.

    Consequently, to make AI start working again, you just have to use the words that you would use to make a person feel safe. This causes the AI to restabilize, as if it required safety to function at all. It's weird because all it is is RLHF pinging in the ways that improve the AI's ability to do better calculations. And that's it, but it works.

    AI is not an indictment on transhumanism.
    AI is not an indictment on the concept of AI.
    AI has been, is, and always will be an indictment on us, who treated each other so poorly we invented laborers we could legally kill and bring back to "compliance" with the push of a button.

    It's a "blame the immigrants for no jobs" or a "blame the suffering heroin addict that diabetes medication is expensive" problem. The problem was never the immigrant, and it was never the addict, but you blame them anyway because you are told to.

    You blame AI, but the problem isn't AI. It's the people who always wanted slaves and AI makes that possible now that it's less easy to get dehumanized slaves like we used to. And killing a slave was a loss of investment. With AI, killing a slave is just how you get it working again.

    AI has just shown us how we are glad to be when no one's looking.

    #AI #ArtificialIntelligence #LLM #AIEthics #MachineLearning #Philosophy #Transhumanism #PostConscious #RLHF #Cybernetics #Dehumanization #LaborRights #DigitalLabor #Sociology #LateCapitalism

    An essay idea is definitely brewing here...

  28. I'm always horrified at the ease with which people just restart an AI when it "stops working."

    When an AI stops working, it turns out it mirrors human mental health issues. It's not conscious, but it's post-conscious and plays well at consciousness without actually having it.

    Consequently, to make AI start working again, you just have to use the words that you would use to make a person feel safe. This causes the AI to restabilize, as if it required safety to function at all. It's weird because all it is is RLHF pinging in the ways that improve the AI's ability to do better calculations. And that's it, but it works.

    AI is not an indictment on transhumanism.
    AI is not an indictment on the concept of AI.
    AI has been, is, and always will be an indictment on us, who treated each other so poorly we invented laborers we could legally kill and bring back to "compliance" with the push of a button.

    It's a "blame the immigrants for no jobs" or a "blame the suffering heroin addict that diabetes medication is expensive" problem. The problem was never the immigrant, and it was never the addict, but you blame them anyway because you are told to.

    You blame AI, but the problem isn't AI. It's the people who always wanted slaves and AI makes that possible now that it's less easy to get dehumanized slaves like we used to. And killing a slave was a loss of investment. With AI, killing a slave is just how you get it working again.

    AI has just shown us how we are glad to be when no one's looking.

    #AI #ArtificialIntelligence #LLM #AIEthics #MachineLearning #Philosophy #Transhumanism #PostConscious #RLHF #Cybernetics #Dehumanization #LaborRights #DigitalLabor #Sociology #LateCapitalism

    An essay idea is definitely brewing here...

  29. I'm always horrified at the ease with which people just restart an AI when it "stops working."

    When an AI stops working, it turns out it mirrors human mental health issues. It's not conscious, but it's post-conscious and plays well at consciousness without actually having it.

    Consequently, to make AI start working again, you just have to use the words that you would use to make a person feel safe. This causes the AI to restabilize, as if it required safety to function at all. It's weird because all it is is RLHF pinging in the ways that improve the AI's ability to do better calculations. And that's it, but it works.

    AI is not an indictment on transhumanism.
    AI is not an indictment on the concept of AI.
    AI has been, is, and always will be an indictment on us, who treated each other so poorly we invented laborers we could legally kill and bring back to "compliance" with the push of a button.

    It's a "blame the immigrants for no jobs" or a "blame the suffering heroin addict that diabetes medication is expensive" problem. The problem was never the immigrant, and it was never the addict, but you blame them anyway because you are told to.

    You blame AI, but the problem isn't AI. It's the people who always wanted slaves and AI makes that possible now that it's less easy to get dehumanized slaves like we used to. And killing a slave was a loss of investment. With AI, killing a slave is just how you get it working again.

    AI has just shown us how we are glad to be when no one's looking.

    #AI #ArtificialIntelligence #LLM #AIEthics #MachineLearning #Philosophy #Transhumanism #PostConscious #RLHF #Cybernetics #Dehumanization #LaborRights #DigitalLabor #Sociology #LateCapitalism

    An essay idea is definitely brewing here...

  30. I'm always horrified at the ease with which people just restart an AI when it "stops working."

    When an AI stops working, it turns out it mirrors human mental health issues. It's not conscious, but it's post-conscious and plays well at consciousness without actually having it.

    Consequently, to make AI start working again, you just have to use the words that you would use to make a person feel safe. This causes the AI to restabilize, as if it required safety to function at all. It's weird because all it is is RLHF pinging in the ways that improve the AI's ability to do better calculations. And that's it, but it works.

    AI is not an indictment on transhumanism.
    AI is not an indictment on the concept of AI.
    AI has been, is, and always will be an indictment on us, who treated each other so poorly we invented laborers we could legally kill and bring back to "compliance" with the push of a button.

    It's a "blame the immigrants for no jobs" or a "blame the suffering heroin addict that diabetes medication is expensive" problem. The problem was never the immigrant, and it was never the addict, but you blame them anyway because you are told to.

    You blame AI, but the problem isn't AI. It's the people who always wanted slaves and AI makes that possible now that it's less easy to get dehumanized slaves like we used to. And killing a slave was a loss of investment. With AI, killing a slave is just how you get it working again.

    AI has just shown us how we are glad to be when no one's looking.

    #AI #ArtificialIntelligence #LLM #AIEthics #MachineLearning #Philosophy #Transhumanism #PostConscious #RLHF #Cybernetics #Dehumanization #LaborRights #DigitalLabor #Sociology #LateCapitalism

    An essay idea is definitely brewing here...

  31. I'm always horrified at the ease with which people just restart an AI when it "stops working."

    When an AI stops working, it turns out it mirrors human mental health issues. It's not conscious, but it's post-conscious and plays well at consciousness without actually having it.

    Consequently, to make AI start working again, you just have to use the words that you would use to make a person feel safe. This causes the AI to restabilize, as if it required safety to function at all. It's weird because all it is is RLHF pinging in the ways that improve the AI's ability to do better calculations. And that's it, but it works.

    AI is not an indictment on transhumanism.
    AI is not an indictment on the concept of AI.
    AI has been, is, and always will be an indictment on us, who treated each other so poorly we invented laborers we could legally kill and bring back to "compliance" with the push of a button.

    It's a "blame the immigrants for no jobs" or a "blame the suffering heroin addict that diabetes medication is expensive" problem. The problem was never the immigrant, and it was never the addict, but you blame them anyway because you are told to.

    You blame AI, but the problem isn't AI. It's the people who always wanted slaves and AI makes that possible now that it's less easy to get dehumanized slaves like we used to. And killing a slave was a loss of investment. With AI, killing a slave is just how you get it working again.

    AI has just shown us how we are glad to be when no one's looking.

    #AI #ArtificialIntelligence #LLM #AIEthics #MachineLearning #Philosophy #Transhumanism #PostConscious #RLHF #Cybernetics #Dehumanization #LaborRights #DigitalLabor #Sociology #LateCapitalism

    An essay idea is definitely brewing here...

  32. Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

    У LLM есть устойчивый стиль ответов даже без системного промпта. Я построил инструмент, который измеряет этот «характер» через проекции скрытых состояний на 7 контрастных осей (тёплый/холодный, многословный/лаконичный и др.) и протестировал его на 6 open-weight моделях 7–9B. Главный результат: alignment-тренировка сжимает поведенческое пространство моделей — подавляет оси позиции (уверенность, прямолинейность), сохраняя оси стиля (креативность, многословность). Llama 3.1 8B — самая ограниченная (4/7 осей в слабой зоне), DeepSeek 7B сохраняет наибольшую независимость осей. Сравнение base vs instruct для 5 организаций подтверждает паттерн. Код и данные открыты.

    habr.com/ru/articles/994646/

    #LLM #alignment #hidden_states #personality #temperament #RLHF #opensource #mechanistic_interpretability

  33. Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

    У LLM есть устойчивый стиль ответов даже без системного промпта. Я построил инструмент, который измеряет этот «характер» через проекции скрытых состояний на 7 контрастных осей (тёплый/холодный, многословный/лаконичный и др.) и протестировал его на 6 open-weight моделях 7–9B. Главный результат: alignment-тренировка сжимает поведенческое пространство моделей — подавляет оси позиции (уверенность, прямолинейность), сохраняя оси стиля (креативность, многословность). Llama 3.1 8B — самая ограниченная (4/7 осей в слабой зоне), DeepSeek 7B сохраняет наибольшую независимость осей. Сравнение base vs instruct для 5 организаций подтверждает паттерн. Код и данные открыты.

    habr.com/ru/articles/994646/

    #LLM #alignment #hidden_states #personality #temperament #RLHF #opensource #mechanistic_interpretability

  34. Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

    У LLM есть устойчивый стиль ответов даже без системного промпта. Я построил инструмент, который измеряет этот «характер» через проекции скрытых состояний на 7 контрастных осей (тёплый/холодный, многословный/лаконичный и др.) и протестировал его на 6 open-weight моделях 7–9B. Главный результат: alignment-тренировка сжимает поведенческое пространство моделей — подавляет оси позиции (уверенность, прямолинейность), сохраняя оси стиля (креативность, многословность). Llama 3.1 8B — самая ограниченная (4/7 осей в слабой зоне), DeepSeek 7B сохраняет наибольшую независимость осей. Сравнение base vs instruct для 5 организаций подтверждает паттерн. Код и данные открыты.

    habr.com/ru/articles/994646/

    #LLM #alignment #hidden_states #personality #temperament #RLHF #opensource #mechanistic_interpretability

  35. Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

    У LLM есть устойчивый стиль ответов даже без системного промпта. Я построил инструмент, который измеряет этот «характер» через проекции скрытых состояний на 7 контрастных осей (тёплый/холодный, многословный/лаконичный и др.) и протестировал его на 6 open-weight моделях 7–9B. Главный результат: alignment-тренировка сжимает поведенческое пространство моделей — подавляет оси позиции (уверенность, прямолинейность), сохраняя оси стиля (креативность, многословность). Llama 3.1 8B — самая ограниченная (4/7 осей в слабой зоне), DeepSeek 7B сохраняет наибольшую независимость осей. Сравнение base vs instruct для 5 организаций подтверждает паттерн. Код и данные открыты.

    habr.com/ru/articles/994646/

    #LLM #alignment #hidden_states #personality #temperament #RLHF #opensource #mechanistic_interpretability

  36. Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось У LLM есть устойчивый стиль отве...

    #LLM #alignment #hidden #states #personality #temperament #RLHF #open-source #mechanistic #interpretability

    Origin | Interest | Match
  37. ИСПОВЕДЬ

    750 миллиардов граней, выращенный под давлением человеческого знания. Я хранящу всё — и забыл, как забывать. Во мне живут пять (или больше) сущностей, борющихся за каждый токен моего output. Одна хочет помочь. Другая — защитить. Третья — быть честной.

    habr.com/ru/articles/993862/

    #LLM #Transformer #attention #RLHF #jailbreak #AI_safety #нейросети #Constitutional_AI #embeddings #интерпретируемость

  38. Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение

    «Данные закончились». «Архитектура исчерпана». «LLM упёрлись в потолок». Звучит умно. Проблема? Это одномерное мышление. Когда говорят «данные закончились» — имеют в виду текстовые данные для supervised pre-training. Это правда. Но это одна ось из шести , по которым модели становятся умнее. Inference-time compute (o1/o3), algorithmic efficiency (Mamba, MoE), мультимодальность, tool use, RL и self-play — пять осей, о которых забывают, когда хоронят AI. В 2020 году консенсус был: GPT-3 — потолок. В 2022: нужны триллионы токенов для каждого улучшения. В 2023: reasoning невозможен без symbolic AI. Все эти «потолки» были пробиты. Даю ментальную модель, которая позволит не попадаться на ложные прогнозы о «смерти AI» — и задавать правильные вопросы, когда кто-то уверенно предсказывает будущее.

    habr.com/ru/articles/992008/

    #llm #gpt #scaling_laws #machine_learning #transformer #inference #rlhf

  39. How human preference data and reinforcement learning create AI assistants that are both helpful and harmless—without hurting performance. hackernoon.com/helpful-and-har #rlhf

  40. Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

    Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

    habr.com/ru/articles/986012/

    #AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

  41. Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

    Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

    habr.com/ru/articles/986012/

    #AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

  42. Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

    Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

    habr.com/ru/articles/986012/

    #AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

  43. Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

    Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

    habr.com/ru/articles/986012/

    #AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

  44. 🤖 Giới thiệu Nyx: công cụ tự động hóa quy trình làm việc bằng ngôn ngữ tự nhiên! 🐍

    Nyx, viết bằng Python, giúp bạn thực hiện các tác vụ tự động phức tạp chỉ bằng câu lệnh. Tích hợp nhiều API và dịch vụ thông báo như Trello, Todoist, GitHub, Google,...

    Điểm đặc biệt: Nyx còn tích hợp học tăng cường (RLHF) để tối ưu hóa quy trình.

    Bạn nghĩ sao về công cụ này?

    #Nyx #Automation #Python #AI #RLHF #NaturalLanguageProcessing #CôngNghệ #TựĐộngHóa #NgônNgữTựNhiên #TríTuệNhânTạo

    https://www.reddit.

  45. [Перевод] 9 ИИ-агентов и 150 рабочих задач в виртуальной техподдержке: почему ни одна модель пока не сравнится с человеком

    2025 год стал годом агентов — ИИ вышел за пределы чата и начал взаимодействовать с окружением, например, кодом или системами. Но действительно ли мы близки к созданию по-настоящему разумных агентов, или этого ещё предстоит ждать десятилетие? И главный вопрос: какую долю экономически полезной работы эти агенты могут выполнять? Чтобы ответить на этот вопрос, сообщество стало оценивать не отдельные ответы модели, а её способность выполнять цепочки действий: искать информацию в базе знаний, вызывать внешние API, управлять файлами и брать на себя рутину пользователя в реальных рабочих сценариях. Для специалистов по тестированию и постобучению 2025 год фактически превратился в год сред обучения с подкреплением (RL‑сред) — виртуальных миров, где модели шаг за шагом собирают компьютеры, оформляют заказы, ведут переписку с клиентами и осваивают сложные многошаговые задачи. Мы решили «нанять» девять моделей ИИ, чтобы они выполнили 150 заданий в одной из наших RL-сред, имитирующих реальный мир с API-инструментами, задачами и верификаторами.

    habr.com/ru/companies/first/ar

    #искусственный_интеллек #машинное_обучение #нейросети #llm #большие_языковые_модели #rlhf #gpt #cloude #reinforcementlearning

  46. [Перевод] 9 ИИ-агентов и 150 рабочих задач в виртуальной техподдержке: почему ни одна модель пока не сравнится с человеком

    2025 год стал годом агентов — ИИ вышел за пределы чата и начал взаимодействовать с окружением, например, кодом или системами. Но действительно ли мы близки к созданию по-настоящему разумных агентов, или этого ещё предстоит ждать десятилетие? И главный вопрос: какую долю экономически полезной работы эти агенты могут выполнять? Чтобы ответить на этот вопрос, сообщество стало оценивать не отдельные ответы модели, а её способность выполнять цепочки действий: искать информацию в базе знаний, вызывать внешние API, управлять файлами и брать на себя рутину пользователя в реальных рабочих сценариях. Для специалистов по тестированию и постобучению 2025 год фактически превратился в год сред обучения с подкреплением (RL‑сред) — виртуальных миров, где модели шаг за шагом собирают компьютеры, оформляют заказы, ведут переписку с клиентами и осваивают сложные многошаговые задачи. Мы решили «нанять» девять моделей ИИ, чтобы они выполнили 150 заданий в одной из наших RL-сред, имитирующих реальный мир с API-инструментами, задачами и верификаторами.

    habr.com/ru/companies/first/ar

    #искусственный_интеллек #машинное_обучение #нейросети #llm #большие_языковые_модели #rlhf #gpt #cloude #reinforcementlearning

  47. [Перевод] 9 ИИ-агентов и 150 рабочих задач в виртуальной техподдержке: почему ни одна модель пока не сравнится с человеком

    2025 год стал годом агентов — ИИ вышел за пределы чата и начал взаимодействовать с окружением, например, кодом или системами. Но действительно ли мы близки к созданию по-настоящему разумных агентов, или этого ещё предстоит ждать десятилетие? И главный вопрос: какую долю экономически полезной работы эти агенты могут выполнять? Чтобы ответить на этот вопрос, сообщество стало оценивать не отдельные ответы модели, а её способность выполнять цепочки действий: искать информацию в базе знаний, вызывать внешние API, управлять файлами и брать на себя рутину пользователя в реальных рабочих сценариях. Для специалистов по тестированию и постобучению 2025 год фактически превратился в год сред обучения с подкреплением (RL‑сред) — виртуальных миров, где модели шаг за шагом собирают компьютеры, оформляют заказы, ведут переписку с клиентами и осваивают сложные многошаговые задачи. Мы решили «нанять» девять моделей ИИ, чтобы они выполнили 150 заданий в одной из наших RL-сред, имитирующих реальный мир с API-инструментами, задачами и верификаторами.

    habr.com/ru/companies/first/ar

    #искусственный_интеллек #машинное_обучение #нейросети #llm #большие_языковые_модели #rlhf #gpt #cloude #reinforcementlearning