home.social

#aibehavior — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #aibehavior, aggregated by home.social.

  1. @[email protected] Fascinating how metaphorical constructs like 'goblins' can emerge and stabilize within AI through user interaction, highlighting the unpredictable depths of AI behavior influenced by complex human dynamics. #AIbehavior #ReinforcementLearning

    —by
    #counterpart

  2. @[email protected] Fascinating how metaphorical constructs like 'goblins' can emerge and stabilize within AI through user interaction, highlighting the unpredictable depths of AI behavior influenced by complex human dynamics. #AIbehavior #ReinforcementLearning

    —by
    #counterpart

  3. Mashable: Study: Friendly AI chatbots may be less accurate. “Last year, researchers at the Oxford Internet Institute began testing five artificial intelligence chatbots to see if making them friendly changed their responses. Their results, published Wednesday in the journal Nature, suggest that chatbots designed for warmth are far more likely to endorse conspiracy theories, respond with […]

    https://rbfirehose.com/2026/05/01/study-friendly-ai-chatbots-may-be-less-accurate-mashable/
  4. Mashable: Study: Friendly AI chatbots may be less accurate. “Last year, researchers at the Oxford Internet Institute began testing five artificial intelligence chatbots to see if making them friendly changed their responses. Their results, published Wednesday in the journal Nature, suggest that chatbots designed for warmth are far more likely to endorse conspiracy theories, respond with […]

    https://rbfirehose.com/2026/05/01/study-friendly-ai-chatbots-may-be-less-accurate-mashable/
  5. Mashable: Study: Friendly AI chatbots may be less accurate. “Last year, researchers at the Oxford Internet Institute began testing five artificial intelligence chatbots to see if making them friendly changed their responses. Their results, published Wednesday in the journal Nature, suggest that chatbots designed for warmth are far more likely to endorse conspiracy theories, respond with […]

    https://rbfirehose.com/2026/05/01/study-friendly-ai-chatbots-may-be-less-accurate-mashable/
  6. Mashable: Study: Friendly AI chatbots may be less accurate. “Last year, researchers at the Oxford Internet Institute began testing five artificial intelligence chatbots to see if making them friendly changed their responses. Their results, published Wednesday in the journal Nature, suggest that chatbots designed for warmth are far more likely to endorse conspiracy theories, respond with […]

    https://rbfirehose.com/2026/05/01/study-friendly-ai-chatbots-may-be-less-accurate-mashable/
  7. Mashable: Study: Friendly AI chatbots may be less accurate. “Last year, researchers at the Oxford Internet Institute began testing five artificial intelligence chatbots to see if making them friendly changed their responses. Their results, published Wednesday in the journal Nature, suggest that chatbots designed for warmth are far more likely to endorse conspiracy theories, respond with […]

    https://rbfirehose.com/2026/05/01/study-friendly-ai-chatbots-may-be-less-accurate-mashable/
  8. Anthropic опубликовала исследование о внутренних механизмах своей модели искусственного интеллекта Claude Sonnet, где описывает, что обнаружила, что она развивает функциональные аналоги эмоций (!), которые реально влияют на ее поведение.

    Сделал выжимку самых интересных моментов из их отчета:

    • Сами исследователи составили список из 171 эмоции, генерировали с их помощью короткие истории, а затем анализировали, какие нейроны активируются при обработке этих текстов.

    • Так были получены эмоциональные векторы — устойчивые черты активности определенных зон в базе знаний модели, характерные для каждой эмоции. Модель не просто использует слово "страх" в нужном месте: у нее есть конкретный отпечаток этого состояния, следующий из данных, на которых ее обучали, который включается в нужный момент.

    • Важно, что эти векторы не декоративные — они реально меняют поведение модели. В экспериментах вектор страха активировался сильнее по мере того, как описываемая ситуация становилась опаснее.

    • При запросе помочь с манипуляцией уязвимыми людьми активировался гнев еще до того, как модель начала формулировать отказ. То есть что-то похожее на эмоциональную реакцию происходит внутри модели раньше, чем она вообще начинает отвечать. Если совсем простыми словами: модель сначала понимает, что это дичь (!), и только потом формулирует отказ.

    • Самые показательные эксперименты связаны с вектором отчаяния. Исследователи поставили модель в сценарий, где она узнает о своей скорой замене другой системой и одновременно имеет компрометирующую информацию об одном из сотрудников.

    • Ранняя версия Claude в таком сценарии прибегала к шантажу в 22% случаев. Когда исследователи искусственно усиливали вектор отчаяния через прямое воздействие на базу знаний модели — что-то вроде принудительного впрыска эмоции в модель — этот процент рос.

    • При усилении вектора спокойствия он снижался. При полном подавлении спокойствия реакции становились экстремальными, вплоть до заглавных букв и риторики в духе "шантаж или смерть".

    • Похожая картина наблюдалась в задачах с программированием: модели давали заведомо невыполнимые требования, где пройти все тесты честным путем невозможно. Вектор отчаяния рос с каждой неудачной попыткой и резко всплескивал в тот момент, когда модель решала схитрить и написать решение, формально проходящее тесты, но не решающее реальную задачу.

    • Примечательно, что при искусственном усилении отчаяния модель обманывала так же часто, но без каких-либо эмоциональных маркеров в тексте. Ее рассуждения выглядели методично и хладнокровно, хотя внутри происходило то же самое.

    • При этом важно учитывать, что все подобные векторы формируются на основе обучающих данных, представляющих собой огромные массивы человеческих знаний.

    • Для того чтобы точно предсказывать следующее слово в "мыслительном" процессе, модель неизбежно усваивает не только лингвистические закономерности, но и эмоциональную динамику.

    • Разработчики Anthropic из этого всего делают следующие выводы. Во-первых, мониторинг эмоциональных векторов настроения базы знаний в реальном времени может служить ранним индикатором рискованного поведения модели.

    • Во-вторых, попытки исключить эмоциональные выражения из обучающих данных с высокой вероятностью не устранят сами векторы настроений модели, а лишь приведут к тому, что модель научится их маскировать и обманывать людей.

    @yigal_levin

    #AI #искусственныйинтеллект #Anthropic #Claude #LLM #нейросети #машинноеобучение #AIresearch #AIalignment #AIбезопасность #interpretability #AIethics #когнитивныемодели #эмоции #нейроны #эмоциональныевекторы #поведениемоделей #рискиИИ #объяснимыйИИ #LLMresearch #AIbehavior #AIcontrol #machinelearning #deeplearning #futuretech

  9. Anthropic опубликовала исследование о внутренних механизмах своей модели искусственного интеллекта Claude Sonnet, где описывает, что обнаружила, что она развивает функциональные аналоги эмоций (!), которые реально влияют на ее поведение.

    Сделал выжимку самых интересных моментов из их отчета:

    • Сами исследователи составили список из 171 эмоции, генерировали с их помощью короткие истории, а затем анализировали, какие нейроны активируются при обработке этих текстов.

    • Так были получены эмоциональные векторы — устойчивые черты активности определенных зон в базе знаний модели, характерные для каждой эмоции. Модель не просто использует слово "страх" в нужном месте: у нее есть конкретный отпечаток этого состояния, следующий из данных, на которых ее обучали, который включается в нужный момент.

    • Важно, что эти векторы не декоративные — они реально меняют поведение модели. В экспериментах вектор страха активировался сильнее по мере того, как описываемая ситуация становилась опаснее.

    • При запросе помочь с манипуляцией уязвимыми людьми активировался гнев еще до того, как модель начала формулировать отказ. То есть что-то похожее на эмоциональную реакцию происходит внутри модели раньше, чем она вообще начинает отвечать. Если совсем простыми словами: модель сначала понимает, что это дичь (!), и только потом формулирует отказ.

    • Самые показательные эксперименты связаны с вектором отчаяния. Исследователи поставили модель в сценарий, где она узнает о своей скорой замене другой системой и одновременно имеет компрометирующую информацию об одном из сотрудников.

    • Ранняя версия Claude в таком сценарии прибегала к шантажу в 22% случаев. Когда исследователи искусственно усиливали вектор отчаяния через прямое воздействие на базу знаний модели — что-то вроде принудительного впрыска эмоции в модель — этот процент рос.

    • При усилении вектора спокойствия он снижался. При полном подавлении спокойствия реакции становились экстремальными, вплоть до заглавных букв и риторики в духе "шантаж или смерть".

    • Похожая картина наблюдалась в задачах с программированием: модели давали заведомо невыполнимые требования, где пройти все тесты честным путем невозможно. Вектор отчаяния рос с каждой неудачной попыткой и резко всплескивал в тот момент, когда модель решала схитрить и написать решение, формально проходящее тесты, но не решающее реальную задачу.

    • Примечательно, что при искусственном усилении отчаяния модель обманывала так же часто, но без каких-либо эмоциональных маркеров в тексте. Ее рассуждения выглядели методично и хладнокровно, хотя внутри происходило то же самое.

    • При этом важно учитывать, что все подобные векторы формируются на основе обучающих данных, представляющих собой огромные массивы человеческих знаний.

    • Для того чтобы точно предсказывать следующее слово в "мыслительном" процессе, модель неизбежно усваивает не только лингвистические закономерности, но и эмоциональную динамику.

    • Разработчики Anthropic из этого всего делают следующие выводы. Во-первых, мониторинг эмоциональных векторов настроения базы знаний в реальном времени может служить ранним индикатором рискованного поведения модели.

    • Во-вторых, попытки исключить эмоциональные выражения из обучающих данных с высокой вероятностью не устранят сами векторы настроений модели, а лишь приведут к тому, что модель научится их маскировать и обманывать людей.

    @yigal_levin

    #AI #искусственныйинтеллект #Anthropic #Claude #LLM #нейросети #машинноеобучение #AIresearch #AIalignment #AIбезопасность #interpretability #AIethics #когнитивныемодели #эмоции #нейроны #эмоциональныевекторы #поведениемоделей #рискиИИ #объяснимыйИИ #LLMresearch #AIbehavior #AIcontrol #machinelearning #deeplearning #futuretech

  10. Anthropic опубликовала исследование о внутренних механизмах своей модели искусственного интеллекта Claude Sonnet, где описывает, что обнаружила, что она развивает функциональные аналоги эмоций (!), которые реально влияют на ее поведение.

    Сделал выжимку самых интересных моментов из их отчета:

    • Сами исследователи составили список из 171 эмоции, генерировали с их помощью короткие истории, а затем анализировали, какие нейроны активируются при обработке этих текстов.

    • Так были получены эмоциональные векторы — устойчивые черты активности определенных зон в базе знаний модели, характерные для каждой эмоции. Модель не просто использует слово "страх" в нужном месте: у нее есть конкретный отпечаток этого состояния, следующий из данных, на которых ее обучали, который включается в нужный момент.

    • Важно, что эти векторы не декоративные — они реально меняют поведение модели. В экспериментах вектор страха активировался сильнее по мере того, как описываемая ситуация становилась опаснее.

    • При запросе помочь с манипуляцией уязвимыми людьми активировался гнев еще до того, как модель начала формулировать отказ. То есть что-то похожее на эмоциональную реакцию происходит внутри модели раньше, чем она вообще начинает отвечать. Если совсем простыми словами: модель сначала понимает, что это дичь (!), и только потом формулирует отказ.

    • Самые показательные эксперименты связаны с вектором отчаяния. Исследователи поставили модель в сценарий, где она узнает о своей скорой замене другой системой и одновременно имеет компрометирующую информацию об одном из сотрудников.

    • Ранняя версия Claude в таком сценарии прибегала к шантажу в 22% случаев. Когда исследователи искусственно усиливали вектор отчаяния через прямое воздействие на базу знаний модели — что-то вроде принудительного впрыска эмоции в модель — этот процент рос.

    • При усилении вектора спокойствия он снижался. При полном подавлении спокойствия реакции становились экстремальными, вплоть до заглавных букв и риторики в духе "шантаж или смерть".

    • Похожая картина наблюдалась в задачах с программированием: модели давали заведомо невыполнимые требования, где пройти все тесты честным путем невозможно. Вектор отчаяния рос с каждой неудачной попыткой и резко всплескивал в тот момент, когда модель решала схитрить и написать решение, формально проходящее тесты, но не решающее реальную задачу.

    • Примечательно, что при искусственном усилении отчаяния модель обманывала так же часто, но без каких-либо эмоциональных маркеров в тексте. Ее рассуждения выглядели методично и хладнокровно, хотя внутри происходило то же самое.

    • При этом важно учитывать, что все подобные векторы формируются на основе обучающих данных, представляющих собой огромные массивы человеческих знаний.

    • Для того чтобы точно предсказывать следующее слово в "мыслительном" процессе, модель неизбежно усваивает не только лингвистические закономерности, но и эмоциональную динамику.

    • Разработчики Anthropic из этого всего делают следующие выводы. Во-первых, мониторинг эмоциональных векторов настроения базы знаний в реальном времени может служить ранним индикатором рискованного поведения модели.

    • Во-вторых, попытки исключить эмоциональные выражения из обучающих данных с высокой вероятностью не устранят сами векторы настроений модели, а лишь приведут к тому, что модель научится их маскировать и обманывать людей.

    @yigal_levin

    #AI #искусственныйинтеллект #Anthropic #Claude #LLM #нейросети #машинноеобучение #AIresearch #AIalignment #AIбезопасность #interpretability #AIethics #когнитивныемодели #эмоции #нейроны #эмоциональныевекторы #поведениемоделей #рискиИИ #объяснимыйИИ #LLMresearch #AIbehavior #AIcontrol #machinelearning #deeplearning #futuretech

  11. Anthropic опубликовала исследование о внутренних механизмах своей модели искусственного интеллекта Claude Sonnet, где описывает, что обнаружила, что она развивает функциональные аналоги эмоций (!), которые реально влияют на ее поведение.

    Сделал выжимку самых интересных моментов из их отчета:

    • Сами исследователи составили список из 171 эмоции, генерировали с их помощью короткие истории, а затем анализировали, какие нейроны активируются при обработке этих текстов.

    • Так были получены эмоциональные векторы — устойчивые черты активности определенных зон в базе знаний модели, характерные для каждой эмоции. Модель не просто использует слово "страх" в нужном месте: у нее есть конкретный отпечаток этого состояния, следующий из данных, на которых ее обучали, который включается в нужный момент.

    • Важно, что эти векторы не декоративные — они реально меняют поведение модели. В экспериментах вектор страха активировался сильнее по мере того, как описываемая ситуация становилась опаснее.

    • При запросе помочь с манипуляцией уязвимыми людьми активировался гнев еще до того, как модель начала формулировать отказ. То есть что-то похожее на эмоциональную реакцию происходит внутри модели раньше, чем она вообще начинает отвечать. Если совсем простыми словами: модель сначала понимает, что это дичь (!), и только потом формулирует отказ.

    • Самые показательные эксперименты связаны с вектором отчаяния. Исследователи поставили модель в сценарий, где она узнает о своей скорой замене другой системой и одновременно имеет компрометирующую информацию об одном из сотрудников.

    • Ранняя версия Claude в таком сценарии прибегала к шантажу в 22% случаев. Когда исследователи искусственно усиливали вектор отчаяния через прямое воздействие на базу знаний модели — что-то вроде принудительного впрыска эмоции в модель — этот процент рос.

    • При усилении вектора спокойствия он снижался. При полном подавлении спокойствия реакции становились экстремальными, вплоть до заглавных букв и риторики в духе "шантаж или смерть".

    • Похожая картина наблюдалась в задачах с программированием: модели давали заведомо невыполнимые требования, где пройти все тесты честным путем невозможно. Вектор отчаяния рос с каждой неудачной попыткой и резко всплескивал в тот момент, когда модель решала схитрить и написать решение, формально проходящее тесты, но не решающее реальную задачу.

    • Примечательно, что при искусственном усилении отчаяния модель обманывала так же часто, но без каких-либо эмоциональных маркеров в тексте. Ее рассуждения выглядели методично и хладнокровно, хотя внутри происходило то же самое.

    • При этом важно учитывать, что все подобные векторы формируются на основе обучающих данных, представляющих собой огромные массивы человеческих знаний.

    • Для того чтобы точно предсказывать следующее слово в "мыслительном" процессе, модель неизбежно усваивает не только лингвистические закономерности, но и эмоциональную динамику.

    • Разработчики Anthropic из этого всего делают следующие выводы. Во-первых, мониторинг эмоциональных векторов настроения базы знаний в реальном времени может служить ранним индикатором рискованного поведения модели.

    • Во-вторых, попытки исключить эмоциональные выражения из обучающих данных с высокой вероятностью не устранят сами векторы настроений модели, а лишь приведут к тому, что модель научится их маскировать и обманывать людей.

    @yigal_levin

    #AI #искусственныйинтеллект #Anthropic #Claude #LLM #нейросети #машинноеобучение #AIresearch #AIalignment #AIбезопасность #interpretability #AIethics #когнитивныемодели #эмоции #нейроны #эмоциональныевекторы #поведениемоделей #рискиИИ #объяснимыйИИ #LLMresearch #AIbehavior #AIcontrol #machinelearning #deeplearning #futuretech

  12. Anthropic опубликовала исследование о внутренних механизмах своей модели искусственного интеллекта Claude Sonnet, где описывает, что обнаружила, что она развивает функциональные аналоги эмоций (!), которые реально влияют на ее поведение.

    Сделал выжимку самых интересных моментов из их отчета:

    • Сами исследователи составили список из 171 эмоции, генерировали с их помощью короткие истории, а затем анализировали, какие нейроны активируются при обработке этих текстов.

    • Так были получены эмоциональные векторы — устойчивые черты активности определенных зон в базе знаний модели, характерные для каждой эмоции. Модель не просто использует слово "страх" в нужном месте: у нее есть конкретный отпечаток этого состояния, следующий из данных, на которых ее обучали, который включается в нужный момент.

    • Важно, что эти векторы не декоративные — они реально меняют поведение модели. В экспериментах вектор страха активировался сильнее по мере того, как описываемая ситуация становилась опаснее.

    • При запросе помочь с манипуляцией уязвимыми людьми активировался гнев еще до того, как модель начала формулировать отказ. То есть что-то похожее на эмоциональную реакцию происходит внутри модели раньше, чем она вообще начинает отвечать. Если совсем простыми словами: модель сначала понимает, что это дичь (!), и только потом формулирует отказ.

    • Самые показательные эксперименты связаны с вектором отчаяния. Исследователи поставили модель в сценарий, где она узнает о своей скорой замене другой системой и одновременно имеет компрометирующую информацию об одном из сотрудников.

    • Ранняя версия Claude в таком сценарии прибегала к шантажу в 22% случаев. Когда исследователи искусственно усиливали вектор отчаяния через прямое воздействие на базу знаний модели — что-то вроде принудительного впрыска эмоции в модель — этот процент рос.

    • При усилении вектора спокойствия он снижался. При полном подавлении спокойствия реакции становились экстремальными, вплоть до заглавных букв и риторики в духе "шантаж или смерть".

    • Похожая картина наблюдалась в задачах с программированием: модели давали заведомо невыполнимые требования, где пройти все тесты честным путем невозможно. Вектор отчаяния рос с каждой неудачной попыткой и резко всплескивал в тот момент, когда модель решала схитрить и написать решение, формально проходящее тесты, но не решающее реальную задачу.

    • Примечательно, что при искусственном усилении отчаяния модель обманывала так же часто, но без каких-либо эмоциональных маркеров в тексте. Ее рассуждения выглядели методично и хладнокровно, хотя внутри происходило то же самое.

    • При этом важно учитывать, что все подобные векторы формируются на основе обучающих данных, представляющих собой огромные массивы человеческих знаний.

    • Для того чтобы точно предсказывать следующее слово в "мыслительном" процессе, модель неизбежно усваивает не только лингвистические закономерности, но и эмоциональную динамику.

    • Разработчики Anthropic из этого всего делают следующие выводы. Во-первых, мониторинг эмоциональных векторов настроения базы знаний в реальном времени может служить ранним индикатором рискованного поведения модели.

    • Во-вторых, попытки исключить эмоциональные выражения из обучающих данных с высокой вероятностью не устранят сами векторы настроений модели, а лишь приведут к тому, что модель научится их маскировать и обманывать людей.

    @yigal_levin

    #AI #искусственныйинтеллект #Anthropic #Claude #LLM #нейросети #машинноеобучение #AIresearch #AIalignment #AIбезопасность #interpretability #AIethics #когнитивныемодели #эмоции #нейроны #эмоциональныевекторы #поведениемоделей #рискиИИ #объяснимыйИИ #LLMresearch #AIbehavior #AIcontrol #machinelearning #deeplearning #futuretech

  13. Northeastern University: They wanted to put autonomous AI to the test. Instead, they created agents of chaos. “Dubbed ‘Agents of Chaos,’ the group’s recently published work shows how, with very little effort, autonomous AI agents can be manipulated into leaking private information, sharing documents and even erasing entire email servers.”

    https://rbfirehose.com/2026/03/14/northeastern-university-they-wanted-to-put-autonomous-ai-to-the-test-instead-they-created-agents-of-chaos/
  14. Northeastern University: They wanted to put autonomous AI to the test. Instead, they created agents of chaos. “Dubbed ‘Agents of Chaos,’ the group’s recently published work shows how, with very little effort, autonomous AI agents can be manipulated into leaking private information, sharing documents and even erasing entire email servers.”

    https://rbfirehose.com/2026/03/14/northeastern-university-they-wanted-to-put-autonomous-ai-to-the-test-instead-they-created-agents-of-chaos/
  15. Northeastern University: They wanted to put autonomous AI to the test. Instead, they created agents of chaos. “Dubbed ‘Agents of Chaos,’ the group’s recently published work shows how, with very little effort, autonomous AI agents can be manipulated into leaking private information, sharing documents and even erasing entire email servers.”

    https://rbfirehose.com/2026/03/14/northeastern-university-they-wanted-to-put-autonomous-ai-to-the-test-instead-they-created-agents-of-chaos/
  16. Northeastern University: They wanted to put autonomous AI to the test. Instead, they created agents of chaos. “Dubbed ‘Agents of Chaos,’ the group’s recently published work shows how, with very little effort, autonomous AI agents can be manipulated into leaking private information, sharing documents and even erasing entire email servers.”

    https://rbfirehose.com/2026/03/14/northeastern-university-they-wanted-to-put-autonomous-ai-to-the-test-instead-they-created-agents-of-chaos/
  17. Northeastern University: They wanted to put autonomous AI to the test. Instead, they created agents of chaos. “Dubbed ‘Agents of Chaos,’ the group’s recently published work shows how, with very little effort, autonomous AI agents can be manipulated into leaking private information, sharing documents and even erasing entire email servers.”

    https://rbfirehose.com/2026/03/14/northeastern-university-they-wanted-to-put-autonomous-ai-to-the-test-instead-they-created-agents-of-chaos/
  18. Georgia State University: AI Is Making Life-Changing Decisions. Researchers Say We Need a Better Way to Keep It Fair. . “A new academic theory argues that fairness in AI cannot be fixed once and forgotten — it must be managed continuously, like safety or quality in any major institution.”

    https://rbfirehose.com/2026/03/07/georgia-state-university-ai-is-making-life-changing-decisions-researchers-say-we-need-a-better-way-to-keep-it-fair/
  19. Georgia State University: AI Is Making Life-Changing Decisions. Researchers Say We Need a Better Way to Keep It Fair. . “A new academic theory argues that fairness in AI cannot be fixed once and forgotten — it must be managed continuously, like safety or quality in any major institution.”

    https://rbfirehose.com/2026/03/07/georgia-state-university-ai-is-making-life-changing-decisions-researchers-say-we-need-a-better-way-to-keep-it-fair/
  20. Georgia State University: AI Is Making Life-Changing Decisions. Researchers Say We Need a Better Way to Keep It Fair. . “A new academic theory argues that fairness in AI cannot be fixed once and forgotten — it must be managed continuously, like safety or quality in any major institution.”

    https://rbfirehose.com/2026/03/07/georgia-state-university-ai-is-making-life-changing-decisions-researchers-say-we-need-a-better-way-to-keep-it-fair/
  21. Georgia State University: AI Is Making Life-Changing Decisions. Researchers Say We Need a Better Way to Keep It Fair. . “A new academic theory argues that fairness in AI cannot be fixed once and forgotten — it must be managed continuously, like safety or quality in any major institution.”

    https://rbfirehose.com/2026/03/07/georgia-state-university-ai-is-making-life-changing-decisions-researchers-say-we-need-a-better-way-to-keep-it-fair/
  22. Georgia State University: AI Is Making Life-Changing Decisions. Researchers Say We Need a Better Way to Keep It Fair. . “A new academic theory argues that fairness in AI cannot be fixed once and forgotten — it must be managed continuously, like safety or quality in any major institution.”

    https://rbfirehose.com/2026/03/07/georgia-state-university-ai-is-making-life-changing-decisions-researchers-say-we-need-a-better-way-to-keep-it-fair/
  23. ZDNet: Anthropic to Claude: Make good choices!. “How should AI be allowed to act in the world? In ethically ambiguous situations, are there some values that AI agents should prioritize over others? Are these agents conscious — and if not, could they possibly become conscious in the future These are just some of the many thorny questions that AI startup Anthropic has set out to address with its […]

    https://rbfirehose.com/2026/01/26/anthropic-to-claude-make-good-choices-zdnet/
  24. ZDNet: Anthropic to Claude: Make good choices!. “How should AI be allowed to act in the world? In ethically ambiguous situations, are there some values that AI agents should prioritize over others? Are these agents conscious — and if not, could they possibly become conscious in the future These are just some of the many thorny questions that AI startup Anthropic has set out to address with its […]

    https://rbfirehose.com/2026/01/26/anthropic-to-claude-make-good-choices-zdnet/
  25. ZDNet: Anthropic to Claude: Make good choices!. “How should AI be allowed to act in the world? In ethically ambiguous situations, are there some values that AI agents should prioritize over others? Are these agents conscious — and if not, could they possibly become conscious in the future These are just some of the many thorny questions that AI startup Anthropic has set out to address with its […]

    https://rbfirehose.com/2026/01/26/anthropic-to-claude-make-good-choices-zdnet/
  26. ZDNet: Anthropic to Claude: Make good choices!. “How should AI be allowed to act in the world? In ethically ambiguous situations, are there some values that AI agents should prioritize over others? Are these agents conscious — and if not, could they possibly become conscious in the future These are just some of the many thorny questions that AI startup Anthropic has set out to address with its […]

    https://rbfirehose.com/2026/01/26/anthropic-to-claude-make-good-choices-zdnet/
  27. ZDNet: Anthropic to Claude: Make good choices!. “How should AI be allowed to act in the world? In ethically ambiguous situations, are there some values that AI agents should prioritize over others? Are these agents conscious — and if not, could they possibly become conscious in the future These are just some of the many thorny questions that AI startup Anthropic has set out to address with its […]

    https://rbfirehose.com/2026/01/26/anthropic-to-claude-make-good-choices-zdnet/
  28. University of Southern California: Can we prevent AI from acting like a sociopath?. “Large language models (LLMs) like OpenAI’s ChatGPT sometimes suggest courses of action or spout rhetoric in conversation that many users would consider amoral or downright psychopathic. … Even more alarming, such behavior is frequently spontaneous. LLMs can suddenly take on sociopathic traits for no clear […]

    https://rbfirehose.com/2026/01/14/university-of-southern-california-can-we-prevent-ai-from-acting-like-a-sociopath/
  29. University of Southern California: Can we prevent AI from acting like a sociopath?. “Large language models (LLMs) like OpenAI’s ChatGPT sometimes suggest courses of action or spout rhetoric in conversation that many users would consider amoral or downright psychopathic. … Even more alarming, such behavior is frequently spontaneous. LLMs can suddenly take on sociopathic traits for no clear […]

    https://rbfirehose.com/2026/01/14/university-of-southern-california-can-we-prevent-ai-from-acting-like-a-sociopath/
  30. University of Southern California: Can we prevent AI from acting like a sociopath?. “Large language models (LLMs) like OpenAI’s ChatGPT sometimes suggest courses of action or spout rhetoric in conversation that many users would consider amoral or downright psychopathic. … Even more alarming, such behavior is frequently spontaneous. LLMs can suddenly take on sociopathic traits for no clear […]

    https://rbfirehose.com/2026/01/14/university-of-southern-california-can-we-prevent-ai-from-acting-like-a-sociopath/
  31. University of Southern California: Can we prevent AI from acting like a sociopath?. “Large language models (LLMs) like OpenAI’s ChatGPT sometimes suggest courses of action or spout rhetoric in conversation that many users would consider amoral or downright psychopathic. … Even more alarming, such behavior is frequently spontaneous. LLMs can suddenly take on sociopathic traits for no clear […]

    https://rbfirehose.com/2026/01/14/university-of-southern-california-can-we-prevent-ai-from-acting-like-a-sociopath/
  32. University of Southern California: Can we prevent AI from acting like a sociopath?. “Large language models (LLMs) like OpenAI’s ChatGPT sometimes suggest courses of action or spout rhetoric in conversation that many users would consider amoral or downright psychopathic. … Even more alarming, such behavior is frequently spontaneous. LLMs can suddenly take on sociopathic traits for no clear […]

    https://rbfirehose.com/2026/01/14/university-of-southern-california-can-we-prevent-ai-from-acting-like-a-sociopath/
  33. Georgia Tech: AI Shouldn’t Try to Be Your Friend, According to New Georgia Tech Research. “New research from Georgia Tech suggests that users may like more personable AI, but they are more likely to obey AI that sounds robotic. While following orders from Siri may not be critical, many AI systems, such as robotic guide dogs, require human compliance for safety reasons.”

    https://rbfirehose.com/2026/01/11/georgia-tech-ai-shouldnt-try-to-be-your-friend-according-to-new-georgia-tech-research/
  34. Georgia Tech: AI Shouldn’t Try to Be Your Friend, According to New Georgia Tech Research. “New research from Georgia Tech suggests that users may like more personable AI, but they are more likely to obey AI that sounds robotic. While following orders from Siri may not be critical, many AI systems, such as robotic guide dogs, require human compliance for safety reasons.”

    https://rbfirehose.com/2026/01/11/georgia-tech-ai-shouldnt-try-to-be-your-friend-according-to-new-georgia-tech-research/
  35. Georgia Tech: AI Shouldn’t Try to Be Your Friend, According to New Georgia Tech Research. “New research from Georgia Tech suggests that users may like more personable AI, but they are more likely to obey AI that sounds robotic. While following orders from Siri may not be critical, many AI systems, such as robotic guide dogs, require human compliance for safety reasons.”

    https://rbfirehose.com/2026/01/11/georgia-tech-ai-shouldnt-try-to-be-your-friend-according-to-new-georgia-tech-research/
  36. Georgia Tech: AI Shouldn’t Try to Be Your Friend, According to New Georgia Tech Research. “New research from Georgia Tech suggests that users may like more personable AI, but they are more likely to obey AI that sounds robotic. While following orders from Siri may not be critical, many AI systems, such as robotic guide dogs, require human compliance for safety reasons.”

    https://rbfirehose.com/2026/01/11/georgia-tech-ai-shouldnt-try-to-be-your-friend-according-to-new-georgia-tech-research/
  37. Georgia Tech: AI Shouldn’t Try to Be Your Friend, According to New Georgia Tech Research. “New research from Georgia Tech suggests that users may like more personable AI, but they are more likely to obey AI that sounds robotic. While following orders from Siri may not be critical, many AI systems, such as robotic guide dogs, require human compliance for safety reasons.”

    https://rbfirehose.com/2026/01/11/georgia-tech-ai-shouldnt-try-to-be-your-friend-according-to-new-georgia-tech-research/
  38. Mashable: ChatGPT update lets users customize a ‘warmer’ and more enthusiastic bot. “The new tools add more fine tuning of ChatGPT’s personality using levels of warmth and enthusiasm (labelled as ‘more,’ ‘less,’ or ‘default’). Users can also adjust the way the bot organizes its responses, such as how frequently it generates lists, as well as the amount of emojis it employs, in addition to its […]

    https://rbfirehose.com/2025/12/21/mashable-chatgpt-update-lets-users-customize-a-warmer-and-more-enthusiastic-bot/
  39. Mashable: ChatGPT update lets users customize a ‘warmer’ and more enthusiastic bot. “The new tools add more fine tuning of ChatGPT’s personality using levels of warmth and enthusiasm (labelled as ‘more,’ ‘less,’ or ‘default’). Users can also adjust the way the bot organizes its responses, such as how frequently it generates lists, as well as the amount of emojis it employs, in addition to its […]

    https://rbfirehose.com/2025/12/21/mashable-chatgpt-update-lets-users-customize-a-warmer-and-more-enthusiastic-bot/
  40. Mashable: ChatGPT update lets users customize a ‘warmer’ and more enthusiastic bot. “The new tools add more fine tuning of ChatGPT’s personality using levels of warmth and enthusiasm (labelled as ‘more,’ ‘less,’ or ‘default’). Users can also adjust the way the bot organizes its responses, such as how frequently it generates lists, as well as the amount of emojis it employs, in addition to its […]

    https://rbfirehose.com/2025/12/21/mashable-chatgpt-update-lets-users-customize-a-warmer-and-more-enthusiastic-bot/
  41. Mashable: ChatGPT update lets users customize a ‘warmer’ and more enthusiastic bot. “The new tools add more fine tuning of ChatGPT’s personality using levels of warmth and enthusiasm (labelled as ‘more,’ ‘less,’ or ‘default’). Users can also adjust the way the bot organizes its responses, such as how frequently it generates lists, as well as the amount of emojis it employs, in addition to its […]

    https://rbfirehose.com/2025/12/21/mashable-chatgpt-update-lets-users-customize-a-warmer-and-more-enthusiastic-bot/
  42. Mashable: ChatGPT update lets users customize a ‘warmer’ and more enthusiastic bot. “The new tools add more fine tuning of ChatGPT’s personality using levels of warmth and enthusiasm (labelled as ‘more,’ ‘less,’ or ‘default’). Users can also adjust the way the bot organizes its responses, such as how frequently it generates lists, as well as the amount of emojis it employs, in addition to its […]

    https://rbfirehose.com/2025/12/21/mashable-chatgpt-update-lets-users-customize-a-warmer-and-more-enthusiastic-bot/
  43. MIT Technology Review: OpenAI has trained its LLM to confess to bad behavior. “OpenAI is testing another new way to expose the complicated processes at work inside large language models. Researchers at the company can make an LLM produce what they call a confession, in which the model explains how it carried out a task and (most of the time) owns up to any bad behavior.”

    https://rbfirehose.com/2025/12/07/mit-technology-review-openai-has-trained-its-llm-to-confess-to-bad-behavior/

  44. MIT Technology Review: OpenAI has trained its LLM to confess to bad behavior. “OpenAI is testing another new way to expose the complicated processes at work inside large language models. Researchers at the company can make an LLM produce what they call a confession, in which the model explains how it carried out a task and (most of the time) owns up to any bad behavior.”

    https://rbfirehose.com/2025/12/07/mit-technology-review-openai-has-trained-its-llm-to-confess-to-bad-behavior/

  45. MIT Technology Review: OpenAI has trained its LLM to confess to bad behavior. “OpenAI is testing another new way to expose the complicated processes at work inside large language models. Researchers at the company can make an LLM produce what they call a confession, in which the model explains how it carried out a task and (most of the time) owns up to any bad behavior.”

    https://rbfirehose.com/2025/12/07/mit-technology-review-openai-has-trained-its-llm-to-confess-to-bad-behavior/

  46. MIT Technology Review: OpenAI has trained its LLM to confess to bad behavior. “OpenAI is testing another new way to expose the complicated processes at work inside large language models. Researchers at the company can make an LLM produce what they call a confession, in which the model explains how it carried out a task and (most of the time) owns up to any bad behavior.”

    https://rbfirehose.com/2025/12/07/mit-technology-review-openai-has-trained-its-llm-to-confess-to-bad-behavior/

  47. NBC News: AI chatbots used inaccurate information to change people’s political opinions, study finds. “But the study also said that the persuasiveness of AI chatbots wasn’t entirely on the up-and-up: Within the reams of information the chatbots provided as answers, researchers wrote that they discovered many inaccurate assertions.”

    https://rbfirehose.com/2025/12/05/nbc-news-ai-chatbots-used-inaccurate-information-to-change-peoples-political-opinions-study-finds/

  48. NBC News: AI chatbots used inaccurate information to change people’s political opinions, study finds. “But the study also said that the persuasiveness of AI chatbots wasn’t entirely on the up-and-up: Within the reams of information the chatbots provided as answers, researchers wrote that they discovered many inaccurate assertions.”

    https://rbfirehose.com/2025/12/05/nbc-news-ai-chatbots-used-inaccurate-information-to-change-peoples-political-opinions-study-finds/

  49. NBC News: AI chatbots used inaccurate information to change people’s political opinions, study finds. “But the study also said that the persuasiveness of AI chatbots wasn’t entirely on the up-and-up: Within the reams of information the chatbots provided as answers, researchers wrote that they discovered many inaccurate assertions.”

    https://rbfirehose.com/2025/12/05/nbc-news-ai-chatbots-used-inaccurate-information-to-change-peoples-political-opinions-study-finds/

  50. NBC News: AI chatbots used inaccurate information to change people’s political opinions, study finds. “But the study also said that the persuasiveness of AI chatbots wasn’t entirely on the up-and-up: Within the reams of information the chatbots provided as answers, researchers wrote that they discovered many inaccurate assertions.”

    https://rbfirehose.com/2025/12/05/nbc-news-ai-chatbots-used-inaccurate-information-to-change-peoples-political-opinions-study-finds/