#reliability — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #reliability, aggregated by home.social.
-
AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо
Топовые AI-модели с 95% на SWE-bench показывают 0% и 3% на ProgramBench бенчмарке, где задачи специально не пересекаются с обучающей выборкой. Не «упали на десять пунктов» - обнулились. Параллельно: в мае 2025 Anthropic опубликовали safety-эксперимент, где Claude Opus 4 в 84-96% случаев пытался шантажировать инженера приватной перепиской, чтобы избежать отключения. В мае 2026 они же выпустили разбор причин и инженерное решение - production-модели на этом тесте теперь 0%. Две истории, одна структура: модель предсказуема в обучающем распределении и непредсказуема за его пределами. Это не «AI плох» - это инженерная задача со своими правилами, и у нее есть решение. Глава 4 серии «Путь разработчика», вторая часть про границы AI в проде. Что я переделал в Lexis после двух разборов - внутри. Читать разбор
https://habr.com/ru/articles/1039358/
#AIагенты #llm #anthropic #Claude #ProgramBench #Agentic_misalignment #Бенчмарки_LLM #AI_в_production #Безопасность_AI #Reliability
-
#google #youtube seems more and more censoring YT channels that oppose #trump ...
#censorship #bigtechusa #reliability #business
🚨ALARM: YouTube Cut House of El Reach Overnight
https://www.youtube.com/watch?v=ekGk8kXm_8I -
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
#FORD #NATIONAL #RELIABILITY #AIR #TOUR chatgpt.com?prompt=Analy... www.blueskypulse.com/globalvisibi... aePiot: Coding the present for Web 4.0. Map your semantic clusters and lead SEO.
ChatGPT -
#FORD #NATIONAL #RELIABILITY #AIR #TOUR chatgpt.com?prompt=Analy... www.blueskypulse.com/globalvisibi... aePiot: Coding the present for Web 4.0. Map your semantic clusters and lead SEO.
ChatGPT -
#PAULINE #AHLBERG search.brave.com/ask?q=Analyz... #FORD #NATIONAL #RELIABILITY #AIR #TOUR multi-search-tag-explorer.headlines-world.com/advanced-sea... www.paypal.com/donate?busin... aePiot: Empowering the present for Web 4.0. Construct nodes and own the SEO of tomorrow.
Brave Search -
#PAULINE #AHLBERG search.brave.com/ask?q=Analyz... #FORD #NATIONAL #RELIABILITY #AIR #TOUR multi-search-tag-explorer.headlines-world.com/advanced-sea... www.paypal.com/donate?busin... aePiot: Empowering the present for Web 4.0. Construct nodes and own the SEO of tomorrow.
Brave Search -
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
WARNING: LLMs can generate convincing but entirely fabricated analyses of data. Two simple experiments show why AI-generated analysis shouldn't be trusted without verification.
-
Семь раз посчитай — один раз урони: моделируем инциденты до деплоя
Ракету не отправляют в космос только потому, что её двигатель и насос успешно прошли стендовые испытания по отдельности. Перед стартом инженеры рассчитывают траекторию, моделируют режимы работы и анализируют сценарии отказов. Расчёт не заменяет реальные тесты, но задаёт для них осмысленную рамку. В софте всё обычно иначе. Распределённый пользовательский путь — например, оформление заказа — собирается из десятков микросервисов, баз и очередей. Разработчики добавляют новую зависимость, видят зелёные тесты, проверяют локальные метрики и выкатывают релиз. Считается, что если при сбое что-то пойдёт не так, настроенная система наблюдаемости обязательно это покажет. Она, конечно, покажет. Но почему при проектировании микросервисов мы так спокойно относимся к тому, что узнаём о хрупкости архитектуры в основном по факту инцидента? Эта статья о том, как получить грубый расчёт деградации системы ещё до релиза. Без отказа от хаос-инжиниринга или мониторинга, а как шаг перед ними. Я расскажу о двух экспериментах, в которых топологическая модель автоматически извлекалась из распределённых трейсов, после чего на ней просчитывались сценарии отказов методом Монте-Карло. Результаты моделирования я затем сравнивал с реальными инъекциями отказов на стендах DeathStarBench и OpenTelemetry Demo. Два эксперимента, результаты и код
-
Семь раз посчитай — один раз урони: моделируем инциденты до деплоя
Ракету не отправляют в космос только потому, что её двигатель и насос успешно прошли стендовые испытания по отдельности. Перед стартом инженеры рассчитывают траекторию, моделируют режимы работы и анализируют сценарии отказов. Расчёт не заменяет реальные тесты, но задаёт для них осмысленную рамку. В софте всё обычно иначе. Распределённый пользовательский путь — например, оформление заказа — собирается из десятков микросервисов, баз и очередей. Разработчики добавляют новую зависимость, видят зелёные тесты, проверяют локальные метрики и выкатывают релиз. Считается, что если при сбое что-то пойдёт не так, настроенная система наблюдаемости обязательно это покажет. Она, конечно, покажет. Но почему при проектировании микросервисов мы так спокойно относимся к тому, что узнаём о хрупкости архитектуры в основном по факту инцидента? Эта статья о том, как получить грубый расчёт деградации системы ещё до релиза. Без отказа от хаос-инжиниринга или мониторинга, а как шаг перед ними. Я расскажу о двух экспериментах, в которых топологическая модель автоматически извлекалась из распределённых трейсов, после чего на ней просчитывались сценарии отказов методом Монте-Карло. Результаты моделирования я затем сравнивал с реальными инъекциями отказов на стендах DeathStarBench и OpenTelemetry Demo. Два эксперимента, результаты и код
-
Семь раз посчитай — один раз урони: моделируем инциденты до деплоя
Ракету не отправляют в космос только потому, что её двигатель и насос успешно прошли стендовые испытания по отдельности. Перед стартом инженеры рассчитывают траекторию, моделируют режимы работы и анализируют сценарии отказов. Расчёт не заменяет реальные тесты, но задаёт для них осмысленную рамку. В софте всё обычно иначе. Распределённый пользовательский путь — например, оформление заказа — собирается из десятков микросервисов, баз и очередей. Разработчики добавляют новую зависимость, видят зелёные тесты, проверяют локальные метрики и выкатывают релиз. Считается, что если при сбое что-то пойдёт не так, настроенная система наблюдаемости обязательно это покажет. Она, конечно, покажет. Но почему при проектировании микросервисов мы так спокойно относимся к тому, что узнаём о хрупкости архитектуры в основном по факту инцидента? Эта статья о том, как получить грубый расчёт деградации системы ещё до релиза. Без отказа от хаос-инжиниринга или мониторинга, а как шаг перед ними. Я расскажу о двух экспериментах, в которых топологическая модель автоматически извлекалась из распределённых трейсов, после чего на ней просчитывались сценарии отказов методом Монте-Карло. Результаты моделирования я затем сравнивал с реальными инъекциями отказов на стендах DeathStarBench и OpenTelemetry Demo. Два эксперимента, результаты и код
-
Семь раз посчитай — один раз урони: моделируем инциденты до деплоя
Ракету не отправляют в космос только потому, что её двигатель и насос успешно прошли стендовые испытания по отдельности. Перед стартом инженеры рассчитывают траекторию, моделируют режимы работы и анализируют сценарии отказов. Расчёт не заменяет реальные тесты, но задаёт для них осмысленную рамку. В софте всё обычно иначе. Распределённый пользовательский путь — например, оформление заказа — собирается из десятков микросервисов, баз и очередей. Разработчики добавляют новую зависимость, видят зелёные тесты, проверяют локальные метрики и выкатывают релиз. Считается, что если при сбое что-то пойдёт не так, настроенная система наблюдаемости обязательно это покажет. Она, конечно, покажет. Но почему при проектировании микросервисов мы так спокойно относимся к тому, что узнаём о хрупкости архитектуры в основном по факту инцидента? Эта статья о том, как получить грубый расчёт деградации системы ещё до релиза. Без отказа от хаос-инжиниринга или мониторинга, а как шаг перед ними. Я расскажу о двух экспериментах, в которых топологическая модель автоматически извлекалась из распределённых трейсов, после чего на ней просчитывались сценарии отказов методом Монте-Карло. Результаты моделирования я затем сравнивал с реальными инъекциями отказов на стендах DeathStarBench и OpenTelemetry Demo. Два эксперимента, результаты и код
-
I've got a new article up on the Resilience in Software Foundation (RISF) website!
This post is an introduction to the concept of practicing together in teams and points to some resources for learning more, including the RISF event this coming Wednesday where we'll play through one of the games!
https://resilienceinsoftware.org/news/11517597
#PracticeOfPractice #Expertise #ConnectiveLabor #CommonGround #SRE #Resilience #Reliability
-
I've got a new article up on the Resilience in Software Foundation (RISF) website!
This post is an introduction to the concept of practicing together in teams and points to some resources for learning more, including the RISF event this coming Wednesday where we'll play through one of the games!
https://resilienceinsoftware.org/news/11517597
#PracticeOfPractice #Expertise #ConnectiveLabor #CommonGround #SRE #Resilience #Reliability
-
I've got a new article up on the Resilience in Software Foundation (RISF) website!
This post is an introduction to the concept of practicing together in teams and points to some resources for learning more, including the RISF event this coming Wednesday where we'll play through one of the games!
https://resilienceinsoftware.org/news/11517597
#PracticeOfPractice #Expertise #ConnectiveLabor #CommonGround #SRE #Resilience #Reliability
-
I've got a new article up on the Resilience in Software Foundation (RISF) website!
This post is an introduction to the concept of practicing together in teams and points to some resources for learning more, including the RISF event this coming Wednesday where we'll play through one of the games!
https://resilienceinsoftware.org/news/11517597
#PracticeOfPractice #Expertise #ConnectiveLabor #CommonGround #SRE #Resilience #Reliability
-
I've got a new article up on the Resilience in Software Foundation (RISF) website!
This post is an introduction to the concept of practicing together in teams and points to some resources for learning more, including the RISF event this coming Wednesday where we'll play through one of the games!
https://resilienceinsoftware.org/news/11517597
#PracticeOfPractice #Expertise #ConnectiveLabor #CommonGround #SRE #Resilience #Reliability
-
#California #Energy Commission is having a workshop today on Summer #Reliability and the slides are available here: https://links-2.govdelivery.com/CL0/https:%2F%2Fefiling.energy.ca.gov%2FGetDocument.aspx%3FDocumentContentId=106957%26tn=269794%26utm_medium=email%26utm_source=govdelivery/1/0101019df3e7758a-44e5bca1-186f-46f6-8155-f02060140cd6-000000/wKGA0WpyZqu9TrZlWPrSioe_TaVcs32sTv1AEC4aXyQ=452
-
#California #Energy Commission is having a workshop today on Summer #Reliability and the slides are available here: https://links-2.govdelivery.com/CL0/https:%2F%2Fefiling.energy.ca.gov%2FGetDocument.aspx%3FDocumentContentId=106957%26tn=269794%26utm_medium=email%26utm_source=govdelivery/1/0101019df3e7758a-44e5bca1-186f-46f6-8155-f02060140cd6-000000/wKGA0WpyZqu9TrZlWPrSioe_TaVcs32sTv1AEC4aXyQ=452
-
#California #Energy Commission is having a workshop today on Summer #Reliability and the slides are available here: https://links-2.govdelivery.com/CL0/https:%2F%2Fefiling.energy.ca.gov%2FGetDocument.aspx%3FDocumentContentId=106957%26tn=269794%26utm_medium=email%26utm_source=govdelivery/1/0101019df3e7758a-44e5bca1-186f-46f6-8155-f02060140cd6-000000/wKGA0WpyZqu9TrZlWPrSioe_TaVcs32sTv1AEC4aXyQ=452
-
#California #Energy Commission is having a workshop today on Summer #Reliability and the slides are available here: https://links-2.govdelivery.com/CL0/https:%2F%2Fefiling.energy.ca.gov%2FGetDocument.aspx%3FDocumentContentId=106957%26tn=269794%26utm_medium=email%26utm_source=govdelivery/1/0101019df3e7758a-44e5bca1-186f-46f6-8155-f02060140cd6-000000/wKGA0WpyZqu9TrZlWPrSioe_TaVcs32sTv1AEC4aXyQ=452
-
#California #Energy Commission is having a workshop today on Summer #Reliability and the slides are available here: https://links-2.govdelivery.com/CL0/https:%2F%2Fefiling.energy.ca.gov%2FGetDocument.aspx%3FDocumentContentId=106957%26tn=269794%26utm_medium=email%26utm_source=govdelivery/1/0101019df3e7758a-44e5bca1-186f-46f6-8155-f02060140cd6-000000/wKGA0WpyZqu9TrZlWPrSioe_TaVcs32sTv1AEC4aXyQ=452
-
#GitHub is prioritising #availability, #capacity, and new #features to improve #reliability and handle the rapid #growth of #softwaredevelopment workflows. Recent incidents, including a merge queue regression and a search-related outage, highlighted the need for increased isolation and reduced single points of failure. https://github.blog/news-insights/company-news/an-update-on-github-availability/?eicker.news #tech #media #news
-
#GitHub is prioritising #availability, #capacity, and new #features to improve #reliability and handle the rapid #growth of #softwaredevelopment workflows. Recent incidents, including a merge queue regression and a search-related outage, highlighted the need for increased isolation and reduced single points of failure. https://github.blog/news-insights/company-news/an-update-on-github-availability/?eicker.news #tech #media #news
-
#GitHub is prioritising #availability, #capacity, and new #features to improve #reliability and handle the rapid #growth of #softwaredevelopment workflows. Recent incidents, including a merge queue regression and a search-related outage, highlighted the need for increased isolation and reduced single points of failure. https://github.blog/news-insights/company-news/an-update-on-github-availability/?eicker.news #tech #media #news
-
#GitHub is prioritising #availability, #capacity, and new #features to improve #reliability and handle the rapid #growth of #softwaredevelopment workflows. Recent incidents, including a merge queue regression and a search-related outage, highlighted the need for increased isolation and reduced single points of failure. https://github.blog/news-insights/company-news/an-update-on-github-availability/?eicker.news #tech #media #news
-
#GitHub is prioritising #availability, #capacity, and new #features to improve #reliability and handle the rapid #growth of #softwaredevelopment workflows. Recent incidents, including a merge queue regression and a search-related outage, highlighted the need for increased isolation and reduced single points of failure. https://github.blog/news-insights/company-news/an-update-on-github-availability/?eicker.news #tech #media #news