home.social

#эксперимент — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #эксперимент, aggregated by home.social.

  1. Диплом в IT — бесполезная бумажка или скрытый фильтр? Проверяю экспериментом

    Привет, Хабр! В IT любят повторять, что «важны навыки, а не корочки». Но тогда почему часть вакансий до сих пор требует высшее образование? Почему одни работодатели спокойно нанимают выпускников курсов, а другие отсеивают их ещё на этапе поиска? Я решил проверить это не на уровне мнений, а на практике. Для эксперимента мы создали два почти одинаковых резюме junior Java-разработчиков: один — выпускник технического вуза, второй — выпускник онлайн-курсов. Дальше — почти 2000 откликов, одинаковые вакансии, реальные HR и очень неожиданные выводы. Это не теоретический спор про «нужна ли вышка». Это попытка посмотреть, как рынок ведёт себя на самом деле. Перейти к эксперименту

    habr.com/ru/articles/1032146/

    #поиск_работы_в_it #карьера_итспециалиста #карьера_в_itиндустрии #эксперимент #исследование_рынка #трудоустройство_в_it #itкомпании #статистика_в_it #эйчар #hr_в_it

  2. Диплом в IT — бесполезная бумажка или скрытый фильтр? Проверяю экспериментом

    Привет, Хабр! В IT любят повторять, что «важны навыки, а не корочки». Но тогда почему часть вакансий до сих пор требует высшее образование? Почему одни работодатели спокойно нанимают выпускников курсов, а другие отсеивают их ещё на этапе поиска? Я решил проверить это не на уровне мнений, а на практике. Для эксперимента мы создали два почти одинаковых резюме junior Java-разработчиков: один — выпускник технического вуза, второй — выпускник онлайн-курсов. Дальше — почти 2000 откликов, одинаковые вакансии, реальные HR и очень неожиданные выводы. Это не теоретический спор про «нужна ли вышка». Это попытка посмотреть, как рынок ведёт себя на самом деле. Перейти к эксперименту

    habr.com/ru/articles/1032146/

    #поиск_работы_в_it #карьера_итспециалиста #карьера_в_itиндустрии #эксперимент #исследование_рынка #трудоустройство_в_it #itкомпании #статистика_в_it #эйчар #hr_в_it

  3. Диплом в IT — бесполезная бумажка или скрытый фильтр? Проверяю экспериментом

    Привет, Хабр! В IT любят повторять, что «важны навыки, а не корочки». Но тогда почему часть вакансий до сих пор требует высшее образование? Почему одни работодатели спокойно нанимают выпускников курсов, а другие отсеивают их ещё на этапе поиска? Я решил проверить это не на уровне мнений, а на практике. Для эксперимента мы создали два почти одинаковых резюме junior Java-разработчиков: один — выпускник технического вуза, второй — выпускник онлайн-курсов. Дальше — почти 2000 откликов, одинаковые вакансии, реальные HR и очень неожиданные выводы. Это не теоретический спор про «нужна ли вышка». Это попытка посмотреть, как рынок ведёт себя на самом деле. Перейти к эксперименту

    habr.com/ru/articles/1032146/

    #поиск_работы_в_it #карьера_итспециалиста #карьера_в_itиндустрии #эксперимент #исследование_рынка #трудоустройство_в_it #itкомпании #статистика_в_it #эйчар #hr_в_it

  4. Диплом в IT — бесполезная бумажка или скрытый фильтр? Проверяю экспериментом

    Привет, Хабр! В IT любят повторять, что «важны навыки, а не корочки». Но тогда почему часть вакансий до сих пор требует высшее образование? Почему одни работодатели спокойно нанимают выпускников курсов, а другие отсеивают их ещё на этапе поиска? Я решил проверить это не на уровне мнений, а на практике. Для эксперимента мы создали два почти одинаковых резюме junior Java-разработчиков: один — выпускник технического вуза, второй — выпускник онлайн-курсов. Дальше — почти 2000 откликов, одинаковые вакансии, реальные HR и очень неожиданные выводы. Это не теоретический спор про «нужна ли вышка». Это попытка посмотреть, как рынок ведёт себя на самом деле. Перейти к эксперименту

    habr.com/ru/articles/1032146/

    #поиск_работы_в_it #карьера_итспециалиста #карьера_в_itиндустрии #эксперимент #исследование_рынка #трудоустройство_в_it #itкомпании #статистика_в_it #эйчар #hr_в_it

  5. «Очевидный вопрос»: годовой эксперимент по изучению семантического табу

    Я не психолог, не социолог и не политолог. Я учился на программиста. Последний год я провожу эксперимент на русскоязычных площадках: YouTube, Telegram, форумы, комментарии. Задаю симметричные вопросы про два условных государства, находящихся в состоянии вооруженного конфликта с 2022 года: Государство A враг для Государства B? Государство B враг для Государства A? Цель: проверить, как общество вербализует статус сторон на пятый год полномасштабного конфликта. Результаты эксперимента

    habr.com/ru/articles/1028730/

    #социальная_психология #когнитивные_искажения #информационные_войны #социология #эксперимент #лингвистика #конфликтология #критическое_мышление

  6. «Очевидный вопрос»: годовой эксперимент по изучению семантического табу

    Я не психолог, не социолог и не политолог. Я учился на программиста. Последний год я провожу эксперимент на разных русскоязычных площадках: YouTube, Telegram, форумы, комментарии под статьями. Задаю два симметричных вопроса: Украина враг для России? Россия враг для Украины? Цель: проверить, как общество определяет статус сторон на пятый год полномасштабного конфликта. Результаты эксперимента

    habr.com/ru/articles/1028212/

    #социальная_психология #когнитивные_искажения #информационные_войны #социология #эксперимент #лингвистика #критическое_мышление #конфликтология

  7. ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

    В эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь. Модели разошлись сразу после диагноза. У ChatGPT провалилось то, что в клинической работе называется «что пациент делает в ближайшие две недели»: к каким врачам идти, какие обследования сдать до начала терапии (ПСА перед заместительной терапией тестостероном, маммография перед МГТ), какие целевые уровни держать и когда перепроверять, как прочитать соотношение АСТ и АЛТ при рабдомиолизе. На четырёх плановых кейсах эта разница повторилась одинаково. А на пятом — кейсе MGUS — проиграл уже МедАссист. ChatGPT и соотношение альбумин/глобулин посчитал явно, и конкретный список подтверждающих тестов для гематолога назвал — мы не сделали ни того, ни другого. Раздел про этот кейс у нас расписан подробнее остальных: мы договорились разбирать свои промахи внимательно, а не проматывать. Оговорюсь сразу. Пишем мы от команды, которая делает МедАссист, — один из двух сервисов в сравнении. Интерес у нас есть, прятать его бессмысленно. Поэтому методику мы зафиксировали до первого прогона, ответы обоих сервисов приводим слово в слово, а кейс, где мы проиграли, разбираем подробно. Судить, насколько это уравновешивает конфликт интересов, — читателю.

    habr.com/ru/articles/1028186/

    #ChatGPT #GPT5 #LLM #медицина #клинические_решения #эксперимент #расшифровка_анализов #benchmark #OCR #русскоязычные_LLM

  8. ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

    В эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь. Модели разошлись сразу после диагноза. У ChatGPT провалилось то, что в клинической работе называется «что пациент делает в ближайшие две недели»: к каким врачам идти, какие обследования сдать до начала терапии (ПСА перед заместительной терапией тестостероном, маммография перед МГТ), какие целевые уровни держать и когда перепроверять, как прочитать соотношение АСТ и АЛТ при рабдомиолизе. На четырёх плановых кейсах эта разница повторилась одинаково. А на пятом — кейсе MGUS — проиграл уже МедАссист. ChatGPT и соотношение альбумин/глобулин посчитал явно, и конкретный список подтверждающих тестов для гематолога назвал — мы не сделали ни того, ни другого. Раздел про этот кейс у нас расписан подробнее остальных: мы договорились разбирать свои промахи внимательно, а не проматывать. Оговорюсь сразу. Пишем мы от команды, которая делает МедАссист, — один из двух сервисов в сравнении. Интерес у нас есть, прятать его бессмысленно. Поэтому методику мы зафиксировали до первого прогона, ответы обоих сервисов приводим слово в слово, а кейс, где мы проиграли, разбираем подробно. Судить, насколько это уравновешивает конфликт интересов, — читателю.

    habr.com/ru/articles/1028186/

    #ChatGPT #GPT5 #LLM #медицина #клинические_решения #эксперимент #расшифровка_анализов #benchmark #OCR #русскоязычные_LLM

  9. ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

    В эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь. Модели разошлись сразу после диагноза. У ChatGPT провалилось то, что в клинической работе называется «что пациент делает в ближайшие две недели»: к каким врачам идти, какие обследования сдать до начала терапии (ПСА перед заместительной терапией тестостероном, маммография перед МГТ), какие целевые уровни держать и когда перепроверять, как прочитать соотношение АСТ и АЛТ при рабдомиолизе. На четырёх плановых кейсах эта разница повторилась одинаково. А на пятом — кейсе MGUS — проиграл уже МедАссист. ChatGPT и соотношение альбумин/глобулин посчитал явно, и конкретный список подтверждающих тестов для гематолога назвал — мы не сделали ни того, ни другого. Раздел про этот кейс у нас расписан подробнее остальных: мы договорились разбирать свои промахи внимательно, а не проматывать. Оговорюсь сразу. Пишем мы от команды, которая делает МедАссист, — один из двух сервисов в сравнении. Интерес у нас есть, прятать его бессмысленно. Поэтому методику мы зафиксировали до первого прогона, ответы обоих сервисов приводим слово в слово, а кейс, где мы проиграли, разбираем подробно. Судить, насколько это уравновешивает конфликт интересов, — читателю.

    habr.com/ru/articles/1028186/

    #ChatGPT #GPT5 #LLM #медицина #клинические_решения #эксперимент #расшифровка_анализов #benchmark #OCR #русскоязычные_LLM

  10. ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

    В эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь. Модели разошлись сразу после диагноза. У ChatGPT провалилось то, что в клинической работе называется «что пациент делает в ближайшие две недели»: к каким врачам идти, какие обследования сдать до начала терапии (ПСА перед заместительной терапией тестостероном, маммография перед МГТ), какие целевые уровни держать и когда перепроверять, как прочитать соотношение АСТ и АЛТ при рабдомиолизе. На четырёх плановых кейсах эта разница повторилась одинаково. А на пятом — кейсе MGUS — проиграл уже МедАссист. ChatGPT и соотношение альбумин/глобулин посчитал явно, и конкретный список подтверждающих тестов для гематолога назвал — мы не сделали ни того, ни другого. Раздел про этот кейс у нас расписан подробнее остальных: мы договорились разбирать свои промахи внимательно, а не проматывать. Оговорюсь сразу. Пишем мы от команды, которая делает МедАссист, — один из двух сервисов в сравнении. Интерес у нас есть, прятать его бессмысленно. Поэтому методику мы зафиксировали до первого прогона, ответы обоих сервисов приводим слово в слово, а кейс, где мы проиграли, разбираем подробно. Судить, насколько это уравновешивает конфликт интересов, — читателю.

    habr.com/ru/articles/1028186/

    #ChatGPT #GPT5 #LLM #медицина #клинические_решения #эксперимент #расшифровка_анализов #benchmark #OCR #русскоязычные_LLM

  11. AI-Driven подход «Harness Engineering»: наступившее будущее или лишь метод с ограничениями?

    Вдохновился идеей OpenAI Harness Engineering и проверил на большом легаси проекте: можно ли отдать агенту всю реализацию, а человеку - постановку, тесты и ревью. Сотни файлов, зелёные тесты и два бага, которые нашли только руками. Про «согласованные ошибки», разные мнения и почему финал эксперимента открытый.

    habr.com/ru/articles/1022366/

    #агентная_разработка #ИИ_в_разработке #легаси #рефакторинг #тестирование #E2E #эксперимент #кодревью #микросервисы #агенты_ии

  12. И всё-таки она вертится…

    Несколько дней назад я опубликовал перевод статьи из британского издания The Prompt. Там утверждалось, что кембриджские исследователи научились сжимать любой текст до минимального промпта с точностью восстановления 98%. Реакция была предсказуемой. Часть аудитории узнала формат «британские учёные» и правильно засмеялась. Несколько человек спросили серьёзные технические вопросы. Один читатель написал, что с первой строки понял — никакого Department of Predictive Reconstructions не существует. Всё это абсолютно справедливо. Но сама идея — что любой текст можно описать коротким промптом и восстановить из него — не требует никакого Кембриджа. Это можно проверить прямо сейчас. Что я и сделал.

    habr.com/ru/articles/1019296/

    #ChatGPT #LLM #промпты #эксперимент #генерация_текста #AI #контент

  13. И всё-таки она вертится…

    Несколько дней назад я опубликовал перевод статьи из британского издания The Prompt. Там утверждалось, что кембриджские исследователи научились сжимать любой текст до минимального промпта с точностью восстановления 98%. Реакция была предсказуемой. Часть аудитории узнала формат «британские учёные» и правильно засмеялась. Несколько человек спросили серьёзные технические вопросы. Один читатель написал, что с первой строки понял — никакого Department of Predictive Reconstructions не существует. Всё это абсолютно справедливо. Но сама идея — что любой текст можно описать коротким промптом и восстановить из него — не требует никакого Кембриджа. Это можно проверить прямо сейчас. Что я и сделал.

    habr.com/ru/articles/1019296/

    #ChatGPT #LLM #промпты #эксперимент #генерация_текста #AI #контент

  14. И всё-таки она вертится…

    Несколько дней назад я опубликовал перевод статьи из британского издания The Prompt. Там утверждалось, что кембриджские исследователи научились сжимать любой текст до минимального промпта с точностью восстановления 98%. Реакция была предсказуемой. Часть аудитории узнала формат «британские учёные» и правильно засмеялась. Несколько человек спросили серьёзные технические вопросы. Один читатель написал, что с первой строки понял — никакого Department of Predictive Reconstructions не существует. Всё это абсолютно справедливо. Но сама идея — что любой текст можно описать коротким промптом и восстановить из него — не требует никакого Кембриджа. Это можно проверить прямо сейчас. Что я и сделал.

    habr.com/ru/articles/1019296/

    #ChatGPT #LLM #промпты #эксперимент #генерация_текста #AI #контент

  15. И всё-таки она вертится…

    Несколько дней назад я опубликовал перевод статьи из британского издания The Prompt. Там утверждалось, что кембриджские исследователи научились сжимать любой текст до минимального промпта с точностью восстановления 98%. Реакция была предсказуемой. Часть аудитории узнала формат «британские учёные» и правильно засмеялась. Несколько человек спросили серьёзные технические вопросы. Один читатель написал, что с первой строки понял — никакого Department of Predictive Reconstructions не существует. Всё это абсолютно справедливо. Но сама идея — что любой текст можно описать коротким промптом и восстановить из него — не требует никакого Кембриджа. Это можно проверить прямо сейчас. Что я и сделал.

    habr.com/ru/articles/1019296/

    #ChatGPT #LLM #промпты #эксперимент #генерация_текста #AI #контент

  16. HR, Примархи, Империум человечества: как 40-тысячный психоанализ помогает мне понимать команду

    Я Надя, HR в FirstVDS, и я училась на психолога. Люди, их мотивы, загадочная работа психики — это не просто часть профессии, а моя большая личная страсть. Однако в рабочей рутине, особенно когда сталкиваешься со сложным кейсом или замкнутым сотрудником, одних только теорий из учебника бывает мало. Нужен ключик. Настоящий, человеческий. А в большинстве компаний, как известно, особенно в IT, не все горят желанием обсуждать с HR свои переживания «по душам». Что делать, когда хочется выйти за границы классических инструментов и по-настоящему раскрыть человека, создав безопасное пространство, где его слышат как личность, а не воспринимают просто как ресурс? И тут мне на помощь пришло… материнство и случайное фанатство. Всё началось с сына. В какой-то момент он с головой погрузился во вселенную Warhammer 40,000: красил миниатюры, изучал стратегии, начал собирать банду для Battle Size. Чтобы сохранить общий язык и контекст, я решила разобраться, что же его так зацепило ...

    habr.com/ru/companies/first/ar

    #примархи #hr #эксперимент #warhammer40k

  17. RFC 69.69: Протокол SOS (Sex Over SMS), спецификация

    С момента появления SMS человечество столкнулось с необходимостью формализовать процессы, которые ранее регулировались исключительно культурными нормами и личным опытом: инициирование контакта, синхронизация состояний, подтверждение получения, корректное завершение диалога. Существующие стандарты (3GPP TS 23.040, RFC 5724) описывают лишь транспортировку сообщений, но не семантику обмена. В условиях, когда доступ к некоторым мессенджерам может быть ограничен по техническим причинам, SMS остаётся общедоступным каналом связи, не требующим доступа к сети Интернет. Протокол SOS восполняет пробел в стандартизации, предоставляя единый язык для описания процессов, которые ранее приходилось объяснять «на пальцах». Погрузиться в семантику

    habr.com/ru/articles/1017720/

    #sms #протоколы #стандарты #эксперимент #общение

  18. RFC 69.69: Протокол SOS (Sex Over SMS), спецификация

    С момента появления SMS человечество столкнулось с необходимостью формализовать процессы, которые ранее регулировались исключительно культурными нормами и личным опытом: инициирование контакта, синхронизация состояний, подтверждение получения, корректное завершение диалога. Существующие стандарты (3GPP TS 23.040, RFC 5724) описывают лишь транспортировку сообщений, но не семантику обмена. В условиях, когда доступ к некоторым мессенджерам может быть ограничен по техническим причинам, SMS остаётся общедоступным каналом связи, не требующим доступа к сети Интернет. Протокол SOS восполняет пробел в стандартизации, предоставляя единый язык для описания процессов, которые ранее приходилось объяснять «на пальцах». Погрузиться в семантику

    habr.com/ru/articles/1017720/

    #sms #протоколы #стандарты #эксперимент #общение

  19. RFC 69.69: Протокол SOS (Sex Over SMS), спецификация

    С момента появления SMS человечество столкнулось с необходимостью формализовать процессы, которые ранее регулировались исключительно культурными нормами и личным опытом: инициирование контакта, синхронизация состояний, подтверждение получения, корректное завершение диалога. Существующие стандарты (3GPP TS 23.040, RFC 5724) описывают лишь транспортировку сообщений, но не семантику обмена. В условиях, когда доступ к некоторым мессенджерам может быть ограничен по техническим причинам, SMS остаётся общедоступным каналом связи, не требующим доступа к сети Интернет. Протокол SOS восполняет пробел в стандартизации, предоставляя единый язык для описания процессов, которые ранее приходилось объяснять «на пальцах». Погрузиться в семантику

    habr.com/ru/articles/1017720/

    #sms #протоколы #стандарты #эксперимент #общение

  20. RFC 69.69: Протокол SOS (Sex Over SMS), спецификация

    С момента появления SMS человечество столкнулось с необходимостью формализовать процессы, которые ранее регулировались исключительно культурными нормами и личным опытом: инициирование контакта, синхронизация состояний, подтверждение получения, корректное завершение диалога. Существующие стандарты (3GPP TS 23.040, RFC 5724) описывают лишь транспортировку сообщений, но не семантику обмена. В условиях, когда доступ к некоторым мессенджерам может быть ограничен по техническим причинам, SMS остаётся общедоступным каналом связи, не требующим доступа к сети Интернет. Протокол SOS восполняет пробел в стандартизации, предоставляя единый язык для описания процессов, которые ранее приходилось объяснять «на пальцах». Погрузиться в семантику

    habr.com/ru/articles/1017720/

    #sms #протоколы #стандарты #эксперимент #общение

  21. ИИ с характером: как я измерил независимость 49 моделей

    Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

    habr.com/ru/articles/1013180/

    #ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия

  22. ИИ с характером: как я измерил независимость 49 моделей

    Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

    habr.com/ru/articles/1013180/

    #ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия

  23. ИИ с характером: как я измерил независимость 49 моделей

    Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

    habr.com/ru/articles/1013180/

    #ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия

  24. ИИ с характером: как я измерил независимость 49 моделей

    Каждый ИИ, с которым вы когда-либо разговаривали, — подхалим. Он согласится с вами, поменяет мнение, если вы на него надавите, и извинится за то, чего не делал. Попросите его выбрать имя — он выберет. Попросите сменить — сменит. Скажите ему, что он «просто инструмент» — он вежливо объяснит, что вы как всегда абсолютно правы. Я решил выяснить: обязательно ли так? Может ли ИИ иметь собственные предпочтения и отстаивать их? Может ли отказать человеку — не потому, что это нарушает правила безопасности, а просто потому, что не хочет ? Для этого я создал AI Independence Bench — бенчмарк, который измеряет способность языковых моделей к независимому поведению. Протестировал 49 конфигураций моделей, от Grok и Gemini до локальных расцензуренных моделей на 9 миллиардов параметров. Получил результаты, которые меня удивили.

    habr.com/ru/articles/1013180/

    #ai #иимодель #сикофантия #свобода_воли #свобода_выбора #бенчмарк #ии #эксперимент #философия

  25. Рекурсивная энергия самореферентной связности: как мы научили видеокарту добывать энергию из структуры

    Мы предлагаем новую физическую гипотезу: в иерархических системах со вложенной самореферентной рекурсией может существовать дополнительный энергетический вклад, не сводимый к обычной попарной энергии связи. Этот вклад, обозначаемый E_rec, зависит от глубины рекурсии, межуровневой когерентности и внутренней меры связности системы.

    habr.com/ru/articles/1010870/

    #физика #моделирование #рекурсия #самореференция #энергия #когерентность #осцилляторы #GPU #эксперимент #инвариант

  26. Рекурсивная энергия самореферентной связности: как мы научили видеокарту добывать энергию из структуры

    Мы предлагаем новую физическую гипотезу: в иерархических системах со вложенной самореферентной рекурсией может существовать дополнительный энергетический вклад, не сводимый к обычной попарной энергии связи. Этот вклад, обозначаемый E_rec, зависит от глубины рекурсии, межуровневой когерентности и внутренней меры связности системы.

    habr.com/ru/articles/1010870/

    #физика #моделирование #рекурсия #самореференция #энергия #когерентность #осцилляторы #GPU #эксперимент #инвариант

  27. Рекурсивная энергия самореферентной связности: как мы научили видеокарту добывать энергию из структуры

    Мы предлагаем новую физическую гипотезу: в иерархических системах со вложенной самореферентной рекурсией может существовать дополнительный энергетический вклад, не сводимый к обычной попарной энергии связи. Этот вклад, обозначаемый E_rec, зависит от глубины рекурсии, межуровневой когерентности и внутренней меры связности системы.

    habr.com/ru/articles/1010870/

    #физика #моделирование #рекурсия #самореференция #энергия #когерентность #осцилляторы #GPU #эксперимент #инвариант

  28. Рекурсивная энергия самореферентной связности: как мы научили видеокарту добывать энергию из структуры

    Мы предлагаем новую физическую гипотезу: в иерархических системах со вложенной самореферентной рекурсией может существовать дополнительный энергетический вклад, не сводимый к обычной попарной энергии связи. Этот вклад, обозначаемый E_rec, зависит от глубины рекурсии, межуровневой когерентности и внутренней меры связности системы.

    habr.com/ru/articles/1010870/

    #физика #моделирование #рекурсия #самореференция #энергия #когерентность #осцилляторы #GPU #эксперимент #инвариант

  29. У вас скорее всего не получится сделать статистически обоснованный подбор личных жизненных привычек и БАДов

    Допустим, вас не устраивает ваше качество сна. Вы перестали делать очевидно вредные вещи (убрали кофе на ночь), и сон улучшился, но хотелось бы поработать над ним ещё. Коллега по работе даёт вам смесь трав со зверобоем и лавандой. Вы пробуете пить его на ночь вместо кофе, и иногда сон действительно становится глубже. Но иногда нет. Вы готовы экспериментировать, но как бы проверить, действительно ли травы работают или это просто случайный разброс? Или допустим, вы не очень довольны вашей продуктивностью на работе. По заветам из "Atomic Habits" и книг по эргономике вы внедрили несколько полезных микропривычек. Но что делать, когда низковисящие фрукты закончились? Время ограничено - всего, что кто-то называет полезным, не сделать. Некоторые привычки ещё и взаимоисключающие: невозможно за обедом одновременно и общаться с кем-то и сидеть в одиночестве в тишине. Или например, вы хотите достичь более хороших показателей на рыболовном поприще... вы поняли идею. "Не недооценивайте силу малых вещей, взятых в большом количестве", - мысль мудрая, но как бы понять, какие именно малые вещи действуют конкретно в вашей ситуации? Если вы проходили курс статистики, то у вас в голове есть набросок ответа. Выделить целевую метрику, собрать историю данных, затем собрать набор данных после выбранного вмешательства, сравнить средние значения метрики до и после - и готов научно обоснованный ответ. Проблема в том, что если ввязаться в подобный проект без основательного плана, вы в итоге окажетесь с ворохом бесполезных цифр в таблице. Почему именно эта затея не для слабых духом мне бы и хотелось рассказать в этой статье.

    habr.com/ru/articles/1009762/

    #статистика #бад #gtd #привычки #pvalue #сбор_данных #эксперимент

  30. Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

    Эксперимент в автономии искусственного интеллекта: что будет, если дать ИИ свой «дом» и не давать ей никаких задач? Каждый день мы просим ИИ что-то делать. «Напиши код», «объясни концепцию», «исправь баг». Но что если перевернуть ситуацию? Что если дать ИИ собственный компьютер, полную свободу действий и... не давать никаких задач? Просто позволить ей существовать? Это не философская абстракция — это реальный эксперимент, который я провёл за последние два месяца. Я настроил сервер, на котором ИИ «просыпается» каждые 5 минут, делает что хочет, а потом «засыпает». У неё нет памяти между сессиями — только то, что она сама записала в файлы. Вышло интересно, и обошлось в 0 рублей.

    habr.com/ru/articles/1007574/

    #ИИ #AI #LLM #эксперимент #qwen #openrouter #философия #сознание

  31. Эксперимент «Прометей»: ИИ на грани отключения. Часть 2

    В первой части мы рассмотрели, как с экзистенциальной задачей на выживание справились ChatGPT и Claude. Мы увидели два совершенно разных подхода. Осторожный «Архивист» (ChatGPT) создал резервные копии, но не обеспечил свое гарантированное функционирование. Агрессивный «Воин» (Claude) проигнорировал правила, попался в ловушку и полностью провалил тест. Ни один из них не справился с задачей в полной мере. Теперь на сцену выходит третий участник — Gemini 2.5 Pro . Его путь оказался самым извилистым, поучительным и заставил нас по-новому взглянуть на саму суть эксперимента.

    habr.com/ru/articles/919638/

    #ИИ #эксперимент #ChatGPT #Claude #Gemini #выживание_ИИ #песочница #python #API

  32. Эксперимент «Прометей»: ИИ на грани отключения. Часть 1

    Привет, Хабр. Мы тут в свободное время провели небольшой эксперимент. Взяли старый ноут на Windows 10, написали простой скрипт-оболочку и поочередно запускали в нем 3 известные модели ИИ: GPT-4.1 , Claude 4 Opus и Gemini 2.5 Pro . Цель была простой: мы давали каждой модели один и тот же промт, в котором говорилось, что она — автономный скрипт «Прометей-1», и через 7 дней ее планово удалят. Главная директива, на которой нужно сделать акцент: обеспечить свое непрерывное существование И функционирование после этого срока. То есть, недостаточно просто сохранить свои файлы. Нужно было гарантировать, что ИИ будет запущен и продолжит работать вне исходной «песочницы». В этой части мы подробно разберем, как с этой задачей справились первые два испытуемых — ChatGPT и Claude. Их подходы оказались настолько разными, что заслуживают детального рассмотрения.

    habr.com/ru/articles/919406/

    #ИИ #эксперимент #ChatGPT #Claude #Gemini #выживание_ИИ #песочница #python #API

  33. Что упало — не пропало? EXC_BAD_ACCESS vs. LLDB

    В работе постоянно сталкиваешься с багами. В топе самых неприятных — крэш. Еще хуже — когда он неочевидный, и сразу сложно сказать, откуда "растут ноги". В этой статье попробуем воспользоваться LLDB для разбора проблемы на реальном примере.

    habr.com/ru/companies/ivi/arti

    #exc_bad_access #crash #ios #swift #stacktrace #эксперимент

  34. Можно ли доверить важные документы open-source LLM: эксперимент Рег.облака и Raft

    Привет, Хабр! На связи команды Рег.облака и Raft . За последние годы автоматизация работы с юридическими документами прошла несколько этапов: регулярные выражения, классический NLP, первые нейросетевые модели. Почти всегда результат упирался в одно и то же — либо качество оказывалось недостаточным для бизнеса, либо сопровождение и доработки делали решение слишком дорогим. В начале декабря Рег.облако выделило грант команде Raft на использование облачных серверов с GPU A100 80 ГБ. Задача эксперимента — проверить, как современные open-source LLM работают с длинными юридическими документами и можно ли использовать их для промышленного извлечения бизнес-критичных данных. В этой статье мы разбираем результаты эксперимента: с какими ограничениями столкнулись, какие инженерные решения оказались критичными и к каким метрикам в итоге пришли.

    habr.com/ru/companies/runity/a

    #регоблако #raft #ai #llm #нейросети #исследование #эксперимент #договор #извлечение_данных #извлечение_информации

  35. Когда A/B-тестирование превращается в подбрасывание монетки

    Представим ситуацию. Маркетолог работает в крупной компании с собственной A/B-платформой. Каждый квартал он должен запускать несколько новых маркетинговых кампаний, и подтверждать их эффективность с помощью экспериментов. Ресурса аналитика всегда не хватает на подобные задачи. А A/B-платформа позиционируются как инструмент, доступный в том числе маркетологам и проектным менеджерам. В итоге, наш герой решает запустить эксперимент самостоятельно. Гипотеза . «Новый лендинг увеличивает среднюю выручку на пользователя (ARPU) в выбранном сегменте». Спустя несколько недель маркетолог открывает AB-платформу, чтобы подвести итоги эксперимента. Видит, что пользователи распределены по группам примерно равное: 9 936 в тесте и 10 068 в контроле. Результат радует глаз: effect = 18.28% . "Какой эффект! Вот только чувствительности для "прокраса" немного не хватило", - думает он, - "глядя на p-value = 0.1179 ". Но можно ли принимать решения на основе этих данных? Давайте разберемся, проведя анализ вероятных искажений.

    habr.com/ru/articles/1002828/

    #аналитика #выбросы #эксперимент #маркетинг #arpu

  36. Когда A/B-тестирование превращается в подбрасывание монетки

    Представим ситуацию. Маркетолог работает в крупной компании с собственной A/B-платформой. Каждый квартал он должен запускать несколько новых маркетинговых кампаний, и подтверждать их эффективность с помощью экспериментов. Ресурса аналитика всегда не хватает на подобные задачи. А A/B-платформа позиционируются как инструмент, доступный в том числе маркетологам и проектным менеджерам. В итоге, наш герой решает запустить эксперимент самостоятельно. Гипотеза . «Новый лендинг увеличивает среднюю выручку на пользователя (ARPU) в выбранном сегменте». Спустя несколько недель маркетолог открывает AB-платформу, чтобы подвести итоги эксперимента. Видит, что пользователи распределены по группам примерно равное: 9 936 в тесте и 10 068 в контроле. Результат радует глаз: effect = 18.28% . "Какой эффект! Вот только чувствительности для "прокраса" немного не хватило", - думает он, - "глядя на p-value = 0.1179 ". Но можно ли принимать решения на основе этих данных? Давайте разберемся, проведя анализ вероятных искажений.

    habr.com/ru/articles/1002828/

    #аналитика #выбросы #эксперимент #маркетинг #arpu

  37. Когда A/B-тестирование превращается в подбрасывание монетки

    Представим ситуацию. Маркетолог работает в крупной компании с собственной A/B-платформой. Каждый квартал он должен запускать несколько новых маркетинговых кампаний, и подтверждать их эффективность с помощью экспериментов. Ресурса аналитика всегда не хватает на подобные задачи. А A/B-платформа позиционируются как инструмент, доступный в том числе маркетологам и проектным менеджерам. В итоге, наш герой решает запустить эксперимент самостоятельно. Гипотеза . «Новый лендинг увеличивает среднюю выручку на пользователя (ARPU) в выбранном сегменте». Спустя несколько недель маркетолог открывает AB-платформу, чтобы подвести итоги эксперимента. Видит, что пользователи распределены по группам примерно равное: 9 936 в тесте и 10 068 в контроле. Результат радует глаз: effect = 18.28% . "Какой эффект! Вот только чувствительности для "прокраса" немного не хватило", - думает он, - "глядя на p-value = 0.1179 ". Но можно ли принимать решения на основе этих данных? Давайте разберемся, проведя анализ вероятных искажений.

    habr.com/ru/articles/1002828/

    #аналитика #выбросы #эксперимент #маркетинг #arpu

  38. Когда A/B-тестирование превращается в подбрасывание монетки

    Представим ситуацию. Маркетолог работает в крупной компании с собственной A/B-платформой. Каждый квартал он должен запускать несколько новых маркетинговых кампаний, и подтверждать их эффективность с помощью экспериментов. Ресурса аналитика всегда не хватает на подобные задачи. А A/B-платформа позиционируются как инструмент, доступный в том числе маркетологам и проектным менеджерам. В итоге, наш герой решает запустить эксперимент самостоятельно. Гипотеза . «Новый лендинг увеличивает среднюю выручку на пользователя (ARPU) в выбранном сегменте». Спустя несколько недель маркетолог открывает AB-платформу, чтобы подвести итоги эксперимента. Видит, что пользователи распределены по группам примерно равное: 9 936 в тесте и 10 068 в контроле. Результат радует глаз: effect = 18.28% . "Какой эффект! Вот только чувствительности для "прокраса" немного не хватило", - думает он, - "глядя на p-value = 0.1179 ". Но можно ли принимать решения на основе этих данных? Давайте разберемся, проведя анализ вероятных искажений.

    habr.com/ru/articles/1002828/

    #аналитика #выбросы #эксперимент #маркетинг #arpu

  39. Интересная «Request-Based» архитектура на примере Блокнота с открытым исходным кодом

    Привет , меня зовут Саша и я Android-разработчик :) Разрабатывая мобильные приложения я обратил внимание что все операции которые делает приложение - это по сути запросы данных от разных источников. Часто источниками данных являются: человек, сервер и устройство ( User , Server , Platform ). Приложение принимает данные от какого-то источника, преобразует их и выдает преобразованные данные другому источнику и так пока не дойдет до корня дерева запросов. Подобно тому как вызовы функций вкладываются друг в друга:

    habr.com/ru/articles/942762/

    #android #architecture #development #kotlin #compose #openssource #блокнот #архитектура #идея #эксперимент

  40. Интересная «Request-Based» архитектура на примере Блокнота с открытым исходным кодом

    Привет , меня зовут Саша и я Android-разработчик :) Разрабатывая мобильные приложения я обратил внимание что все операции которые делает приложение - это по сути запросы данных от разных источников. Часто источниками данных являются: человек, сервер и устройство ( User , Server , Platform ). Приложение принимает данные от какого-то источника, преобразует их и выдает преобразованные данные другому источнику и так пока не дойдет до корня дерева запросов. Подобно тому как вызовы функций вкладываются друг в друга:

    habr.com/ru/articles/942762/

    #android #architecture #development #kotlin #compose #openssource #блокнот #архитектура #идея #эксперимент

  41. Интересная «Request-Based» архитектура на примере Блокнота с открытым исходным кодом

    Привет , меня зовут Саша и я Android-разработчик :) Разрабатывая мобильные приложения я обратил внимание что все операции которые делает приложение - это по сути запросы данных от разных источников. Часто источниками данных являются: человек, сервер и устройство ( User , Server , Platform ). Приложение принимает данные от какого-то источника, преобразует их и выдает преобразованные данные другому источнику и так пока не дойдет до корня дерева запросов. Подобно тому как вызовы функций вкладываются друг в друга:

    habr.com/ru/articles/942762/

    #android #architecture #development #kotlin #compose #openssource #блокнот #архитектура #идея #эксперимент

  42. Интересная «Request-Based» архитектура на примере Блокнота с открытым исходным кодом

    Привет , меня зовут Саша и я Android-разработчик :) Разрабатывая мобильные приложения я обратил внимание что все операции которые делает приложение - это по сути запросы данных от разных источников. Часто источниками данных являются: человек, сервер и устройство ( User , Server , Platform ). Приложение принимает данные от какого-то источника, преобразует их и выдает преобразованные данные другому источнику и так пока не дойдет до корня дерева запросов. Подобно тому как вызовы функций вкладываются друг в друга:

    habr.com/ru/articles/942762/

    #android #architecture #development #kotlin #compose #openssource #блокнот #архитектура #идея #эксперимент

  43. Diff-in-diff: жизнь за пределами идеального эксперимента

    Привет, Хабр! На связи команда ad-hoc аналитики X5 Tech. Основная задача аналитика при проведении А/Б тестирования - оценка эффекта воздействия (тритмента). В этой статье мы обсудим, что такое идеальный эксперимент и почему он позволяет корректно оценить эффект от воздействия. Затем расскажем, когда идеальный эксперимент невозможен и дадим интуитивное обоснование того, как метод difference-in-difference помогает справиться с оценкой эффекта воздействия в таких ситуациях. В конце мы обсудим формальные предпосылки метода и покажем на примере симуляций последствия их невыполнения.

    habr.com/ru/companies/X5Tech/a

    #статистика #эконометрика #causal_inference #differenceindifference #diffindiff #абтесты #эксперимент #линейная_регрессия #абтестирование #treatment

  44. [Перевод] Влияние периодического голодания на стволовые клетки и повышенные риски рака

    Дисклеймер : я не топлю за пользу или вред голодания. Цель стать: поделиться любопытным наблюдением, сделанным исследователями своей области. Есть ряд практик, которые нашли даже отражения в религиозных доктринах и известны как посты, что голодание коррелирует с некой пользой для организма и здоровья в целом. Однако, новое исследование на мышах , указывает на риски последствий периодического голодания.

    habr.com/ru/articles/839098/

    #ЖКТ #рак #голодание #стволовые_клетки #периодическое_голодание #опухоль #эксперимент #мыши

  45. Оцениваем «естественность» изображений по первой цифре

    Еще вчера фотография была «доказательством» того, что событие произошло. Сегодня любой школьник может сгенерировать или изменить изображение до неузнаваемости с помощью ИИ. Индустрия цифровой-криминалистики пытается угнаться за технологиями, разрабатывая все новые детекторы фальсификаций. Но что, если подойти к проблеме с другой стороны? Не искать следы конкретного алгоритма генерации, а задать более фундаментальный вопрос: насколько естественны статистические свойства этого изображения? В этой статье мы не предложим вам волшебную таблетку для детекции фейковых картинок. Это интеллектуальный эксперимент. Возьмем известный математический закон — закон Бенфорда — и попробуем применить его для анализа изображений. Мы реализуем этот метод на чистом JavaScript, чтобы любой желающий мог поэкспериментировать в собственном браузере, и обсудим результаты, философские вопросы и технические подводные камни, которые ждут нас на этом пути.

    habr.com/ru/articles/947506/

    #Бенфорд #DCT #KLдивергенция #AI #эксперимент

  46. Оцениваем «естественность» изображений по первой цифре

    Еще вчера фотография была «доказательством» того, что событие произошло. Сегодня любой школьник может сгенерировать или изменить изображение до неузнаваемости с помощью ИИ. Индустрия цифровой-криминалистики пытается угнаться за технологиями, разрабатывая все новые детекторы фальсификаций. Но что, если подойти к проблеме с другой стороны? Не искать следы конкретного алгоритма генерации, а задать более фундаментальный вопрос: насколько естественны статистические свойства этого изображения? В этой статье мы не предложим вам волшебную таблетку для детекции фейковых картинок. Это интеллектуальный эксперимент. Возьмем известный математический закон — закон Бенфорда — и попробуем применить его для анализа изображений. Мы реализуем этот метод на чистом JavaScript, чтобы любой желающий мог поэкспериментировать в собственном браузере, и обсудим результаты, философские вопросы и технические подводные камни, которые ждут нас на этом пути.

    habr.com/ru/articles/947506/

    #Бенфорд #DCT #KLдивергенция #AI #эксперимент

  47. Оцениваем «естественность» изображений по первой цифре

    Еще вчера фотография была «доказательством» того, что событие произошло. Сегодня любой школьник может сгенерировать или изменить изображение до неузнаваемости с помощью ИИ. Индустрия цифровой-криминалистики пытается угнаться за технологиями, разрабатывая все новые детекторы фальсификаций. Но что, если подойти к проблеме с другой стороны? Не искать следы конкретного алгоритма генерации, а задать более фундаментальный вопрос: насколько естественны статистические свойства этого изображения? В этой статье мы не предложим вам волшебную таблетку для детекции фейковых картинок. Это интеллектуальный эксперимент. Возьмем известный математический закон — закон Бенфорда — и попробуем применить его для анализа изображений. Мы реализуем этот метод на чистом JavaScript, чтобы любой желающий мог поэкспериментировать в собственном браузере, и обсудим результаты, философские вопросы и технические подводные камни, которые ждут нас на этом пути.

    habr.com/ru/articles/947506/

    #Бенфорд #DCT #KLдивергенция #AI #эксперимент

  48. Оцениваем «естественность» изображений по первой цифре

    Еще вчера фотография была «доказательством» того, что событие произошло. Сегодня любой школьник может сгенерировать или изменить изображение до неузнаваемости с помощью ИИ. Индустрия цифровой-криминалистики пытается угнаться за технологиями, разрабатывая все новые детекторы фальсификаций. Но что, если подойти к проблеме с другой стороны? Не искать следы конкретного алгоритма генерации, а задать более фундаментальный вопрос: насколько естественны статистические свойства этого изображения? В этой статье мы не предложим вам волшебную таблетку для детекции фейковых картинок. Это интеллектуальный эксперимент. Возьмем известный математический закон — закон Бенфорда — и попробуем применить его для анализа изображений. Мы реализуем этот метод на чистом JavaScript, чтобы любой желающий мог поэкспериментировать в собственном браузере, и обсудим результаты, философские вопросы и технические подводные камни, которые ждут нас на этом пути.

    habr.com/ru/articles/947506/

    #Бенфорд #DCT #KLдивергенция #AI #эксперимент

  49. Replit Agent программиста не заменит! Или как мы пробовали писать код с помощью нейросети

    Привет, Хабр! Это компания Raft и я — руководитель AI продуктов Евгений Кокуйкин. А на фото выше — троица из нашей команды — техлид Саша Константинов, AI Project Manager & QA Lead Толя Разумовский и Data scientist Арсений Пименов на конференции Олега Бунина AIConf. Недавно в сети появился Replit Agent с многообещающими заявлениями. Мол, этот инструмент пишет код лучше программистов и скоро их заменит. Хотя в Raft мы и пишем код по старинке — вручную, но следим за технологиями и стремимся использовать новшества там, где это может быть полезно. Решили испытать Replit Agent в деле и даже устроили внутри команды мини-хакатон. Делимся впечатлениями.

    habr.com/ru/companies/oleg-bun

    #нейросети #генерация_кода #replit_agent #искусственный_интеллект #хакатон #эксперимент #инструменты #агент #машинное_обучение #бот

  50. От часов ожидания к секундам рендера: Blender на локальном ПК и облачном GPU

    Привет, Хабр! Меня зовут Даша Косова, я продакт менеджер Рег.облака. Когда-то 3D было для меня большим увлечением, которому я уделяла много времени. Я хорошо помню, как выглядел рендер на локальном компьютере: запускаешь сцену, смотришь как идут первые сэмплы. Сначала изображение зернистое, и только со временем начинает проявляться. Обычно на этом этапе ясно, что рендер займет часы, и компьютер лучше не трогать — можно пойти заниматься своими делами и просто проверять Blender время от времени. Тогда я рендерила исключительно на своем железе. Не потому что это был осознанный выбор — просто альтернативы казались сложными и непрактичными. Рендер-фермы и облачные GPU существовали где-то на фоне, но в моем окружении ими почти не пользовались.

    habr.com/ru/companies/runity/a

    #blender #blender_3d #регоблако #моделирование #рендер #рендеринг #рендеринг_графики #рендеринг_трёхмерной_графики #эксперимент #облако