home.social

#тестирование_отказоустойчивости — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #тестирование_отказоустойчивости, aggregated by home.social.

  1. Что не убивает, делает сильней: как мы тестируем СХД, «ломая» его по частям

    Большинство серьезных сбоев в системах хранения данных происходят не из-за глобальных катастроф, а из-за незаметных повторяющихся отказов, на которые никто не рассчитывал: перегруженный контроллер, зависание диска, сбой питания в неподходящий момент. Такие ошибки не поймать быстрыми и однократными тестами. В целом, надежность системы хранения данных невозможно проверить абстрактно — только вживую, на реальном железе, часами, с полным погружением в нагрузку и нестабильность. Я Наталья Грязнова, ведущий инженер по разработке ПО в YADRO. Моя задача — не просто проверить, что СХД работает, а воспроизвести реальные риски отказа системы и проверить ее на устойчивость: высокая нагрузка, внезапные отказы компонентов системы, нестабильные внешние условия, например перебои в сети. В этом тексте расскажу, как мы тестируем отказоустойчивость СХД TATLIN.UNIFIED: какие сбои моделируем, как устроены автотесты и почему короткие прогоны не справляются с поиском критичных багов.

    habr.com/ru/companies/yadro/ar

    #тестирование #схд #отказоустойчивость #отказоустойчивые_системы #тестирование_отказоустойчивости

  2. Тестирование на отказоустойчивость: ломаем, чтобы сделать лучше. Часть 2

    Всем привет! Недавно в блоге выходила статья , в которой мой коллега Александр Волков рассказал про применение практик хаос-инжиниринга, продемонстрировал поведение системы при сбоях на примере демосервиса, оценил его отказоустойчивость и предложил стратегии для улучшения архитектуры. А в этой части я, Екатерина Ильина — QA-инженер Читать дальше

    habr.com/ru/companies/cloud_ru

    #chaos_engineering #chaos_mesh #кейс #тестирование_отказоустойчивости #хаосинжиниринг