#временные_ряды — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #временные_ряды, aggregated by home.social.
-
Объединяем SCADA, MES и ERP без «мусора на входе»
Когда модель промышленной аналитики начинает показывать отрицательный расход электроэнергии или теряет 15% сырья на ровном месте, проблема часто лежит глубже качества данных и выбора алгоритма. SCADA, MES и ERP могут хранить корректные числа, но вкладывать в них разный смысл: по времени, единицам измерения, границам операции и правилам учета. В статье разбираем, как возникает семантическая несогласованность между промышленными и корпоративными системами, почему обычная очистка данных здесь бессильна и как семантический слой помогает превратить разрозненные показатели в пригодную для аналитики картину. Перейти к разбору
https://habr.com/ru/companies/otus/articles/1032752/
#SCADA #MES #ERP #семантическая_несогласованность #промышленная_аналитика #семантический_слой #интеграция_данных #качество_данных #временные_ряды #Data_Fabric
-
Парадокс ансамблей: почему «слабые» модели иногда побеждают «сильные»
В ансамблевом прогнозировании важнее не индивидуальное качество моделей, а разнообразие их ошибок. Эксперимент показывает: пул из «худших» по отдельности моделей даёт лучшую точность ансамбля, чем пул из «лучших».
https://habr.com/ru/articles/1022318/
#ансамбли #машинное_обучение #прогнозирование #временные_ряды
-
Укрощаем рыночный хаос: Пишем Liquid Neural Network (LNN) на PyTorch для алготрейдинга
Если вы когда-нибудь пытались натравить классическую LSTM на минутные свечи волатильных активов, вы знаете эту боль. Сначала Loss красиво падает на трейне, вы предвкушаете покупку острова, а на тесте модель превращается в тыкву. Она либо предсказывает скользящую среднюю со сдвигом на один шаг, либо упирается в «стену» Loss = 0.693 (то есть −ln(0.5)), сводя всё к подбрасыванию монетки. Проблема не в вас. Проблема в том, что рекуррентные сети (RNN, LSTM, GRU) живут в дискретном времени. Для них шаг между 10:00 и 10:01 абсолютно идентичен шагу между пятницей и утром понедельника. Они не умеют сжимать и растягивать восприятие времени, когда волатильность взрывается. В этой статье мы отойдем от мейнстримных архитектур и напишем с нуля Liquid Neural Network (Жидкую Нейронную Сеть) . Мы заставим время течь непрерывно, используя численные методы дифференциальных уравнений прямо внутри PyTorch-графа, и посмотрим, как она вытаскивает скрытый макро-тренд из абсолютного рыночного хаоса. Теория без воды: Что делает сеть «жидкой»? Концепция Liquid Time-Constant Networks была представлена исследователями из Лаборатории искусственного интеллекта MIT (CSAIL). Их изначальная цель — управление дронами и автопилотами в непредсказуемой среде. Но финансовые рынки — это та же турбулентность, только выраженная в долларах , рублях и других валютах. В классической RNN скрытое состояние $h_t$ обновляется по дискретным шагам: $$h_t = \tanh(W_{in} x_t + W_h h_{t-1} + b)$$ В Liquid Network мы отказываемся от дискретности. Состояние нейрона $h(t)$ — это непрерывная переменная, описываемая обыкновенным дифференциальным уравнением (ОДУ):
https://habr.com/ru/articles/1020630/
#machine_learning #pytorch #liquid_neural_networks #lnn #алготрейдинг #временные_ряды #time_series #ode
-
Как я построила систему раннего обнаружения падений активности игровых провайдеров
Стек: Python, Airflow, ClickHouse, Slack В iGaming падение активности игровых провайдеров почти никогда не выглядит как "обрыв". Чаще это медленное затухание: ставок становится меньше, затем еще меньше, игроки уходят постепенно. Формально провайдер продолжает работать, стандартный мониторинг молчит, а бизнес уже теряет деньги. Моя задача была не фиксировать факт полного падения активности, а поймать момент, когда траектория уже направлена вниз, но ситуацию ещё можно развернуть. Вся логика работает внутри DAG в Airflow. Он запускается каждые 6 минут и анализирует активность игровых провайдеров в реальном времени. При обнаружении начала падения или восстановления система отправляет уведомления в Slack.
https://habr.com/ru/articles/989586/
#аналитика_данных #временные_ряды #статистика #анализ_трендов #igaming
-
Покоряем гору временных рядов: делаем прогноз для 200+ рядов с библиотекой Etna
Я работаю дата-сайентистом 5 лет и до сих пор испытываю боль, когда нужно сделать MVP по временным рядам. Начиная с того, как построить несколько графиков одновременно без «слипшихся» меток по осям, заканчивая поиском подходящего метода очистки ряда от аномалий. И всё это венчает цикл по каждому ряду с бесконечным жонглированием данными между numpy, pandas, sklearn, yet_another_library. Если вы DS, и тоже, как и я, устали от вот этого всего, добро пожаловать под кат. Я покажу, как написать production-ready код для прогноза 200+ временных рядов от EDA до результата. Разберем на практике, как бороться с аномалиями, ловить смены тренда и в итоге – получить масштабируемое решение, а не очередной «велосипед».
https://habr.com/ru/companies/magnit/articles/985864/
#data_science #machine_learning #анализ_данных #временные_ряды #productionready_код #прогнозирование #прогнозирование_спроса #магнит #etna
-
Оценка эффекта релиза по истории метрики: causal impact без AB теста
После релиза метрика почти всегда меняется. Иногда это реальный эффект изменения, иногда - сезонность, маркетинг, внешний фон или просто шум. Если AB теста не было, а решение все равно нужно принимать, остается вопрос: как аккуратно оценить влияние релиза по истории метрики и не обмануться простым сравнением до и после. В статье разбираю практический подход causal impact для случая, когда у нас есть одна метрика во времени и понятная дата изменения. Строим контрфакт (counterfactual) - прогноз того, какой была бы метрика без релиза - и сравниваем его с фактом. На этой основе считаем эффект в абсолютных значениях, накопленный эффект и относительный вклад в процентах. Отдельное внимание уделяю проверкам, без которых такой анализ может превратиться в тыкву: качество прогноза на периоде до изменения, учет зависимости по времени через block bootstrap, устойчивость к выбору окна и плацебо даты, которые помогают понять, выделяется ли реальный эффект на фоне ложных интервенций. Материал ориентирован на продуктовые задачи: когда релиз уже сделан, данные есть, а надежной оценки эффекта нет. В следующей части перейдем к более частому сценарию, когда изменение затронуло не всех, и вместо одной линии метрики у нас появляется набор линий по группам (географии, сегменты, кластеры). Там разберем синтетический контроль и diff-in-diff и частые ошибки, которые встречаются в таких данных.
https://habr.com/ru/articles/984504/
#causal_impact #временные_ряды #контрфакт #ковариаты #оценка_без_AB_теста #причинный_анализ #оценка_эффекта #влияние_релиза #продуктовая_аналитика
-
WarpTrade и робастные алгоритмические стратегии
Всем, Добрый день! На связи Андрей Счастливый. Продолжаю писать пакет для бэктестинга торговых стратегий "WarpTrade", о котором я писал в первой статье . Я обратил внимание, что в комментариях отписалось достаточно людей, не равнодушных к теме алготрейдинга, это радует. Какая моя цель? Продолжать заниматься любимым делом, а конкретно данной статьёй я хочу показать, что возможно то, что многие считают невозможным. Ну что, перейдём к делу и расскажу о своих наработках.
https://habr.com/ru/articles/973928/
#python #финтех #алгоритмическая_торговля #анализ_данных #moex #временные_ряды
-
Продвинутый анализ на PySpark: учимся работать с рекуррентными соотношениями
Обработка и анализ временных последовательностей (временных рядов) достаточно часто встречающаяся задача. Обычно она решается с помощью идентичных подходов и методов. Однако когда анализ временного ряда предполагает выражение каждого последующего элемента через предыдущие, возникают проблемы с эффективностью реализации такого анализа. Это особенно актуально в контексте больших данных. В данной статье я продемонстрирую подход к анализу и вычислению рекуррентных соотношений. В качестве примера будет представлена реализация на базе Apache Spark и Python метода экспоненциальной скользящей средней с использованием DataFrame API. Мы рассмотрим метод агрегации данных, совместимый со Spark Connect, который был добавлен в версию 3.1 (для Scala - начиная с версии фреймворка 3.0), а именно – функцию aggregate.
https://habr.com/ru/companies/axenix/articles/952278/
#apache_spark #pyspark #python #рекуррентные_соотношения #временные_ряды #анализ_данных #spark_connect
-
Сводные показатели сделок в Athenix
Всем известно, что работа на бирже — это потоки денег, которыми управляют из-за кулис и армии хомяков несут свои монетки туда, куда, по их мнению, подует ветер надежды. В Athenix я реализовал своё видение анализа потоков сделок. Не удивляйтесь, если результаты анализа сделок будут противоречить общим выводам аналитиков, которые сейчас на поверхности в разных источниках. Рынок реагирует наперёд и только на те факторы, на которые посчитает нужным. Целью анализа сделок я определил анализ, который покажет показатели наиболее важных критических точек и не позволит запутаться. Показателями критических точек я определил баланс покупок и продаж: - в целом за торговую сессию; - на уровне цены с наибольшим проведённым объёмом за сессию (POC); - в пиковый момент сессии, в минуту, в которую прошёл наибольший объём. ...
https://habr.com/ru/articles/944488/
#python #финтех #финтехпроекты #анализ_данных #moex #временные_ряды #j #объемный_анализ
-
Сводные показатели сделок в Athenix
Всем известно, что работа на бирже — это потоки денег, которыми управляют из-за кулис и армии хомяков несут свои монетки туда, куда, по их мнению, подует ветер надежды. В Athenix я реализовал своё видение анализа потоков сделок. Не удивляйтесь, если результаты анализа сделок будут противоречить общим выводам аналитиков, которые сейчас на поверхности в разных источниках. Рынок реагирует наперёд и только на те факторы, на которые посчитает нужным. Целью анализа сделок я определил анализ, который покажет показатели наиболее важных критических точек и не позволит запутаться. Показателями критических точек я определил баланс покупок и продаж: - в целом за торговую сессию; - на уровне цены с наибольшим проведённым объёмом за сессию (POC); - в пиковый момент сессии, в минуту, в которую прошёл наибольший объём. ...
https://habr.com/ru/articles/944488/
#python #финтех #финтехпроекты #анализ_данных #moex #временные_ряды #j #объемный_анализ
-
Сводные показатели сделок в Athenix
Всем известно, что работа на бирже — это потоки денег, которыми управляют из-за кулис и армии хомяков несут свои монетки туда, куда, по их мнению, подует ветер надежды. В Athenix я реализовал своё видение анализа потоков сделок. Не удивляйтесь, если результаты анализа сделок будут противоречить общим выводам аналитиков, которые сейчас на поверхности в разных источниках. Рынок реагирует наперёд и только на те факторы, на которые посчитает нужным. Целью анализа сделок я определил анализ, который покажет показатели наиболее важных критических точек и не позволит запутаться. Показателями критических точек я определил баланс покупок и продаж: - в целом за торговую сессию; - на уровне цены с наибольшим проведённым объёмом за сессию (POC); - в пиковый момент сессии, в минуту, в которую прошёл наибольший объём. ...
https://habr.com/ru/articles/944488/
#python #финтех #финтехпроекты #анализ_данных #moex #временные_ряды #j #объемный_анализ
-
Сводные показатели сделок в Athenix
Всем известно, что работа на бирже — это потоки денег, которыми управляют из-за кулис и армии хомяков несут свои монетки туда, куда, по их мнению, подует ветер надежды. В Athenix я реализовал своё видение анализа потоков сделок. Не удивляйтесь, если результаты анализа сделок будут противоречить общим выводам аналитиков, которые сейчас на поверхности в разных источниках. Рынок реагирует наперёд и только на те факторы, на которые посчитает нужным. Целью анализа сделок я определил анализ, который покажет показатели наиболее важных критических точек и не позволит запутаться. Показателями критических точек я определил баланс покупок и продаж: - в целом за торговую сессию; - на уровне цены с наибольшим проведённым объёмом за сессию (POC); - в пиковый момент сессии, в минуту, в которую прошёл наибольший объём. ...
https://habr.com/ru/articles/944488/
#python #финтех #финтехпроекты #анализ_данных #moex #временные_ряды #j #объемный_анализ
-
Athenix — мониторинг котировок с глубоким анализом объёмов и прогнозами от ИИ
Проект Athenix — это уникальная система мониторинга котировок с глубоким анализом объёмов торгов и прогнозами на основе искусственного интеллекта. Если вы интересуетесь финансовыми рынками, трейдингом и современными технологиями, эта статья для вас. Созданная на Python, платформа Athenix сочетает мощь вычислений, анализ временных рядов и нейросетевые модели для прогнозирования динамики цен на бирже MOEX и потенциалом подключения к другим биржам. В статье вы узнаете, как автор с опытом работы на биржах и в программировании реализовал систему, которая собирает данные, анализирует их с помощью инновационных алгоритмов и визуализирует результаты в удобном для анализа виде. Проект предлагает практичный подход к сложностям анализа рынка — концентрируется на главном, снимая с трейдера необходимость обрабатывать сотни показателей вручную. Будут подробно рассмотрены методы обработки объёмных данных, шумоподавление с вейвлет-преобразованиями, бинарное прогнозирование и использование LSTM-нейросетей. Эта статья будет полезна тем, кто хочет понять, как современные технологии и алгоритмы могут помочь в эффективной среднесрочной и долгосрочной торговле. Погрузитесь в мир финансового анализа будущего с Athenix!
https://habr.com/ru/articles/942364/
#python #машинное_обучение #нейросети #финтех #финтех_стартапы #анализ_данных #moex #временные_ряды #прогнозирование #объемный_анализ
-
Athenix — мониторинг котировок с глубоким анализом объёмов и прогнозами от ИИ
Проект Athenix — это уникальная система мониторинга котировок с глубоким анализом объёмов торгов и прогнозами на основе искусственного интеллекта. Если вы интересуетесь финансовыми рынками, трейдингом и современными технологиями, эта статья для вас. Созданная на Python, платформа Athenix сочетает мощь вычислений, анализ временных рядов и нейросетевые модели для прогнозирования динамики цен на бирже MOEX и потенциалом подключения к другим биржам. В статье вы узнаете, как автор с опытом работы на биржах и в программировании реализовал систему, которая собирает данные, анализирует их с помощью инновационных алгоритмов и визуализирует результаты в удобном для анализа виде. Проект предлагает практичный подход к сложностям анализа рынка — концентрируется на главном, снимая с трейдера необходимость обрабатывать сотни показателей вручную. Будут подробно рассмотрены методы обработки объёмных данных, шумоподавление с вейвлет-преобразованиями, бинарное прогнозирование и использование LSTM-нейросетей. Эта статья будет полезна тем, кто хочет понять, как современные технологии и алгоритмы могут помочь в эффективной среднесрочной и долгосрочной торговле. Погрузитесь в мир финансового анализа будущего с Athenix!
https://habr.com/ru/articles/942364/
#python #машинное_обучение #нейросети #финтех #финтех_стартапы #анализ_данных #moex #временные_ряды #прогнозирование #объемный_анализ
-
Athenix — мониторинг котировок с глубоким анализом объёмов и прогнозами от ИИ
Проект Athenix — это уникальная система мониторинга котировок с глубоким анализом объёмов торгов и прогнозами на основе искусственного интеллекта. Если вы интересуетесь финансовыми рынками, трейдингом и современными технологиями, эта статья для вас. Созданная на Python, платформа Athenix сочетает мощь вычислений, анализ временных рядов и нейросетевые модели для прогнозирования динамики цен на бирже MOEX и потенциалом подключения к другим биржам. В статье вы узнаете, как автор с опытом работы на биржах и в программировании реализовал систему, которая собирает данные, анализирует их с помощью инновационных алгоритмов и визуализирует результаты в удобном для анализа виде. Проект предлагает практичный подход к сложностям анализа рынка — концентрируется на главном, снимая с трейдера необходимость обрабатывать сотни показателей вручную. Будут подробно рассмотрены методы обработки объёмных данных, шумоподавление с вейвлет-преобразованиями, бинарное прогнозирование и использование LSTM-нейросетей. Эта статья будет полезна тем, кто хочет понять, как современные технологии и алгоритмы могут помочь в эффективной среднесрочной и долгосрочной торговле. Погрузитесь в мир финансового анализа будущего с Athenix!
https://habr.com/ru/articles/942364/
#python #машинное_обучение #нейросети #финтех #финтех_стартапы #анализ_данных #moex #временные_ряды #прогнозирование #объемный_анализ
-
Athenix — мониторинг котировок с глубоким анализом объёмов и прогнозами от ИИ
Проект Athenix — это уникальная система мониторинга котировок с глубоким анализом объёмов торгов и прогнозами на основе искусственного интеллекта. Если вы интересуетесь финансовыми рынками, трейдингом и современными технологиями, эта статья для вас. Созданная на Python, платформа Athenix сочетает мощь вычислений, анализ временных рядов и нейросетевые модели для прогнозирования динамики цен на бирже MOEX и потенциалом подключения к другим биржам. В статье вы узнаете, как автор с опытом работы на биржах и в программировании реализовал систему, которая собирает данные, анализирует их с помощью инновационных алгоритмов и визуализирует результаты в удобном для анализа виде. Проект предлагает практичный подход к сложностям анализа рынка — концентрируется на главном, снимая с трейдера необходимость обрабатывать сотни показателей вручную. Будут подробно рассмотрены методы обработки объёмных данных, шумоподавление с вейвлет-преобразованиями, бинарное прогнозирование и использование LSTM-нейросетей. Эта статья будет полезна тем, кто хочет понять, как современные технологии и алгоритмы могут помочь в эффективной среднесрочной и долгосрочной торговле. Погрузитесь в мир финансового анализа будущего с Athenix!
https://habr.com/ru/articles/942364/
#python #машинное_обучение #нейросети #финтех #финтех_стартапы #анализ_данных #moex #временные_ряды #прогнозирование #объемный_анализ
-
Многомерный анализ данных временных рядов
Попробуем применить многомерный анализ к данным временных рядов с помощью интерактивной визуализации данных измерений и их взаимосвязей.
https://habr.com/ru/articles/926598/
#временные_ряды #анализ_временных_рядов #java #lowcode #adhoc #колоночные_субд #rdbms #postgresql #oracle #clickhouse
-
Кросс-валидация на временных рядах: как не перемешать время
Привет, Хабр! Сегодня рассмотрим то, что чаще всего ломает даже круто выглядящие модели при работе с временными рядами — неправильная кросс‑валидация . Разберем, почему KFold тут не работает, как легко словить утечку будущего, какие сплиттеры реально честны по отношению ко времени, как валидировать фичи с лагами и агрегатами.
https://habr.com/ru/companies/otus/articles/921604/
#временные_ряды #time_series #машинное_обучение #прогнозирование #кроссвалидация #crossvalidation
-
[Перевод] 5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 2
В отличие от традиционных наборов данных, где объекты часто остаются статичными, данные временных рядов обладают уникальными временными паттернами , которые необходимо использовать для извлечения значимых признаков. В этом разделе мы рассмотрим некоторые из наиболее эффективных методов.
https://habr.com/ru/companies/otus/articles/918832/
#временные_ряды #лаговые_признаки #pandas #python #time_series #стационарность #анализ_временных_рядов
-
Кригинг F-фактора или кормить, любить и никогда не покидать
Девочка и мальчик — метисы хаски жили в трубах на стройке, в феврале 2025 года спасены волонтерами, откормлены и подлечены. Сейчас у них появились хозяева и теперь их будут "Кормить, любить и никогда не покидать!" . Про любовь может быть как-нибудь в другой раз, а сегодня поговорим про "кормить". Канули в лету времена, когда своих маленьких друзей все кормили "со стола". Сегодня в стране сформировалась полноценная отрасль кормов для непродуктивных животных . Так на профессиональном языке называют наших домашних любимцев. Это название нам кажется неправильным. Они очень даже продуктивные. Их продукция это любовь и преданность, наши позитивные эмоции, прогулки в любую погоду и многие другие радости жизни. Чаще всего домашних собак и кошек мы кормим влажными консервированными кормами . Сегодня мы поговорим о производстве влажных кормов, узнаем почему F-фактор критически важен и зачем ему самому нужен кригинг.
https://habr.com/ru/articles/913974/
#автоклав #кригинг #качество #временные_ряды #predictive_maintenance #интерполяция #time_series
-
Кригинг F-фактора или кормить, любить и никогда не покидать
Девочка и мальчик — метисы хаски жили в трубах на стройке, в феврале 2025 года спасены волонтерами, откормлены и подлечены. Сейчас у них появились хозяева и теперь их будут "Кормить, любить и никогда не покидать!" . Про любовь может быть как-нибудь в другой раз, а сегодня поговорим про "кормить". Канули в лету времена, когда своих маленьких друзей все кормили "со стола". Сегодня в стране сформировалась полноценная отрасль кормов для непродуктивных животных . Так на профессиональном языке называют наших домашних любимцев. Это название нам кажется неправильным. Они очень даже продуктивные. Их продукция это любовь и преданность, наши позитивные эмоции, прогулки в любую погоду и многие другие радости жизни. Чаще всего домашних собак и кошек мы кормим влажными консервированными кормами . Сегодня мы поговорим о производстве влажных кормов, узнаем почему F-фактор критически важен и зачем ему самому нужен кригинг.
https://habr.com/ru/articles/913974/
#автоклав #кригинг #качество #временные_ряды #predictive_maintenance #интерполяция #time_series
-
Кригинг F-фактора или кормить, любить и никогда не покидать
Девочка и мальчик — метисы хаски жили в трубах на стройке, в феврале 2025 года спасены волонтерами, откормлены и подлечены. Сейчас у них появились хозяева и теперь их будут "Кормить, любить и никогда не покидать!" . Про любовь может быть как-нибудь в другой раз, а сегодня поговорим про "кормить". Канули в лету времена, когда своих маленьких друзей все кормили "со стола". Сегодня в стране сформировалась полноценная отрасль кормов для непродуктивных животных . Так на профессиональном языке называют наших домашних любимцев. Это название нам кажется неправильным. Они очень даже продуктивные. Их продукция это любовь и преданность, наши позитивные эмоции, прогулки в любую погоду и многие другие радости жизни. Чаще всего домашних собак и кошек мы кормим влажными консервированными кормами . Сегодня мы поговорим о производстве влажных кормов, узнаем почему F-фактор критически важен и зачем ему самому нужен кригинг.
https://habr.com/ru/articles/913974/
#автоклав #кригинг #качество #временные_ряды #predictive_maintenance #интерполяция #time_series
-
Кригинг F-фактора или кормить, любить и никогда не покидать
Девочка и мальчик — метисы хаски жили в трубах на стройке, в феврале 2025 года спасены волонтерами, откормлены и подлечены. Сейчас у них появились хозяева и теперь их будут "Кормить, любить и никогда не покидать!" . Про любовь может быть как-нибудь в другой раз, а сегодня поговорим про "кормить". Канули в лету времена, когда своих маленьких друзей все кормили "со стола". Сегодня в стране сформировалась полноценная отрасль кормов для непродуктивных животных . Так на профессиональном языке называют наших домашних любимцев. Это название нам кажется неправильным. Они очень даже продуктивные. Их продукция это любовь и преданность, наши позитивные эмоции, прогулки в любую погоду и многие другие радости жизни. Чаще всего домашних собак и кошек мы кормим влажными консервированными кормами . Сегодня мы поговорим о производстве влажных кормов, узнаем почему F-фактор критически важен и зачем ему самому нужен кригинг.
https://habr.com/ru/articles/913974/
#автоклав #кригинг #качество #временные_ряды #predictive_maintenance #интерполяция #time_series
-
Пример экспресс-анализа предпочтительности моделей импутации пропусков в многомерных временных рядах
Зачастую устранение пропусков — обязательный этап предварительной обработки временных рядов. Эта небольшая работа обусловлена стремлением создать инструмент оперативного подбора модели для импутации/вменения определенного вида пропусков в определенных временных рядах.
https://habr.com/ru/articles/899408/
#временные_ряды #пропуски #аномалии #прогнозирование #time_series_analysis
-
Пример экспресс-анализа предпочтительности моделей импутации пропусков в многомерных временных рядах
Зачастую устранение пропусков — обязательный этап предварительной обработки временных рядов. Эта небольшая работа обусловлена стремлением создать инструмент оперативного подбора модели для импутации/вменения определенного вида пропусков в определенных временных рядах.
https://habr.com/ru/articles/899408/
#временные_ряды #пропуски #аномалии #прогнозирование #time_series_analysis
-
Пример экспресс-анализа предпочтительности моделей импутации пропусков в многомерных временных рядах
Зачастую устранение пропусков — обязательный этап предварительной обработки временных рядов. Эта небольшая работа обусловлена стремлением создать инструмент оперативного подбора модели для импутации/вменения определенного вида пропусков в определенных временных рядах.
https://habr.com/ru/articles/899408/
#временные_ряды #пропуски #аномалии #прогнозирование #time_series_analysis
-
Пример экспресс-анализа предпочтительности моделей импутации пропусков в многомерных временных рядах
Зачастую устранение пропусков — обязательный этап предварительной обработки временных рядов. Эта небольшая работа обусловлена стремлением создать инструмент оперативного подбора модели для импутации/вменения определенного вида пропусков в определенных временных рядах.
https://habr.com/ru/articles/899408/
#временные_ряды #пропуски #аномалии #прогнозирование #time_series_analysis
-
Эконометрика в ритейле: как не потратить миллионы на заведомо неэффективные эксперименты
Всем привет! На связи команда ad-hoc аналитики X5 Tech. Если вы уже знакомы с нашими статьями, то наверняка знаете, что нашей ключевой темой является А/Б тестирование. Важной составляющей А/Б теста является дизайн: для успешного проведения эксперимента необходимо оценить размер пилотной и контрольной групп, зафиксировав предварительно ожидаемый эффект. Но возникает вопрос: как убедиться в обоснованности гипотезы и рассчитать ожидаемые эффекты от инициативы? В статье мы рассмотрим ключевые понятия из эконометрики, такие как коинтеграция и модель коррекции ошибок, и продемонстрируем их применение на ретроспективных данных. Мы подробно разберём, как использовать эти инструменты для анализа взаимосвязей между временными рядами. В качестве практического примера с помощью функции импульсного отклика мы проведём количественную оценку ожидаемого влияния повышения комплектности персонала на списания на выбранном кейсе.
https://habr.com/ru/companies/X5Tech/articles/874190/
#анализ_данных #data_science #аналитика #статистика #эконометрика #эконометрика_в_ритейле #временные_ряды #time_series #абтесты #коинтеграция
-
[Перевод] Знакомство со слоем абстракции Netflix для хранения временных рядов
Netflix продолжает расширять бизнес и диверсифицироваться в различных направлениях, вроде доставки видео по запросу и гейминга. В результате всё важнее становятся технологии, обеспечивающие загрузку временных (темпоральных) данных в системы компании и их хранение. Речь идёт об огромных объёмах данных, измеряемых петабайтами. А задержки доступа к этим данным должны укладываться в миллисекунду. В предыдущих материалах мы рассказывали о нашем слое абстракции для хранения данных типа « ключ-значение », и о платформе, реализующий возможности шлюза данных . И то и другое — это неотъемлемые части подсистемы, отвечающей в Netflix за работу с данными. Система хранения данных типа «ключ-значение» — это гибкое и хорошо масштабируемое решение для работы со структурированными данными соответствующего формата. А шлюз данных — это платформа, которая даёт компании базовую инфраструктуру, обеспечивающую защиту, настройку, развёртывание компонентов, ориентированных на работу с данными.
https://habr.com/ru/companies/wunderfund/articles/866912/
#Netflix #базы_данных #разработка #временные_ряды #TimeSeries #Elasticsearch #Apache_Cassandra
-
Chronos от Amazon: революция в обработке временных рядов. Часть 2
Итак, друзья, продолжаем тему прогнозирования временных рядов с помощью Chronos. Напомню, что Chronos это фреймворк от компании Amazon — простой, но эффективный фрэймворк для предобученных вероятностных моделей временных рядов. Chronos токенизирует значения временных рядов с помощью масштабирования и квантования в фиксированный словарь и обучает существующие архитектуры языковых моделей на основе трансформеров на этих токенизированных временных рядах с использованием функции потерь кроссэнтропии. Chronos был предобучен на основе семейства T5 (размеры от 20M до 710M параметров) на большом количестве общедоступных наборов данных, дополненных синтетическим набором данных, который сгенерировали с помощью гауссовских процессов для улучшения обобщения. В этой статье я не буду подробно рассказывать как устроен Chronos и на чем он предобучен. Вся эта информация подробно изложена в моей предыдущей статье ( Часть 1 ). Здесь мы попробуем применить его на общедоступных данных на примере прогнозирования котировок акций компаний из индекса Dow Jones (общедоступный датасет на Kaggle), а также на данных одного крупного российского перевозчика. По биржевым данным цель была проста, посмотреть, как новый инструмент справляется с задачей предсказания цены акции. А на данных с железной дороги в качестве цели исследования выбрали построение прогнозов по количеству отступлений, называемых просадка пути. Многие из вас ездили поездом, и вот когда качает, это зачастую и есть просадки. Отступление довольно часто и быстро возникающее, влияет на безопасность движения, плавность хода и скорость. И предприятиям, обслуживающим путь, полезно оценивать при планировании, сколько таких отступлений предстоит устранять в следующем месяце. Данные брали посуточные, для десяти случайно выбранных предприятий. Временной период в 4 года, из них 1 месяц для тестирования. Посуточные показатели суммировали до месяца. В случае Dow Jones, пытаемся предсказать цену закрытия акции посуточно на 12 точек вперед.
https://habr.com/ru/articles/859498/
#машинное_обучение #data_science #time_series #natural_language_processing #chronos #искусственный_интеллект #machine_learning #llm #artificial_intelligence #временные_ряды
-
[Перевод] Chronos от Amazon: революция в обработке временных рядов
Часть 1. Как создавался Chronos Привет, Хабр. Для начала, разрешите представиться. Меня зовут Елисеев Сергей, работаю аналитиком в лаборатории ИИ компании ООО «ОЦРВ». В рамках корпоративной деятельности нам часто приходится иметь дело с временными рядами. Нужно отметить, что мы исследуем не только решения и результаты применения классических методов машинного обучения, но и изучаем новые технологии и подходы к работе с большими данными. В процессе анализа SOTA решений, наткнулся на очень интересный фреймворк для прогнозирования временных рядов Chronos, который компания Amazon выкатила в опенсорс в мае 2024 года. С удивлением обнаружил, что на Хабре пока ничего про него нет и решил поделиться, так как инструмент вполне годный. Поскольку информации о нашем исследовании собралось довольно много, я решил разбить статью на две части: теоретическую и практическую. Сразу оговорюсь, изложенная в первой части информация это конспект переведенной мной официальной документации по Chronos, а во второй – результаты экспериментов с Chronos как на общедоступных данных с Kaggle (знаменитый Dow Jones Index), так и на корпоративных данных (предсказание инцидентов на различных участках железной дороги). Итак, погнали… Прогнозирование временных рядов. Прогнозирование временных рядов является важным компонентом принятия решений в различных областях, включая розничную торговлю, энергетику, финансы, здравоохранение и климатологию. Традиционно прогнозирование доминировалось статистическими моделями, такими как ARIMA и ETS. Эти модели служили надежными инструментами, по крайней мере, до недавнего перехода к методам глубокого обучения (Hyndman & Athanasopoulos, 2018; Benidis et al., 2022). Этот переход можно объяснить доступностью больших и разнообразных источников данных временных рядов, а также возникновением операционных задач прогнозирования (Kolassa & Januschowski, 2019), которые подчеркивают сильные стороны моделей глубокого обучения, как пример, способность извлекать шаблоны из большого количества временных рядов. Несмотря на их впечатляющую производительность, модели глубокого обучения все еще работают в стандартном режиме обучения и прогнозирования на одном и том же наборе данных. Хотя были проведены работы, посвященные трансферному обучению (Ye & Dai, 2018) и адаптации к доменам (Jin et al., 2022) для прогнозирования, область еще не пришла к единой, универсальной модели прогнозирования, что остается важной целью для исследователей временных рядов.
https://habr.com/ru/articles/854414/
#машинное_обучение #временные_ряды #искусственный_интеллект #языковые_модели #machine_learning #timeseries #Chronos #предсказания #datascience
-
Dask для анализа временных рядов
Привет, Хабр! Сегодня расскажем, как с помощью Dask можно анализировать временные ряды. С временными рядами всегда заморочек много: большие данные, сложные расчеты. Но Dask отлично с этим справляется.
-
Временные ряды и ARIMA: Как предсказывать будущее без хрустального шара
Что такое временной ряд, модель ARIMA и как к ней подбирать параметры. Простым словами, временной ряд — это просто последовательность событий, которая как-то зависит от времени. Мы для начала будем считать, что ряд самый простецкий и нас просто есть скачущие туда-сюда точки, которые распределены по временной шкале.
-
Бутстрап временных рядов
Всем привет! Как и во многих других компаниях, в X5 существует огромное количество данных, зависящих от времени. Такие данные принято называть временными рядами (time-series). Это могут быть данные о продажах в магазинах, об остатках на складах или об удовлетворенности клиентов. Используя эти данные, мы хотим искать инсайты и приносить пользу бизнесу. Бутстрап является ценным инструментом — он позволяет генерировать множество синтетических выборок из исходных данных, на основе которых мы можем оценить распределение интересующей нас статистики и построить доверительные интервалы. Например, если нужно определить доверительный интервал для медианы или какого-то другого квантиля предсказаний, бутстрап позволяет это сделать, даже когда прямое аналитическое вычисление невозможно. Для временных рядов бывает полезно оценить границы, в которых находятся параметры модели, из которой получен ряд. Кроме того, часто необходимо посчитать доверительный интервал, в котором находятся предсказания для объекта с использованием моделей машинного обучения. Однако обычные методы бутстрапа не подойдут для временных рядов, так как они не учитывают структуру таких данных. В нашем обзоре мы рассмотрим, как различные модификации метода бутстрапа учитывают структурные особенности и зависимости в данных временных рядов. Особое внимание будет уделено объяснению, почему нельзя применять стандартный подход бутстрапа к временным рядам без учёта их структуры. Затем мы перейдем к обзору методов, которые позволяют эффективно решить эту проблему.
https://habr.com/ru/companies/X5Tech/articles/814579/
#временные_ряды #бутстрап #bootstrap #data_science #анализ_данных #аналитика #статистика #проверка_гипотез #time_series #time_series_analysis
-
Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 3: Специализированное машинное обучение
Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor ). В предыдущей статье я поделился материалами для подготовки к этапу по классическому машинному обучению. В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по специализированному машинному обучению.
https://habr.com/ru/companies/megafon/articles/808585/
#big_data #машинное_обучение #глубокое_обучение #обработка_текстов #компьютерное_зрение #рекомендательные_системы #временные_ряды #графовые_нейросети #обучение_с_подкреплением #data_science
-
Автоматически выделяем кусочно-линейные тренды временного ряда
Меня зовут Антон Сорока, я математик и аналитик данных. Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.