#apache_flink — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-11 · 19:52 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 3 )

Скорее всего читатели знают, но контекста ради. Flink имеет децентрализованный дизайн с распределенной архитектурой, где набор контейнеров ( Task Manager ) несут ответственность за свою локальную зону или не несут? Эта зона в случае разбиения через keyBy размазывается исходя из хэша заданного ключа, посредством чего, Flink гарантирует попадание всех событий с этим ключом на тот же контейнер и также гарантирует сохранение того порядка событий, в котором они доехали до оператора, и, как следствие этот контейнер является мастером-владельцем ключа - отсюда понятие локальной зоны становится оправданным, ведь все хэш пространство размазывается на контейнеры равномерно. Однако, если не использовать keyBy и просто попробовать вызвать что угодно, то будет round-robin распределение и тогда снимается понятие локальной зоны ответственности.

https://habr.com/ru/articles/1022368/

#apache_flink #kafka #mysql #postgresql #distrubuted_architecture #architecture #realtime #analytics

#analytics #realtime #architecture #distrubuted_architecture #postgresql #mysql

Habr @[email protected] · 2026-04-11 · 19:52 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 3 )

Скорее всего читатели знают, но контекста ради. Flink имеет децентрализованный дизайн с распределенной архитектурой, где набор контейнеров ( Task Manager ) несут ответственность за свою локальную зону или не несут? Эта зона в случае разбиения через keyBy размазывается исходя из хэша заданного ключа, посредством чего, Flink гарантирует попадание всех событий с этим ключом на тот же контейнер и также гарантирует сохранение того порядка событий, в котором они доехали до оператора, и, как следствие этот контейнер является мастером-владельцем ключа - отсюда понятие локальной зоны становится оправданным, ведь все хэш пространство размазывается на контейнеры равномерно. Однако, если не использовать keyBy и просто попробовать вызвать что угодно, то будет round-robin распределение и тогда снимается понятие локальной зоны ответственности.

https://habr.com/ru/articles/1022368/

#apache_flink #kafka #mysql #postgresql #distrubuted_architecture #architecture #realtime #analytics

#analytics #realtime #architecture #distrubuted_architecture #postgresql #mysql

Habr @[email protected] · 2026-04-11 · 19:52 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 3 )

Скорее всего читатели знают, но контекста ради. Flink имеет децентрализованный дизайн с распределенной архитектурой, где набор контейнеров ( Task Manager ) несут ответственность за свою локальную зону или не несут? Эта зона в случае разбиения через keyBy размазывается исходя из хэша заданного ключа, посредством чего, Flink гарантирует попадание всех событий с этим ключом на тот же контейнер и также гарантирует сохранение того порядка событий, в котором они доехали до оператора, и, как следствие этот контейнер является мастером-владельцем ключа - отсюда понятие локальной зоны становится оправданным, ведь все хэш пространство размазывается на контейнеры равномерно. Однако, если не использовать keyBy и просто попробовать вызвать что угодно, то будет round-robin распределение и тогда снимается понятие локальной зоны ответственности.

https://habr.com/ru/articles/1022368/

#apache_flink #kafka #mysql #postgresql #distrubuted_architecture #architecture #realtime #analytics

#analytics #realtime #architecture #distrubuted_architecture #postgresql #mysql

Habr @[email protected] · 2026-04-11 · 19:52 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 3 )

Скорее всего читатели знают, но контекста ради. Flink имеет децентрализованный дизайн с распределенной архитектурой, где набор контейнеров ( Task Manager ) несут ответственность за свою локальную зону или не несут? Эта зона в случае разбиения через keyBy размазывается исходя из хэша заданного ключа, посредством чего, Flink гарантирует попадание всех событий с этим ключом на тот же контейнер и также гарантирует сохранение того порядка событий, в котором они доехали до оператора, и, как следствие этот контейнер является мастером-владельцем ключа - отсюда понятие локальной зоны становится оправданным, ведь все хэш пространство размазывается на контейнеры равномерно. Однако, если не использовать keyBy и просто попробовать вызвать что угодно, то будет round-robin распределение и тогда снимается понятие локальной зоны ответственности.

https://habr.com/ru/articles/1022368/

#apache_flink #kafka #mysql #postgresql #distrubuted_architecture #architecture #realtime #analytics

#apache_flink #kafka #mysql #postgresql #distrubuted_architecture #architecture

Habr @[email protected] · 2026-03-02 · 08:42 UTC

Streamhouse на практике: данные за секунды, дашборды — нет

Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:

https://habr.com/ru/articles/1005394/

#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL

#sql #realtime_analytics #lakehouse #starrocks #fluss #apache_paimon

Habr @[email protected] · 2026-03-02 · 08:42 UTC

Streamhouse на практике: данные за секунды, дашборды — нет

Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:

https://habr.com/ru/articles/1005394/

#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL

#sql #realtime_analytics #lakehouse #starrocks #fluss #apache_paimon

Habr @[email protected] · 2026-03-02 · 08:42 UTC

Streamhouse на практике: данные за секунды, дашборды — нет

Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:

https://habr.com/ru/articles/1005394/

#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL

#sql #realtime_analytics #lakehouse #starrocks #fluss #apache_paimon

Habr @[email protected] · 2026-03-02 · 08:42 UTC

Streamhouse на практике: данные за секунды, дашборды — нет

Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:

https://habr.com/ru/articles/1005394/

#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL

#streamhouse #apache_flink #apache_paimon #fluss #starrocks #lakehouse

Habr @[email protected] · 2025-12-25 · 08:42 UTC

Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

https://habr.com/ru/articles/980392/

#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

#olap #microsoft_sql_server #oracle #mysql #postgresql #mongodb

Habr @[email protected] · 2025-12-25 · 08:42 UTC

Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

https://habr.com/ru/articles/980392/

#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

#olap #microsoft_sql_server #oracle #mysql #postgresql #mongodb

Habr @[email protected] · 2025-12-25 · 08:42 UTC

Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

https://habr.com/ru/articles/980392/

#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

#olap #microsoft_sql_server #oracle #mysql #postgresql #mongodb

Habr @[email protected] · 2025-12-25 · 08:42 UTC

Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

https://habr.com/ru/articles/980392/

#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

#etl #apache_flink #apache_kafka #mongodb #postgresql #mysql

Habr @[email protected] · 2025-12-04 · 11:12 UTC

От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.

https://habr.com/ru/articles/973230/

#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache

#datacache #mergecommit #compaction #kafka #apache_flink #разделение_хранения_и_вычислений

Habr @[email protected] · 2025-12-04 · 11:12 UTC

От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.

https://habr.com/ru/articles/973230/

#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache

#datacache #mergecommit #compaction #kafka #apache_flink #разделение_хранения_и_вычислений

Habr @[email protected] · 2025-12-04 · 11:12 UTC

От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.

https://habr.com/ru/articles/973230/

#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache

#datacache #mergecommit #compaction #kafka #apache_flink #разделение_хранения_и_вычислений

Habr @[email protected] · 2025-12-04 · 11:12 UTC

От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.

https://habr.com/ru/articles/973230/

#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache

#starrocks #clickhouse #olap #разделение_хранения_и_вычислений #apache_flink #kafka

Habr @[email protected] · 2025-11-11 · 13:22 UTC

FlinkSQL в Авито: что внутри и как нам это помогает

Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.

https://habr.com/ru/companies/avito/articles/959382/

#Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform

#dataops_platform #dataops #apache_flink #flink_kubernetes_operator #kubernetes_operator #operator

Habr @[email protected] · 2025-11-11 · 13:22 UTC

FlinkSQL в Авито: что внутри и как нам это помогает

Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.

https://habr.com/ru/companies/avito/articles/959382/

#Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform

#dataops_platform #dataops #apache_flink #flink_kubernetes_operator #kubernetes_operator #operator

Habr @[email protected] · 2025-11-11 · 13:22 UTC

FlinkSQL в Авито: что внутри и как нам это помогает

Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.

https://habr.com/ru/companies/avito/articles/959382/

#Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform

#dataops_platform #dataops #apache_flink #flink_kubernetes_operator #kubernetes_operator #operator

Habr @[email protected] · 2025-11-11 · 13:22 UTC

FlinkSQL в Авито: что внутри и как нам это помогает

Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.

https://habr.com/ru/companies/avito/articles/959382/

#Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform

#flink #kubernetes #bigdata #k8s #operator #kubernetes_operator

Habr @[email protected] · 2025-07-31 · 14:02 UTC

Как я строил антифрод-систему для ставок: неожиданные сложности и решения

Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.

https://habr.com/ru/articles/932826/

#Антифродсистема #Мошенничество_в_ставках #Машинное_обучение #обработка_больших_данных #Потоковая_обработка #Apache_Flink #Apache_Kafka #Микросервисы #Система_безопасности #Выявление_аномалий

#выявление_аномалий #система_безопасности #микросервисы #apache_kafka #apache_flink #потоковая_обработка

Habr @[email protected] · 2025-07-31 · 14:02 UTC

Как я строил антифрод-систему для ставок: неожиданные сложности и решения

Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.

https://habr.com/ru/articles/932826/

#Антифродсистема #Мошенничество_в_ставках #Машинное_обучение #обработка_больших_данных #Потоковая_обработка #Apache_Flink #Apache_Kafka #Микросервисы #Система_безопасности #Выявление_аномалий

#выявление_аномалий #система_безопасности #микросервисы #apache_kafka #apache_flink #потоковая_обработка

Habr @[email protected] · 2025-07-31 · 14:02 UTC

Как я строил антифрод-систему для ставок: неожиданные сложности и решения

Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.

https://habr.com/ru/articles/932826/

#Антифродсистема #Мошенничество_в_ставках #Машинное_обучение #обработка_больших_данных #Потоковая_обработка #Apache_Flink #Apache_Kafka #Микросервисы #Система_безопасности #Выявление_аномалий

#выявление_аномалий #система_безопасности #микросервисы #apache_kafka #apache_flink #потоковая_обработка

Habr @[email protected] · 2025-07-31 · 14:02 UTC

Как я строил антифрод-систему для ставок: неожиданные сложности и решения

Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.

https://habr.com/ru/articles/932826/

#Антифродсистема #Мошенничество_в_ставках #Машинное_обучение #обработка_больших_данных #Потоковая_обработка #Apache_Flink #Apache_Kafka #Микросервисы #Система_безопасности #Выявление_аномалий

#антифродсистема #мошенничество_в_ставках #машинное_обучение #обработка_больших_данных #потоковая_обработка #apache_flink

Habr @[email protected] · 2025-07-20 · 07:02 UTC

«Эра Flink 2.0»: что реально меняется в архитектуре real‑time вычислений

Apache Flink 2.0 — первый мажорный релиз после 1.0 (2016), закрывающий многолетний цикл эволюции архитектуры и устраняющий накопленные болевые точки масштабирования потоковых платформ: усложняющуюся конфигурацию, ограниченность локального состояния, разрыв между batch и streaming, устаревшие API и операционную стоимость при росте AI/real‑time сценариев. В команде BitDive мы уже используем Flink 2.0 для низколатентной обработки потоковых метрик и трассировок (агрегация, выделение аномалий) — это позволило ускорить recovery и снизить стоимость вычислений по сравнению с линией 1.20.x.

https://habr.com/ru/articles/929222/

#apache_flink #java #ml #искусственный_интеллект #обработка_данных #потоковые_данные

#потоковые_данные #обработка_данных #искусственный_интеллект #ml #java #apache_flink

Habr @[email protected] · 2025-07-20 · 07:02 UTC

«Эра Flink 2.0»: что реально меняется в архитектуре real‑time вычислений

Apache Flink 2.0 — первый мажорный релиз после 1.0 (2016), закрывающий многолетний цикл эволюции архитектуры и устраняющий накопленные болевые точки масштабирования потоковых платформ: усложняющуюся конфигурацию, ограниченность локального состояния, разрыв между batch и streaming, устаревшие API и операционную стоимость при росте AI/real‑time сценариев. В команде BitDive мы уже используем Flink 2.0 для низколатентной обработки потоковых метрик и трассировок (агрегация, выделение аномалий) — это позволило ускорить recovery и снизить стоимость вычислений по сравнению с линией 1.20.x.

https://habr.com/ru/articles/929222/

#apache_flink #java #ml #искусственный_интеллект #обработка_данных #потоковые_данные

#потоковые_данные #обработка_данных #искусственный_интеллект #ml #java #apache_flink

Habr @[email protected] · 2025-07-20 · 07:02 UTC

«Эра Flink 2.0»: что реально меняется в архитектуре real‑time вычислений

Apache Flink 2.0 — первый мажорный релиз после 1.0 (2016), закрывающий многолетний цикл эволюции архитектуры и устраняющий накопленные болевые точки масштабирования потоковых платформ: усложняющуюся конфигурацию, ограниченность локального состояния, разрыв между batch и streaming, устаревшие API и операционную стоимость при росте AI/real‑time сценариев. В команде BitDive мы уже используем Flink 2.0 для низколатентной обработки потоковых метрик и трассировок (агрегация, выделение аномалий) — это позволило ускорить recovery и снизить стоимость вычислений по сравнению с линией 1.20.x.

https://habr.com/ru/articles/929222/

#apache_flink #java #ml #искусственный_интеллект #обработка_данных #потоковые_данные

#потоковые_данные #обработка_данных #искусственный_интеллект #ml #java #apache_flink

Habr @[email protected] · 2025-07-20 · 07:02 UTC

«Эра Flink 2.0»: что реально меняется в архитектуре real‑time вычислений

Apache Flink 2.0 — первый мажорный релиз после 1.0 (2016), закрывающий многолетний цикл эволюции архитектуры и устраняющий накопленные болевые точки масштабирования потоковых платформ: усложняющуюся конфигурацию, ограниченность локального состояния, разрыв между batch и streaming, устаревшие API и операционную стоимость при росте AI/real‑time сценариев. В команде BitDive мы уже используем Flink 2.0 для низколатентной обработки потоковых метрик и трассировок (агрегация, выделение аномалий) — это позволило ускорить recovery и снизить стоимость вычислений по сравнению с линией 1.20.x.

https://habr.com/ru/articles/929222/

#apache_flink #java #ml #искусственный_интеллект #обработка_данных #потоковые_данные

Habr @[email protected] · 2025-07-15 · 10:52 UTC

Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.

https://habr.com/ru/articles/927862/

#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse

#big_data #kafka #apache_flink #machine_learning #blockchain #data_engineering

Habr @[email protected] · 2025-07-15 · 10:52 UTC

Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.

https://habr.com/ru/articles/927862/

#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse

#big_data #kafka #apache_flink #machine_learning #blockchain #data_engineering

Habr @[email protected] · 2025-07-15 · 10:52 UTC

Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.

https://habr.com/ru/articles/927862/

#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse

#big_data #kafka #apache_flink #machine_learning #blockchain #data_engineering

Habr @[email protected] · 2025-07-15 · 10:52 UTC

Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.

https://habr.com/ru/articles/927862/

#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse

#clickhouse #slippage_monitoring #security_analytics #realtime_processing #data_engineering #blockchain

Habr @[email protected] · 2025-05-10 · 12:02 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

https://habr.com/ru/articles/908220/

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

#cdc #kafka #debezium #big_data_architecture #architecture #big_data_solutions

Habr @[email protected] · 2025-05-10 · 12:02 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

https://habr.com/ru/articles/908220/

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

#cdc #kafka #debezium #big_data_architecture #architecture #big_data_solutions

Habr @[email protected] · 2025-05-10 · 12:02 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

https://habr.com/ru/articles/908220/

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

#cdc #kafka #debezium #big_data_architecture #architecture #big_data_solutions

Habr @[email protected] · 2025-05-10 · 12:02 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

https://habr.com/ru/articles/908220/

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture

Habr @[email protected] · 2025-05-07 · 13:32 UTC

Join таблиц в реальном времени на Apache Flink

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join , а также паттерны дедупликации. Уделено внимание использованию KeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.

https://habr.com/ru/articles/907664/

#apache_flink #bigdata #java #data_engineering

Habr @[email protected] · 2025-05-07 · 13:32 UTC

Join таблиц в реальном времени на Apache Flink

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join , а также паттерны дедупликации. Уделено внимание использованию KeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.

https://habr.com/ru/articles/907664/

#apache_flink #bigdata #java #data_engineering

Habr @[email protected] · 2025-05-07 · 13:32 UTC

Join таблиц в реальном времени на Apache Flink

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join , а также паттерны дедупликации. Уделено внимание использованию KeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.

https://habr.com/ru/articles/907664/

#apache_flink #bigdata #java #data_engineering

Habr @[email protected] · 2025-05-07 · 13:32 UTC

Join таблиц в реальном времени на Apache Flink

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join , а также паттерны дедупликации. Уделено внимание использованию KeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.

https://habr.com/ru/articles/907664/

#apache_flink #bigdata #java #data_engineering

#data_engineering #java #bigdata #apache_flink

Habr @[email protected] · 2025-04-15 · 15:22 UTC

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.

https://habr.com/ru/companies/ru_mts/articles/898636/

#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator

#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics

Habr @[email protected] · 2025-04-15 · 15:22 UTC

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.

https://habr.com/ru/companies/ru_mts/articles/898636/

#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator

#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics

Habr @[email protected] · 2025-04-15 · 15:22 UTC

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.

https://habr.com/ru/companies/ru_mts/articles/898636/

#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator

#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics

Habr @[email protected] · 2025-04-15 · 15:22 UTC

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.

https://habr.com/ru/companies/ru_mts/articles/898636/

#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator

#flinkkubernetesoperator #minio #data_engineering #realtime_analytics #распределенные_вычисления #big_data

Habr @[email protected] · 2024-11-07 · 14:12 UTC

Apache Flink: Сериализация и JacksonStateSerializer

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты. В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение. Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer . По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

https://habr.com/ru/companies/ru_mts/articles/856774/

#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация #JacksonStateSerializer #TypeSerializerSnapshot #TypeSerializer #эволюция_схемы

#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация

Habr @[email protected] · 2024-11-07 · 14:12 UTC

Apache Flink: Сериализация и JacksonStateSerializer

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты. В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение. Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer . По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

https://habr.com/ru/companies/ru_mts/articles/856774/

#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация #JacksonStateSerializer #TypeSerializerSnapshot #TypeSerializer #эволюция_схемы

#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация

Habr @[email protected] · 2024-11-07 · 14:12 UTC

Apache Flink: Сериализация и JacksonStateSerializer

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты. В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение. Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer . По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

https://habr.com/ru/companies/ru_mts/articles/856774/

#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация #JacksonStateSerializer #TypeSerializerSnapshot #TypeSerializer #эволюция_схемы

#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация

Habr @[email protected] · 2024-11-07 · 14:12 UTC

Apache Flink: Сериализация и JacksonStateSerializer

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты. В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение. Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer . По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

https://habr.com/ru/companies/ru_mts/articles/856774/

#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация #JacksonStateSerializer #TypeSerializerSnapshot #TypeSerializer #эволюция_схемы

#эволюция_схемы #typeserializer #typeserializersnapshot #jacksonstateserializer #сериализация #apache_flink

Habr @[email protected] · 2024-10-24 · 15:42 UTC

Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой пайплайн позволяет создавать вызов через определенное время после обработки события. В этом посте я расскажу, как можно протестировать операторы с таймерами и какие подводные камни могут возникнуть. Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/8_Test_for_Trigger_Flink_Job . Это мой девятый материал про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже. Список моих статей про Flink:

https://habr.com/ru/companies/ru_mts/articles/853200/

#java #bigdata #распределенные_системы #data_engineering #kafka #apache_flink

Habr @[email protected] · 2024-10-24 · 15:42 UTC

Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой пайплайн позволяет создавать вызов через определенное время после обработки события. В этом посте я расскажу, как можно протестировать операторы с таймерами и какие подводные камни могут возникнуть. Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/8_Test_for_Trigger_Flink_Job . Это мой девятый материал про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже. Список моих статей про Flink:

https://habr.com/ru/companies/ru_mts/articles/853200/

#java #bigdata #распределенные_системы #data_engineering #kafka #apache_flink