#apache_flink — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #apache_flink, aggregated by home.social.
-
Join таблиц в реальном времени на Apache Flink ( Часть 3 )
Скорее всего читатели знают, но контекста ради. Flink имеет децентрализованный дизайн с распределенной архитектурой, где набор контейнеров ( Task Manager ) несут ответственность за свою локальную зону или не несут? Эта зона в случае разбиения через keyBy размазывается исходя из хэша заданного ключа, посредством чего, Flink гарантирует попадание всех событий с этим ключом на тот же контейнер и также гарантирует сохранение того порядка событий, в котором они доехали до оператора, и, как следствие этот контейнер является мастером-владельцем ключа - отсюда понятие локальной зоны становится оправданным, ведь все хэш пространство размазывается на контейнеры равномерно. Однако, если не использовать keyBy и просто попробовать вызвать что угодно, то будет round-robin распределение и тогда снимается понятие локальной зоны ответственности.
https://habr.com/ru/articles/1022368/
#apache_flink #kafka #mysql #postgresql #distrubuted_architecture #architecture #realtime #analytics
-
Join таблиц в реальном времени на Apache Flink ( Часть 3 )
Скорее всего читатели знают, но контекста ради. Flink имеет децентрализованный дизайн с распределенной архитектурой, где набор контейнеров ( Task Manager ) несут ответственность за свою локальную зону или не несут? Эта зона в случае разбиения через keyBy размазывается исходя из хэша заданного ключа, посредством чего, Flink гарантирует попадание всех событий с этим ключом на тот же контейнер и также гарантирует сохранение того порядка событий, в котором они доехали до оператора, и, как следствие этот контейнер является мастером-владельцем ключа - отсюда понятие локальной зоны становится оправданным, ведь все хэш пространство размазывается на контейнеры равномерно. Однако, если не использовать keyBy и просто попробовать вызвать что угодно, то будет round-robin распределение и тогда снимается понятие локальной зоны ответственности.
https://habr.com/ru/articles/1022368/
#apache_flink #kafka #mysql #postgresql #distrubuted_architecture #architecture #realtime #analytics
-
Join таблиц в реальном времени на Apache Flink ( Часть 3 )
Скорее всего читатели знают, но контекста ради. Flink имеет децентрализованный дизайн с распределенной архитектурой, где набор контейнеров ( Task Manager ) несут ответственность за свою локальную зону или не несут? Эта зона в случае разбиения через keyBy размазывается исходя из хэша заданного ключа, посредством чего, Flink гарантирует попадание всех событий с этим ключом на тот же контейнер и также гарантирует сохранение того порядка событий, в котором они доехали до оператора, и, как следствие этот контейнер является мастером-владельцем ключа - отсюда понятие локальной зоны становится оправданным, ведь все хэш пространство размазывается на контейнеры равномерно. Однако, если не использовать keyBy и просто попробовать вызвать что угодно, то будет round-robin распределение и тогда снимается понятие локальной зоны ответственности.
https://habr.com/ru/articles/1022368/
#apache_flink #kafka #mysql #postgresql #distrubuted_architecture #architecture #realtime #analytics
-
Join таблиц в реальном времени на Apache Flink ( Часть 3 )
Скорее всего читатели знают, но контекста ради. Flink имеет децентрализованный дизайн с распределенной архитектурой, где набор контейнеров ( Task Manager ) несут ответственность за свою локальную зону или не несут? Эта зона в случае разбиения через keyBy размазывается исходя из хэша заданного ключа, посредством чего, Flink гарантирует попадание всех событий с этим ключом на тот же контейнер и также гарантирует сохранение того порядка событий, в котором они доехали до оператора, и, как следствие этот контейнер является мастером-владельцем ключа - отсюда понятие локальной зоны становится оправданным, ведь все хэш пространство размазывается на контейнеры равномерно. Однако, если не использовать keyBy и просто попробовать вызвать что угодно, то будет round-robin распределение и тогда снимается понятие локальной зоны ответственности.
https://habr.com/ru/articles/1022368/
#apache_flink #kafka #mysql #postgresql #distrubuted_architecture #architecture #realtime #analytics
-
Streamhouse на практике: данные за секунды, дашборды — нет
Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:
https://habr.com/ru/articles/1005394/
#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL
-
Streamhouse на практике: данные за секунды, дашборды — нет
Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:
https://habr.com/ru/articles/1005394/
#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL
-
Streamhouse на практике: данные за секунды, дашборды — нет
Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:
https://habr.com/ru/articles/1005394/
#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL
-
Streamhouse на практике: данные за секунды, дашборды — нет
Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:
https://habr.com/ru/articles/1005394/
#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL
-
Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks
В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.
https://habr.com/ru/articles/980392/
#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP
-
Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks
В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.
https://habr.com/ru/articles/980392/
#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP
-
Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks
В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.
https://habr.com/ru/articles/980392/
#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP
-
Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks
В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.
https://habr.com/ru/articles/980392/
#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP
-
От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip
This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.
https://habr.com/ru/articles/973230/
#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache
-
От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip
This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.
https://habr.com/ru/articles/973230/
#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache
-
От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip
This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.
https://habr.com/ru/articles/973230/
#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache
-
От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip
This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.
https://habr.com/ru/articles/973230/
#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache
-
FlinkSQL в Авито: что внутри и как нам это помогает
Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.
https://habr.com/ru/companies/avito/articles/959382/
#Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform
-
FlinkSQL в Авито: что внутри и как нам это помогает
Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.
https://habr.com/ru/companies/avito/articles/959382/
#Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform
-
FlinkSQL в Авито: что внутри и как нам это помогает
Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.
https://habr.com/ru/companies/avito/articles/959382/
#Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform
-
FlinkSQL в Авито: что внутри и как нам это помогает
Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.
https://habr.com/ru/companies/avito/articles/959382/
#Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform
-
Как я строил антифрод-систему для ставок: неожиданные сложности и решения
Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.
https://habr.com/ru/articles/932826/
#Антифродсистема #Мошенничество_в_ставках #Машинное_обучение #обработка_больших_данных #Потоковая_обработка #Apache_Flink #Apache_Kafka #Микросервисы #Система_безопасности #Выявление_аномалий
-
Как я строил антифрод-систему для ставок: неожиданные сложности и решения
Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.
https://habr.com/ru/articles/932826/
#Антифродсистема #Мошенничество_в_ставках #Машинное_обучение #обработка_больших_данных #Потоковая_обработка #Apache_Flink #Apache_Kafka #Микросервисы #Система_безопасности #Выявление_аномалий
-
Как я строил антифрод-систему для ставок: неожиданные сложности и решения
Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.
https://habr.com/ru/articles/932826/
#Антифродсистема #Мошенничество_в_ставках #Машинное_обучение #обработка_больших_данных #Потоковая_обработка #Apache_Flink #Apache_Kafka #Микросервисы #Система_безопасности #Выявление_аномалий
-
Как я строил антифрод-систему для ставок: неожиданные сложности и решения
Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.
https://habr.com/ru/articles/932826/
#Антифродсистема #Мошенничество_в_ставках #Машинное_обучение #обработка_больших_данных #Потоковая_обработка #Apache_Flink #Apache_Kafka #Микросервисы #Система_безопасности #Выявление_аномалий
-
«Эра Flink 2.0»: что реально меняется в архитектуре real‑time вычислений
Apache Flink 2.0 — первый мажорный релиз после 1.0 (2016), закрывающий многолетний цикл эволюции архитектуры и устраняющий накопленные болевые точки масштабирования потоковых платформ: усложняющуюся конфигурацию, ограниченность локального состояния, разрыв между batch и streaming, устаревшие API и операционную стоимость при росте AI/real‑time сценариев. В команде BitDive мы уже используем Flink 2.0 для низколатентной обработки потоковых метрик и трассировок (агрегация, выделение аномалий) — это позволило ускорить recovery и снизить стоимость вычислений по сравнению с линией 1.20.x.
https://habr.com/ru/articles/929222/
#apache_flink #java #ml #искусственный_интеллект #обработка_данных #потоковые_данные
-
«Эра Flink 2.0»: что реально меняется в архитектуре real‑time вычислений
Apache Flink 2.0 — первый мажорный релиз после 1.0 (2016), закрывающий многолетний цикл эволюции архитектуры и устраняющий накопленные болевые точки масштабирования потоковых платформ: усложняющуюся конфигурацию, ограниченность локального состояния, разрыв между batch и streaming, устаревшие API и операционную стоимость при росте AI/real‑time сценариев. В команде BitDive мы уже используем Flink 2.0 для низколатентной обработки потоковых метрик и трассировок (агрегация, выделение аномалий) — это позволило ускорить recovery и снизить стоимость вычислений по сравнению с линией 1.20.x.
https://habr.com/ru/articles/929222/
#apache_flink #java #ml #искусственный_интеллект #обработка_данных #потоковые_данные
-
«Эра Flink 2.0»: что реально меняется в архитектуре real‑time вычислений
Apache Flink 2.0 — первый мажорный релиз после 1.0 (2016), закрывающий многолетний цикл эволюции архитектуры и устраняющий накопленные болевые точки масштабирования потоковых платформ: усложняющуюся конфигурацию, ограниченность локального состояния, разрыв между batch и streaming, устаревшие API и операционную стоимость при росте AI/real‑time сценариев. В команде BitDive мы уже используем Flink 2.0 для низколатентной обработки потоковых метрик и трассировок (агрегация, выделение аномалий) — это позволило ускорить recovery и снизить стоимость вычислений по сравнению с линией 1.20.x.
https://habr.com/ru/articles/929222/
#apache_flink #java #ml #искусственный_интеллект #обработка_данных #потоковые_данные
-
«Эра Flink 2.0»: что реально меняется в архитектуре real‑time вычислений
Apache Flink 2.0 — первый мажорный релиз после 1.0 (2016), закрывающий многолетний цикл эволюции архитектуры и устраняющий накопленные болевые точки масштабирования потоковых платформ: усложняющуюся конфигурацию, ограниченность локального состояния, разрыв между batch и streaming, устаревшие API и операционную стоимость при росте AI/real‑time сценариев. В команде BitDive мы уже используем Flink 2.0 для низколатентной обработки потоковых метрик и трассировок (агрегация, выделение аномалий) — это позволило ускорить recovery и снизить стоимость вычислений по сравнению с линией 1.20.x.
https://habr.com/ru/articles/929222/
#apache_flink #java #ml #искусственный_интеллект #обработка_данных #потоковые_данные
-
Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto
В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.
https://habr.com/ru/articles/927862/
#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse
-
Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto
В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.
https://habr.com/ru/articles/927862/
#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse
-
Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto
В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.
https://habr.com/ru/articles/927862/
#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse
-
Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto
В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.
https://habr.com/ru/articles/927862/
#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse
-
Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.
https://habr.com/ru/articles/908220/
#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc
-
Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.
https://habr.com/ru/articles/908220/
#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc
-
Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.
https://habr.com/ru/articles/908220/
#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc
-
Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.
https://habr.com/ru/articles/908220/
#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc
-
Join таблиц в реальном времени на Apache Flink
Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join , а также паттерны дедупликации. Уделено внимание использованию KeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.
-
Join таблиц в реальном времени на Apache Flink
Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join , а также паттерны дедупликации. Уделено внимание использованию KeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.
-
Join таблиц в реальном времени на Apache Flink
Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join , а также паттерны дедупликации. Уделено внимание использованию KeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.
-
Join таблиц в реальном времени на Apache Flink
Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join , а также паттерны дедупликации. Уделено внимание использованию KeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.
-
Стриминг Apache Flink из MongoDB в PostgreSQL на Python
Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.
https://habr.com/ru/companies/ru_mts/articles/898636/
#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator
-
Стриминг Apache Flink из MongoDB в PostgreSQL на Python
Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.
https://habr.com/ru/companies/ru_mts/articles/898636/
#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator
-
Стриминг Apache Flink из MongoDB в PostgreSQL на Python
Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.
https://habr.com/ru/companies/ru_mts/articles/898636/
#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator
-
Стриминг Apache Flink из MongoDB в PostgreSQL на Python
Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.
https://habr.com/ru/companies/ru_mts/articles/898636/
#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator
-
Apache Flink: Сериализация и JacksonStateSerializer
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты. В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение. Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer . По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.
https://habr.com/ru/companies/ru_mts/articles/856774/
#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация #JacksonStateSerializer #TypeSerializerSnapshot #TypeSerializer #эволюция_схемы
-
Apache Flink: Сериализация и JacksonStateSerializer
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты. В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение. Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer . По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.
https://habr.com/ru/companies/ru_mts/articles/856774/
#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация #JacksonStateSerializer #TypeSerializerSnapshot #TypeSerializer #эволюция_схемы
-
Apache Flink: Сериализация и JacksonStateSerializer
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты. В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение. Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer . По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.
https://habr.com/ru/companies/ru_mts/articles/856774/
#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация #JacksonStateSerializer #TypeSerializerSnapshot #TypeSerializer #эволюция_схемы
-
Apache Flink: Сериализация и JacksonStateSerializer
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты. В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение. Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer . По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.
https://habr.com/ru/companies/ru_mts/articles/856774/
#java #big_data #data_engineering #распределенные_системы #apache_flink #сериализация #JacksonStateSerializer #TypeSerializerSnapshot #TypeSerializer #эволюция_схемы
-
Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой пайплайн позволяет создавать вызов через определенное время после обработки события. В этом посте я расскажу, как можно протестировать операторы с таймерами и какие подводные камни могут возникнуть. Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/8_Test_for_Trigger_Flink_Job . Это мой девятый материал про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже. Список моих статей про Flink:
https://habr.com/ru/companies/ru_mts/articles/853200/
#java #bigdata #распределенные_системы #data_engineering #kafka #apache_flink
-
Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой пайплайн позволяет создавать вызов через определенное время после обработки события. В этом посте я расскажу, как можно протестировать операторы с таймерами и какие подводные камни могут возникнуть. Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring . В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/8_Test_for_Trigger_Flink_Job . Это мой девятый материал про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже. Список моих статей про Flink:
https://habr.com/ru/companies/ru_mts/articles/853200/
#java #bigdata #распределенные_системы #data_engineering #kafka #apache_flink