home.social

#apache_flink — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #apache_flink, aggregated by home.social.

  1. Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

    В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

    habr.com/ru/articles/980392/

    #ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

  2. Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

    В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

    habr.com/ru/articles/980392/

    #ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

  3. Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

    В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

    habr.com/ru/articles/980392/

    #ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

  4. Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

    В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

    habr.com/ru/articles/980392/

    #ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

  5. FlinkSQL в Авито: что внутри и как нам это помогает

    Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.

    habr.com/ru/companies/avito/ar

    #Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform

  6. Как я строил антифрод-систему для ставок: неожиданные сложности и решения

    Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.

    habr.com/ru/articles/932826/

    #Антифродсистема #Мошенничество_в_ставках #Машинное_обучение #обработка_больших_данных #Потоковая_обработка #Apache_Flink #Apache_Kafka #Микросервисы #Система_безопасности #Выявление_аномалий

  7. Join таблиц в реальном времени на Apache Flink ( Часть 2 )

    В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

    habr.com/ru/articles/908220/

    #java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

  8. Как провести unit-тестирование Flink-операторов: TestHarness

    Привет всем, на связи снова Александр Бобряков, техлид в команде МТС Аналитики. Продолжаем цикл статей про фреймворк Apache Flink. Напомню, в предыдущих частях я рассказывал про построение пайплайна Kafka-to-Kafka с промежуточным разделением потока и дедупликацией событий. Также в предыдущей статье я рассказал, как можно динамически определить выходной Kafka-топик для каждого отправляемого события. Начиная с этой статьи начнём разбирать, как тестировать всё наше приложение Flink + Spring. Многие описанные подходы вполне применимы и в любом другом обычном Spring-приложении, поэтому, надеюсь, вы найдёте для себя что-то новое. В данной статье мы рассмотрим, как протестировать stateless- и stateful-операторы Flink с помощью абстракций TestHarness.

    habr.com/ru/companies/ru_mts/a

    #java #big_data #data_engineering #распределенные_системы #дедупликация #apache_flink