#realtime_analytics — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #realtime_analytics, aggregated by home.social.
-
Streamhouse на практике: данные за секунды, дашборды — нет
Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:
https://habr.com/ru/articles/1005394/
#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL
-
Streamhouse на практике: данные за секунды, дашборды — нет
Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:
https://habr.com/ru/articles/1005394/
#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL
-
Streamhouse на практике: данные за секунды, дашборды — нет
Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:
https://habr.com/ru/articles/1005394/
#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL
-
Streamhouse на практике: данные за секунды, дашборды — нет
Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:
https://habr.com/ru/articles/1005394/
#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL
-
Medallion в ClickHouse: DWH без миграций схемы
Десять запросов — и ты уже думаешь об индексах. Тысячи запросов — и начинаешь молиться на базу. Миллионы строк — и ищешь, как поделить данные на кластера. А триллионы? Ты уже не инженер. Ты смотритель в зоопарке. И пока ты строишь этот цирк из движков, ответ был прямо перед тобой. В том самом «движке для отчётов», который уже стоит у тебя в углу. Может, покончить со зверинцем БД? Логи, метрики, векторы, живые данные — можно просто положить в один движок. И он давно у вас есть, и, кажется, пора дать ему работать.
https://habr.com/ru/articles/991588/
#ClickHouse #PostgreSQL #Data_Engineering #DWH #Medallion_Architecture #ETL #PeerDB #Realtime_analytics #Data_Vault
-
Medallion в ClickHouse: DWH без миграций схемы
Десять запросов — и ты уже думаешь об индексах. Тысячи запросов — и начинаешь молиться на базу. Миллионы строк — и ищешь, как поделить данные на кластера. А триллионы? Ты уже не инженер. Ты смотритель в зоопарке. И пока ты строишь этот цирк из движков, ответ был прямо перед тобой. В том самом «движке для отчётов», который уже стоит у тебя в углу. Может, покончить со зверинцем БД? Логи, метрики, векторы, живые данные — можно просто положить в один движок. И он давно у вас есть, и, кажется, пора дать ему работать.
https://habr.com/ru/articles/991588/
#ClickHouse #PostgreSQL #Data_Engineering #DWH #Medallion_Architecture #ETL #PeerDB #Realtime_analytics #Data_Vault
-
Medallion в ClickHouse: DWH без миграций схемы
Десять запросов — и ты уже думаешь об индексах. Тысячи запросов — и начинаешь молиться на базу. Миллионы строк — и ищешь, как поделить данные на кластера. А триллионы? Ты уже не инженер. Ты смотритель в зоопарке. И пока ты строишь этот цирк из движков, ответ был прямо перед тобой. В том самом «движке для отчётов», который уже стоит у тебя в углу. Может, покончить со зверинцем БД? Логи, метрики, векторы, живые данные — можно просто положить в один движок. И он давно у вас есть, и, кажется, пора дать ему работать.
https://habr.com/ru/articles/991588/
#ClickHouse #PostgreSQL #Data_Engineering #DWH #Medallion_Architecture #ETL #PeerDB #Realtime_analytics #Data_Vault
-
Medallion в ClickHouse: DWH без миграций схемы
Десять запросов — и ты уже думаешь об индексах. Тысячи запросов — и начинаешь молиться на базу. Миллионы строк — и ищешь, как поделить данные на кластера. А триллионы? Ты уже не инженер. Ты смотритель в зоопарке. И пока ты строишь этот цирк из движков, ответ был прямо перед тобой. В том самом «движке для отчётов», который уже стоит у тебя в углу. Может, покончить со зверинцем БД? Логи, метрики, векторы, живые данные — можно просто положить в один движок. И он давно у вас есть, и, кажется, пора дать ему работать.
https://habr.com/ru/articles/991588/
#ClickHouse #PostgreSQL #Data_Engineering #DWH #Medallion_Architecture #ETL #PeerDB #Realtime_analytics #Data_Vault
-
От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello
Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.
https://habr.com/ru/articles/970388/
#StarRocks #ClickHouse #Big_Data #OLAP #миграция_данных #realtime_analytics #Data_Lake #Flink #оптимизация #DWH
-
Стриминг Apache Flink из MongoDB в PostgreSQL на Python
Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.
https://habr.com/ru/companies/ru_mts/articles/898636/
#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator