#clickhouse — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #clickhouse, aggregated by home.social.
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail
В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.
https://habr.com/ru/companies/vktech/articles/1032686/
#big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech
-
ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой
Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.
https://habr.com/ru/companies/otus/articles/1022158/
#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных
-
ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой
Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.
https://habr.com/ru/companies/otus/articles/1022158/
#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных
-
ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой
Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.
https://habr.com/ru/companies/otus/articles/1022158/
#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных
-
ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой
Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.
https://habr.com/ru/companies/otus/articles/1022158/
#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных
-
Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков
Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?
https://habr.com/ru/articles/1025328/
#BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset
-
Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков
Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?
https://habr.com/ru/articles/1025328/
#BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset
-
Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков
Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?
https://habr.com/ru/articles/1025328/
#BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset
-
Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков
Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?
https://habr.com/ru/articles/1025328/
#BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset
-
Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL
Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.
https://habr.com/ru/articles/1022460/
#clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python
-
ClickHouse не тормозит, но не умеет джойнить. Убиваем миф
Есть один миф про ClickHouse - он плохо джойнит. Подавляющее большинство не знает, с чем это утверждение связано, и просто верят на слово. А дальше срабатывает эффект сарафанного радио. В итоге в IT-сообществе есть твердое убеждение, что ClickHouse плохо джойнит. Но для меня апогеем стала статья от школы обучения программированию , в которой написано, что ClickHouse вообще не умеет джойнить:
-
Как мы отслеживаем производительность веб-сервисов, или Дело «Скорости»
Салют, Хабр! Я Паша, вхожу в группу обеспечения производительности интерфейсов. Эту статью мы написали с Сергеем @TrueNort — руководителем группы. В SberDevices её называют командой «Скорость». Под надзором «Скорости» более двадцати веб-сервисов, каждый из которых должен работать быстро и точно. А значит, нужна система мониторинга производительности с гибкими настройками, чуткой реакцией на изменения и оперативными сообщениями о проблемах. В статье расскажем, зачем мы нормируем метрики логарифмами, как скрипт превращает данные из ClickHouse в алёрты и как удобнее отображать данные. Словом, поделимся нашим опытом контроля производительности веб-ресурсов.
https://habr.com/ru/companies/sberdevices/articles/1006020/
#sber #вебресурсы #Grafana #ClickHouse #GigaChat #фронтенд #производительность #Core_Web_Vitals
-
Как мы отслеживаем производительность веб-сервисов, или Дело «Скорости»
Салют, Хабр! Я Паша, вхожу в группу обеспечения производительности интерфейсов. Эту статью мы написали с Сергеем @TrueNort — руководителем группы. В SberDevices её называют командой «Скорость». Под надзором «Скорости» более двадцати веб-сервисов, каждый из которых должен работать быстро и точно. А значит, нужна система мониторинга производительности с гибкими настройками, чуткой реакцией на изменения и оперативными сообщениями о проблемах. В статье расскажем, зачем мы нормируем метрики логарифмами, как скрипт превращает данные из ClickHouse в алёрты и как удобнее отображать данные. Словом, поделимся нашим опытом контроля производительности веб-ресурсов.
https://habr.com/ru/companies/sberdevices/articles/1006020/
#sber #вебресурсы #Grafana #ClickHouse #GigaChat #фронтенд #производительность #Core_Web_Vitals
-
Как мы отслеживаем производительность веб-сервисов, или Дело «Скорости»
Салют, Хабр! Я Паша, вхожу в группу обеспечения производительности интерфейсов. Эту статью мы написали с Сергеем @TrueNort — руководителем группы. В SberDevices её называют командой «Скорость». Под надзором «Скорости» более двадцати веб-сервисов, каждый из которых должен работать быстро и точно. А значит, нужна система мониторинга производительности с гибкими настройками, чуткой реакцией на изменения и оперативными сообщениями о проблемах. В статье расскажем, зачем мы нормируем метрики логарифмами, как скрипт превращает данные из ClickHouse в алёрты и как удобнее отображать данные. Словом, поделимся нашим опытом контроля производительности веб-ресурсов.
https://habr.com/ru/companies/sberdevices/articles/1006020/
#sber #вебресурсы #Grafana #ClickHouse #GigaChat #фронтенд #производительность #Core_Web_Vitals
-
Как мы отслеживаем производительность веб-сервисов, или Дело «Скорости»
Салют, Хабр! Я Паша, вхожу в группу обеспечения производительности интерфейсов. Эту статью мы написали с Сергеем @TrueNort — руководителем группы. В SberDevices её называют командой «Скорость». Под надзором «Скорости» более двадцати веб-сервисов, каждый из которых должен работать быстро и точно. А значит, нужна система мониторинга производительности с гибкими настройками, чуткой реакцией на изменения и оперативными сообщениями о проблемах. В статье расскажем, зачем мы нормируем метрики логарифмами, как скрипт превращает данные из ClickHouse в алёрты и как удобнее отображать данные. Словом, поделимся нашим опытом контроля производительности веб-ресурсов.
https://habr.com/ru/companies/sberdevices/articles/1006020/
#sber #вебресурсы #Grafana #ClickHouse #GigaChat #фронтенд #производительность #Core_Web_Vitals
-
Оптимизация кода 1С и архитектуры вместо покупки железа (конкретная история)
За 15 лет в разработке и анализе производительности 1С я понял одну простую, но неприятную вещь: когда высоконагруженная система начинает тупить, мы инстинктивно виним платформу, железо или СУБД. Но в реальности, даже на тяжёлых бэкендах с тысячами пользователей, узкое горлышко — это почти всегда наш собственный код. Сегодня я расскажу, как мы построили систему мониторинга своими руками, сэкономили 20% на железе (которого у нас, к слову, не «терабайты и сотни ядер», а вполне вменяемые конфигурации) и почему стандартный APDEX может нагло врать вам в лицо. — Платформа 1С 8.3.24. — СУБД Postgres Pro. — Больше 40 серверов 1С в разных контурах (внутренний для сотрудников, внешний для поставщиков). — В пике — более 4000 пользователей. Ежечасно (!) крутятся тысячи фоновых заданий и сотни интеграционных сценариев.
https://habr.com/ru/companies/greenatom/articles/1003544/
#Рostgres_Pro #ClickHouse #оптимизация_кода #производительность #мониторинг_систем #SQLзапросы #RLS #APDEX
-
Оптимизация кода 1С и архитектуры вместо покупки железа (конкретная история)
За 15 лет в разработке и анализе производительности 1С я понял одну простую, но неприятную вещь: когда высоконагруженная система начинает тупить, мы инстинктивно виним платформу, железо или СУБД. Но в реальности, даже на тяжёлых бэкендах с тысячами пользователей, узкое горлышко — это почти всегда наш собственный код. Сегодня я расскажу, как мы построили систему мониторинга своими руками, сэкономили 20% на железе (которого у нас, к слову, не «терабайты и сотни ядер», а вполне вменяемые конфигурации) и почему стандартный APDEX может нагло врать вам в лицо. — Платформа 1С 8.3.24. — СУБД Postgres Pro. — Больше 40 серверов 1С в разных контурах (внутренний для сотрудников, внешний для поставщиков). — В пике — более 4000 пользователей. Ежечасно (!) крутятся тысячи фоновых заданий и сотни интеграционных сценариев.
https://habr.com/ru/companies/greenatom/articles/1003544/
#Рostgres_Pro #ClickHouse #оптимизация_кода #производительность #мониторинг_систем #SQLзапросы #RLS #APDEX
-
Оптимизация кода 1С и архитектуры вместо покупки железа (конкретная история)
За 15 лет в разработке и анализе производительности 1С я понял одну простую, но неприятную вещь: когда высоконагруженная система начинает тупить, мы инстинктивно виним платформу, железо или СУБД. Но в реальности, даже на тяжёлых бэкендах с тысячами пользователей, узкое горлышко — это почти всегда наш собственный код. Сегодня я расскажу, как мы построили систему мониторинга своими руками, сэкономили 20% на железе (которого у нас, к слову, не «терабайты и сотни ядер», а вполне вменяемые конфигурации) и почему стандартный APDEX может нагло врать вам в лицо. — Платформа 1С 8.3.24. — СУБД Postgres Pro. — Больше 40 серверов 1С в разных контурах (внутренний для сотрудников, внешний для поставщиков). — В пике — более 4000 пользователей. Ежечасно (!) крутятся тысячи фоновых заданий и сотни интеграционных сценариев.
https://habr.com/ru/companies/greenatom/articles/1003544/
#Рostgres_Pro #ClickHouse #оптимизация_кода #производительность #мониторинг_систем #SQLзапросы #RLS #APDEX
-
Оптимизация кода 1С и архитектуры вместо покупки железа (конкретная история)
За 15 лет в разработке и анализе производительности 1С я понял одну простую, но неприятную вещь: когда высоконагруженная система начинает тупить, мы инстинктивно виним платформу, железо или СУБД. Но в реальности, даже на тяжёлых бэкендах с тысячами пользователей, узкое горлышко — это почти всегда наш собственный код. Сегодня я расскажу, как мы построили систему мониторинга своими руками, сэкономили 20% на железе (которого у нас, к слову, не «терабайты и сотни ядер», а вполне вменяемые конфигурации) и почему стандартный APDEX может нагло врать вам в лицо. — Платформа 1С 8.3.24. — СУБД Postgres Pro. — Больше 40 серверов 1С в разных контурах (внутренний для сотрудников, внешний для поставщиков). — В пике — более 4000 пользователей. Ежечасно (!) крутятся тысячи фоновых заданий и сотни интеграционных сценариев.
https://habr.com/ru/companies/greenatom/articles/1003544/
#Рostgres_Pro #ClickHouse #оптимизация_кода #производительность #мониторинг_систем #SQLзапросы #RLS #APDEX
-
Medallion в ClickHouse: DWH без миграций схемы
Десять запросов — и ты уже думаешь об индексах. Тысячи запросов — и начинаешь молиться на базу. Миллионы строк — и ищешь, как поделить данные на кластера. А триллионы? Ты уже не инженер. Ты смотритель в зоопарке. И пока ты строишь этот цирк из движков, ответ был прямо перед тобой. В том самом «движке для отчётов», который уже стоит у тебя в углу. Может, покончить со зверинцем БД? Логи, метрики, векторы, живые данные — можно просто положить в один движок. И он давно у вас есть, и, кажется, пора дать ему работать.
https://habr.com/ru/articles/991588/
#ClickHouse #PostgreSQL #Data_Engineering #DWH #Medallion_Architecture #ETL #PeerDB #Realtime_analytics #Data_Vault
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Проверяем популярные движки вычислений на задаче BI-доступа с помощью теста ClickBench
В сегодняшней публикации мы попробуем разобраться в производительности популярных MPP-движков в специализированной задаче ХД – предоставлении доступа к денормализованной витрине данных. Также ответим на вопрос: нужен ли ClickHouse в аналитическом ландшафте, спроектированном по принципу Lakehouse-платформ? Для этого будем использовать бенчмарк ClickBench. ClickBench появился не так давно, в 2022 году. Методика создана и поддерживается командой ClickHouse. Авторы позиционируют его следующим образом - «Этот бенчмарк представляет типичную рабочую нагрузку в следующих областях: анализ потоков кликов и трафика, веб-аналитика, машинно-генерируемые данные, структурированные журналы и данные о событиях. Он охватывает типичные запросы в ad-hoc аналитике и дашбордах реального времени». Последний сценарий вызывает у нас особый интерес, ведь редко встретишь архитектурный дизайн аналитического ландшафта, где не было бы решения на базе ClickHouse именно для этой цели, на вершине пирамиды тракта данных от источника до потребителя.
-
Inside PostHog: SSRF, ClickHouse SQL Escape and Default Postgres Creds to RCE
#HackerNews #InsidePostHog #SSRF #ClickHouse #RCE #Cybersecurity
-
Как автоматизировать загрузку данных в DWH и не сойти с ума
Привет! Меня зовут Андрей, я Data Engineer в компании GRI. Мы занимаемся заказной разработкой, и один из наших ключевых клиентов — Sunlight. Я расскажу, как не тратить время на рутину в процессах и автоматизировать всё, что только можно. Это будет особенно актуально тем, кто в компании solo Data Engineer.
-
[Перевод] ClickHouse vs StarRocks: сравнение выбора MPP‑баз данных для всех сценариев
Сравнение ClickHouse и StarRocks: архитектура и функциональность, типы join и модели данных (широкая таблица vs звезда), конкурентность, частые обновления (Primary Key, Merge‑on‑Read), администрирование и онлайн‑масштабирование. Приводим результаты бенчмарков SSB и TPC‑H, а также тесты загрузки (GitHub dataset). Все тестовые данные и конфигурации актуальны на 2022 год. Если вам интересно, воспроизведите эксперименты по актуальным инструкциям проектов и поделитесь результатами и замечаниями — это поможет уточнить выводы и обновить сравнение.
https://habr.com/ru/articles/958616/
#clickhouse #starrocks #olap #субд #tpch #ssbench #join #mpp
-
Обзор NetFlow-коллектора с визуализацией Akvorado: от развертывания до практического использования
Akvorado — не просто инструмент для привлечения трафика, а современное и масштабируемое решение, которое преобразует сырые данные (NetFlow, sFlow) в понятную и наглядную информацию. В этой статье мы расскажем о каждом этапе работы с Akvorado: от архитектуры до нюансов развертывания, опираясь на наш опыт.
https://habr.com/ru/companies/hostkey/articles/944550/
#hostkey #netflow #sflow #ipfix #akvorado #clickhouse #kafka #docker #сетевой_мониторинг
-
🐦⚡️ How to gulp down a billion rows per second in ClickHouse? Just sprinkle some magic #Tinybird dust and voilà! ✨ Because nothing says "serious analytics" like an avalanche of buzzwords and a side of AI hype. 🚀
https://www.tinybird.co/blog-posts/1b-rows-per-second-clickhouse #ClickHouse #AIanalytics #DataProcessing #BigData #HackerNews #ngated -
ClickHouse не тормозит, но теряет данные. Часть 1 — дедупликация
ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных
https://habr.com/ru/articles/932502/
#clickhouse #субд #дедупликация #потеря_данных #аналитика #дубли #база_данных
-
ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)
К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.
https://habr.com/ru/articles/931282/
#dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster
-
Today is the DBA Appreciation Day!
Bring your DBAs a cake and a coffee, please. And don't drop any tables in production, pretty please. It's weekend ...
#PostgreSQL #SQLServer #Oracle #DB2 #MySQL #MariaDB #Snowflake #SQLite #Neo4j #Teradata #SAPHana #Aerospike #ApacheSpark #Clickhouse #Informix #WarehousePG #Greenplum #Adabas
-
Мета-акторы, готовый скелет микросервиса
Я ненавижу руками создавать бойлерплейты. Любые. Нет, LLM-ки тут тоже не помогут: им надо писать промпты (а потом ещё проверять, что оно там нагенерировало). Мне всегда хотелось, чтобы остов приложения задавался конфигурацией, а я бы только добавлял бизнес-логику. Буквально, в уже сгенерированные для неё места. Именно в такой парадигме написана моя библиотека finitomata , в которой конфигурация конечных автоматов задаётся текстовым представлением ( PlantUML / Mermaid ), а бизнес-логика просто распихивается по колбэкам переходов. Но мне этого оказалось мало, и я решил обернуть в такие же абстракции хранение и подписку на изменения. Так родилась библиотека (пока не опубликована, доступна только в исходниках ) persistomata . Даже не библиотека, а (простите) фреймворк
-
I've been following the #ClickHouse open source project, its amazing speed benchmarks and its adoption in the #observability domain.
Check out this month's OpenObservability Talks episode for a deep dive
https://medium.com/p/2004160b2f5e/ -
Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями
Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска. В этой статье я сравниваю пять методов поиска похожих векторов: — полный перебор по евклидову расстоянию с реализацией в Python; — FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние); — векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).
-
Практики OLS: единая точка правды становится еще более универсальной
Корпоративные практики BI отличаются тем, что единое хранилище данных позволяет самым разным сотрудникам — от рядовых специалистов до ТОП-менеджеров — получать нужную информацию и анализировать ее для принятия верных решений. Но это становится возможным только в том случае, если можно гарантировать, что каждый пользователь получит доступ только к данным, которые он имеет право видеть. О том, как этот подход работает на уровне объектов, и в чем разница между RLS и OLS, читайте под катом.
https://habr.com/ru/companies/visiology/articles/883628/
#Visiology #OLS #RLS #ClickHouse #ДанКо #управление_доступом #визуализация_данных #bi #big_data