#starrocks — Public Fediverse posts on home.social

Habr @[email protected] · 2026-07-22 · 13:42 UTC

Оптимизация MPP-кластера: предсказываем потребление памяти SQL-запросов

В аналитике больших данных системы массивных параллельных вычислений часто находятся под постоянной нагрузкой в режиме 24/7. Из десятков и сотен тысяч запросов в день многие исполняются одновременно и конкурируют за ограниченные ресурсы вычислительного кластера. Чем рациональнее каждый отдельный запрос их использует, тем больше запросов система сможет обслуживать параллельно. Соответственно, выше пропускная способность за конкретный отрезок времени. Как правило, проблема нехватки ресурсов остро ощущается в пиковые часы нагрузки. Можно бесконечно до совершенства настраивать и править параметры сессии на каждый запрос индивидуально вручную, но нам — команде разработки платформы данных Data Ocean Nova — всегда хочется иметь более системный подход. В сегодняшней публикации мы расскажем о том, как реализовали идею автоматической системы предсказания потребления ресурсов SQL-запросами для Impala и StarRocks, основанную на ML-принципах, и сделали её частью платформы данных.

https://habr.com/ru/companies/datasapience/articles/1061866/

#mpp #impala #starrocks #bigdata #dwh #lakehouse #ml #olap

#olap #ml #lakehouse #dwh #bigdata #starrocks

Habr @[email protected] · 2026-07-10 · 13:22 UTC

Ускоряем федеративные запросы в StarRocks

Когда речь заходит про Lakehouse и федеративный доступ , многие вспоминают про Trino и… часто на этом все. Но федеративные запросы поддерживаются в том или ином виде довольно большим количеством СУБД, SQL-движков и систем для виртуализации данных. В этой статье постараемся немного расширить кругозор читателей, которым интересна данная тема: рассмотрим федеративные запросы на примере набирающего популярность и активно развивающегося StarRocks . Из статьи вы узнаете: что такое федеративные запросы, как обстоят дела с реализацией гетерогенного федеративного доступа в этой СУБД и какие изменения команда решения Data Ocean Nova реализовала для оптимизации в StarRocks и Impala с целью улучшения функционала доступа к внешним данным.

https://habr.com/ru/companies/datasapience/articles/1057930/

#starrocks #федеративные_системы #lakehouse #datalakehouse #dwh #mpp #jdbc #greenplum #trino

#trino #greenplum #jdbc #mpp #dwh #datalakehouse

Habr @[email protected] · 2026-07-01 · 09:12 UTC

TPC-DS в 07.2026. Lakehouse: Spark, Trino, StarRocks, Impala и Doris. GreenPlum & Cloudberry vs StarRocks как MPP

Привет, Хабр! На связи команда Data Sapience. С последней публикации результатов тестирования MPP-движков прошло уже несколько месяцев. За этот период произошел ряд изменений в базовых версиях open source движков и фреймворков, а также наша команда разработки внесла ряд улучшений и доработок. Все это может повлиять расстановку сил в рейтинге. В сегодняшней публикации мы представим максимальное число претендентов, среди которых: Spark 3.5.*, Spark 3.5.* + DataFusion Comet, Spark 4.0.1, Spark 4.0.1 + DataFusion Comet, StarRocks (core based 3.5+, 4.0+), Impala (core based 4.5), Trino (459, 476, 479) и новичок нашего рейтинга — Apache Doris. Статья поможет вам ответить на вопросы: стоит ли переходить на Spark 4 в поисках производительности; Как нативные вычисления влияют на результаты Spark; Как улучшилась производительность Trino за последние полгода; нужно ли присмотреться к Apache Doris, если вы ищете альтернативу Impala и StarRocks, и как эти проекты связаны между собой; какие оптимизационные улучшения были добавлены нами в StarRocks и Impala за последнее время. И на десерт мы покажем вам сравнение Greenplum, Cloudberry и StarRocks в режиме Shared-Nothing MPP.

https://habr.com/ru/companies/datasapience/articles/1054316/

#starrocks #trino #spark #impala #greenplum #bigdata #dwh #lakehouse #olap

#olap #lakehouse #dwh #bigdata #greenplum #impala

Habr @[email protected] · 2026-05-29 · 15:02 UTC

Автоскейлинг StarRocks в Kubernetes: как я довел его до предела

Классическая проблема аналитических систем: кластер СУБД сайзится под пик, а 28 дней в месяц он задействован чуть больше чем наполовину. StarRocks (shared-data) и автоскейл Kubernetes убирают этот избыток. Compute добавляется под нагрузку и сворачивается на спаде. Внутри легкая пятничная статья: как это работает и где у эластичности потолок.

https://habr.com/ru/articles/1041278/

#starrocks #olap #kubernetes #autoscaling #selena #субд #mpp

#mpp #субд #selena #autoscaling #kubernetes #olap

Habr @[email protected] · 2026-05-06 · 09:32 UTC

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

https://habr.com/ru/articles/1031358/

#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

#etl #olap #dwh #mpp #субд #миграция_данных

Habr @[email protected] · 2026-04-29 · 19:32 UTC

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

#starrocks #lakehouse #datalakehouse #datalake #bigdata #dwh

Habr @[email protected] · 2026-03-25 · 08:02 UTC

StarRocks в облаке Selectel. Проверяем, как аналитическая СУБД ведет себя под нагрузкой

Идея развернуть аналитическую базу данных в облаке часто выглядит привлекательно — до того момента, пока администратор не начинает прикидывать реальную нагрузку в продакшене, а бизнес — итоговую стоимость. Именно здесь у многих появляются сомнения, и выбор все чаще смещается в сторону более осязаемых решений — например, выделенной инфраструктуры, где проще заранее оценить пределы производительности и стоимости. Я Антон Стеблянко, архитектор больших данных. В статье расскажу, как совместно с командой из компании «СР-ТЕХ» протестировали

https://habr.com/ru/companies/selectel/articles/1012836/

#starrocks #dwh #selectel #субд #базы_данных #хранение_данных #облако #серверы

#серверы #облако #хранение_данных #базы_данных #субд #selectel

Habr @[email protected] · 2026-03-02 · 08:42 UTC

Streamhouse на практике: данные за секунды, дашборды — нет

Привет, Хабр! Меня зовут Александр, я DevRel команды Selena Lakehouse. Пишу про СУБД StarRocks, архитектуры Lakehouse и Streamhouse в Telegram-канале @starrocks_selena ( https://t.me/starrocks_selena ). Полгода назад термин Streamhouse начал всплывать на конференциях и в блогах. При этом многие русскоязычные источники, которые я читал, сводят его к «замене Iceberg на Paimon и обновлению Flink» или путают с обычным Lakehouse. На самом деле за Streamhouse стоит интересная архитектурная логика. Конкретный набор компонентов, где каждый решает свою задачу: Apache Flink для вычислений, Apache Fluss как горячий потоковый слой, Apache Paimon как холодное хранилище. Вместе они дают потоковый Lakehouse с задержкой в секунды вместо минут. Мне стало интересно: можно ли на этом стеке построить полноценный аналитический конвейер? Не на слайдах, а руками в Docker Compose, с SQL и реальным сценарием. В этой статье:

https://habr.com/ru/articles/1005394/

#Streamhouse #Apache_Flink #Apache_Paimon #Fluss #StarRocks #Lakehouse #Realtime_analytics #SQL

#sql #realtime_analytics #lakehouse #starrocks #fluss #apache_paimon

Habr @[email protected] · 2026-02-11 · 15:32 UTC

INSERT в StarRocks: как три кластера раскрыли цену commit protocol

tl;dr: Каждая операция INSERT несет фиксированный overhead (в наших тестах 64–99 ms), независимо от количества строк. Формула: Total_time = N_statements * fixed_overhead + actual_write_time — подтверждена тестами. 1000 single-row INSERT = 64 секунды (Shared-data) или 100 секунд (Shared-Nothing). Разница не в диске и не в Docker, а в протоколе commit: TxnLog + publish через BRPC против 2PC + publish_version. В ANALYZE PROFILE commit overhead прячется в разнице TotalTime - ExecutionTime — это FE overhead. Батчинг нивелирует разницу: при INSERT SELECT оба режима дают ~0.25 с на 1000 строк.

https://habr.com/ru/articles/995484/

#StarRocks #OLAP #distributed_databases #performance #INSERT_optimization #архитектура

#архитектура #insert_optimization #performance #distributed_databases #olap #starrocks

N-gated Hacker News @[email protected] · 2026-01-21 · 21:47 UTC

StarRocks to the rescue! 🚀 Apparently, the #OLAP world was too busy having a mental breakdown over #joins to realize that #StarRocks has some secret sauce that makes them faster than a cat meme's rise to fame. 😂 But hey, who cares about real solutions when we can just keep denormalizing everything into oblivion, right? 🙄
https://www.starrocks.io/blog/inside-starrocks-why-joins-are-faster-than-youd-expect #performance #dataanalytics #datavisualization #technologyhumor #HackerNews #ngated

#olap #joins #starrocks #performance #dataanalytics #datavisualization

N-gated Hacker News @[email protected] · 2026-01-21 · 21:47 UTC

StarRocks to the rescue! 🚀 Apparently, the #OLAP world was too busy having a mental breakdown over #joins to realize that #StarRocks has some secret sauce that makes them faster than a cat meme's rise to fame. 😂 But hey, who cares about real solutions when we can just keep denormalizing everything into oblivion, right? 🙄
https://www.starrocks.io/blog/inside-starrocks-why-joins-are-faster-than-youd-expect #performance #dataanalytics #datavisualization #technologyhumor #HackerNews #ngated

#olap #joins #starrocks #performance #dataanalytics #datavisualization

Hacker News @[email protected] · 2026-01-21 · 21:47 UTC

Challenges in Join Optimization

https://www.starrocks.io/blog/inside-starrocks-why-joins-are-faster-than-youd-expect

#HackerNews #JoinOptimization #Challenges #DataAnalysis #SQLPerformance #StarRocks

#hackernews #joinoptimization #challenges #dataanalysis #sqlperformance #starrocks

Hacker News @[email protected] · 2026-01-21 · 21:47 UTC

Challenges in Join Optimization

https://www.starrocks.io/blog/inside-starrocks-why-joins-are-faster-than-youd-expect

#HackerNews #JoinOptimization #Challenges #DataAnalysis #SQLPerformance #StarRocks

#hackernews #joinoptimization #challenges #dataanalysis #sqlperformance #starrocks

Habr @[email protected] · 2026-01-20 · 11:42 UTC

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

https://habr.com/ru/companies/datasapience/articles/987006/

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

#bi #datalake #datalakehouse #dwh #bigdata #starrocks

Habr @[email protected] · 2026-01-07 · 08:22 UTC

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.

https://habr.com/ru/articles/983356/

#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени

#аналитика_в_реальном_времени #federated_analytics #материализованные_представления #kubernetes #olap #join

Habr @[email protected] · 2026-01-07 · 03:02 UTC

Инструмент перехвата медленных запросов StarRocks

Практическое руководство по построению сервиса перехвата медленных запросов в StarRocks: правила kill и пороги (full table scan, scan rows/bytes), анализ execution plan, интеграции с Grafana и Feishu, SQL-схемы и YAML-конфигурация для продакшена.

https://habr.com/ru/articles/983314/

#StarRocks #медленные_запросы #slow_query #OLAP #MPP #full_table_scan #execution_plan #stream_load #Grafana

#grafana #stream_load #execution_plan #full_table_scan #mpp #olap

Habr @[email protected] · 2025-12-25 · 09:12 UTC

построение интеллектуальной системы вопросов и ответов и корпоративной базы знаний на базе StarRocks + DeepSeek

Типовые сценарии на базе StarRocks + DeepSeek. DeepSeek: генерация качественных эмбеддингов и ответов, StarRocks: высокоэффективный векторный поиск и хранение.Вместе они образуют основу для точных и масштабируемых AI‑решений.

https://habr.com/ru/articles/980410/

#starrocks #deepseek #vector_index #rag #bigdata #bigquery

#bigquery #bigdata #rag #vector_index #deepseek #starrocks

Habr @[email protected] · 2025-12-25 · 08:12 UTC

Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор

В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.

https://habr.com/ru/articles/980368/

#StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные

#метаданные #virtual_partitions #union_all #refresh #партиционирование #olap

Habr @[email protected] · 2025-12-25 · 06:22 UTC

Глубокий разбор материализованных представлений в StarRocks: полный механизм query rewrite

Материализованные представления (MV) в StarRocks — это не просто кэш агрегатов, а полноценный механизм ускорения запросов с автоматическим переписыванием (query rewrite). На практических примерах разбираем, как движок сопоставляет поддеревья плана запроса со SPJG‑MV, как работают join/aggregate/nested/union rewrite, как обеспечивается строгая согласованность и настраиваемая устарелость данных (staleness), и за счёт чего достигается ускорение на SSB и TPC‑H.

https://habr.com/ru/articles/980320/

#StarRocks #материализованные_представления #query_rewrite #SPJG #OLAP #BI #rollup #bitmap #predicate_pushdown #partition_pruning

#partition_pruning #predicate_pushdown #bitmap #rollup #bi #olap

Habr @[email protected] · 2025-12-24 · 12:32 UTC

Практический опыт StarRocks: импорт JSON и CSV из Kafka с помощью Routine Load

В архитектуре потоковой обработки данных Kafka, как высокопроизводительная очередь сообщений, обычно используется для агрегации данных, а StarRocks, как высокопроизводительная аналитическая СУБД, отвечает за хранение и анализ. С помощью Routine Load можно стабильно и эффективно загружать в StarRocks данные в форматах JSON и CSV из Kafka.

https://habr.com/ru/articles/980134/

#olap #starrocks #routine_load #etl #kafka #streaming #sql #data_engineering

#data_engineering #sql #streaming #kafka #etl #routine_load

Habr @[email protected] · 2025-12-19 · 09:02 UTC

Проверяем популярные движки вычислений на задаче BI-доступа с помощью теста ClickBench

В сегодняшней публикации мы попробуем разобраться в производительности популярных MPP-движков в специализированной задаче ХД – предоставлении доступа к денормализованной витрине данных. Также ответим на вопрос: нужен ли ClickHouse в аналитическом ландшафте, спроектированном по принципу Lakehouse-платформ? Для этого будем использовать бенчмарк ClickBench. ClickBench появился не так давно, в 2022 году. Методика создана и поддерживается командой ClickHouse. Авторы позиционируют его следующим образом - «Этот бенчмарк представляет типичную рабочую нагрузку в следующих областях: анализ потоков кликов и трафика, веб-аналитика, машинно-генерируемые данные, структурированные журналы и данные о событиях. Он охватывает типичные запросы в ad-hoc аналитике и дашбордах реального времени». Последний сценарий вызывает у нас особый интерес, ведь редко встретишь архитектурный дизайн аналитического ландшафта, где не было бы решения на базе ClickHouse именно для этой цели, на вершине пирамиды тракта данных от источника до потребителя.

https://habr.com/ru/companies/datasapience/articles/978430/

#clickhouse #starrocks #trino #impala #bigdata #dwh #s3 #bi

#bi #s3 #dwh #bigdata #impala #trino

Habr @[email protected] · 2025-12-04 · 11:12 UTC

От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.

https://habr.com/ru/articles/973230/

#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache

#datacache #mergecommit #compaction #kafka #apache_flink #разделение_хранения_и_вычислений

Habr @[email protected] · 2025-12-04 · 09:22 UTC

StarRocks 4.0: FlatJSON — делаем запросы к JSON столь же эффективными, как к колоночному хранению

Статья объясняет, как StarRocks 4.0 делает запросы к JSON почти столь же быстрыми, как к нативным столбцам. FlatJSON на этапе загрузки «колоннизирует» частые поля и задействует индексы (включая ZoneMap), словарное кодирование и Global Dictionary, а также Late Materialization. В результате логовая, e‑commerce и IoT‑аналитика работает в реальном времени без тяжёлого ETL.

https://habr.com/ru/articles/973166/

#StarRocks #FlatJSON #JSON #OLAP #Global_Dictionary #Late_Materialization #dictionary_encoding #realtime_analytics

#realtime_analytics #dictionary_encoding #late_materialization #global_dictionary #olap #json

Habr @[email protected] · 2025-12-04 · 06:52 UTC

StarRocks 4.0: Real-Time Intelligence on Lakehouse

StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.

https://habr.com/ru/articles/973110/

#Lakehouse #Apache_Iceberg #аналитика_в_реальном_времени #JSON #SQL_Plan_Manager #starrocks

#starrocks #sql_plan_manager #json #аналитика_в_реальном_времени #apache_iceberg #lakehouse

Habr @[email protected] · 2025-11-27 · 11:12 UTC

Понимание и практические эксперименты с Tablet в StarRocks

внутренняя структура, репликации и балансировка, бакетизация и партиционирование, восстановление и MVCC, загрузка данных (Stream Load). Разбираем типичные сценарии и даём рекомендации для Data Engineers и DBAs.

https://habr.com/ru/articles/970880/

#StarRocks #Tablet #OLAP #MPP #репликация #балансировка #бакетизация #партиционирование #MVCC #Stream_Load

#starrocks #tablet #olap #mpp #репликация #балансировка

Habr @[email protected] · 2025-11-26 · 09:12 UTC

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

https://habr.com/ru/articles/970388/

#StarRocks #ClickHouse #Big_Data #OLAP #миграция_данных #realtime_analytics #Data_Lake #Flink #оптимизация #DWH

#starrocks #clickhouse #big_data #olap #миграция_данных #realtime_analytics

Habr @[email protected] · 2025-11-18 · 11:02 UTC

Полное руководство по управлению привилегиями в StarRocks

Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.

https://habr.com/ru/articles/967608/

#starrocks #привилегии #роли #rbac #grant #revoke #olap #mpp #dwh #безопасность_данных

#starrocks #привилегии #роли #rbac #grant #revoke

Habr @[email protected] · 2025-11-14 · 03:22 UTC

[Перевод] Сверхбыстрые запросы: принципы Compaction при разделении хранения и вычислений в StarRocks и руководство по тюнингу

StarRocks при каждом импорте данных создаёт новую версию, что со временем приводит к росту числа мелких файлов и падению эффективности запросов. Фоновый процесс Compaction объединяет версии, устраняет дубликаты и сокращает количество I/O. В материале разобраны: архитектура Compaction в режиме разделения хранения и вычислений (FE — Scheduler, BE/CN — Executor), диспетчеризация по Partition и Tablet, критерии безопасной очистки данных, а также практики тюнинга. Показано, как смотреть Compaction Score на уровне Partition, отслеживать и отменять задачи, и какие параметры FE/BE/CN действительно влияют на производительность (compact_threads, lake_compaction_max_tasks и др.). Отдельно затронут мониторинг и алерты в Grafana/Prometheus. Текст ориентирован на инженеров DWH/OLAP и эксплуатацию высоконагруженных систем хранения данных.

https://habr.com/ru/articles/966322/

#starrocks #lakehouse #olap #тюнинг #мониторинг #grafana #prometheus

#prometheus #grafana #мониторинг #тюнинг #olap #lakehouse

TechLİfe @techlife_blog · 2025-11-07 · 14:31 UTC

The Great OLAP Divide: Choosing Between ClickHouse, Snowflake, and DuckDB in 2025 https://techlife.blog/posts/olap-database-comparison/ #OLAP #Database #DataScience #ClickHouse #Snowflake #BigQuery #DuckDB #StarRocks #ApachePinot #Druid

#olap #database #datascience #clickhouse #snowflake #bigquery

Habr @[email protected] · 2025-11-07 · 09:32 UTC

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

https://habr.com/ru/companies/datasapience/articles/964052/

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

#starrocks #trino #impala #mpp #bigdata #dwh

Habr @[email protected] · 2025-11-05 · 16:02 UTC

Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.

https://habr.com/ru/articles/963410/

#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views

#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet

Habr @[email protected] · 2025-10-23 · 12:22 UTC

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum , в том числе по методике TPC-DS ). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

https://habr.com/ru/companies/datasapience/articles/959496/

#starrocks #trino #lakehouse #impala #spark #bigdata #datalake #dwh #hadoop #s3

#s3 #hadoop #dwh #datalake #bigdata #spark

Habr @[email protected] · 2025-10-22 · 09:52 UTC

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

Задача: быстро выполнять агрегирующие запросы (JOIN, GROUP BY, COUNT) по десяткам миллионов строк в офлайновых сценариях на Big Data‑платформе. Мы сравнили три подхода: Parquet + Impala в экосистеме CDH, MPP‑движок Greenplum и MPP‑СУБД StarRocks. В единой тестовой среде (SAD ~7 млн, ITEM ~3 млн записей) выполнили серию запросов JOIN + GROUP BY + ORDER BY и замерили суммарное время 10 прогонов. Показано, что внедрение MPP заметно ускоряет аналитику (типично 1–2 с на запрос), при этом StarRocks в среднем немного обходит Greenplum. В статье — методика, параметры развертывания, нюансы импорта из Oracle (CloudCanal) и сводные метрики.

https://habr.com/ru/articles/959000/

#impala #greenplum #starrocks

#starrocks #greenplum #impala