home.social

#olap — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #olap, aggregated by home.social.

  1. I'm quite curious what are the plans for on 2.0. They have an local renaissance in their hands. 😎

    duckdb.org/2026/05/12/quack-re

  2. I'm quite curious what are the plans for #DuckDB on 2.0. They have an #OLAP local renaissance in their hands. 😎

    duckdb.org/2026/05/12/quack-re

  3. I'm quite curious what are the plans for #DuckDB on 2.0. They have an #OLAP local renaissance in their hands. 😎

    duckdb.org/2026/05/12/quack-re

  4. I'm quite curious what are the plans for #DuckDB on 2.0. They have an #OLAP local renaissance in their hands. 😎

    duckdb.org/2026/05/12/quack-re

  5. I'm quite curious what are the plans for #DuckDB on 2.0. They have an #OLAP local renaissance in their hands. 😎

    duckdb.org/2026/05/12/quack-re

  6. Насколько многомерным может быть многомерный точный индекс?

    Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768 , но это приближенный поиск. Но как насчёт поиска точного? В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B-дерево (насколько вообще может быть обычным такое дерево). Используемый диск - вполне себе “железный” старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что-то из этого выжать на рядовом десктопе за приемлемое время?

    habr.com/ru/articles/1036056/

    #olapкубы #olap #dbms

  7. Насколько многомерным может быть многомерный точный индекс?

    Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768 , но это приближенный поиск. Но как насчёт поиска точного? В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B-дерево (насколько вообще может быть обычным такое дерево). Используемый диск - вполне себе “железный” старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что-то из этого выжать на рядовом десктопе за приемлемое время?

    habr.com/ru/articles/1036056/

    #olapкубы #olap #dbms

  8. Насколько многомерным может быть многомерный точный индекс?

    Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768 , но это приближенный поиск. Но как насчёт поиска точного? В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B-дерево (насколько вообще может быть обычным такое дерево). Используемый диск - вполне себе “железный” старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что-то из этого выжать на рядовом десктопе за приемлемое время?

    habr.com/ru/articles/1036056/

    #olapкубы #olap #dbms

  9. Насколько многомерным может быть многомерный точный индекс?

    Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768 , но это приближенный поиск. Но как насчёт поиска точного? В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B-дерево (насколько вообще может быть обычным такое дерево). Используемый диск - вполне себе “железный” старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что-то из этого выжать на рядовом десктопе за приемлемое время?

    habr.com/ru/articles/1036056/

    #olapкубы #olap #dbms

  10. 📊 ClickHouse/ClickHouse

    ClickHouse® is a real-time analytics database management system

    Processes analytical queries in real time using a columnar storage engine, optimized for high-speed data ingestion and aggregation without indexing overhead

    ⭐ Stars: 47431
    📅 Last Update: May 15, 2026

    github.com/ClickHouse/ClickHou

    #selfhosted #homelab #selfhost #selfhosting #opensource #olap #columnardatabase

  11. 📊 ClickHouse/ClickHouse

    ClickHouse® is a real-time analytics database management system

    Processes analytical queries in real time using a columnar storage engine, optimized for high-speed data ingestion and aggregation without indexing overhead

    ⭐ Stars: 47431
    📅 Last Update: May 15, 2026

    github.com/ClickHouse/ClickHou

    #selfhosted #homelab #selfhost #selfhosting #opensource #olap #columnardatabase

  12. ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

    Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

    habr.com/ru/companies/otus/art

    #clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

  13. ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

    Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

    habr.com/ru/companies/otus/art

    #clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

  14. ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

    Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

    habr.com/ru/companies/otus/art

    #clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

  15. ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

    Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

    habr.com/ru/companies/otus/art

    #clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

  16. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  17. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  18. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  19. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  20. Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

    В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

    habr.com/ru/articles/1031358/

    #starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

  21. Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

    В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

    habr.com/ru/articles/1031358/

    #starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

  22. Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

    В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

    habr.com/ru/articles/1031358/

    #starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

  23. Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

    В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

    habr.com/ru/articles/1031358/

    #starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

  24. Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

    Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

    habr.com/ru/articles/1025328/

    #BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset

  25. Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

    Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

    habr.com/ru/articles/1025328/

    #BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset

  26. Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

    Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

    habr.com/ru/articles/1025328/

    #BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset

  27. Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

    Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

    habr.com/ru/articles/1025328/

    #BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset

  28. OLAP-кубы в финансах: превращаем бюджетирование в управляемую систему

    Цифровизация финансовой функции нередко воспринимается как масштабный и дорогостоящий проект. Со стороны кажется, что единовременно требуется внедрить несколько сложных систем и полностью перестроить бизнес-процессы. Евгения Крюкова , старший аналитик «Оптимакрос» , разобрала в статье, как OLAP-кубы (Online Analytical Processing) меняют бюджетирование и планирование в организации и почему именно их выбор становится критически важным этапом цифровой трансформации финансового подразделения компании. Материал будет полезен финансовым директорам, руководителям планово-экономических отделов и аналитикам, которые ищут инструменты для повышения качества управленческой отчетности.

    habr.com/ru/articles/1017470/

    #olap #olapкубы #финансовый_учет #бюджетирование #excel #bi #sql #cfo #моделирование #планирование

  29. OLAP-кубы в финансах: превращаем бюджетирование в управляемую систему

    Цифровизация финансовой функции нередко воспринимается как масштабный и дорогостоящий проект. Со стороны кажется, что единовременно требуется внедрить несколько сложных систем и полностью перестроить бизнес-процессы. Евгения Крюкова , старший аналитик «Оптимакрос» , разобрала в статье, как OLAP-кубы (Online Analytical Processing) меняют бюджетирование и планирование в организации и почему именно их выбор становится критически важным этапом цифровой трансформации финансового подразделения компании. Материал будет полезен финансовым директорам, руководителям планово-экономических отделов и аналитикам, которые ищут инструменты для повышения качества управленческой отчетности.

    habr.com/ru/articles/1017470/

    #olap #olapкубы #финансовый_учет #бюджетирование #excel #bi #sql #cfo #моделирование #планирование

  30. OLAP-кубы в финансах: превращаем бюджетирование в управляемую систему

    Цифровизация финансовой функции нередко воспринимается как масштабный и дорогостоящий проект. Со стороны кажется, что единовременно требуется внедрить несколько сложных систем и полностью перестроить бизнес-процессы. Евгения Крюкова , старший аналитик «Оптимакрос» , разобрала в статье, как OLAP-кубы (Online Analytical Processing) меняют бюджетирование и планирование в организации и почему именно их выбор становится критически важным этапом цифровой трансформации финансового подразделения компании. Материал будет полезен финансовым директорам, руководителям планово-экономических отделов и аналитикам, которые ищут инструменты для повышения качества управленческой отчетности.

    habr.com/ru/articles/1017470/

    #olap #olapкубы #финансовый_учет #бюджетирование #excel #bi #sql #cfo #моделирование #планирование

  31. OLAP-кубы в финансах: превращаем бюджетирование в управляемую систему

    Цифровизация финансовой функции нередко воспринимается как масштабный и дорогостоящий проект. Со стороны кажется, что единовременно требуется внедрить несколько сложных систем и полностью перестроить бизнес-процессы. Евгения Крюкова , старший аналитик «Оптимакрос» , разобрала в статье, как OLAP-кубы (Online Analytical Processing) меняют бюджетирование и планирование в организации и почему именно их выбор становится критически важным этапом цифровой трансформации финансового подразделения компании. Материал будет полезен финансовым директорам, руководителям планово-экономических отделов и аналитикам, которые ищут инструменты для повышения качества управленческой отчетности.

    habr.com/ru/articles/1017470/

    #olap #olapкубы #финансовый_учет #бюджетирование #excel #bi #sql #cfo #моделирование #планирование

  32. Определение фактического профиля нагрузки в PostgreSQL и динамические состояния БД

    Привет, ХАБР! Я Владимир Хаймин , эксперт по системам управления базами данных PostgreSQL в ВТБ. Когда вы знакомитесь с документацией по какой-то системе в части базы данных, то обычно характер нагрузки определяется исходно в архитектуре проекта. Но если система определена архитектором как OLTP, но в действительности может вести себя в некоторые периоды времени как OLAP. Нормально ли такое поведение, и каким образом мы можем определить, что она ведет себя как-то иначе? Как определить фактический профиль нагрузки OLAP или OLTP и выразить это через метрики, пригодные для событийного и графического мониторинга? Эта статья является скорее исследовательской в области Data Science в прикладном контексте PostgreSQL. Data Science – это не только задачи ИИ: (ML, LLM,..), но прежде всего математика. Мы используем регрессивные методы для получения некоторых нужных нам параметров исходя из табличных рекомендованных данных. Также мы делаем упор на исследование состояния БД на основе статистики динамики ожиданий. Задача, несмотря на ее простой смысл, в решении оказалась не такой простой, и мы в итоге работали над ней довольно долго, хоть и в фоновом режиме. Также обратились к студенческому сообществу и провели по этой теме Хакатон ВТБ х Башня , прошедший в МГТУ им. Баумана 27 ноября 2025 года. В нем приняли участие студенты и выпускники НИУ ВШЭ, СПбГУ, ВКА им. А.Ф. Можайского, РАНХИГС, Московского Политехнического университета, НИТУ МИСИС, а также уже действующие архитекторы и администраторы БД. У команд было всего три дня на решение задачи, и хотя полностью её не удалось выполнить никому, совокупный результат всех участников позволил сформировать корректное решение. Результат именно этих работ я и изложил в статье и обязательно буду упоминать команды и авторов интересных идей, о которых пойдет речь.

    habr.com/ru/companies/vtb/arti

    #postgresql #postgresql_performance #olap #oltp #htap

  33. Определение фактического профиля нагрузки в PostgreSQL и динамические состояния БД

    Привет, ХАБР! Я Владимир Хаймин , эксперт по системам управления базами данных PostgreSQL в ВТБ. Когда вы знакомитесь с документацией по какой-то системе в части базы данных, то обычно характер нагрузки определяется исходно в архитектуре проекта. Но если система определена архитектором как OLTP, но в действительности может вести себя в некоторые периоды времени как OLAP. Нормально ли такое поведение, и каким образом мы можем определить, что она ведет себя как-то иначе? Как определить фактический профиль нагрузки OLAP или OLTP и выразить это через метрики, пригодные для событийного и графического мониторинга? Эта статья является скорее исследовательской в области Data Science в прикладном контексте PostgreSQL. Data Science – это не только задачи ИИ: (ML, LLM,..), но прежде всего математика. Мы используем регрессивные методы для получения некоторых нужных нам параметров исходя из табличных рекомендованных данных. Также мы делаем упор на исследование состояния БД на основе статистики динамики ожиданий. Задача, несмотря на ее простой смысл, в решении оказалась не такой простой, и мы в итоге работали над ней довольно долго, хоть и в фоновом режиме. Также обратились к студенческому сообществу и провели по этой теме Хакатон ВТБ х Башня , прошедший в МГТУ им. Баумана 27 ноября 2025 года. В нем приняли участие студенты и выпускники НИУ ВШЭ, СПбГУ, ВКА им. А.Ф. Можайского, РАНХИГС, Московского Политехнического университета, НИТУ МИСИС, а также уже действующие архитекторы и администраторы БД. У команд было всего три дня на решение задачи, и хотя полностью её не удалось выполнить никому, совокупный результат всех участников позволил сформировать корректное решение. Результат именно этих работ я и изложил в статье и обязательно буду упоминать команды и авторов интересных идей, о которых пойдет речь.

    habr.com/ru/companies/vtb/arti

    #postgresql #postgresql_performance #olap #oltp #htap

  34. Определение фактического профиля нагрузки в PostgreSQL и динамические состояния БД

    Привет, ХАБР! Я Владимир Хаймин , эксперт по системам управления базами данных PostgreSQL в ВТБ. Когда вы знакомитесь с документацией по какой-то системе в части базы данных, то обычно характер нагрузки определяется исходно в архитектуре проекта. Но если система определена архитектором как OLTP, но в действительности может вести себя в некоторые периоды времени как OLAP. Нормально ли такое поведение, и каким образом мы можем определить, что она ведет себя как-то иначе? Как определить фактический профиль нагрузки OLAP или OLTP и выразить это через метрики, пригодные для событийного и графического мониторинга? Эта статья является скорее исследовательской в области Data Science в прикладном контексте PostgreSQL. Data Science – это не только задачи ИИ: (ML, LLM,..), но прежде всего математика. Мы используем регрессивные методы для получения некоторых нужных нам параметров исходя из табличных рекомендованных данных. Также мы делаем упор на исследование состояния БД на основе статистики динамики ожиданий. Задача, несмотря на ее простой смысл, в решении оказалась не такой простой, и мы в итоге работали над ней довольно долго, хоть и в фоновом режиме. Также обратились к студенческому сообществу и провели по этой теме Хакатон ВТБ х Башня , прошедший в МГТУ им. Баумана 27 ноября 2025 года. В нем приняли участие студенты и выпускники НИУ ВШЭ, СПбГУ, ВКА им. А.Ф. Можайского, РАНХИГС, Московского Политехнического университета, НИТУ МИСИС, а также уже действующие архитекторы и администраторы БД. У команд было всего три дня на решение задачи, и хотя полностью её не удалось выполнить никому, совокупный результат всех участников позволил сформировать корректное решение. Результат именно этих работ я и изложил в статье и обязательно буду упоминать команды и авторов интересных идей, о которых пойдет речь.

    habr.com/ru/companies/vtb/arti

    #postgresql #postgresql_performance #olap #oltp #htap

  35. Определение фактического профиля нагрузки в PostgreSQL и динамические состояния БД

    Привет, ХАБР! Я Владимир Хаймин , эксперт по системам управления базами данных PostgreSQL в ВТБ. Когда вы знакомитесь с документацией по какой-то системе в части базы данных, то обычно характер нагрузки определяется исходно в архитектуре проекта. Но если система определена архитектором как OLTP, но в действительности может вести себя в некоторые периоды времени как OLAP. Нормально ли такое поведение, и каким образом мы можем определить, что она ведет себя как-то иначе? Как определить фактический профиль нагрузки OLAP или OLTP и выразить это через метрики, пригодные для событийного и графического мониторинга? Эта статья является скорее исследовательской в области Data Science в прикладном контексте PostgreSQL. Data Science – это не только задачи ИИ: (ML, LLM,..), но прежде всего математика. Мы используем регрессивные методы для получения некоторых нужных нам параметров исходя из табличных рекомендованных данных. Также мы делаем упор на исследование состояния БД на основе статистики динамики ожиданий. Задача, несмотря на ее простой смысл, в решении оказалась не такой простой, и мы в итоге работали над ней довольно долго, хоть и в фоновом режиме. Также обратились к студенческому сообществу и провели по этой теме Хакатон ВТБ х Башня , прошедший в МГТУ им. Баумана 27 ноября 2025 года. В нем приняли участие студенты и выпускники НИУ ВШЭ, СПбГУ, ВКА им. А.Ф. Можайского, РАНХИГС, Московского Политехнического университета, НИТУ МИСИС, а также уже действующие архитекторы и администраторы БД. У команд было всего три дня на решение задачи, и хотя полностью её не удалось выполнить никому, совокупный результат всех участников позволил сформировать корректное решение. Результат именно этих работ я и изложил в статье и обязательно буду упоминать команды и авторов интересных идей, о которых пойдет речь.

    habr.com/ru/companies/vtb/arti

    #postgresql #postgresql_performance #olap #oltp #htap

  36. Считаем ресурсы под PostgreSQL

    Не так давно на моей текущей работе впервые за весь мой немногочисленный 4-летний опыт бэкендера понадобилось для нового микросервиса рассчитывать ресурсы под PostgreSQL для данного сервиса. Раньше для меня данная тема было чем-то, чем занимаются DevOps/DBA и никогда прежде не задумывался и не исследовал информацию о том, как качественно рассчитать необходимые ресурсы, чтобы бизнесу не пришлось переплачивать за очень дорогие железки лишние деньги, чтобы потом оказалось, что от купленных мощностей в реальности используется 20-40% (опыт на нескольких работах показывает, что такое случается ну очень часто). Q: Для кого эта статья? A: Да в целом для любых технических специалистов, которые так или иначе взаимодействуют с технической поддержкой PostgreSQL и которым впервые нужно для новой БД (например, под микросервис) и сформулировать задачу для DevOps команды на поднятие СУБД для вашего сервиса. Q: «Зачем мне это? Ну прикину я на глаз, что здесь нужно 50ГБ диска, 64ГБ RAM и нормально поедет» A: Очень часто в условиях микросервисной архитектуры используется парадигма database per service и в таком случае нельзя просто запросить максимально мощную виртуальную машину. Ресурсы стоят много денег, инфраструктура должна масштабироваться, а значит необходимо уметь определять, какой именно мощности ВМ требуется и какие параметры PostgreSQL следует задать на старте. В статье вы получите пошаговый расчёт диска, RAM, CPU и базовые рекомендации по конфигу PostgreSQL, а также в подарок готовый промпт для ИИ, если захотите делегировать все расчёты нейромозгу. Ну давай считать

    habr.com/ru/articles/995722/

    #PostgreSQL #расчёт_ресурсов #sizing_базы_данных #OLTP #OLAP #shared_buffers #max_connections #connection_pool #PGTune #database_per_service

  37. Считаем ресурсы под PostgreSQL

    Не так давно на моей текущей работе впервые за весь мой немногочисленный 4-летний опыт бэкендера понадобилось для нового микросервиса рассчитывать ресурсы под PostgreSQL для данного сервиса. Раньше для меня данная тема было чем-то, чем занимаются DevOps/DBA и никогда прежде не задумывался и не исследовал информацию о том, как качественно рассчитать необходимые ресурсы, чтобы бизнесу не пришлось переплачивать за очень дорогие железки лишние деньги, чтобы потом оказалось, что от купленных мощностей в реальности используется 20-40% (опыт на нескольких работах показывает, что такое случается ну очень часто). Q: Для кого эта статья? A: Да в целом для любых технических специалистов, которые так или иначе взаимодействуют с технической поддержкой PostgreSQL и которым впервые нужно для новой БД (например, под микросервис) и сформулировать задачу для DevOps команды на поднятие СУБД для вашего сервиса. Q: «Зачем мне это? Ну прикину я на глаз, что здесь нужно 50ГБ диска, 64ГБ RAM и нормально поедет» A: Очень часто в условиях микросервисной архитектуры используется парадигма database per service и в таком случае нельзя просто запросить максимально мощную виртуальную машину. Ресурсы стоят много денег, инфраструктура должна масштабироваться, а значит необходимо уметь определять, какой именно мощности ВМ требуется и какие параметры PostgreSQL следует задать на старте. В статье вы получите пошаговый расчёт диска, RAM, CPU и базовые рекомендации по конфигу PostgreSQL, а также в подарок готовый промпт для ИИ, если захотите делегировать все расчёты нейромозгу. Ну давай считать

    habr.com/ru/articles/995722/

    #PostgreSQL #расчёт_ресурсов #sizing_базы_данных #OLTP #OLAP #shared_buffers #max_connections #connection_pool #PGTune #database_per_service

  38. Считаем ресурсы под PostgreSQL

    Не так давно на моей текущей работе впервые за весь мой немногочисленный 4-летний опыт бэкендера понадобилось для нового микросервиса рассчитывать ресурсы под PostgreSQL для данного сервиса. Раньше для меня данная тема было чем-то, чем занимаются DevOps/DBA и никогда прежде не задумывался и не исследовал информацию о том, как качественно рассчитать необходимые ресурсы, чтобы бизнесу не пришлось переплачивать за очень дорогие железки лишние деньги, чтобы потом оказалось, что от купленных мощностей в реальности используется 20-40% (опыт на нескольких работах показывает, что такое случается ну очень часто). Q: Для кого эта статья? A: Да в целом для любых технических специалистов, которые так или иначе взаимодействуют с технической поддержкой PostgreSQL и которым впервые нужно для новой БД (например, под микросервис) и сформулировать задачу для DevOps команды на поднятие СУБД для вашего сервиса. Q: «Зачем мне это? Ну прикину я на глаз, что здесь нужно 50ГБ диска, 64ГБ RAM и нормально поедет» A: Очень часто в условиях микросервисной архитектуры используется парадигма database per service и в таком случае нельзя просто запросить максимально мощную виртуальную машину. Ресурсы стоят много денег, инфраструктура должна масштабироваться, а значит необходимо уметь определять, какой именно мощности ВМ требуется и какие параметры PostgreSQL следует задать на старте. В статье вы получите пошаговый расчёт диска, RAM, CPU и базовые рекомендации по конфигу PostgreSQL, а также в подарок готовый промпт для ИИ, если захотите делегировать все расчёты нейромозгу. Ну давай считать

    habr.com/ru/articles/995722/

    #PostgreSQL #расчёт_ресурсов #sizing_базы_данных #OLTP #OLAP #shared_buffers #max_connections #connection_pool #PGTune #database_per_service

  39. Считаем ресурсы под PostgreSQL

    Не так давно на моей текущей работе впервые за весь мой немногочисленный 4-летний опыт бэкендера понадобилось для нового микросервиса рассчитывать ресурсы под PostgreSQL для данного сервиса. Раньше для меня данная тема было чем-то, чем занимаются DevOps/DBA и никогда прежде не задумывался и не исследовал информацию о том, как качественно рассчитать необходимые ресурсы, чтобы бизнесу не пришлось переплачивать за очень дорогие железки лишние деньги, чтобы потом оказалось, что от купленных мощностей в реальности используется 20-40% (опыт на нескольких работах показывает, что такое случается ну очень часто). Q: Для кого эта статья? A: Да в целом для любых технических специалистов, которые так или иначе взаимодействуют с технической поддержкой PostgreSQL и которым впервые нужно для новой БД (например, под микросервис) и сформулировать задачу для DevOps команды на поднятие СУБД для вашего сервиса. Q: «Зачем мне это? Ну прикину я на глаз, что здесь нужно 50ГБ диска, 64ГБ RAM и нормально поедет» A: Очень часто в условиях микросервисной архитектуры используется парадигма database per service и в таком случае нельзя просто запросить максимально мощную виртуальную машину. Ресурсы стоят много денег, инфраструктура должна масштабироваться, а значит необходимо уметь определять, какой именно мощности ВМ требуется и какие параметры PostgreSQL следует задать на старте. В статье вы получите пошаговый расчёт диска, RAM, CPU и базовые рекомендации по конфигу PostgreSQL, а также в подарок готовый промпт для ИИ, если захотите делегировать все расчёты нейромозгу. Ну давай считать

    habr.com/ru/articles/995722/

    #PostgreSQL #расчёт_ресурсов #sizing_базы_данных #OLTP #OLAP #shared_buffers #max_connections #connection_pool #PGTune #database_per_service

  40. INSERT в StarRocks: как три кластера раскрыли цену commit protocol

    tl;dr: Каждая операция INSERT несет фиксированный overhead (в наших тестах 64–99 ms), независимо от количества строк. Формула: Total_time = N_statements * fixed_overhead + actual_write_time — подтверждена тестами. 1000 single-row INSERT = 64 секунды (Shared-data) или 100 секунд (Shared-Nothing). Разница не в диске и не в Docker, а в протоколе commit: TxnLog + publish через BRPC против 2PC + publish_version. В ANALYZE PROFILE commit overhead прячется в разнице TotalTime - ExecutionTime — это FE overhead. Батчинг нивелирует разницу: при INSERT SELECT оба режима дают ~0.25 с на 1000 строк.

    habr.com/ru/articles/995484/

    #StarRocks #OLAP #distributed_databases #performance #INSERT_optimization #архитектура

  41. INSERT в StarRocks: как три кластера раскрыли цену commit protocol

    tl;dr: Каждая операция INSERT несет фиксированный overhead (в наших тестах 64–99 ms), независимо от количества строк. Формула: Total_time = N_statements * fixed_overhead + actual_write_time — подтверждена тестами. 1000 single-row INSERT = 64 секунды (Shared-data) или 100 секунд (Shared-Nothing). Разница не в диске и не в Docker, а в протоколе commit: TxnLog + publish через BRPC против 2PC + publish_version. В ANALYZE PROFILE commit overhead прячется в разнице TotalTime - ExecutionTime — это FE overhead. Батчинг нивелирует разницу: при INSERT SELECT оба режима дают ~0.25 с на 1000 строк.

    habr.com/ru/articles/995484/

    #StarRocks #OLAP #distributed_databases #performance #INSERT_optimization #архитектура

  42. INSERT в StarRocks: как три кластера раскрыли цену commit protocol

    tl;dr: Каждая операция INSERT несет фиксированный overhead (в наших тестах 64–99 ms), независимо от количества строк. Формула: Total_time = N_statements * fixed_overhead + actual_write_time — подтверждена тестами. 1000 single-row INSERT = 64 секунды (Shared-data) или 100 секунд (Shared-Nothing). Разница не в диске и не в Docker, а в протоколе commit: TxnLog + publish через BRPC против 2PC + publish_version. В ANALYZE PROFILE commit overhead прячется в разнице TotalTime - ExecutionTime — это FE overhead. Батчинг нивелирует разницу: при INSERT SELECT оба режима дают ~0.25 с на 1000 строк.

    habr.com/ru/articles/995484/

    #StarRocks #OLAP #distributed_databases #performance #INSERT_optimization #архитектура

  43. INSERT в StarRocks: как три кластера раскрыли цену commit protocol

    tl;dr: Каждая операция INSERT несет фиксированный overhead (в наших тестах 64–99 ms), независимо от количества строк. Формула: Total_time = N_statements * fixed_overhead + actual_write_time — подтверждена тестами. 1000 single-row INSERT = 64 секунды (Shared-data) или 100 секунд (Shared-Nothing). Разница не в диске и не в Docker, а в протоколе commit: TxnLog + publish через BRPC против 2PC + publish_version. В ANALYZE PROFILE commit overhead прячется в разнице TotalTime - ExecutionTime — это FE overhead. Батчинг нивелирует разницу: при INSERT SELECT оба режима дают ~0.25 с на 1000 строк.

    habr.com/ru/articles/995484/

    #StarRocks #OLAP #distributed_databases #performance #INSERT_optimization #архитектура

  44. In meinen heutigen #TechTipps möchte ich Euch gerne #duckdb
    vorstellen.
    DuckDB (duckdb.org) könnte Euch dann interessieren wenn ihr:

    - in der IT (#Softwareentwicklung, Datenanalyse #Olap, Qualitätssicherung, Forschung, etc ) arbeitet
    - privat an Datenanlyse jenseits von unübesichtlichen Tabellen (#Spreadsheets) interessiert seid
    - Daten wie Kontoauszüge, Telefonbücher oder (elektronische) Kataloge durchforsten wollt

    DuckDB kann als eigenständiges Kommandozeilen (#CLI) Programm ohne Abhängigkeiten bezogen und verwendet werden oder auch intergriert in andere #programmiersprachen (#python) oder #tools wie #jupyter integriert werden.

    Die CLI-Version kann mit Parameter "-ui" verwendet werden und startet damit ein recht komfortables #webui im lokalen #browser.
    Im ersten Schritt legt man nun ein "Notebook" an das zellenweise strukturiert ist.
    Es können jederzeit neue Zellen an jeder Stelle im #workflow hinzugefügt, eingefügt oder gelöscht werden.
    Unterteilt man nun seinen Anwendungsfall in kleine Schritte (Zellen) wird ein komplexes Thema schon viel einfacher.

    Beispiel:
    1. Zelle:
    -- Datenbank im Speicher anlegen
    ATTACH IF NOT EXISTS ':memory:' AS memory;

    2.Zelle:
    -- Tablle BLS 4.0 importieren
    CREATE OR REPLACE TABLE BLS AS
    SELECT * FROM
    read_xlsx('/home/XXX/Downloads/BLS_4_0_2025_DE/BLS_4_0_Daten_2025_DE.xlsx',
    sheet = 'BLS_4_0_Daten_2025_DE',
    header = true, all_varchar = true);

    3. Zelle
    -- Zeige mir Lebensmittel mit Vitamin D
    select Lebensmittelbezeichnung, "VITD Vitamin D [µg/100g]" as VD
    from'BLS'
    where
    VD is not null and VD not ilike '0'
    order by VD DESC;

    Ergebnisse können als Tabelle oder CSV mit "Download" gespeichert werden.
    😀

  45. In meinen heutigen #TechTipps möchte ich Euch gerne #duckdb
    vorstellen.
    DuckDB (duckdb.org) könnte Euch dann interessieren wenn ihr:

    - in der IT (#Softwareentwicklung, Datenanalyse #Olap, Qualitätssicherung, Forschung, etc ) arbeitet
    - privat an Datenanlyse jenseits von unübesichtlichen Tabellen (#Spreadsheets) interessiert seid
    - Daten wie Kontoauszüge, Telefonbücher oder (elektronische) Kataloge durchforsten wollt

    DuckDB kann als eigenständiges Kommandozeilen (#CLI) Programm ohne Abhängigkeiten bezogen und verwendet werden oder auch intergriert in andere #programmiersprachen (#python) oder #tools wie #jupyter integriert werden.

    Die CLI-Version kann mit Parameter "-ui" verwendet werden und startet damit ein recht komfortables #webui im lokalen #browser.
    Im ersten Schritt legt man nun ein "Notebook" an das zellenweise strukturiert ist.
    Es können jederzeit neue Zellen an jeder Stelle im #workflow hinzugefügt, eingefügt oder gelöscht werden.
    Unterteilt man nun seinen Anwendungsfall in kleine Schritte (Zellen) wird ein komplexes Thema schon viel einfacher.

    Beispiel:
    1. Zelle:
    -- Datenbank im Speicher anlegen
    ATTACH IF NOT EXISTS ':memory:' AS memory;

    2.Zelle:
    -- Tablle BLS 4.0 importieren
    CREATE OR REPLACE TABLE BLS AS
    SELECT * FROM
    read_xlsx('/home/XXX/Downloads/BLS_4_0_2025_DE/BLS_4_0_Daten_2025_DE.xlsx',
    sheet = 'BLS_4_0_Daten_2025_DE',
    header = true, all_varchar = true);

    3. Zelle
    -- Zeige mir Lebensmittel mit Vitamin D
    select Lebensmittelbezeichnung, "VITD Vitamin D [µg/100g]" as VD
    from'BLS'
    where
    VD is not null and VD not ilike '0'
    order by VD DESC;

    Ergebnisse können als Tabelle oder CSV mit "Download" gespeichert werden.
    😀

  46. In meinen heutigen #TechTipps möchte ich Euch gerne #duckdb
    vorstellen.
    DuckDB (duckdb.org) könnte Euch dann interessieren wenn ihr:

    - in der IT (#Softwareentwicklung, Datenanalyse #Olap, Qualitätssicherung, Forschung, etc ) arbeitet
    - privat an Datenanlyse jenseits von unübesichtlichen Tabellen (#Spreadsheets) interessiert seid
    - Daten wie Kontoauszüge, Telefonbücher oder (elektronische) Kataloge durchforsten wollt

    DuckDB kann als eigenständiges Kommandozeilen (#CLI) Programm ohne Abhängigkeiten bezogen und verwendet werden oder auch intergriert in andere #programmiersprachen (#python) oder #tools wie #jupyter integriert werden.

    Die CLI-Version kann mit Parameter "-ui" verwendet werden und startet damit ein recht komfortables #webui im lokalen #browser.
    Im ersten Schritt legt man nun ein "Notebook" an das zellenweise strukturiert ist.
    Es können jederzeit neue Zellen an jeder Stelle im #workflow hinzugefügt, eingefügt oder gelöscht werden.
    Unterteilt man nun seinen Anwendungsfall in kleine Schritte (Zellen) wird ein komplexes Thema schon viel einfacher.

    Beispiel:
    1. Zelle:
    -- Datenbank im Speicher anlegen
    ATTACH IF NOT EXISTS ':memory:' AS memory;

    2.Zelle:
    -- Tablle BLS 4.0 importieren
    CREATE OR REPLACE TABLE BLS AS
    SELECT * FROM
    read_xlsx('/home/XXX/Downloads/BLS_4_0_2025_DE/BLS_4_0_Daten_2025_DE.xlsx',
    sheet = 'BLS_4_0_Daten_2025_DE',
    header = true, all_varchar = true);

    3. Zelle
    -- Zeige mir Lebensmittel mit Vitamin D
    select Lebensmittelbezeichnung, "VITD Vitamin D [µg/100g]" as VD
    from'BLS'
    where
    VD is not null and VD not ilike '0'
    order by VD DESC;

    Ergebnisse können als Tabelle oder CSV mit "Download" gespeichert werden.
    😀

  47. In meinen heutigen #TechTipps möchte ich Euch gerne #duckdb
    vorstellen.
    DuckDB (duckdb.org) könnte Euch dann interessieren wenn ihr:

    - in der IT (#Softwareentwicklung, Datenanalyse #Olap, Qualitätssicherung, Forschung, etc ) arbeitet
    - privat an Datenanlyse jenseits von unübesichtlichen Tabellen (#Spreadsheets) interessiert seid
    - Daten wie Kontoauszüge, Telefonbücher oder (elektronische) Kataloge durchforsten wollt

    DuckDB kann als eigenständiges Kommandozeilen (#CLI) Programm ohne Abhängigkeiten bezogen und verwendet werden oder auch intergriert in andere #programmiersprachen (#python) oder #tools wie #jupyter integriert werden.

    Die CLI-Version kann mit Parameter "-ui" verwendet werden und startet damit ein recht komfortables #webui im lokalen #browser.
    Im ersten Schritt legt man nun ein "Notebook" an das zellenweise strukturiert ist.
    Es können jederzeit neue Zellen an jeder Stelle im #workflow hinzugefügt, eingefügt oder gelöscht werden.
    Unterteilt man nun seinen Anwendungsfall in kleine Schritte (Zellen) wird ein komplexes Thema schon viel einfacher.

    Beispiel:
    1. Zelle:
    -- Datenbank im Speicher anlegen
    ATTACH IF NOT EXISTS ':memory:' AS memory;

    2.Zelle:
    -- Tablle BLS 4.0 importieren
    CREATE OR REPLACE TABLE BLS AS
    SELECT * FROM
    read_xlsx('/home/XXX/Downloads/BLS_4_0_2025_DE/BLS_4_0_Daten_2025_DE.xlsx',
    sheet = 'BLS_4_0_Daten_2025_DE',
    header = true, all_varchar = true);

    3. Zelle
    -- Zeige mir Lebensmittel mit Vitamin D
    select Lebensmittelbezeichnung, "VITD Vitamin D [µg/100g]" as VD
    from'BLS'
    where
    VD is not null and VD not ilike '0'
    order by VD DESC;

    Ergebnisse können als Tabelle oder CSV mit "Download" gespeichert werden.
    😀

  48. In meinen heutigen #TechTipps möchte ich Euch gerne #duckdb
    vorstellen.
    DuckDB (duckdb.org) könnte Euch dann interessieren wenn ihr:

    - in der IT (#Softwareentwicklung, Datenanalyse #Olap, Qualitätssicherung, Forschung, etc ) arbeitet
    - privat an Datenanlyse jenseits von unübesichtlichen Tabellen (#Spreadsheets) interessiert seid
    - Daten wie Kontoauszüge, Telefonbücher oder (elektronische) Kataloge durchforsten wollt

    DuckDB kann als eigenständiges Kommandozeilen (#CLI) Programm ohne Abhängigkeiten bezogen und verwendet werden oder auch intergriert in andere #programmiersprachen (#python) oder #tools wie #jupyter integriert werden.

    Die CLI-Version kann mit Parameter "-ui" verwendet werden und startet damit ein recht komfortables #webui im lokalen #browser.
    Im ersten Schritt legt man nun ein "Notebook" an das zellenweise strukturiert ist.
    Es können jederzeit neue Zellen an jeder Stelle im #workflow hinzugefügt, eingefügt oder gelöscht werden.
    Unterteilt man nun seinen Anwendungsfall in kleine Schritte (Zellen) wird ein komplexes Thema schon viel einfacher.

    Beispiel:
    1. Zelle:
    -- Datenbank im Speicher anlegen
    ATTACH IF NOT EXISTS ':memory:' AS memory;

    2.Zelle:
    -- Tablle BLS 4.0 importieren
    CREATE OR REPLACE TABLE BLS AS
    SELECT * FROM
    read_xlsx('/home/XXX/Downloads/BLS_4_0_2025_DE/BLS_4_0_Daten_2025_DE.xlsx',
    sheet = 'BLS_4_0_Daten_2025_DE',
    header = true, all_varchar = true);

    3. Zelle
    -- Zeige mir Lebensmittel mit Vitamin D
    select Lebensmittelbezeichnung, "VITD Vitamin D [µg/100g]" as VD
    from'BLS'
    where
    VD is not null and VD not ilike '0'
    order by VD DESC;

    Ergebnisse können als Tabelle oder CSV mit "Download" gespeichert werden.
    😀

  49. StarRocks to the rescue! 🚀 Apparently, the #OLAP world was too busy having a mental breakdown over #joins to realize that #StarRocks has some secret sauce that makes them faster than a cat meme's rise to fame. 😂 But hey, who cares about real solutions when we can just keep denormalizing everything into oblivion, right? 🙄
    starrocks.io/blog/inside-starr #performance #dataanalytics #datavisualization #technologyhumor #HackerNews #ngated

  50. StarRocks to the rescue! 🚀 Apparently, the #OLAP world was too busy having a mental breakdown over #joins to realize that #StarRocks has some secret sauce that makes them faster than a cat meme's rise to fame. 😂 But hey, who cares about real solutions when we can just keep denormalizing everything into oblivion, right? 🙄
    starrocks.io/blog/inside-starr #performance #dataanalytics #datavisualization #technologyhumor #HackerNews #ngated