home.social

#cedrusdata — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #cedrusdata, aggregated by home.social.

  1. Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

    В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле. Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок Хочу, чтобы подгорело

    habr.com/ru/companies/cedrusda

    #trino #lakehouse #cedrusdata #starrocks #doris #duckdb

  2. Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

    В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле. Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок Хочу, чтобы подгорело

    habr.com/ru/companies/cedrusda

    #trino #lakehouse #cedrusdata #starrocks #doris #duckdb

  3. Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

    В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле. Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок Хочу, чтобы подгорело

    habr.com/ru/companies/cedrusda

    #trino #lakehouse #cedrusdata #starrocks #doris #duckdb

  4. Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

    В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле. Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок Хочу, чтобы подгорело

    habr.com/ru/companies/cedrusda

    #trino #lakehouse #cedrusdata #starrocks #doris #duckdb

  5. asapBI: импортозамещение SAP Calculation View

    Любите ли вы SQL так же, как и я? Недавно, собирая огромный SQL-запрос, я понял, что надо что-то менять. Логическим блоком в SQL является подзапрос или CTE и вроде бы можно разбивать запрос по блокам и работать с ними отдельно, как строится по кирпичикам любое приложение. Однако когда весь текст запроса идет сплошняком на многие экраны, сложно и разрабатывать, и через длительное время понимать алгоритм запроса. А что, если не надо писать SQL? В SAP мы не писали запросы, мы создавали Calculation View, и работать с ними было на порядок быстрее и приятнее. Перефразируя диалог из Матрицы: - Когда я стану избранным, я смогу писать длинный SQL? - Тебе не надо будет писать SQL. Как?

    habr.com/ru/articles/948888/

    #sap_hana #postgresql #clickhouse #data_engineering #greenplum #trino #cedrusdata #sql #построители

  6. asapBI: импортозамещение SAP Calculation View

    Любите ли вы SQL так же, как и я? Недавно, собирая огромный SQL-запрос, я понял, что надо что-то менять. Логическим блоком в SQL является подзапрос или CTE и вроде бы можно разбивать запрос по блокам и работать с ними отдельно, как строится по кирпичикам любое приложение. Однако когда весь текст запроса идет сплошняком на многие экраны, сложно и разрабатывать, и через длительное время понимать алгоритм запроса. А что, если не надо писать SQL? В SAP мы не писали запросы, мы создавали Calculation View, и работать с ними было на порядок быстрее и приятнее. Перефразируя диалог из Матрицы: - Когда я стану избранным, я смогу писать длинный SQL? - Тебе не надо будет писать SQL. Как?

    habr.com/ru/articles/948888/

    #sap_hana #postgresql #clickhouse #data_engineering #greenplum #trino #cedrusdata #sql #построители

  7. asapBI: импортозамещение SAP Calculation View

    Любите ли вы SQL так же, как и я? Недавно, собирая огромный SQL-запрос, я понял, что надо что-то менять. Логическим блоком в SQL является подзапрос или CTE и вроде бы можно разбивать запрос по блокам и работать с ними отдельно, как строится по кирпичикам любое приложение. Однако когда весь текст запроса идет сплошняком на многие экраны, сложно и разрабатывать, и через длительное время понимать алгоритм запроса. А что, если не надо писать SQL? В SAP мы не писали запросы, мы создавали Calculation View, и работать с ними было на порядок быстрее и приятнее. Перефразируя диалог из Матрицы: - Когда я стану избранным, я смогу писать длинный SQL? - Тебе не надо будет писать SQL. Как?

    habr.com/ru/articles/948888/

    #sap_hana #postgresql #clickhouse #data_engineering #greenplum #trino #cedrusdata #sql #построители

  8. asapBI: импортозамещение SAP Calculation View

    Любите ли вы SQL так же, как и я? Недавно, собирая огромный SQL-запрос, я понял, что надо что-то менять. Логическим блоком в SQL является подзапрос или CTE и вроде бы можно разбивать запрос по блокам и работать с ними отдельно, как строится по кирпичикам любое приложение. Однако когда весь текст запроса идет сплошняком на многие экраны, сложно и разрабатывать, и через длительное время понимать алгоритм запроса. А что, если не надо писать SQL? В SAP мы не писали запросы, мы создавали Calculation View, и работать с ними было на порядок быстрее и приятнее. Перефразируя диалог из Матрицы: - Когда я стану избранным, я смогу писать длинный SQL? - Тебе не надо будет писать SQL. Как?

    habr.com/ru/articles/948888/

    #sap_hana #postgresql #clickhouse #data_engineering #greenplum #trino #cedrusdata #sql #построители

  9. Мой опыт эксплуатации кластера Trino

    Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

    habr.com/ru/articles/863854/

    #trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb

  10. Мой опыт эксплуатации кластера Trino

    Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

    habr.com/ru/articles/863854/

    #trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb

  11. Мой опыт эксплуатации кластера Trino

    Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

    habr.com/ru/articles/863854/

    #trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb

  12. Мой опыт эксплуатации кластера Trino

    Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

    habr.com/ru/articles/863854/

    #trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb

  13. Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

    "Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость . В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

    habr.com/ru/companies/cedrusda

    #trino #cedrusdata #sql #iceberg

  14. Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

    "Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость . В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

    habr.com/ru/companies/cedrusda

    #trino #cedrusdata #sql #iceberg

  15. Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

    "Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость . В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

    habr.com/ru/companies/cedrusda

    #trino #cedrusdata #sql #iceberg

  16. Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

    "Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость . В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

    habr.com/ru/companies/cedrusda

    #trino #cedrusdata #sql #iceberg

  17. CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

    Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

    habr.com/ru/companies/cedrusda

    #cedrusdata #iceberg #lakehouse

  18. CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

    Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

    habr.com/ru/companies/cedrusda

    #cedrusdata #iceberg #lakehouse

  19. CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

    Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

    habr.com/ru/companies/cedrusda

    #cedrusdata #iceberg #lakehouse

  20. CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

    Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

    habr.com/ru/companies/cedrusda

    #cedrusdata #iceberg #lakehouse

  21. Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

    Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join. Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

    habr.com/ru/companies/cedrusda

    #trino #cedrusdata #sql #data_analysis #data_engineering #query_optimization #query_performance #datalake #lakehouse

  22. Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

    Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join. Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

    habr.com/ru/companies/cedrusda

    #trino #cedrusdata #sql #data_analysis #data_engineering #query_optimization #query_performance #datalake #lakehouse

  23. Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

    Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join. Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

    habr.com/ru/companies/cedrusda

    #trino #cedrusdata #sql #data_analysis #data_engineering #query_optimization #query_performance #datalake #lakehouse