home.social

#etlпроцессы — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #etlпроцессы, aggregated by home.social.

  1. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С

    Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».

    habr.com/ru/companies/w_code/a

    #biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных

  2. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С

    Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».

    habr.com/ru/companies/w_code/a

    #biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных

  3. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С

    Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».

    habr.com/ru/companies/w_code/a

    #biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных

  4. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С

    Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».

    habr.com/ru/companies/w_code/a

    #biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных

  5. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24

    Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.

    habr.com/ru/companies/w_code/a

    #biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных

  6. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24

    Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.

    habr.com/ru/companies/w_code/a

    #biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных

  7. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24

    Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.

    habr.com/ru/companies/w_code/a

    #biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных

  8. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24

    Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.

    habr.com/ru/companies/w_code/a

    #biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных

  9. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI

    Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI от компании Bars Group – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.

    habr.com/ru/companies/w_code/a

    #AW_BI #biаналитика #bi #biсистема #бизнесаналитика #ETL #etlпроцессы #writeback #дашборды #визуализация_данных

  10. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI

    Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI от компании Bars Group – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.

    habr.com/ru/companies/w_code/a

    #AW_BI #biаналитика #bi #biсистема #бизнесаналитика #ETL #etlпроцессы #writeback #дашборды #визуализация_данных

  11. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI

    Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI от компании Bars Group – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.

    habr.com/ru/companies/w_code/a

    #AW_BI #biаналитика #bi #biсистема #бизнесаналитика #ETL #etlпроцессы #writeback #дашборды #визуализация_данных

  12. Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI

    Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI от компании Bars Group – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.

    habr.com/ru/companies/w_code/a

    #AW_BI #biаналитика #bi #biсистема #бизнесаналитика #ETL #etlпроцессы #writeback #дашборды #визуализация_данных

  13. asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

    С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

    habr.com/ru/articles/1011510/

    #asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

  14. asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

    С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

    habr.com/ru/articles/1011510/

    #asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

  15. asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

    С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

    habr.com/ru/articles/1011510/

    #asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

  16. asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

    С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

    habr.com/ru/articles/1011510/

    #asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

  17. Эволюция данных для банковской отчетности

    Современная банковская отчетность находится в точке напряжения между растущими регуляторными требованиями и ограниченными возможностями существующих в банках систем: требуется своевременное предоставление большого объема регламентированных отчетов различным контролирующим органам и внутренним подразделениям банка, импортозамещение на отечественные разработки, диверсификация банковских операций, увеличение объема данных. Количество отчетных форм неуклонно растет, при этом требования к качеству и точности предоставляемых данных становятся строже. Штрафы за несвоевременную или некорректную отчетность могут быть от предупреждения и до отзыва лицензии. Квалифицированных специалистов, понимающих банковский учет и современные технологии обработки данных категорически не хватает. Это создаёт зависимость от узкого круга экспертов и риски при их уходе. Практически в каждом банке используется несколько систем для учета операций, данные из которых необходимо консолидировать для отчётности. На данный момент банки предоставляют в Банк России порядка 100 различных форм отчетов. В связи с таким разнообразием отчетных форм возникает вопрос эффективной автоматизации процессов формирования обязательной банковской отчетности. Недостаточность автоматизации данных процессов создаёт дополнительные сложности, увеличивает трудозатраты и снижает качество предоставляемых отчетов. Автоматизация должна решить ключевые проблемы, возникающие при формировании отчетности: Избыточность ручного труда: формирование части форм отчетности требует ручной обработки больших объемов данных, агрегации выгрузок из различных АБС в один отчет

    habr.com/ru/companies/neoflex/

    #банковская_отчетность #etlпроцессы #автоматизация_отчетности #Диверсификация_банковских_операций #Регуляторные_требования #цифровая_трансформация #Отчетные_формы #Системы_учета_операций #банки #mdm

  18. Эволюция данных для банковской отчетности

    Современная банковская отчетность находится в точке напряжения между растущими регуляторными требованиями и ограниченными возможностями существующих в банках систем: требуется своевременное предоставление большого объема регламентированных отчетов различным контролирующим органам и внутренним подразделениям банка, импортозамещение на отечественные разработки, диверсификация банковских операций, увеличение объема данных. Количество отчетных форм неуклонно растет, при этом требования к качеству и точности предоставляемых данных становятся строже. Штрафы за несвоевременную или некорректную отчетность могут быть от предупреждения и до отзыва лицензии. Квалифицированных специалистов, понимающих банковский учет и современные технологии обработки данных категорически не хватает. Это создаёт зависимость от узкого круга экспертов и риски при их уходе. Практически в каждом банке используется несколько систем для учета операций, данные из которых необходимо консолидировать для отчётности. На данный момент банки предоставляют в Банк России порядка 100 различных форм отчетов. В связи с таким разнообразием отчетных форм возникает вопрос эффективной автоматизации процессов формирования обязательной банковской отчетности. Недостаточность автоматизации данных процессов создаёт дополнительные сложности, увеличивает трудозатраты и снижает качество предоставляемых отчетов. Автоматизация должна решить ключевые проблемы, возникающие при формировании отчетности: Избыточность ручного труда: формирование части форм отчетности требует ручной обработки больших объемов данных, агрегации выгрузок из различных АБС в один отчет

    habr.com/ru/companies/neoflex/

    #банковская_отчетность #etlпроцессы #автоматизация_отчетности #Диверсификация_банковских_операций #Регуляторные_требования #цифровая_трансформация #Отчетные_формы #Системы_учета_операций #банки #mdm

  19. Эволюция данных для банковской отчетности

    Современная банковская отчетность находится в точке напряжения между растущими регуляторными требованиями и ограниченными возможностями существующих в банках систем: требуется своевременное предоставление большого объема регламентированных отчетов различным контролирующим органам и внутренним подразделениям банка, импортозамещение на отечественные разработки, диверсификация банковских операций, увеличение объема данных. Количество отчетных форм неуклонно растет, при этом требования к качеству и точности предоставляемых данных становятся строже. Штрафы за несвоевременную или некорректную отчетность могут быть от предупреждения и до отзыва лицензии. Квалифицированных специалистов, понимающих банковский учет и современные технологии обработки данных категорически не хватает. Это создаёт зависимость от узкого круга экспертов и риски при их уходе. Практически в каждом банке используется несколько систем для учета операций, данные из которых необходимо консолидировать для отчётности. На данный момент банки предоставляют в Банк России порядка 100 различных форм отчетов. В связи с таким разнообразием отчетных форм возникает вопрос эффективной автоматизации процессов формирования обязательной банковской отчетности. Недостаточность автоматизации данных процессов создаёт дополнительные сложности, увеличивает трудозатраты и снижает качество предоставляемых отчетов. Автоматизация должна решить ключевые проблемы, возникающие при формировании отчетности: Избыточность ручного труда: формирование части форм отчетности требует ручной обработки больших объемов данных, агрегации выгрузок из различных АБС в один отчет

    habr.com/ru/companies/neoflex/

    #банковская_отчетность #etlпроцессы #автоматизация_отчетности #Диверсификация_банковских_операций #Регуляторные_требования #цифровая_трансформация #Отчетные_формы #Системы_учета_операций #банки #mdm

  20. Эволюция данных для банковской отчетности

    Современная банковская отчетность находится в точке напряжения между растущими регуляторными требованиями и ограниченными возможностями существующих в банках систем: требуется своевременное предоставление большого объема регламентированных отчетов различным контролирующим органам и внутренним подразделениям банка, импортозамещение на отечественные разработки, диверсификация банковских операций, увеличение объема данных. Количество отчетных форм неуклонно растет, при этом требования к качеству и точности предоставляемых данных становятся строже. Штрафы за несвоевременную или некорректную отчетность могут быть от предупреждения и до отзыва лицензии. Квалифицированных специалистов, понимающих банковский учет и современные технологии обработки данных категорически не хватает. Это создаёт зависимость от узкого круга экспертов и риски при их уходе. Практически в каждом банке используется несколько систем для учета операций, данные из которых необходимо консолидировать для отчётности. На данный момент банки предоставляют в Банк России порядка 100 различных форм отчетов. В связи с таким разнообразием отчетных форм возникает вопрос эффективной автоматизации процессов формирования обязательной банковской отчетности. Недостаточность автоматизации данных процессов создаёт дополнительные сложности, увеличивает трудозатраты и снижает качество предоставляемых отчетов. Автоматизация должна решить ключевые проблемы, возникающие при формировании отчетности: Избыточность ручного труда: формирование части форм отчетности требует ручной обработки больших объемов данных, агрегации выгрузок из различных АБС в один отчет

    habr.com/ru/companies/neoflex/

    #банковская_отчетность #etlпроцессы #автоматизация_отчетности #Диверсификация_банковских_операций #Регуляторные_требования #цифровая_трансформация #Отчетные_формы #Системы_учета_операций #банки #mdm

  21. Как правильно тащить данные в хранилище и не чувствовать боль

    Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой. Пуск

    habr.com/ru/articles/936360/

    #Интеграция_данных #Хранилище_данных #Data_governance #etlпроцессы

  22. Как правильно тащить данные в хранилище и не чувствовать боль

    Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой. Пуск

    habr.com/ru/articles/936360/

    #Интеграция_данных #Хранилище_данных #Data_governance #etlпроцессы

  23. Как правильно тащить данные в хранилище и не чувствовать боль

    Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой. Пуск

    habr.com/ru/articles/936360/

    #Интеграция_данных #Хранилище_данных #Data_governance #etlпроцессы

  24. Как правильно тащить данные в хранилище и не чувствовать боль

    Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой. Пуск

    habr.com/ru/articles/936360/

    #Интеграция_данных #Хранилище_данных #Data_governance #etlпроцессы

  25. ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

    К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

    habr.com/ru/articles/931282/

    #dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster

  26. ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

    К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

    habr.com/ru/articles/931282/

    #dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster

  27. ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

    К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

    habr.com/ru/articles/931282/

    #dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster

  28. ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

    К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

    habr.com/ru/articles/931282/

    #dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster

  29. Подготовка к миграции информационных систем и сервисов

    Привет, Хабр! Я, Солнцев Евгений, руководитель управления эксплуатации прикладных систем Страхового Дома ВСК. У нас периодически возникает необходимость в миграции информационных систем и сервисов в другой ЦОД или облачную инфраструктуру. Необходимость в миграции может быть вызвана:

    habr.com/ru/companies/vsk_insu

    #инфраструктура_цод #миграция #сетевая_инфраструктура #цод #мониторинг #чеклист #интеграция #системная_интеграция #системная_архитектура #etlпроцессы

  30. Подготовка к миграции информационных систем и сервисов

    Привет, Хабр! Я, Солнцев Евгений, руководитель управления эксплуатации прикладных систем Страхового Дома ВСК. У нас периодически возникает необходимость в миграции информационных систем и сервисов в другой ЦОД или облачную инфраструктуру. Необходимость в миграции может быть вызвана:

    habr.com/ru/companies/vsk_insu

    #инфраструктура_цод #миграция #сетевая_инфраструктура #цод #мониторинг #чеклист #интеграция #системная_интеграция #системная_архитектура #etlпроцессы

  31. Подготовка к миграции информационных систем и сервисов

    Привет, Хабр! Я, Солнцев Евгений, руководитель управления эксплуатации прикладных систем Страхового Дома ВСК. У нас периодически возникает необходимость в миграции информационных систем и сервисов в другой ЦОД или облачную инфраструктуру. Необходимость в миграции может быть вызвана:

    habr.com/ru/companies/vsk_insu

    #инфраструктура_цод #миграция #сетевая_инфраструктура #цод #мониторинг #чеклист #интеграция #системная_интеграция #системная_архитектура #etlпроцессы

  32. Подготовка к миграции информационных систем и сервисов

    Привет, Хабр! Я, Солнцев Евгений, руководитель управления эксплуатации прикладных систем Страхового Дома ВСК. У нас периодически возникает необходимость в миграции информационных систем и сервисов в другой ЦОД или облачную инфраструктуру. Необходимость в миграции может быть вызвана:

    habr.com/ru/companies/vsk_insu

    #инфраструктура_цод #миграция #сетевая_инфраструктура #цод #мониторинг #чеклист #интеграция #системная_интеграция #системная_архитектура #etlпроцессы

  33. Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе

    До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.

    habr.com/ru/articles/928038/

    #n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etlпроцессы #pipeline #lowcode

  34. Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе

    До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.

    habr.com/ru/articles/928038/

    #n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etlпроцессы #pipeline #lowcode

  35. Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе

    До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.

    habr.com/ru/articles/928038/

    #n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etlпроцессы #pipeline #lowcode

  36. Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе

    До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.

    habr.com/ru/articles/928038/

    #n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etlпроцессы #pipeline #lowcode

  37. SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу

    Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания. Речь о переходе: от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG) к структурированным ETL-процессам на специализированном ПО. В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным. P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал! В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:

    habr.com/ru/articles/927416/

    #etlпроцессы #ssis #sql #data_engineering #базы_данных

  38. SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу

    Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания. Речь о переходе: от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG) к структурированным ETL-процессам на специализированном ПО. В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным. P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал! В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:

    habr.com/ru/articles/927416/

    #etlпроцессы #ssis #sql #data_engineering #базы_данных

  39. SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу

    Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания. Речь о переходе: от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG) к структурированным ETL-процессам на специализированном ПО. В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным. P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал! В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:

    habr.com/ru/articles/927416/

    #etlпроцессы #ssis #sql #data_engineering #базы_данных

  40. SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу

    Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания. Речь о переходе: от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG) к структурированным ETL-процессам на специализированном ПО. В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным. P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал! В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:

    habr.com/ru/articles/927416/

    #etlпроцессы #ssis #sql #data_engineering #базы_данных

  41. Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы

    Меня зовут Артем Москальков, я — ведущий инженер данных в Магнит OMNI. В статье я расскажу о том, как мы оптимизировали производительность кластера в ClickHouse. Частые мелкие вставки данных через Kafka Sink-коннектор серьёзно замедляли работу ClickHouse из-за огромного числа отдельных запросов. Путём настройки параметров потребителя Kafka и включения объединения партиций удалось сгруппировать записи в крупные блоки, что резко снизило нагрузку на базу и многократно увеличило её пропускную способность.

    habr.com/ru/companies/magnit/a

    #kafka #инсерт #оптимизация_запросов #clickhouse #коннекторы #insert #etl #etlпроцессы #dwh #elt

  42. Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы

    Меня зовут Артем Москальков, я — ведущий инженер данных в Магнит OMNI. В статье я расскажу о том, как мы оптимизировали производительность кластера в ClickHouse. Частые мелкие вставки данных через Kafka Sink-коннектор серьёзно замедляли работу ClickHouse из-за огромного числа отдельных запросов. Путём настройки параметров потребителя Kafka и включения объединения партиций удалось сгруппировать записи в крупные блоки, что резко снизило нагрузку на базу и многократно увеличило её пропускную способность.

    habr.com/ru/companies/magnit/a

    #kafka #инсерт #оптимизация_запросов #clickhouse #коннекторы #insert #etl #etlпроцессы #dwh #elt

  43. Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы

    Меня зовут Артем Москальков, я — ведущий инженер данных в Магнит OMNI. В статье я расскажу о том, как мы оптимизировали производительность кластера в ClickHouse. Частые мелкие вставки данных через Kafka Sink-коннектор серьёзно замедляли работу ClickHouse из-за огромного числа отдельных запросов. Путём настройки параметров потребителя Kafka и включения объединения партиций удалось сгруппировать записи в крупные блоки, что резко снизило нагрузку на базу и многократно увеличило её пропускную способность.

    habr.com/ru/companies/magnit/a

    #kafka #инсерт #оптимизация_запросов #clickhouse #коннекторы #insert #etl #etlпроцессы #dwh #elt

  44. Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы

    Меня зовут Артем Москальков, я — ведущий инженер данных в Магнит OMNI. В статье я расскажу о том, как мы оптимизировали производительность кластера в ClickHouse. Частые мелкие вставки данных через Kafka Sink-коннектор серьёзно замедляли работу ClickHouse из-за огромного числа отдельных запросов. Путём настройки параметров потребителя Kafka и включения объединения партиций удалось сгруппировать записи в крупные блоки, что резко снизило нагрузку на базу и многократно увеличило её пропускную способность.

    habr.com/ru/companies/magnit/a

    #kafka #инсерт #оптимизация_запросов #clickhouse #коннекторы #insert #etl #etlпроцессы #dwh #elt

  45. Интеграционные решения на примере продукта «Цифровая карта магазина»

    Всем привет! Меня зовут Алексей, я старший аналитик команды «Цифровая карта магазина». Сегодня я хочу рассказать про различные варианты интеграции с внешними системами, какие подходы и технологии мы использовали при их реализации и что из этого вышло. О продукте «Цифровая карта магазина» Наш продукт – это цифровой двойник розничного магазина, предназначенный для визуализации и управления расстановкой торгового оборудования, презентационными поверхностями на торговом оборудовании, размещения различных товарных объектов на презентационных поверхностях.

    habr.com/ru/companies/sportmas

    #etlпроцессы #интеграция_систем #базы_данных

  46. Интеграционные решения на примере продукта «Цифровая карта магазина»

    Всем привет! Меня зовут Алексей, я старший аналитик команды «Цифровая карта магазина». Сегодня я хочу рассказать про различные варианты интеграции с внешними системами, какие подходы и технологии мы использовали при их реализации и что из этого вышло. О продукте «Цифровая карта магазина» Наш продукт – это цифровой двойник розничного магазина, предназначенный для визуализации и управления расстановкой торгового оборудования, презентационными поверхностями на торговом оборудовании, размещения различных товарных объектов на презентационных поверхностях.

    habr.com/ru/companies/sportmas

    #etlпроцессы #интеграция_систем #базы_данных

  47. Интеграционные решения на примере продукта «Цифровая карта магазина»

    Всем привет! Меня зовут Алексей, я старший аналитик команды «Цифровая карта магазина». Сегодня я хочу рассказать про различные варианты интеграции с внешними системами, какие подходы и технологии мы использовали при их реализации и что из этого вышло. О продукте «Цифровая карта магазина» Наш продукт – это цифровой двойник розничного магазина, предназначенный для визуализации и управления расстановкой торгового оборудования, презентационными поверхностями на торговом оборудовании, размещения различных товарных объектов на презентационных поверхностях.

    habr.com/ru/companies/sportmas

    #etlпроцессы #интеграция_систем #базы_данных

  48. Интеграционные решения на примере продукта «Цифровая карта магазина»

    Всем привет! Меня зовут Алексей, я старший аналитик команды «Цифровая карта магазина». Сегодня я хочу рассказать про различные варианты интеграции с внешними системами, какие подходы и технологии мы использовали при их реализации и что из этого вышло. О продукте «Цифровая карта магазина» Наш продукт – это цифровой двойник розничного магазина, предназначенный для визуализации и управления расстановкой торгового оборудования, презентационными поверхностями на торговом оборудовании, размещения различных товарных объектов на презентационных поверхностях.

    habr.com/ru/companies/sportmas

    #etlпроцессы #интеграция_систем #базы_данных

  49. Kafka Streams ч5: настройка окон, работа с задержанными событиями и suppression

    Это моя финальная часть(ну пока что ;)) серии статей про Kafka Streams, прошлые статьи тут [ ноль , один , два , три ] Теперь давайте разработаем приложение, которое считывает: cобытия о пульсе из топика pulse-events .

    habr.com/ru/articles/870784/

    #apache_kafka #kafka_streams #etl #elt #etlпроцессы

  50. Kafka Streams ч5: настройка окон, работа с задержанными событиями и suppression

    Это моя финальная часть(ну пока что ;)) серии статей про Kafka Streams, прошлые статьи тут [ ноль , один , два , три ] Теперь давайте разработаем приложение, которое считывает: cобытия о пульсе из топика pulse-events .

    habr.com/ru/articles/870784/

    #apache_kafka #kafka_streams #etl #elt #etlпроцессы