#etlпроцессы — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #etlпроцессы, aggregated by home.social.
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».
https://habr.com/ru/companies/w_code/articles/1031014/
#biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».
https://habr.com/ru/companies/w_code/articles/1031014/
#biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».
https://habr.com/ru/companies/w_code/articles/1031014/
#biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».
https://habr.com/ru/companies/w_code/articles/1031014/
#biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.
https://habr.com/ru/companies/w_code/articles/1028952/
#biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.
https://habr.com/ru/companies/w_code/articles/1028952/
#biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.
https://habr.com/ru/companies/w_code/articles/1028952/
#biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.
https://habr.com/ru/companies/w_code/articles/1028952/
#biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI
Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI от компании Bars Group – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.
https://habr.com/ru/companies/w_code/articles/1027052/
#AW_BI #biаналитика #bi #biсистема #бизнесаналитика #ETL #etlпроцессы #writeback #дашборды #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI
Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI от компании Bars Group – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.
https://habr.com/ru/companies/w_code/articles/1027052/
#AW_BI #biаналитика #bi #biсистема #бизнесаналитика #ETL #etlпроцессы #writeback #дашборды #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI
Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI от компании Bars Group – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.
https://habr.com/ru/companies/w_code/articles/1027052/
#AW_BI #biаналитика #bi #biсистема #бизнесаналитика #ETL #etlпроцессы #writeback #дашборды #визуализация_данных
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI
Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI от компании Bars Group – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.
https://habr.com/ru/companies/w_code/articles/1027052/
#AW_BI #biаналитика #bi #biсистема #бизнесаналитика #ETL #etlпроцессы #writeback #дашборды #визуализация_данных
-
asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк
С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»
https://habr.com/ru/articles/1011510/
#asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы
-
asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк
С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»
https://habr.com/ru/articles/1011510/
#asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы
-
asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк
С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»
https://habr.com/ru/articles/1011510/
#asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы
-
asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк
С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»
https://habr.com/ru/articles/1011510/
#asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы
-
Эволюция данных для банковской отчетности
Современная банковская отчетность находится в точке напряжения между растущими регуляторными требованиями и ограниченными возможностями существующих в банках систем: требуется своевременное предоставление большого объема регламентированных отчетов различным контролирующим органам и внутренним подразделениям банка, импортозамещение на отечественные разработки, диверсификация банковских операций, увеличение объема данных. Количество отчетных форм неуклонно растет, при этом требования к качеству и точности предоставляемых данных становятся строже. Штрафы за несвоевременную или некорректную отчетность могут быть от предупреждения и до отзыва лицензии. Квалифицированных специалистов, понимающих банковский учет и современные технологии обработки данных категорически не хватает. Это создаёт зависимость от узкого круга экспертов и риски при их уходе. Практически в каждом банке используется несколько систем для учета операций, данные из которых необходимо консолидировать для отчётности. На данный момент банки предоставляют в Банк России порядка 100 различных форм отчетов. В связи с таким разнообразием отчетных форм возникает вопрос эффективной автоматизации процессов формирования обязательной банковской отчетности. Недостаточность автоматизации данных процессов создаёт дополнительные сложности, увеличивает трудозатраты и снижает качество предоставляемых отчетов. Автоматизация должна решить ключевые проблемы, возникающие при формировании отчетности: Избыточность ручного труда: формирование части форм отчетности требует ручной обработки больших объемов данных, агрегации выгрузок из различных АБС в один отчет
https://habr.com/ru/companies/neoflex/articles/950680/
#банковская_отчетность #etlпроцессы #автоматизация_отчетности #Диверсификация_банковских_операций #Регуляторные_требования #цифровая_трансформация #Отчетные_формы #Системы_учета_операций #банки #mdm
-
Эволюция данных для банковской отчетности
Современная банковская отчетность находится в точке напряжения между растущими регуляторными требованиями и ограниченными возможностями существующих в банках систем: требуется своевременное предоставление большого объема регламентированных отчетов различным контролирующим органам и внутренним подразделениям банка, импортозамещение на отечественные разработки, диверсификация банковских операций, увеличение объема данных. Количество отчетных форм неуклонно растет, при этом требования к качеству и точности предоставляемых данных становятся строже. Штрафы за несвоевременную или некорректную отчетность могут быть от предупреждения и до отзыва лицензии. Квалифицированных специалистов, понимающих банковский учет и современные технологии обработки данных категорически не хватает. Это создаёт зависимость от узкого круга экспертов и риски при их уходе. Практически в каждом банке используется несколько систем для учета операций, данные из которых необходимо консолидировать для отчётности. На данный момент банки предоставляют в Банк России порядка 100 различных форм отчетов. В связи с таким разнообразием отчетных форм возникает вопрос эффективной автоматизации процессов формирования обязательной банковской отчетности. Недостаточность автоматизации данных процессов создаёт дополнительные сложности, увеличивает трудозатраты и снижает качество предоставляемых отчетов. Автоматизация должна решить ключевые проблемы, возникающие при формировании отчетности: Избыточность ручного труда: формирование части форм отчетности требует ручной обработки больших объемов данных, агрегации выгрузок из различных АБС в один отчет
https://habr.com/ru/companies/neoflex/articles/950680/
#банковская_отчетность #etlпроцессы #автоматизация_отчетности #Диверсификация_банковских_операций #Регуляторные_требования #цифровая_трансформация #Отчетные_формы #Системы_учета_операций #банки #mdm
-
Эволюция данных для банковской отчетности
Современная банковская отчетность находится в точке напряжения между растущими регуляторными требованиями и ограниченными возможностями существующих в банках систем: требуется своевременное предоставление большого объема регламентированных отчетов различным контролирующим органам и внутренним подразделениям банка, импортозамещение на отечественные разработки, диверсификация банковских операций, увеличение объема данных. Количество отчетных форм неуклонно растет, при этом требования к качеству и точности предоставляемых данных становятся строже. Штрафы за несвоевременную или некорректную отчетность могут быть от предупреждения и до отзыва лицензии. Квалифицированных специалистов, понимающих банковский учет и современные технологии обработки данных категорически не хватает. Это создаёт зависимость от узкого круга экспертов и риски при их уходе. Практически в каждом банке используется несколько систем для учета операций, данные из которых необходимо консолидировать для отчётности. На данный момент банки предоставляют в Банк России порядка 100 различных форм отчетов. В связи с таким разнообразием отчетных форм возникает вопрос эффективной автоматизации процессов формирования обязательной банковской отчетности. Недостаточность автоматизации данных процессов создаёт дополнительные сложности, увеличивает трудозатраты и снижает качество предоставляемых отчетов. Автоматизация должна решить ключевые проблемы, возникающие при формировании отчетности: Избыточность ручного труда: формирование части форм отчетности требует ручной обработки больших объемов данных, агрегации выгрузок из различных АБС в один отчет
https://habr.com/ru/companies/neoflex/articles/950680/
#банковская_отчетность #etlпроцессы #автоматизация_отчетности #Диверсификация_банковских_операций #Регуляторные_требования #цифровая_трансформация #Отчетные_формы #Системы_учета_операций #банки #mdm
-
Эволюция данных для банковской отчетности
Современная банковская отчетность находится в точке напряжения между растущими регуляторными требованиями и ограниченными возможностями существующих в банках систем: требуется своевременное предоставление большого объема регламентированных отчетов различным контролирующим органам и внутренним подразделениям банка, импортозамещение на отечественные разработки, диверсификация банковских операций, увеличение объема данных. Количество отчетных форм неуклонно растет, при этом требования к качеству и точности предоставляемых данных становятся строже. Штрафы за несвоевременную или некорректную отчетность могут быть от предупреждения и до отзыва лицензии. Квалифицированных специалистов, понимающих банковский учет и современные технологии обработки данных категорически не хватает. Это создаёт зависимость от узкого круга экспертов и риски при их уходе. Практически в каждом банке используется несколько систем для учета операций, данные из которых необходимо консолидировать для отчётности. На данный момент банки предоставляют в Банк России порядка 100 различных форм отчетов. В связи с таким разнообразием отчетных форм возникает вопрос эффективной автоматизации процессов формирования обязательной банковской отчетности. Недостаточность автоматизации данных процессов создаёт дополнительные сложности, увеличивает трудозатраты и снижает качество предоставляемых отчетов. Автоматизация должна решить ключевые проблемы, возникающие при формировании отчетности: Избыточность ручного труда: формирование части форм отчетности требует ручной обработки больших объемов данных, агрегации выгрузок из различных АБС в один отчет
https://habr.com/ru/companies/neoflex/articles/950680/
#банковская_отчетность #etlпроцессы #автоматизация_отчетности #Диверсификация_банковских_операций #Регуляторные_требования #цифровая_трансформация #Отчетные_формы #Системы_учета_операций #банки #mdm
-
Как правильно тащить данные в хранилище и не чувствовать боль
Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой. Пуск
https://habr.com/ru/articles/936360/
#Интеграция_данных #Хранилище_данных #Data_governance #etlпроцессы
-
Как правильно тащить данные в хранилище и не чувствовать боль
Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой. Пуск
https://habr.com/ru/articles/936360/
#Интеграция_данных #Хранилище_данных #Data_governance #etlпроцессы
-
Как правильно тащить данные в хранилище и не чувствовать боль
Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой. Пуск
https://habr.com/ru/articles/936360/
#Интеграция_данных #Хранилище_данных #Data_governance #etlпроцессы
-
Как правильно тащить данные в хранилище и не чувствовать боль
Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой. Пуск
https://habr.com/ru/articles/936360/
#Интеграция_данных #Хранилище_данных #Data_governance #etlпроцессы
-
ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)
К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.
https://habr.com/ru/articles/931282/
#dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster
-
ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)
К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.
https://habr.com/ru/articles/931282/
#dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster
-
ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)
К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.
https://habr.com/ru/articles/931282/
#dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster
-
ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)
К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.
https://habr.com/ru/articles/931282/
#dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster
-
Подготовка к миграции информационных систем и сервисов
Привет, Хабр! Я, Солнцев Евгений, руководитель управления эксплуатации прикладных систем Страхового Дома ВСК. У нас периодически возникает необходимость в миграции информационных систем и сервисов в другой ЦОД или облачную инфраструктуру. Необходимость в миграции может быть вызвана:
https://habr.com/ru/companies/vsk_insurance/articles/930394/
#инфраструктура_цод #миграция #сетевая_инфраструктура #цод #мониторинг #чеклист #интеграция #системная_интеграция #системная_архитектура #etlпроцессы
-
Подготовка к миграции информационных систем и сервисов
Привет, Хабр! Я, Солнцев Евгений, руководитель управления эксплуатации прикладных систем Страхового Дома ВСК. У нас периодически возникает необходимость в миграции информационных систем и сервисов в другой ЦОД или облачную инфраструктуру. Необходимость в миграции может быть вызвана:
https://habr.com/ru/companies/vsk_insurance/articles/930394/
#инфраструктура_цод #миграция #сетевая_инфраструктура #цод #мониторинг #чеклист #интеграция #системная_интеграция #системная_архитектура #etlпроцессы
-
Подготовка к миграции информационных систем и сервисов
Привет, Хабр! Я, Солнцев Евгений, руководитель управления эксплуатации прикладных систем Страхового Дома ВСК. У нас периодически возникает необходимость в миграции информационных систем и сервисов в другой ЦОД или облачную инфраструктуру. Необходимость в миграции может быть вызвана:
https://habr.com/ru/companies/vsk_insurance/articles/930394/
#инфраструктура_цод #миграция #сетевая_инфраструктура #цод #мониторинг #чеклист #интеграция #системная_интеграция #системная_архитектура #etlпроцессы
-
Подготовка к миграции информационных систем и сервисов
Привет, Хабр! Я, Солнцев Евгений, руководитель управления эксплуатации прикладных систем Страхового Дома ВСК. У нас периодически возникает необходимость в миграции информационных систем и сервисов в другой ЦОД или облачную инфраструктуру. Необходимость в миграции может быть вызвана:
https://habr.com/ru/companies/vsk_insurance/articles/930394/
#инфраструктура_цод #миграция #сетевая_инфраструктура #цод #мониторинг #чеклист #интеграция #системная_интеграция #системная_архитектура #etlпроцессы
-
Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе
До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.
https://habr.com/ru/articles/928038/
#n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etlпроцессы #pipeline #lowcode
-
Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе
До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.
https://habr.com/ru/articles/928038/
#n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etlпроцессы #pipeline #lowcode
-
Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе
До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.
https://habr.com/ru/articles/928038/
#n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etlпроцессы #pipeline #lowcode
-
Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе
До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.
https://habr.com/ru/articles/928038/
#n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etlпроцессы #pipeline #lowcode
-
SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу
Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания. Речь о переходе: от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG) к структурированным ETL-процессам на специализированном ПО. В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным. P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал! В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:
-
SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу
Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания. Речь о переходе: от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG) к структурированным ETL-процессам на специализированном ПО. В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным. P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал! В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:
-
SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу
Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания. Речь о переходе: от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG) к структурированным ETL-процессам на специализированном ПО. В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным. P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал! В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:
-
SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу
Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных. Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания. Речь о переходе: от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG) к структурированным ETL-процессам на специализированном ПО. В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным. P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал! В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:
-
Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы
Меня зовут Артем Москальков, я — ведущий инженер данных в Магнит OMNI. В статье я расскажу о том, как мы оптимизировали производительность кластера в ClickHouse. Частые мелкие вставки данных через Kafka Sink-коннектор серьёзно замедляли работу ClickHouse из-за огромного числа отдельных запросов. Путём настройки параметров потребителя Kafka и включения объединения партиций удалось сгруппировать записи в крупные блоки, что резко снизило нагрузку на базу и многократно увеличило её пропускную способность.
https://habr.com/ru/companies/magnit/articles/926834/
#kafka #инсерт #оптимизация_запросов #clickhouse #коннекторы #insert #etl #etlпроцессы #dwh #elt
-
Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы
Меня зовут Артем Москальков, я — ведущий инженер данных в Магнит OMNI. В статье я расскажу о том, как мы оптимизировали производительность кластера в ClickHouse. Частые мелкие вставки данных через Kafka Sink-коннектор серьёзно замедляли работу ClickHouse из-за огромного числа отдельных запросов. Путём настройки параметров потребителя Kafka и включения объединения партиций удалось сгруппировать записи в крупные блоки, что резко снизило нагрузку на базу и многократно увеличило её пропускную способность.
https://habr.com/ru/companies/magnit/articles/926834/
#kafka #инсерт #оптимизация_запросов #clickhouse #коннекторы #insert #etl #etlпроцессы #dwh #elt
-
Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы
Меня зовут Артем Москальков, я — ведущий инженер данных в Магнит OMNI. В статье я расскажу о том, как мы оптимизировали производительность кластера в ClickHouse. Частые мелкие вставки данных через Kafka Sink-коннектор серьёзно замедляли работу ClickHouse из-за огромного числа отдельных запросов. Путём настройки параметров потребителя Kafka и включения объединения партиций удалось сгруппировать записи в крупные блоки, что резко снизило нагрузку на базу и многократно увеличило её пропускную способность.
https://habr.com/ru/companies/magnit/articles/926834/
#kafka #инсерт #оптимизация_запросов #clickhouse #коннекторы #insert #etl #etlпроцессы #dwh #elt
-
Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы
Меня зовут Артем Москальков, я — ведущий инженер данных в Магнит OMNI. В статье я расскажу о том, как мы оптимизировали производительность кластера в ClickHouse. Частые мелкие вставки данных через Kafka Sink-коннектор серьёзно замедляли работу ClickHouse из-за огромного числа отдельных запросов. Путём настройки параметров потребителя Kafka и включения объединения партиций удалось сгруппировать записи в крупные блоки, что резко снизило нагрузку на базу и многократно увеличило её пропускную способность.
https://habr.com/ru/companies/magnit/articles/926834/
#kafka #инсерт #оптимизация_запросов #clickhouse #коннекторы #insert #etl #etlпроцессы #dwh #elt
-
Интеграционные решения на примере продукта «Цифровая карта магазина»
Всем привет! Меня зовут Алексей, я старший аналитик команды «Цифровая карта магазина». Сегодня я хочу рассказать про различные варианты интеграции с внешними системами, какие подходы и технологии мы использовали при их реализации и что из этого вышло. О продукте «Цифровая карта магазина» Наш продукт – это цифровой двойник розничного магазина, предназначенный для визуализации и управления расстановкой торгового оборудования, презентационными поверхностями на торговом оборудовании, размещения различных товарных объектов на презентационных поверхностях.
https://habr.com/ru/companies/sportmaster_lab/articles/898790/
-
Интеграционные решения на примере продукта «Цифровая карта магазина»
Всем привет! Меня зовут Алексей, я старший аналитик команды «Цифровая карта магазина». Сегодня я хочу рассказать про различные варианты интеграции с внешними системами, какие подходы и технологии мы использовали при их реализации и что из этого вышло. О продукте «Цифровая карта магазина» Наш продукт – это цифровой двойник розничного магазина, предназначенный для визуализации и управления расстановкой торгового оборудования, презентационными поверхностями на торговом оборудовании, размещения различных товарных объектов на презентационных поверхностях.
https://habr.com/ru/companies/sportmaster_lab/articles/898790/
-
Интеграционные решения на примере продукта «Цифровая карта магазина»
Всем привет! Меня зовут Алексей, я старший аналитик команды «Цифровая карта магазина». Сегодня я хочу рассказать про различные варианты интеграции с внешними системами, какие подходы и технологии мы использовали при их реализации и что из этого вышло. О продукте «Цифровая карта магазина» Наш продукт – это цифровой двойник розничного магазина, предназначенный для визуализации и управления расстановкой торгового оборудования, презентационными поверхностями на торговом оборудовании, размещения различных товарных объектов на презентационных поверхностях.
https://habr.com/ru/companies/sportmaster_lab/articles/898790/
-
Интеграционные решения на примере продукта «Цифровая карта магазина»
Всем привет! Меня зовут Алексей, я старший аналитик команды «Цифровая карта магазина». Сегодня я хочу рассказать про различные варианты интеграции с внешними системами, какие подходы и технологии мы использовали при их реализации и что из этого вышло. О продукте «Цифровая карта магазина» Наш продукт – это цифровой двойник розничного магазина, предназначенный для визуализации и управления расстановкой торгового оборудования, презентационными поверхностями на торговом оборудовании, размещения различных товарных объектов на презентационных поверхностях.
https://habr.com/ru/companies/sportmaster_lab/articles/898790/
-
Kafka Streams ч5: настройка окон, работа с задержанными событиями и suppression
Это моя финальная часть(ну пока что ;)) серии статей про Kafka Streams, прошлые статьи тут [ ноль , один , два , три ] Теперь давайте разработаем приложение, которое считывает: cобытия о пульсе из топика pulse-events .
-
Kafka Streams ч5: настройка окон, работа с задержанными событиями и suppression
Это моя финальная часть(ну пока что ;)) серии статей про Kafka Streams, прошлые статьи тут [ ноль , один , два , три ] Теперь давайте разработаем приложение, которое считывает: cобытия о пульсе из топика pulse-events .