#big_data_analytics — Public Fediverse posts on home.social

Habr @[email protected] · 2026-02-09 · 12:22 UTC

BIM Data Service: как мы превращаем BIM-модель в единый источник данных

Привет, Хабр! Меня зовут Альбина Алдабергенова, я – руководитель продукта BIM Data Service в ПИК. Продолжаем серию статей об экосистеме ПИК. В предыдущих материалах мы уже рассказали историю ее формирования и разобрали несколько инструментов: Family Manager , PikTools и BIM Inspector . Сегодня расскажу о продукте BIM Data Service, который превращает «цифровой двойник» здания в единый источник общих данных. А также о том, как мы автоматизировали один из самых непростых процессов в строительстве — расчёт сметы.

https://habr.com/ru/companies/pik_digital/articles/994448/

#bim #bimсистемы #bimмоделирование #bim_проекирование #big_data #big_data_analytics #big_data_solutions #девелопмент #строительство

#строительство #девелопмент #big_data_solutions #big_data_analytics #big_data #bim_проекирование

Habr @[email protected] · 2026-02-09 · 12:22 UTC

BIM Data Service: как мы превращаем BIM-модель в единый источник данных

Привет, Хабр! Меня зовут Альбина Алдабергенова, я – руководитель продукта BIM Data Service в ПИК. Продолжаем серию статей об экосистеме ПИК. В предыдущих материалах мы уже рассказали историю ее формирования и разобрали несколько инструментов: Family Manager , PikTools и BIM Inspector . Сегодня расскажу о продукте BIM Data Service, который превращает «цифровой двойник» здания в единый источник общих данных. А также о том, как мы автоматизировали один из самых непростых процессов в строительстве — расчёт сметы.

https://habr.com/ru/companies/pik_digital/articles/994448/

#bim #bimсистемы #bimмоделирование #bim_проекирование #big_data #big_data_analytics #big_data_solutions #девелопмент #строительство

#строительство #девелопмент #big_data_solutions #big_data_analytics #big_data #bim_проекирование

Habr @[email protected] · 2026-01-23 · 12:42 UTC

Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

Любая модель машинного обучения начинается с данных . Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.

https://habr.com/ru/companies/vsk_insurance/articles/988282/

#bigdata #big_data #big_data_analytics #python #opensource #ml #learning #mlинженер #dataset #data_science

#data_science #dataset #mlинженер #learning #ml #opensource

Habr @[email protected] · 2026-01-23 · 12:42 UTC

Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

Любая модель машинного обучения начинается с данных . Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.

https://habr.com/ru/companies/vsk_insurance/articles/988282/

#bigdata #big_data #big_data_analytics #python #opensource #ml #learning #mlинженер #dataset #data_science

#data_science #dataset #mlинженер #learning #ml #opensource

Habr @[email protected] · 2025-10-09 · 09:02 UTC

Книга: «Грокаем структуры данных»

Каждый разработчик знает, насколько важны структуры данных. Без них не обходится ни один серьезный проект, будь то оптимизация запросов, работа с Big Data или просто написание чистого и эффективного кода. Не зря же на собеседованиях постоянно спрашивают про деревья, хеш-таблицы и сложность алгоритмов! Вы только приступили к изучению структур данных? Хотите освежить знания, полученные в ходе обучения? В этой книге нет заумной математики, скучных доказательств и абстрактной теории. Вместо этого — понятные объяснения, рабочие примеры и реальные кейсы, с которыми ежедневно сталкиваются разработчики. Вы узнаете, как с помощью правильных структур данных ускорить поиск, эффективнее управлять очередями задач или, например, оптимизировать хранение данных. Книга построена по принципу «от простого к сложному»: начинается с базовых структур, таких как массивы и связанные списки, и постепенно переходит к более сложным — стекам, очередям, деревьям, хеш-таблицам и графам. Каждая глава содержит практические примеры, упражнения и наглядные иллюстрации, которые помогают закрепить материал. Вся теория подкреплена примерами на Python — одном из главных языков современной разработки. Если вы хотите не просто использовать структуры данных, а понимать их и применять осознанно — эта книга для вас.

https://habr.com/ru/companies/piter/articles/954670/

#big_data_analytics #разработка #библиотека_программиста #обработка_данных #хранение_данных #computer_science #алгоритмы #структуры_данных

#структуры_данных #алгоритмы #computer_science #хранение_данных #обработка_данных #библиотека_программиста

Habr @[email protected] · 2025-06-05 · 12:32 UTC

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

https://habr.com/ru/companies/oleg-bunin/articles/915332/

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

#big_data_analytics #big_data #data_internals #data_bases #python #infrastructure

Habr @[email protected] · 2025-06-05 · 12:32 UTC

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

https://habr.com/ru/companies/oleg-bunin/articles/915332/

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

#big_data_analytics #big_data #data_internals #data_bases #python #infrastructure

Habr @[email protected] · 2025-06-05 · 12:32 UTC

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

https://habr.com/ru/companies/oleg-bunin/articles/915332/

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

#big_data_analytics #big_data #data_internals #data_bases #python #infrastructure

Habr @[email protected] · 2025-06-05 · 12:32 UTC

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

https://habr.com/ru/companies/oleg-bunin/articles/915332/

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python

Habr @[email protected] · 2025-05-10 · 12:02 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

https://habr.com/ru/articles/908220/

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

#cdc #kafka #debezium #big_data_architecture #architecture #big_data_solutions

Habr @[email protected] · 2025-05-10 · 12:02 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

https://habr.com/ru/articles/908220/

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

#cdc #kafka #debezium #big_data_architecture #architecture #big_data_solutions

Habr @[email protected] · 2025-05-10 · 12:02 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

https://habr.com/ru/articles/908220/

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

#cdc #kafka #debezium #big_data_architecture #architecture #big_data_solutions

Habr @[email protected] · 2025-05-10 · 12:02 UTC

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

https://habr.com/ru/articles/908220/

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture

Habr @[email protected] · 2025-02-18 · 18:02 UTC

Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

https://habr.com/ru/articles/883700/

#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

#big_data_analytics #big_data #dataops_engineer #python #mlops #data_engineering

Habr @[email protected] · 2025-01-17 · 14:22 UTC

Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.

https://habr.com/ru/articles/874448/

#данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка

#данные #big_data #big_data_analytics #bi #itкомпании #инновации

Habr @[email protected] · 2024-04-22 · 09:52 UTC

Гайд на собеседования

Привет, Хабр! Я Денис, ведущий продуктовый аналитик из МТС, ex-Tinkoff. Я относительно недавно попал в МТС, но много чего уже получилось сделать! Сегодня у меня было первое собеседование, которое я проводил вместе со своим коллегой Алексеем. И после собеседования у меня возникла потрясающая мысль: почему бы не рассказать, как облегчить свою жизнь на собеседованиях и на что мы, как интервьюеры, обращаем внимание? Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях. Давайте начинать!

https://habr.com/ru/articles/809385/

#Аналитика #Собеседование #big_data_analytics #гайд #лайфхаки #sql #python

#python #sql #лайфхаки #гайд #big_data_analytics #собеседование

Habr @[email protected] · 2023-12-02 · 18:42 UTC

Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

В данной статье мы рассмотрим ключевые аспекты различных типов хранилищ данных, которые помогут оптимизировать процессы управления данными в вашей компании. Подробнее

https://habr.com/ru/articles/778034/

#DWH #data_lake #nosql #базы_данных #управление_данными #хранилища_данных #etlпроцессы #etl #big_data #big_data_analytics

#big_data_analytics #big_data #etl #etlпроцессы #хранилища_данных #управление_данными

Habr @[email protected] · 2025-02-18 · 18:02 UTC

Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

https://habr.com/ru/articles/883700/

#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

#big_data_analytics #big_data #dataops_engineer #python #mlops #data_engineering

Habr @[email protected] · 2025-02-18 · 18:02 UTC

Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

https://habr.com/ru/articles/883700/

#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

#big_data_analytics #big_data #dataops_engineer #python #mlops #data_engineering

Habr @[email protected] · 2025-02-18 · 18:02 UTC

Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

https://habr.com/ru/articles/883700/

#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops

Habr @[email protected] · 2025-01-17 · 14:22 UTC

Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.

https://habr.com/ru/articles/874448/

#данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка

#данные #big_data #big_data_analytics #bi #itкомпании #инновации

Habr @[email protected] · 2025-01-17 · 14:22 UTC

Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.

https://habr.com/ru/articles/874448/

#данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка

#данные #big_data #big_data_analytics #bi #itкомпании #инновации

Habr @[email protected] · 2025-01-17 · 14:22 UTC

Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.

https://habr.com/ru/articles/874448/

#данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка

#разработка #безопасный_транспорт #инновации_в_технологиях #инновации_в_it #инновации #itкомпании