#big_data_analytics — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #big_data_analytics, aggregated by home.social.
-
BIM Data Service: как мы превращаем BIM-модель в единый источник данных
Привет, Хабр! Меня зовут Альбина Алдабергенова, я – руководитель продукта BIM Data Service в ПИК. Продолжаем серию статей об экосистеме ПИК. В предыдущих материалах мы уже рассказали историю ее формирования и разобрали несколько инструментов: Family Manager , PikTools и BIM Inspector . Сегодня расскажу о продукте BIM Data Service, который превращает «цифровой двойник» здания в единый источник общих данных. А также о том, как мы автоматизировали один из самых непростых процессов в строительстве — расчёт сметы.
https://habr.com/ru/companies/pik_digital/articles/994448/
#bim #bimсистемы #bimмоделирование #bim_проекирование #big_data #big_data_analytics #big_data_solutions #девелопмент #строительство
-
BIM Data Service: как мы превращаем BIM-модель в единый источник данных
Привет, Хабр! Меня зовут Альбина Алдабергенова, я – руководитель продукта BIM Data Service в ПИК. Продолжаем серию статей об экосистеме ПИК. В предыдущих материалах мы уже рассказали историю ее формирования и разобрали несколько инструментов: Family Manager , PikTools и BIM Inspector . Сегодня расскажу о продукте BIM Data Service, который превращает «цифровой двойник» здания в единый источник общих данных. А также о том, как мы автоматизировали один из самых непростых процессов в строительстве — расчёт сметы.
https://habr.com/ru/companies/pik_digital/articles/994448/
#bim #bimсистемы #bimмоделирование #bim_проекирование #big_data #big_data_analytics #big_data_solutions #девелопмент #строительство
-
Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка
Любая модель машинного обучения начинается с данных . Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.
https://habr.com/ru/companies/vsk_insurance/articles/988282/
#bigdata #big_data #big_data_analytics #python #opensource #ml #learning #mlинженер #dataset #data_science
-
Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка
Любая модель машинного обучения начинается с данных . Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.
https://habr.com/ru/companies/vsk_insurance/articles/988282/
#bigdata #big_data #big_data_analytics #python #opensource #ml #learning #mlинженер #dataset #data_science
-
Книга: «Грокаем структуры данных»
Каждый разработчик знает, насколько важны структуры данных. Без них не обходится ни один серьезный проект, будь то оптимизация запросов, работа с Big Data или просто написание чистого и эффективного кода. Не зря же на собеседованиях постоянно спрашивают про деревья, хеш-таблицы и сложность алгоритмов! Вы только приступили к изучению структур данных? Хотите освежить знания, полученные в ходе обучения? В этой книге нет заумной математики, скучных доказательств и абстрактной теории. Вместо этого — понятные объяснения, рабочие примеры и реальные кейсы, с которыми ежедневно сталкиваются разработчики. Вы узнаете, как с помощью правильных структур данных ускорить поиск, эффективнее управлять очередями задач или, например, оптимизировать хранение данных. Книга построена по принципу «от простого к сложному»: начинается с базовых структур, таких как массивы и связанные списки, и постепенно переходит к более сложным — стекам, очередям, деревьям, хеш-таблицам и графам. Каждая глава содержит практические примеры, упражнения и наглядные иллюстрации, которые помогают закрепить материал. Вся теория подкреплена примерами на Python — одном из главных языков современной разработки. Если вы хотите не просто использовать структуры данных, а понимать их и применять осознанно — эта книга для вас.
https://habr.com/ru/companies/piter/articles/954670/
#big_data_analytics #разработка #библиотека_программиста #обработка_данных #хранение_данных #computer_science #алгоритмы #структуры_данных
-
Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов
За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.
https://habr.com/ru/companies/oleg-bunin/articles/915332/
#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics
-
Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов
За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.
https://habr.com/ru/companies/oleg-bunin/articles/915332/
#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics
-
Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов
За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.
https://habr.com/ru/companies/oleg-bunin/articles/915332/
#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics
-
Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов
За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.
https://habr.com/ru/companies/oleg-bunin/articles/915332/
#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics
-
Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.
https://habr.com/ru/articles/908220/
#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc
-
Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.
https://habr.com/ru/articles/908220/
#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc
-
Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.
https://habr.com/ru/articles/908220/
#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc
-
Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.
https://habr.com/ru/articles/908220/
#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc
-
Dagster: новый стандарт для ETL в 2025?
Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:
https://habr.com/ru/articles/883700/
#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics
-
Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров
Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.
https://habr.com/ru/articles/874448/
#данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка
-
Гайд на собеседования
Привет, Хабр! Я Денис, ведущий продуктовый аналитик из МТС, ex-Tinkoff. Я относительно недавно попал в МТС, но много чего уже получилось сделать! Сегодня у меня было первое собеседование, которое я проводил вместе со своим коллегой Алексеем. И после собеседования у меня возникла потрясающая мысль: почему бы не рассказать, как облегчить свою жизнь на собеседованиях и на что мы, как интервьюеры, обращаем внимание? Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях. Давайте начинать!
https://habr.com/ru/articles/809385/
#Аналитика #Собеседование #big_data_analytics #гайд #лайфхаки #sql #python
-
Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных
В данной статье мы рассмотрим ключевые аспекты различных типов хранилищ данных, которые помогут оптимизировать процессы управления данными в вашей компании. Подробнее
https://habr.com/ru/articles/778034/
#DWH #data_lake #nosql #базы_данных #управление_данными #хранилища_данных #etlпроцессы #etl #big_data #big_data_analytics
-
Dagster: новый стандарт для ETL в 2025?
Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:
https://habr.com/ru/articles/883700/
#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics
-
Dagster: новый стандарт для ETL в 2025?
Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:
https://habr.com/ru/articles/883700/
#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics
-
Dagster: новый стандарт для ETL в 2025?
Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:
https://habr.com/ru/articles/883700/
#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics
-
Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров
Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.
https://habr.com/ru/articles/874448/
#данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка
-
Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров
Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.
https://habr.com/ru/articles/874448/
#данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка
-
Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров
Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.
https://habr.com/ru/articles/874448/
#данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка