home.social

#big_data_analytics — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #big_data_analytics, aggregated by home.social.

  1. BIM Data Service: как мы превращаем BIM-модель в единый источник данных

    Привет, Хабр! Меня зовут Альбина Алдабергенова, я – руководитель продукта BIM Data Service в ПИК. Продолжаем серию статей об экосистеме ПИК. В предыдущих материалах мы уже рассказали историю ее формирования и разобрали несколько инструментов: Family Manager , PikTools и BIM Inspector . Сегодня расскажу о продукте BIM Data Service, который превращает «цифровой двойник» здания в единый источник общих данных. А также о том, как мы автоматизировали один из самых непростых процессов в строительстве — расчёт сметы.

    habr.com/ru/companies/pik_digi

    #bim #bimсистемы #bimмоделирование #bim_проекирование #big_data #big_data_analytics #big_data_solutions #девелопмент #строительство

  2. BIM Data Service: как мы превращаем BIM-модель в единый источник данных

    Привет, Хабр! Меня зовут Альбина Алдабергенова, я – руководитель продукта BIM Data Service в ПИК. Продолжаем серию статей об экосистеме ПИК. В предыдущих материалах мы уже рассказали историю ее формирования и разобрали несколько инструментов: Family Manager , PikTools и BIM Inspector . Сегодня расскажу о продукте BIM Data Service, который превращает «цифровой двойник» здания в единый источник общих данных. А также о том, как мы автоматизировали один из самых непростых процессов в строительстве — расчёт сметы.

    habr.com/ru/companies/pik_digi

    #bim #bimсистемы #bimмоделирование #bim_проекирование #big_data #big_data_analytics #big_data_solutions #девелопмент #строительство

  3. Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

    Любая модель машинного обучения начинается с данных . Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.

    habr.com/ru/companies/vsk_insu

    #bigdata #big_data #big_data_analytics #python #opensource #ml #learning #mlинженер #dataset #data_science

  4. Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

    Любая модель машинного обучения начинается с данных . Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.

    habr.com/ru/companies/vsk_insu

    #bigdata #big_data #big_data_analytics #python #opensource #ml #learning #mlинженер #dataset #data_science

  5. Книга: «Грокаем структуры данных»

    Каждый разработчик знает, насколько важны структуры данных. Без них не обходится ни один серьезный проект, будь то оптимизация запросов, работа с Big Data или просто написание чистого и эффективного кода. Не зря же на собеседованиях постоянно спрашивают про деревья, хеш-таблицы и сложность алгоритмов! Вы только приступили к изучению структур данных? Хотите освежить знания, полученные в ходе обучения? В этой книге нет заумной математики, скучных доказательств и абстрактной теории. Вместо этого — понятные объяснения, рабочие примеры и реальные кейсы, с которыми ежедневно сталкиваются разработчики. Вы узнаете, как с помощью правильных структур данных ускорить поиск, эффективнее управлять очередями задач или, например, оптимизировать хранение данных. Книга построена по принципу «от простого к сложному»: начинается с базовых структур, таких как массивы и связанные списки, и постепенно переходит к более сложным — стекам, очередям, деревьям, хеш-таблицам и графам. Каждая глава содержит практические примеры, упражнения и наглядные иллюстрации, которые помогают закрепить материал. Вся теория подкреплена примерами на Python — одном из главных языков современной разработки. Если вы хотите не просто использовать структуры данных, а понимать их и применять осознанно — эта книга для вас.

    habr.com/ru/companies/piter/ar

    #big_data_analytics #разработка #библиотека_программиста #обработка_данных #хранение_данных #computer_science #алгоритмы #структуры_данных

  6. Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

    За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

    habr.com/ru/companies/oleg-bun

    #интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

  7. Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

    За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

    habr.com/ru/companies/oleg-bun

    #интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

  8. Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

    За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

    habr.com/ru/companies/oleg-bun

    #интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

  9. Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

    За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

    habr.com/ru/companies/oleg-bun

    #интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

  10. Join таблиц в реальном времени на Apache Flink ( Часть 2 )

    В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

    habr.com/ru/articles/908220/

    #java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

  11. Join таблиц в реальном времени на Apache Flink ( Часть 2 )

    В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

    habr.com/ru/articles/908220/

    #java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

  12. Join таблиц в реальном времени на Apache Flink ( Часть 2 )

    В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

    habr.com/ru/articles/908220/

    #java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

  13. Join таблиц в реальном времени на Apache Flink ( Часть 2 )

    В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

    habr.com/ru/articles/908220/

    #java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

  14. Dagster: новый стандарт для ETL в 2025?

    Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

    habr.com/ru/articles/883700/

    #dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

  15. Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

    Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.

    habr.com/ru/articles/874448/

    #данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка

  16. Гайд на собеседования

    Привет, Хабр! Я Денис, ведущий продуктовый аналитик из МТС, ex-Tinkoff. Я относительно недавно попал в МТС, но много чего уже получилось сделать! Сегодня у меня было первое собеседование, которое я проводил вместе со своим коллегой Алексеем. И после собеседования у меня возникла потрясающая мысль: почему бы не рассказать, как облегчить свою жизнь на собеседованиях и на что мы, как интервьюеры, обращаем внимание? Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях. Давайте начинать!

    habr.com/ru/articles/809385/

    #Аналитика #Собеседование #big_data_analytics #гайд #лайфхаки #sql #python

  17. Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

    В данной статье мы рассмотрим ключевые аспекты различных типов хранилищ данных, которые помогут оптимизировать процессы управления данными в вашей компании. Подробнее

    habr.com/ru/articles/778034/

    #DWH #data_lake #nosql #базы_данных #управление_данными #хранилища_данных #etlпроцессы #etl #big_data #big_data_analytics

  18. Dagster: новый стандарт для ETL в 2025?

    Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

    habr.com/ru/articles/883700/

    #dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

  19. Dagster: новый стандарт для ETL в 2025?

    Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

    habr.com/ru/articles/883700/

    #dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

  20. Dagster: новый стандарт для ETL в 2025?

    Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

    habr.com/ru/articles/883700/

    #dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

  21. Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

    Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.

    habr.com/ru/articles/874448/

    #данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка

  22. Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

    Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.

    habr.com/ru/articles/874448/

    #данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка

  23. Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

    Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024. Единый центр BI для всего Транспортного комплекса Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений. В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, - создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.

    habr.com/ru/articles/874448/

    #данные #big_data #big_data_analytics #BI #itкомпании #инновации #инновации_в_it #инновации_в_технологиях #безопасный_транспорт #разработка