home.social

#data_analysis — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #data_analysis, aggregated by home.social.

  1. Метрики упали в лужу

    Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

    habr.com/ru/articles/1024380/

    #eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production

  2. BI-аналитик: стартовый пакет необходимых навыков

    Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.

    habr.com/ru/articles/1004298/

    #sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard

  3. [Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

    Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

    habr.com/ru/articles/996726/

    #uber #system_design #it #data #data_analysis #high_performance #performance

  4. MDM: как навести порядок в НСИ и перестать чинить интеграции

    В любой компании справочники НСИ сначала выглядят как “ну это же просто таблицы”. Контрагенты, номенклатура, адреса, подразделения, единицы измерения, статусы. Пока людей и систем мало - всё держится на внимательности пары сотрудников и привычке “если что, поправим руками”.

    habr.com/ru/articles/993368/

    #НСИ #мдм #mdm #mdmсистема #нси_и_интеграция #data #data_analysis #data_structures #базы_данных #data_science

  5. Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

    Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.

    habr.com/ru/articles/963410/

    #apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views

  6. Monq 9.0 — all-in-one платформа наблюдаемости, мониторинга и автоматизации

    Ещё пару лет назад на одной из офлайн-встреч мы решили: как только появится возможность, проведём корпоратив в горах. Хотели подниматься на вершины, встречать рассветы в палатках и ловить падающие звёзды где-то над Кавказом. Возможность всё не наступала — проекты, релизы, клиенты, ставка… — но мечта жила. И вот в начале сентября Олег и Никита, наши руководители клиентского сервиса и продаж, просто взяли билеты на Камчатку, собрались в поход и ушли на неделю по Толбачинскому массиву. Без лишних слов, без анонсов. А потом — прислали фото: флаг Monq 9 на фоне вулкана, облака под ногами и подпись «Мы готовы». Подняв этот флаг они даже опередили команду разработки 😀 Мы долго ждали этого релиза и наконец-то мы готовы представить Monq 9.0 , новую версию all-in-one платформы наблюдаемости (observability), ИТ-мониторинга и low-code/no-code автоматизации с AIOps функционалом на борту. Monq эволюционировал из событийного «зонтичного» мониторинга, который собирает данные из других систем, в “observability-зонтик”, который с большой производительностью умеет собирать любые данные сам. В этой статье расскажем, что нового появилось в версии 9.0, как устроена платформа и главное – зачем всё это нужно DevOps-инженерам, архитекторам и тимлидам. Поехали!

    habr.com/ru/companies/monq/art

    #monq #монк #мониторинг #observability #sre #devops #поддержка_клиентов #lowcode #nocode #data_analysis

  7. Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

    За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

    habr.com/ru/companies/oleg-bun

    #интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

  8. Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

    В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

    habr.com/ru/articles/821287/

    #llm #gpt #chatgpt #python #clustering #kmeans #tsne #visualization #summarization #data_analysis