#data_analysis — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #data_analysis, aggregated by home.social.
-
Метрики упали в лужу
Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.
https://habr.com/ru/articles/1024380/
#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production
-
BI-аналитик: стартовый пакет необходимых навыков
Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.
https://habr.com/ru/articles/1004298/
#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard
-
[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты
Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее
https://habr.com/ru/articles/996726/
#uber #system_design #it #data #data_analysis #high_performance #performance
-
MDM: как навести порядок в НСИ и перестать чинить интеграции
В любой компании справочники НСИ сначала выглядят как “ну это же просто таблицы”. Контрагенты, номенклатура, адреса, подразделения, единицы измерения, статусы. Пока людей и систем мало - всё держится на внимательности пары сотрудников и привычке “если что, поправим руками”.
https://habr.com/ru/articles/993368/
#НСИ #мдм #mdm #mdmсистема #нси_и_интеграция #data #data_analysis #data_structures #базы_данных #data_science
-
Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg
Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.
https://habr.com/ru/articles/963410/
#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views
-
Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis -
Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis -
Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis -
Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis -
Monq 9.0 — all-in-one платформа наблюдаемости, мониторинга и автоматизации
Ещё пару лет назад на одной из офлайн-встреч мы решили: как только появится возможность, проведём корпоратив в горах. Хотели подниматься на вершины, встречать рассветы в палатках и ловить падающие звёзды где-то над Кавказом. Возможность всё не наступала — проекты, релизы, клиенты, ставка… — но мечта жила. И вот в начале сентября Олег и Никита, наши руководители клиентского сервиса и продаж, просто взяли билеты на Камчатку, собрались в поход и ушли на неделю по Толбачинскому массиву. Без лишних слов, без анонсов. А потом — прислали фото: флаг Monq 9 на фоне вулкана, облака под ногами и подпись «Мы готовы». Подняв этот флаг они даже опередили команду разработки 😀 Мы долго ждали этого релиза и наконец-то мы готовы представить Monq 9.0 , новую версию all-in-one платформы наблюдаемости (observability), ИТ-мониторинга и low-code/no-code автоматизации с AIOps функционалом на борту. Monq эволюционировал из событийного «зонтичного» мониторинга, который собирает данные из других систем, в “observability-зонтик”, который с большой производительностью умеет собирать любые данные сам. В этой статье расскажем, что нового появилось в версии 9.0, как устроена платформа и главное – зачем всё это нужно DevOps-инженерам, архитекторам и тимлидам. Поехали!
https://habr.com/ru/companies/monq/articles/955812/
#monq #монк #мониторинг #observability #sre #devops #поддержка_клиентов #lowcode #nocode #data_analysis
-
Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов
За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.
https://habr.com/ru/companies/oleg-bunin/articles/915332/
#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics
-
Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных
В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.
https://habr.com/ru/articles/821287/
#llm #gpt #chatgpt #python #clustering #kmeans #tsne #visualization #summarization #data_analysis