#хранилища_данных — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-21 · 13:42 UTC

Вам продают ИИ. Покупать нужно не его

Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что-то делать: все вокруг внедряют, конкуренты вон что-то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть. Это был, кажется, пятый такой звонок за месяц. И знаете, что меня в них всех поражает? Спрашивают они одно и то же, и спрашивают неправильно. Не «нужен ли нам ИИ», а «куда бежать, чтобы не опоздать», - разница на самом деле огромная, потому что первый вопрос предполагает разбор задачи, а второй уже подразумевает, что бежать в любом случае надо, осталось только направление выбрать. Так вот, если коротко - не надо бежать. Сам я не специалист по нейросетям. Много лет вожусь с базами данных в банках, в ритейле, в системной интеграции, и работа моя: смотреть, как данные живут в настоящих, не презентационных компаниях, и решать, что из задуманного взлетит, а что разобьётся об реальность. Через этот фильтр я и предлагаю взглянуть на нынешний шум вокруг локальных LLM, RAG и «корпоративных помощников».

https://habr.com/ru/articles/1037808/

#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных #хранилища_данных #внедрение_ии #data_engineering #цена_ошибки

#цена_ошибки #data_engineering #внедрение_ии #хранилища_данных #архитектура_данных #эмбеддинги

Habr @[email protected] · 2026-05-21 · 13:42 UTC

Вам продают ИИ. Покупать нужно не его

Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что-то делать: все вокруг внедряют, конкуренты вон что-то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть. Это был, кажется, пятый такой звонок за месяц. И знаете, что меня в них всех поражает? Спрашивают они одно и то же, и спрашивают неправильно. Не «нужен ли нам ИИ», а «куда бежать, чтобы не опоздать», - разница на самом деле огромная, потому что первый вопрос предполагает разбор задачи, а второй уже подразумевает, что бежать в любом случае надо, осталось только направление выбрать. Так вот, если коротко - не надо бежать. Сам я не специалист по нейросетям. Много лет вожусь с базами данных в банках, в ритейле, в системной интеграции, и работа моя: смотреть, как данные живут в настоящих, не презентационных компаниях, и решать, что из задуманного взлетит, а что разобьётся об реальность. Через этот фильтр я и предлагаю взглянуть на нынешний шум вокруг локальных LLM, RAG и «корпоративных помощников».

https://habr.com/ru/articles/1037808/

#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных #хранилища_данных #внедрение_ии #data_engineering #цена_ошибки

#цена_ошибки #data_engineering #внедрение_ии #хранилища_данных #архитектура_данных #эмбеддинги

Habr @[email protected] · 2026-05-21 · 13:42 UTC

Вам продают ИИ. Покупать нужно не его

Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что-то делать: все вокруг внедряют, конкуренты вон что-то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть. Это был, кажется, пятый такой звонок за месяц. И знаете, что меня в них всех поражает? Спрашивают они одно и то же, и спрашивают неправильно. Не «нужен ли нам ИИ», а «куда бежать, чтобы не опоздать», - разница на самом деле огромная, потому что первый вопрос предполагает разбор задачи, а второй уже подразумевает, что бежать в любом случае надо, осталось только направление выбрать. Так вот, если коротко - не надо бежать. Сам я не специалист по нейросетям. Много лет вожусь с базами данных в банках, в ритейле, в системной интеграции, и работа моя: смотреть, как данные живут в настоящих, не презентационных компаниях, и решать, что из задуманного взлетит, а что разобьётся об реальность. Через этот фильтр я и предлагаю взглянуть на нынешний шум вокруг локальных LLM, RAG и «корпоративных помощников».

https://habr.com/ru/articles/1037808/

#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных #хранилища_данных #внедрение_ии #data_engineering #цена_ошибки

#цена_ошибки #data_engineering #внедрение_ии #хранилища_данных #архитектура_данных #эмбеддинги

Habr @[email protected] · 2026-05-21 · 13:42 UTC

Вам продают ИИ. Покупать нужно не его

Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что-то делать: все вокруг внедряют, конкуренты вон что-то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть. Это был, кажется, пятый такой звонок за месяц. И знаете, что меня в них всех поражает? Спрашивают они одно и то же, и спрашивают неправильно. Не «нужен ли нам ИИ», а «куда бежать, чтобы не опоздать», - разница на самом деле огромная, потому что первый вопрос предполагает разбор задачи, а второй уже подразумевает, что бежать в любом случае надо, осталось только направление выбрать. Так вот, если коротко - не надо бежать. Сам я не специалист по нейросетям. Много лет вожусь с базами данных в банках, в ритейле, в системной интеграции, и работа моя: смотреть, как данные живут в настоящих, не презентационных компаниях, и решать, что из задуманного взлетит, а что разобьётся об реальность. Через этот фильтр я и предлагаю взглянуть на нынешний шум вокруг локальных LLM, RAG и «корпоративных помощников».

https://habr.com/ru/articles/1037808/

#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных #хранилища_данных #внедрение_ии #data_engineering #цена_ошибки

#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных

Habr @[email protected] · 2026-05-19 · 12:12 UTC

Сколько весит интернет: считаем массу данных и их хранилищ

Интернет — распределенная система, размер которой нельзя увидеть в окне «Свойства». Более того, ответ на вопрос «что считать интернетом?» существенно влияет на результат вычислений. Точных данных не найти, но отдельные исследования и статистика крупных интернет-ресурсов позволяют произвести примерные расчеты. В этой статье вас ждет доступная в интернете информация об интернете, простые расчеты и, конечно же, статистика.

https://habr.com/ru/companies/selectel/articles/1036332/

#selectel #интернет #хранение_данных #хранилища_данных #ssd #диски

#диски #ssd #хранилища_данных #хранение_данных #интернет #selectel

Habr @[email protected] · 2026-05-19 · 12:12 UTC

Сколько весит интернет: считаем массу данных и их хранилищ

Интернет — распределенная система, размер которой нельзя увидеть в окне «Свойства». Более того, ответ на вопрос «что считать интернетом?» существенно влияет на результат вычислений. Точных данных не найти, но отдельные исследования и статистика крупных интернет-ресурсов позволяют произвести примерные расчеты. В этой статье вас ждет доступная в интернете информация об интернете, простые расчеты и, конечно же, статистика.

https://habr.com/ru/companies/selectel/articles/1036332/

#selectel #интернет #хранение_данных #хранилища_данных #ssd #диски

#диски #ssd #хранилища_данных #хранение_данных #интернет #selectel

Habr @[email protected] · 2026-05-19 · 12:12 UTC

Сколько весит интернет: считаем массу данных и их хранилищ

Интернет — распределенная система, размер которой нельзя увидеть в окне «Свойства». Более того, ответ на вопрос «что считать интернетом?» существенно влияет на результат вычислений. Точных данных не найти, но отдельные исследования и статистика крупных интернет-ресурсов позволяют произвести примерные расчеты. В этой статье вас ждет доступная в интернете информация об интернете, простые расчеты и, конечно же, статистика.

https://habr.com/ru/companies/selectel/articles/1036332/

#selectel #интернет #хранение_данных #хранилища_данных #ssd #диски

#диски #ssd #хранилища_данных #хранение_данных #интернет #selectel

Habr @[email protected] · 2026-05-19 · 12:12 UTC

Сколько весит интернет: считаем массу данных и их хранилищ

Интернет — распределенная система, размер которой нельзя увидеть в окне «Свойства». Более того, ответ на вопрос «что считать интернетом?» существенно влияет на результат вычислений. Точных данных не найти, но отдельные исследования и статистика крупных интернет-ресурсов позволяют произвести примерные расчеты. В этой статье вас ждет доступная в интернете информация об интернете, простые расчеты и, конечно же, статистика.

https://habr.com/ru/companies/selectel/articles/1036332/

#selectel #интернет #хранение_данных #хранилища_данных #ssd #диски

Habr @[email protected] · 2026-03-26 · 12:42 UTC

[Перевод] Как AWS S3 обеспечивает скорость 1 петабайт в секунду при помощи медленных HDD

Все знают, что такое AWS S3, но немногие осознают масштабы, в которых он работает, и те усилия, которые понадобились, чтобы этого добиться. По сути, это масштабируемый сервис многопользовательского хранилища с API для сохранения и извлечения объектов, обеспечивающий крайне высокую доступность 1 и надёжность 2 по относительно низкой цене 3 . Масштабы • 400+ триллионов 4 объектов • 150 миллионов запросов в секунду • > 1 ПБ/с пикового трафика • Десятки миллионов дисков А что лежит в основе всего этого? Жёсткие диски. Способы достижения S3 таких масштабов — это настоящее инженерное чудо. Чтобы понять и оценить систему, нужно сначала оценить её базовый строительный блок — жёсткий диск . Жёсткие диски (HDD) — это старая, уже выходящая из моды технология, во многом вытесненная SSDs. Жёсткие диски хрупки физически, ограничены по IOPS и имеют высокие задержки. Однако благодаря им возможно то, на что пока неспособны флэш-диски: крайне дешёвая экономика хранения .

https://habr.com/ru/articles/1015042/

#aws_s3 #s3 #хранилища_данных #жесткие_диски

#жесткие_диски #хранилища_данных #s3 #aws_s3

Habr @[email protected] · 2026-03-26 · 12:42 UTC

[Перевод] Как AWS S3 обеспечивает скорость 1 петабайт в секунду при помощи медленных HDD

Все знают, что такое AWS S3, но немногие осознают масштабы, в которых он работает, и те усилия, которые понадобились, чтобы этого добиться. По сути, это масштабируемый сервис многопользовательского хранилища с API для сохранения и извлечения объектов, обеспечивающий крайне высокую доступность 1 и надёжность 2 по относительно низкой цене 3 . Масштабы • 400+ триллионов 4 объектов • 150 миллионов запросов в секунду • > 1 ПБ/с пикового трафика • Десятки миллионов дисков А что лежит в основе всего этого? Жёсткие диски. Способы достижения S3 таких масштабов — это настоящее инженерное чудо. Чтобы понять и оценить систему, нужно сначала оценить её базовый строительный блок — жёсткий диск . Жёсткие диски (HDD) — это старая, уже выходящая из моды технология, во многом вытесненная SSDs. Жёсткие диски хрупки физически, ограничены по IOPS и имеют высокие задержки. Однако благодаря им возможно то, на что пока неспособны флэш-диски: крайне дешёвая экономика хранения .

https://habr.com/ru/articles/1015042/

#aws_s3 #s3 #хранилища_данных #жесткие_диски

#жесткие_диски #хранилища_данных #s3 #aws_s3

Habr @[email protected] · 2026-03-26 · 12:42 UTC

[Перевод] Как AWS S3 обеспечивает скорость 1 петабайт в секунду при помощи медленных HDD

Все знают, что такое AWS S3, но немногие осознают масштабы, в которых он работает, и те усилия, которые понадобились, чтобы этого добиться. По сути, это масштабируемый сервис многопользовательского хранилища с API для сохранения и извлечения объектов, обеспечивающий крайне высокую доступность 1 и надёжность 2 по относительно низкой цене 3 . Масштабы • 400+ триллионов 4 объектов • 150 миллионов запросов в секунду • > 1 ПБ/с пикового трафика • Десятки миллионов дисков А что лежит в основе всего этого? Жёсткие диски. Способы достижения S3 таких масштабов — это настоящее инженерное чудо. Чтобы понять и оценить систему, нужно сначала оценить её базовый строительный блок — жёсткий диск . Жёсткие диски (HDD) — это старая, уже выходящая из моды технология, во многом вытесненная SSDs. Жёсткие диски хрупки физически, ограничены по IOPS и имеют высокие задержки. Однако благодаря им возможно то, на что пока неспособны флэш-диски: крайне дешёвая экономика хранения .

https://habr.com/ru/articles/1015042/

#aws_s3 #s3 #хранилища_данных #жесткие_диски

#жесткие_диски #хранилища_данных #s3 #aws_s3

Habr @[email protected] · 2026-03-26 · 12:42 UTC

[Перевод] Как AWS S3 обеспечивает скорость 1 петабайт в секунду при помощи медленных HDD

Все знают, что такое AWS S3, но немногие осознают масштабы, в которых он работает, и те усилия, которые понадобились, чтобы этого добиться. По сути, это масштабируемый сервис многопользовательского хранилища с API для сохранения и извлечения объектов, обеспечивающий крайне высокую доступность 1 и надёжность 2 по относительно низкой цене 3 . Масштабы • 400+ триллионов 4 объектов • 150 миллионов запросов в секунду • > 1 ПБ/с пикового трафика • Десятки миллионов дисков А что лежит в основе всего этого? Жёсткие диски. Способы достижения S3 таких масштабов — это настоящее инженерное чудо. Чтобы понять и оценить систему, нужно сначала оценить её базовый строительный блок — жёсткий диск . Жёсткие диски (HDD) — это старая, уже выходящая из моды технология, во многом вытесненная SSDs. Жёсткие диски хрупки физически, ограничены по IOPS и имеют высокие задержки. Однако благодаря им возможно то, на что пока неспособны флэш-диски: крайне дешёвая экономика хранения .

https://habr.com/ru/articles/1015042/

#aws_s3 #s3 #хранилища_данных #жесткие_диски

Habr @[email protected] · 2026-03-17 · 11:22 UTC

Разработка DWH для начинающих

В статье рассматриваем что такое хранилище данных, основы их разработки: архитектура, основные слои данных и подходы для работы с ними, ETL и ELT, а также основные модели данных. Материал поможет начинающим разработчикам понять принципы построения аналитических систем и роль разработчика DWH.

https://habr.com/ru/articles/1011294/

#DWH #Хранилища_данных #Архитектура_хранилищ #Разработка_DWH #Слои_данных #Standing_слой #Core_слой #Data_Marts_слой #Модели_данных #ETL_ELT_процессы

#etl_elt_процессы #модели_данных #data_marts_слой #core_слой #standing_слой #слои_данных

Habr @[email protected] · 2026-03-17 · 11:22 UTC

Разработка DWH для начинающих

В статье рассматриваем что такое хранилище данных, основы их разработки: архитектура, основные слои данных и подходы для работы с ними, ETL и ELT, а также основные модели данных. Материал поможет начинающим разработчикам понять принципы построения аналитических систем и роль разработчика DWH.

https://habr.com/ru/articles/1011294/

#DWH #Хранилища_данных #Архитектура_хранилищ #Разработка_DWH #Слои_данных #Standing_слой #Core_слой #Data_Marts_слой #Модели_данных #ETL_ELT_процессы

#etl_elt_процессы #модели_данных #data_marts_слой #core_слой #standing_слой #слои_данных

Habr @[email protected] · 2026-03-17 · 11:22 UTC

Разработка DWH для начинающих

В статье рассматриваем что такое хранилище данных, основы их разработки: архитектура, основные слои данных и подходы для работы с ними, ETL и ELT, а также основные модели данных. Материал поможет начинающим разработчикам понять принципы построения аналитических систем и роль разработчика DWH.

https://habr.com/ru/articles/1011294/

#DWH #Хранилища_данных #Архитектура_хранилищ #Разработка_DWH #Слои_данных #Standing_слой #Core_слой #Data_Marts_слой #Модели_данных #ETL_ELT_процессы

#etl_elt_процессы #модели_данных #data_marts_слой #core_слой #standing_слой #слои_данных

Habr @[email protected] · 2026-03-17 · 11:22 UTC

Разработка DWH для начинающих

В статье рассматриваем что такое хранилище данных, основы их разработки: архитектура, основные слои данных и подходы для работы с ними, ETL и ELT, а также основные модели данных. Материал поможет начинающим разработчикам понять принципы построения аналитических систем и роль разработчика DWH.

https://habr.com/ru/articles/1011294/

#DWH #Хранилища_данных #Архитектура_хранилищ #Разработка_DWH #Слои_данных #Standing_слой #Core_слой #Data_Marts_слой #Модели_данных #ETL_ELT_процессы

#dwh #хранилища_данных #архитектура_хранилищ #разработка_dwh #слои_данных #standing_слой

Habr @[email protected] · 2026-03-10 · 07:12 UTC

Как мы построили витрины данных из разрозненных микросервисов

Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

https://habr.com/ru/companies/greenatom/articles/1007324/

#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

#интеграции #kafka #хранилища_данных #доменная_модель #обработка_данных #архитектура_данных

Habr @[email protected] · 2026-03-10 · 07:12 UTC

Как мы построили витрины данных из разрозненных микросервисов

Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

https://habr.com/ru/companies/greenatom/articles/1007324/

#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

#интеграции #kafka #хранилища_данных #доменная_модель #обработка_данных #архитектура_данных

Habr @[email protected] · 2026-03-10 · 07:12 UTC

Как мы построили витрины данных из разрозненных микросервисов

Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

https://habr.com/ru/companies/greenatom/articles/1007324/

#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

#интеграции #kafka #хранилища_данных #доменная_модель #обработка_данных #архитектура_данных

Habr @[email protected] · 2026-03-10 · 07:12 UTC

Как мы построили витрины данных из разрозненных микросервисов

Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

https://habr.com/ru/companies/greenatom/articles/1007324/

#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

#витрины_данных #data_lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель

Habr @[email protected] · 2026-02-18 · 14:22 UTC

ClickHouse: MergeTree с нуля

Привет, Хабр! Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных. ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия. В этой статье мы разберем фундамент ClickHouse - движок MergeTree . Посмотрим, как данные физически хранятся на диске, чем «парт» отличается от «партиции» и почему индекс в ClickHouse работает не так, как мы привыкли это видеть в транзакционных базах данных (например, PostgreSQL или MySQL). Погнали!

https://habr.com/ru/articles/1001054/

#ClickHouse #SQL #Big_Data #СУБД #MergeTree #Хранилища_данных #Data_Engineering #Tutorial

#tutorial #data_engineering #хранилища_данных #mergetree #субд #big_data

Habr @[email protected] · 2026-02-18 · 14:22 UTC

ClickHouse: MergeTree с нуля

Привет, Хабр! Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных. ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия. В этой статье мы разберем фундамент ClickHouse - движок MergeTree . Посмотрим, как данные физически хранятся на диске, чем «парт» отличается от «партиции» и почему индекс в ClickHouse работает не так, как мы привыкли это видеть в транзакционных базах данных (например, PostgreSQL или MySQL). Погнали!

https://habr.com/ru/articles/1001054/

#ClickHouse #SQL #Big_Data #СУБД #MergeTree #Хранилища_данных #Data_Engineering #Tutorial

#tutorial #data_engineering #хранилища_данных #mergetree #субд #big_data

Habr @[email protected] · 2026-02-18 · 14:22 UTC

ClickHouse: MergeTree с нуля

Привет, Хабр! Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных. ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия. В этой статье мы разберем фундамент ClickHouse - движок MergeTree . Посмотрим, как данные физически хранятся на диске, чем «парт» отличается от «партиции» и почему индекс в ClickHouse работает не так, как мы привыкли это видеть в транзакционных базах данных (например, PostgreSQL или MySQL). Погнали!

https://habr.com/ru/articles/1001054/

#ClickHouse #SQL #Big_Data #СУБД #MergeTree #Хранилища_данных #Data_Engineering #Tutorial

#tutorial #data_engineering #хранилища_данных #mergetree #субд #big_data

Habr @[email protected] · 2026-02-18 · 14:22 UTC

ClickHouse: MergeTree с нуля

Привет, Хабр! Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных. ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия. В этой статье мы разберем фундамент ClickHouse - движок MergeTree . Посмотрим, как данные физически хранятся на диске, чем «парт» отличается от «партиции» и почему индекс в ClickHouse работает не так, как мы привыкли это видеть в транзакционных базах данных (например, PostgreSQL или MySQL). Погнали!

https://habr.com/ru/articles/1001054/

#ClickHouse #SQL #Big_Data #СУБД #MergeTree #Хранилища_данных #Data_Engineering #Tutorial

#clickhouse #sql #big_data #субд #mergetree #хранилища_данных

Habr @[email protected] · 2026-02-06 · 09:42 UTC

[Перевод] Архитектура высокопроизводительного конвейера для приёма электронной почты с применением Go и DuckDB

Подробный технический разбор: как создать масштабируемое гибридное SaaS-хранилище для данных из области анализа безопасности. В области SaaS-безопасности наиболее уязвимая плоскость атаки — это объём данных. При создании платформы для обнаружения мошенничества, аномалий или нарушения соответствия в таких корпоративных средах как Google Workspace или Microsoft 365 , одной обработки данных недостаточно. Кроме этого приходится поглощать миллионы электронных сообщений, логов о прикреплённых файлах и записей о пользовательской активности.

https://habr.com/ru/companies/piter/articles/993512/

#Go #анализ_данных #хранилища_данных #перевод

#перевод #хранилища_данных #анализ_данных #go

Habr @[email protected] · 2026-01-21 · 08:12 UTC

Memory wall: что это и почему важно для индустрии хранения данных

Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища. Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных. Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных

https://habr.com/ru/companies/selectel/articles/987304/

#memorywall #sds #хранилища_данных #платформа_данных #selectel

#selectel #платформа_данных #хранилища_данных #sds #memorywall

Habr @[email protected] · 2026-01-21 · 08:12 UTC

Memory wall: что это и почему важно для индустрии хранения данных

Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища. Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных. Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных

https://habr.com/ru/companies/selectel/articles/987304/

#memorywall #sds #хранилища_данных #платформа_данных #selectel

#selectel #платформа_данных #хранилища_данных #sds #memorywall

Habr @[email protected] · 2026-01-21 · 08:12 UTC

Memory wall: что это и почему важно для индустрии хранения данных

Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища. Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных. Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных

https://habr.com/ru/companies/selectel/articles/987304/

#memorywall #sds #хранилища_данных #платформа_данных #selectel

#selectel #платформа_данных #хранилища_данных #sds #memorywall

Habr @[email protected] · 2026-01-21 · 08:12 UTC

Memory wall: что это и почему важно для индустрии хранения данных

Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища. Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных. Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных

https://habr.com/ru/companies/selectel/articles/987304/

#memorywall #sds #хранилища_данных #платформа_данных #selectel

Habr @[email protected] · 2025-11-27 · 10:52 UTC

6 лайфхаков при внедрении СУБД: учимся на чужих граблях

Привет, Хабр! Меня зовут Кирилл Тарасов, я — инженер данных в K2Tех. Наша команда Big Data & Bi работает с 2006 года, мы активно занимаемся Greenplum, Arenadata Hadoop/Streaming и внедряем собственные наработки, такие как ELT Framework. Также с 2012 года мы создаём аналитические системы и хранилища данных, и за это время моя команда столкнулась с самыми разными ситуациями, которые вызывали различные проблемы для реальной продуктивной эксплуатации СУБД. Некоторые из них были связаны с настройками баз данных, другие — с компонентами защиты, а третьи были настолько необычными, что их причиной оказалось исключительно странное и редкое поведение бизнес-логики, с которым разработчики хранилищ данных почти не сталкиваются. В этой статье вы найдете шесть кейсов, которые могут встретиться на любом проекте. Они помогут избежать попадания «ложки дегтя» в ваше хранилище.

https://habr.com/ru/companies/k2tech/articles/970874/

#субд #arenadata #работа_с_данными #хранилища_данных #миграция_данных

Habr @[email protected] · 2025-11-19 · 14:32 UTC

Круговорот обновлений СХД TATLIN.UNIFIED

Вы наверняка сталкивались с системами хранения данных семейства TATLIN или серверами VEGMAN, хотя можете об этом даже не подозревать. Например, делая заказ в интернет-магазине или пользуясь другими популярными онлайн-сервисами — в глубине ИТ-инфраструктуры для них можно обнаружить продукты YADRO. Добрый день, меня зовут Александр Чуриков, я технический эксперт отдела сервисного дизайна YADRO. Мы служим мостиком между сервисом и нашим R&D, который разрабатывает продукты — изучаем все боли сервиса, которые возникают при обслуживании, в том числе при обновлении и замене компонентов, и транслируем их в R&D.

https://habr.com/ru/companies/yadro/articles/857586/

#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san #хранилища_данных #резервное_копирование

#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san

Habr @[email protected] · 2025-11-19 · 14:32 UTC

Круговорот обновлений СХД TATLIN.UNIFIED

Вы наверняка сталкивались с системами хранения данных семейства TATLIN или серверами VEGMAN, хотя можете об этом даже не подозревать. Например, делая заказ в интернет-магазине или пользуясь другими популярными онлайн-сервисами — в глубине ИТ-инфраструктуры для них можно обнаружить продукты YADRO. Добрый день, меня зовут Александр Чуриков, я технический эксперт отдела сервисного дизайна YADRO. Мы служим мостиком между сервисом и нашим R&D, который разрабатывает продукты — изучаем все боли сервиса, которые возникают при обслуживании, в том числе при обновлении и замене компонентов, и транслируем их в R&D.

https://habr.com/ru/companies/yadro/articles/857586/

#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san #хранилища_данных #резервное_копирование

#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san

Habr @[email protected] · 2025-11-19 · 14:32 UTC

Круговорот обновлений СХД TATLIN.UNIFIED

Вы наверняка сталкивались с системами хранения данных семейства TATLIN или серверами VEGMAN, хотя можете об этом даже не подозревать. Например, делая заказ в интернет-магазине или пользуясь другими популярными онлайн-сервисами — в глубине ИТ-инфраструктуры для них можно обнаружить продукты YADRO. Добрый день, меня зовут Александр Чуриков, я технический эксперт отдела сервисного дизайна YADRO. Мы служим мостиком между сервисом и нашим R&D, который разрабатывает продукты — изучаем все боли сервиса, которые возникают при обслуживании, в том числе при обновлении и замене компонентов, и транслируем их в R&D.

https://habr.com/ru/companies/yadro/articles/857586/

#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san #хранилища_данных #резервное_копирование

#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san

Habr @[email protected] · 2025-11-19 · 14:32 UTC

Круговорот обновлений СХД TATLIN.UNIFIED

Вы наверняка сталкивались с системами хранения данных семейства TATLIN или серверами VEGMAN, хотя можете об этом даже не подозревать. Например, делая заказ в интернет-магазине или пользуясь другими популярными онлайн-сервисами — в глубине ИТ-инфраструктуры для них можно обнаружить продукты YADRO. Добрый день, меня зовут Александр Чуриков, я технический эксперт отдела сервисного дизайна YADRO. Мы служим мостиком между сервисом и нашим R&D, который разрабатывает продукты — изучаем все боли сервиса, которые возникают при обслуживании, в том числе при обновлении и замене компонентов, и транслируем их в R&D.

https://habr.com/ru/companies/yadro/articles/857586/

#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san #хранилища_данных #резервное_копирование

#резервное_копирование #хранилища_данных #san #системы_хранения_данных #схд #tatlinunified

Habr @[email protected] · 2025-10-24 · 13:12 UTC

[Перевод] Становятся ли жёсткие диски лучше? Спросим кривую отказов

Если вы уже давно знакомы с Backblaze (особенно, если следите за обзорами Drive Stats), то наверняка читали наши обсуждения кривой отказов. В статье « Drive Failure Over Time: The Bathtub Curve Is Leaking » мы писали о том, как проверяли истинность старого инженерного принципа, гласящего, что сбои в работе привода, представленные в виде временн о го графика, демонстрируют предсказуемую U-образную кривую, иначе называемую кривая «ванны». Но тест этого не подтвердил. В результате анализа нашей коллекции приводов были зафиксированы всплески и плато, которые никак не вписывались в предсказуемый паттерн. Теперь, спустя 13 лет непрерывного сбора данных, удалось получить более ясную картину, но и более странную. И «ванна» в этом случае не просто «потекла» (отсылка к leak в названии вышеупомянутой статьи, — прим. пер.), её форма больше напоминает бордюр при входе в душевую кабину. Скл а дная история о том, что вначале идут сбои, а потом спокойный средний период с плавным повышением отказов, больше не вписываются в реалии жизни наших приводов. Они становятся лучше. Говоря точнее, датасет Drive Stats указывает на повышение их качественных показателей конкретно в дата-центрах. Давайте же посмотрим, как выглядит полученная нами кривая отказов, и как она соотносится с прежними поколениями анализа. Если коротко, то жёсткие диски становятся лучше.

https://habr.com/ru/companies/ruvds/articles/958920/

#ruvds_перевод #хранилища_данных #анализ_hdd #срок_службы_hdd

#срок_службы_hdd #анализ_hdd #хранилища_данных #ruvds_перевод

Habr @[email protected] · 2025-08-15 · 10:42 UTC

[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

https://habr.com/ru/companies/magnus-tech/articles/937470/

#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных

#выбор_архитектуры_данных #инжиниринг_данных #архитектура_медальона #data_mesh #data_lakehouse #data_lake

Habr @[email protected] · 2025-08-15 · 10:42 UTC

[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

https://habr.com/ru/companies/magnus-tech/articles/937470/

#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных

#выбор_архитектуры_данных #инжиниринг_данных #архитектура_медальона #data_mesh #data_lakehouse #data_lake

Habr @[email protected] · 2025-08-15 · 10:42 UTC

[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

https://habr.com/ru/companies/magnus-tech/articles/937470/

#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных

#выбор_архитектуры_данных #инжиниринг_данных #архитектура_медальона #data_mesh #data_lakehouse #data_lake

Habr @[email protected] · 2025-08-15 · 10:42 UTC

[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

https://habr.com/ru/companies/magnus-tech/articles/937470/

#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных

#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh

Habr @[email protected] · 2025-07-23 · 05:52 UTC

[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

https://habr.com/ru/companies/otus/articles/929938/

#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining

#data_warehouse #хранилища_данных #sql #аналитика_данных #etl #olap

Habr @[email protected] · 2025-07-23 · 05:52 UTC

[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

https://habr.com/ru/companies/otus/articles/929938/

#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining

#data_warehouse #хранилища_данных #sql #аналитика_данных #etl #olap

Habr @[email protected] · 2025-07-23 · 05:52 UTC

[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

https://habr.com/ru/companies/otus/articles/929938/

#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining

#data_warehouse #хранилища_данных #sql #аналитика_данных #etl #olap

Habr @[email protected] · 2025-07-23 · 05:52 UTC

[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

https://habr.com/ru/companies/otus/articles/929938/

#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining

#data_mining #data_engineering #olap #etl #аналитика_данных #sql

Habr @[email protected] · 2025-06-10 · 09:42 UTC

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

https://habr.com/ru/companies/oleg-bunin/articles/884560/

#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных

#хранилища_данных #обработка_данных #оптимизация #распределенные_системы #антифрод #oltp

Habr @[email protected] · 2025-06-10 · 09:42 UTC

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

https://habr.com/ru/companies/oleg-bunin/articles/884560/

#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных

#хранилища_данных #обработка_данных #оптимизация #распределенные_системы #антифрод #oltp

Habr @[email protected] · 2025-06-10 · 09:42 UTC

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

https://habr.com/ru/companies/oleg-bunin/articles/884560/

#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных

#хранилища_данных #обработка_данных #оптимизация #распределенные_системы #антифрод #oltp

Habr @[email protected] · 2025-06-10 · 09:42 UTC

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

https://habr.com/ru/companies/oleg-bunin/articles/884560/

#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных