#хранилища_данных — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #хранилища_данных, aggregated by home.social.
-
Вам продают ИИ. Покупать нужно не его
Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что-то делать: все вокруг внедряют, конкуренты вон что-то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть. Это был, кажется, пятый такой звонок за месяц. И знаете, что меня в них всех поражает? Спрашивают они одно и то же, и спрашивают неправильно. Не «нужен ли нам ИИ», а «куда бежать, чтобы не опоздать», - разница на самом деле огромная, потому что первый вопрос предполагает разбор задачи, а второй уже подразумевает, что бежать в любом случае надо, осталось только направление выбрать. Так вот, если коротко - не надо бежать. Сам я не специалист по нейросетям. Много лет вожусь с базами данных в банках, в ритейле, в системной интеграции, и работа моя: смотреть, как данные живут в настоящих, не презентационных компаниях, и решать, что из задуманного взлетит, а что разобьётся об реальность. Через этот фильтр я и предлагаю взглянуть на нынешний шум вокруг локальных LLM, RAG и «корпоративных помощников».
https://habr.com/ru/articles/1037808/
#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных #хранилища_данных #внедрение_ии #data_engineering #цена_ошибки
-
Вам продают ИИ. Покупать нужно не его
Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что-то делать: все вокруг внедряют, конкуренты вон что-то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть. Это был, кажется, пятый такой звонок за месяц. И знаете, что меня в них всех поражает? Спрашивают они одно и то же, и спрашивают неправильно. Не «нужен ли нам ИИ», а «куда бежать, чтобы не опоздать», - разница на самом деле огромная, потому что первый вопрос предполагает разбор задачи, а второй уже подразумевает, что бежать в любом случае надо, осталось только направление выбрать. Так вот, если коротко - не надо бежать. Сам я не специалист по нейросетям. Много лет вожусь с базами данных в банках, в ритейле, в системной интеграции, и работа моя: смотреть, как данные живут в настоящих, не презентационных компаниях, и решать, что из задуманного взлетит, а что разобьётся об реальность. Через этот фильтр я и предлагаю взглянуть на нынешний шум вокруг локальных LLM, RAG и «корпоративных помощников».
https://habr.com/ru/articles/1037808/
#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных #хранилища_данных #внедрение_ии #data_engineering #цена_ошибки
-
Вам продают ИИ. Покупать нужно не его
Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что-то делать: все вокруг внедряют, конкуренты вон что-то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть. Это был, кажется, пятый такой звонок за месяц. И знаете, что меня в них всех поражает? Спрашивают они одно и то же, и спрашивают неправильно. Не «нужен ли нам ИИ», а «куда бежать, чтобы не опоздать», - разница на самом деле огромная, потому что первый вопрос предполагает разбор задачи, а второй уже подразумевает, что бежать в любом случае надо, осталось только направление выбрать. Так вот, если коротко - не надо бежать. Сам я не специалист по нейросетям. Много лет вожусь с базами данных в банках, в ритейле, в системной интеграции, и работа моя: смотреть, как данные живут в настоящих, не презентационных компаниях, и решать, что из задуманного взлетит, а что разобьётся об реальность. Через этот фильтр я и предлагаю взглянуть на нынешний шум вокруг локальных LLM, RAG и «корпоративных помощников».
https://habr.com/ru/articles/1037808/
#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных #хранилища_данных #внедрение_ии #data_engineering #цена_ошибки
-
Вам продают ИИ. Покупать нужно не его
Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что-то делать: все вокруг внедряют, конкуренты вон что-то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть. Это был, кажется, пятый такой звонок за месяц. И знаете, что меня в них всех поражает? Спрашивают они одно и то же, и спрашивают неправильно. Не «нужен ли нам ИИ», а «куда бежать, чтобы не опоздать», - разница на самом деле огромная, потому что первый вопрос предполагает разбор задачи, а второй уже подразумевает, что бежать в любом случае надо, осталось только направление выбрать. Так вот, если коротко - не надо бежать. Сам я не специалист по нейросетям. Много лет вожусь с базами данных в банках, в ритейле, в системной интеграции, и работа моя: смотреть, как данные живут в настоящих, не презентационных компаниях, и решать, что из задуманного взлетит, а что разобьётся об реальность. Через этот фильтр я и предлагаю взглянуть на нынешний шум вокруг локальных LLM, RAG и «корпоративных помощников».
https://habr.com/ru/articles/1037808/
#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных #хранилища_данных #внедрение_ии #data_engineering #цена_ошибки
-
Сколько весит интернет: считаем массу данных и их хранилищ
Интернет — распределенная система, размер которой нельзя увидеть в окне «Свойства». Более того, ответ на вопрос «что считать интернетом?» существенно влияет на результат вычислений. Точных данных не найти, но отдельные исследования и статистика крупных интернет-ресурсов позволяют произвести примерные расчеты. В этой статье вас ждет доступная в интернете информация об интернете, простые расчеты и, конечно же, статистика.
https://habr.com/ru/companies/selectel/articles/1036332/
#selectel #интернет #хранение_данных #хранилища_данных #ssd #диски
-
Сколько весит интернет: считаем массу данных и их хранилищ
Интернет — распределенная система, размер которой нельзя увидеть в окне «Свойства». Более того, ответ на вопрос «что считать интернетом?» существенно влияет на результат вычислений. Точных данных не найти, но отдельные исследования и статистика крупных интернет-ресурсов позволяют произвести примерные расчеты. В этой статье вас ждет доступная в интернете информация об интернете, простые расчеты и, конечно же, статистика.
https://habr.com/ru/companies/selectel/articles/1036332/
#selectel #интернет #хранение_данных #хранилища_данных #ssd #диски
-
Сколько весит интернет: считаем массу данных и их хранилищ
Интернет — распределенная система, размер которой нельзя увидеть в окне «Свойства». Более того, ответ на вопрос «что считать интернетом?» существенно влияет на результат вычислений. Точных данных не найти, но отдельные исследования и статистика крупных интернет-ресурсов позволяют произвести примерные расчеты. В этой статье вас ждет доступная в интернете информация об интернете, простые расчеты и, конечно же, статистика.
https://habr.com/ru/companies/selectel/articles/1036332/
#selectel #интернет #хранение_данных #хранилища_данных #ssd #диски
-
Сколько весит интернет: считаем массу данных и их хранилищ
Интернет — распределенная система, размер которой нельзя увидеть в окне «Свойства». Более того, ответ на вопрос «что считать интернетом?» существенно влияет на результат вычислений. Точных данных не найти, но отдельные исследования и статистика крупных интернет-ресурсов позволяют произвести примерные расчеты. В этой статье вас ждет доступная в интернете информация об интернете, простые расчеты и, конечно же, статистика.
https://habr.com/ru/companies/selectel/articles/1036332/
#selectel #интернет #хранение_данных #хранилища_данных #ssd #диски
-
[Перевод] Как AWS S3 обеспечивает скорость 1 петабайт в секунду при помощи медленных HDD
Все знают, что такое AWS S3, но немногие осознают масштабы, в которых он работает, и те усилия, которые понадобились, чтобы этого добиться. По сути, это масштабируемый сервис многопользовательского хранилища с API для сохранения и извлечения объектов, обеспечивающий крайне высокую доступность 1 и надёжность 2 по относительно низкой цене 3 . Масштабы • 400+ триллионов 4 объектов • 150 миллионов запросов в секунду • > 1 ПБ/с пикового трафика • Десятки миллионов дисков А что лежит в основе всего этого? Жёсткие диски. Способы достижения S3 таких масштабов — это настоящее инженерное чудо. Чтобы понять и оценить систему, нужно сначала оценить её базовый строительный блок — жёсткий диск . Жёсткие диски (HDD) — это старая, уже выходящая из моды технология, во многом вытесненная SSDs. Жёсткие диски хрупки физически, ограничены по IOPS и имеют высокие задержки. Однако благодаря им возможно то, на что пока неспособны флэш-диски: крайне дешёвая экономика хранения .
-
[Перевод] Как AWS S3 обеспечивает скорость 1 петабайт в секунду при помощи медленных HDD
Все знают, что такое AWS S3, но немногие осознают масштабы, в которых он работает, и те усилия, которые понадобились, чтобы этого добиться. По сути, это масштабируемый сервис многопользовательского хранилища с API для сохранения и извлечения объектов, обеспечивающий крайне высокую доступность 1 и надёжность 2 по относительно низкой цене 3 . Масштабы • 400+ триллионов 4 объектов • 150 миллионов запросов в секунду • > 1 ПБ/с пикового трафика • Десятки миллионов дисков А что лежит в основе всего этого? Жёсткие диски. Способы достижения S3 таких масштабов — это настоящее инженерное чудо. Чтобы понять и оценить систему, нужно сначала оценить её базовый строительный блок — жёсткий диск . Жёсткие диски (HDD) — это старая, уже выходящая из моды технология, во многом вытесненная SSDs. Жёсткие диски хрупки физически, ограничены по IOPS и имеют высокие задержки. Однако благодаря им возможно то, на что пока неспособны флэш-диски: крайне дешёвая экономика хранения .
-
[Перевод] Как AWS S3 обеспечивает скорость 1 петабайт в секунду при помощи медленных HDD
Все знают, что такое AWS S3, но немногие осознают масштабы, в которых он работает, и те усилия, которые понадобились, чтобы этого добиться. По сути, это масштабируемый сервис многопользовательского хранилища с API для сохранения и извлечения объектов, обеспечивающий крайне высокую доступность 1 и надёжность 2 по относительно низкой цене 3 . Масштабы • 400+ триллионов 4 объектов • 150 миллионов запросов в секунду • > 1 ПБ/с пикового трафика • Десятки миллионов дисков А что лежит в основе всего этого? Жёсткие диски. Способы достижения S3 таких масштабов — это настоящее инженерное чудо. Чтобы понять и оценить систему, нужно сначала оценить её базовый строительный блок — жёсткий диск . Жёсткие диски (HDD) — это старая, уже выходящая из моды технология, во многом вытесненная SSDs. Жёсткие диски хрупки физически, ограничены по IOPS и имеют высокие задержки. Однако благодаря им возможно то, на что пока неспособны флэш-диски: крайне дешёвая экономика хранения .
-
[Перевод] Как AWS S3 обеспечивает скорость 1 петабайт в секунду при помощи медленных HDD
Все знают, что такое AWS S3, но немногие осознают масштабы, в которых он работает, и те усилия, которые понадобились, чтобы этого добиться. По сути, это масштабируемый сервис многопользовательского хранилища с API для сохранения и извлечения объектов, обеспечивающий крайне высокую доступность 1 и надёжность 2 по относительно низкой цене 3 . Масштабы • 400+ триллионов 4 объектов • 150 миллионов запросов в секунду • > 1 ПБ/с пикового трафика • Десятки миллионов дисков А что лежит в основе всего этого? Жёсткие диски. Способы достижения S3 таких масштабов — это настоящее инженерное чудо. Чтобы понять и оценить систему, нужно сначала оценить её базовый строительный блок — жёсткий диск . Жёсткие диски (HDD) — это старая, уже выходящая из моды технология, во многом вытесненная SSDs. Жёсткие диски хрупки физически, ограничены по IOPS и имеют высокие задержки. Однако благодаря им возможно то, на что пока неспособны флэш-диски: крайне дешёвая экономика хранения .
-
Разработка DWH для начинающих
В статье рассматриваем что такое хранилище данных, основы их разработки: архитектура, основные слои данных и подходы для работы с ними, ETL и ELT, а также основные модели данных. Материал поможет начинающим разработчикам понять принципы построения аналитических систем и роль разработчика DWH.
https://habr.com/ru/articles/1011294/
#DWH #Хранилища_данных #Архитектура_хранилищ #Разработка_DWH #Слои_данных #Standing_слой #Core_слой #Data_Marts_слой #Модели_данных #ETL_ELT_процессы
-
Разработка DWH для начинающих
В статье рассматриваем что такое хранилище данных, основы их разработки: архитектура, основные слои данных и подходы для работы с ними, ETL и ELT, а также основные модели данных. Материал поможет начинающим разработчикам понять принципы построения аналитических систем и роль разработчика DWH.
https://habr.com/ru/articles/1011294/
#DWH #Хранилища_данных #Архитектура_хранилищ #Разработка_DWH #Слои_данных #Standing_слой #Core_слой #Data_Marts_слой #Модели_данных #ETL_ELT_процессы
-
Разработка DWH для начинающих
В статье рассматриваем что такое хранилище данных, основы их разработки: архитектура, основные слои данных и подходы для работы с ними, ETL и ELT, а также основные модели данных. Материал поможет начинающим разработчикам понять принципы построения аналитических систем и роль разработчика DWH.
https://habr.com/ru/articles/1011294/
#DWH #Хранилища_данных #Архитектура_хранилищ #Разработка_DWH #Слои_данных #Standing_слой #Core_слой #Data_Marts_слой #Модели_данных #ETL_ELT_процессы
-
Разработка DWH для начинающих
В статье рассматриваем что такое хранилище данных, основы их разработки: архитектура, основные слои данных и подходы для работы с ними, ETL и ELT, а также основные модели данных. Материал поможет начинающим разработчикам понять принципы построения аналитических систем и роль разработчика DWH.
https://habr.com/ru/articles/1011294/
#DWH #Хранилища_данных #Архитектура_хранилищ #Разработка_DWH #Слои_данных #Standing_слой #Core_слой #Data_Marts_слой #Модели_данных #ETL_ELT_процессы
-
Как мы построили витрины данных из разрозненных микросервисов
Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.
https://habr.com/ru/companies/greenatom/articles/1007324/
#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции
-
Как мы построили витрины данных из разрозненных микросервисов
Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.
https://habr.com/ru/companies/greenatom/articles/1007324/
#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции
-
Как мы построили витрины данных из разрозненных микросервисов
Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.
https://habr.com/ru/companies/greenatom/articles/1007324/
#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции
-
Как мы построили витрины данных из разрозненных микросервисов
Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.
https://habr.com/ru/companies/greenatom/articles/1007324/
#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции
-
ClickHouse: MergeTree с нуля
Привет, Хабр! Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных. ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия. В этой статье мы разберем фундамент ClickHouse - движок MergeTree . Посмотрим, как данные физически хранятся на диске, чем «парт» отличается от «партиции» и почему индекс в ClickHouse работает не так, как мы привыкли это видеть в транзакционных базах данных (например, PostgreSQL или MySQL). Погнали!
https://habr.com/ru/articles/1001054/
#ClickHouse #SQL #Big_Data #СУБД #MergeTree #Хранилища_данных #Data_Engineering #Tutorial
-
ClickHouse: MergeTree с нуля
Привет, Хабр! Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных. ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия. В этой статье мы разберем фундамент ClickHouse - движок MergeTree . Посмотрим, как данные физически хранятся на диске, чем «парт» отличается от «партиции» и почему индекс в ClickHouse работает не так, как мы привыкли это видеть в транзакционных базах данных (например, PostgreSQL или MySQL). Погнали!
https://habr.com/ru/articles/1001054/
#ClickHouse #SQL #Big_Data #СУБД #MergeTree #Хранилища_данных #Data_Engineering #Tutorial
-
ClickHouse: MergeTree с нуля
Привет, Хабр! Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных. ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия. В этой статье мы разберем фундамент ClickHouse - движок MergeTree . Посмотрим, как данные физически хранятся на диске, чем «парт» отличается от «партиции» и почему индекс в ClickHouse работает не так, как мы привыкли это видеть в транзакционных базах данных (например, PostgreSQL или MySQL). Погнали!
https://habr.com/ru/articles/1001054/
#ClickHouse #SQL #Big_Data #СУБД #MergeTree #Хранилища_данных #Data_Engineering #Tutorial
-
ClickHouse: MergeTree с нуля
Привет, Хабр! Меня зовут Натаров Иван. Я занимаюсь вопросами обработки, анализа и визуализации данных. ClickHouse сегодня стал стандартом де-факто для аналитических задач, но часто начинающие специалисты тратят слишком много времени на погружение в технологию. Документация зачастую дает либо слишком поверхностное объяснение, либо уходит в технические детали, которые сложны для восприятия. В этой статье мы разберем фундамент ClickHouse - движок MergeTree . Посмотрим, как данные физически хранятся на диске, чем «парт» отличается от «партиции» и почему индекс в ClickHouse работает не так, как мы привыкли это видеть в транзакционных базах данных (например, PostgreSQL или MySQL). Погнали!
https://habr.com/ru/articles/1001054/
#ClickHouse #SQL #Big_Data #СУБД #MergeTree #Хранилища_данных #Data_Engineering #Tutorial
-
[Перевод] Архитектура высокопроизводительного конвейера для приёма электронной почты с применением Go и DuckDB
Подробный технический разбор: как создать масштабируемое гибридное SaaS-хранилище для данных из области анализа безопасности. В области SaaS-безопасности наиболее уязвимая плоскость атаки — это объём данных. При создании платформы для обнаружения мошенничества, аномалий или нарушения соответствия в таких корпоративных средах как Google Workspace или Microsoft 365 , одной обработки данных недостаточно. Кроме этого приходится поглощать миллионы электронных сообщений, логов о прикреплённых файлах и записей о пользовательской активности.
-
Memory wall: что это и почему важно для индустрии хранения данных
Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища. Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных. Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных
https://habr.com/ru/companies/selectel/articles/987304/
#memorywall #sds #хранилища_данных #платформа_данных #selectel
-
Memory wall: что это и почему важно для индустрии хранения данных
Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища. Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных. Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных
https://habr.com/ru/companies/selectel/articles/987304/
#memorywall #sds #хранилища_данных #платформа_данных #selectel
-
Memory wall: что это и почему важно для индустрии хранения данных
Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища. Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных. Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных
https://habr.com/ru/companies/selectel/articles/987304/
#memorywall #sds #хранилища_данных #платформа_данных #selectel
-
Memory wall: что это и почему важно для индустрии хранения данных
Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища. Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных. Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных
https://habr.com/ru/companies/selectel/articles/987304/
#memorywall #sds #хранилища_данных #платформа_данных #selectel
-
6 лайфхаков при внедрении СУБД: учимся на чужих граблях
Привет, Хабр! Меня зовут Кирилл Тарасов, я — инженер данных в K2Tех. Наша команда Big Data & Bi работает с 2006 года, мы активно занимаемся Greenplum, Arenadata Hadoop/Streaming и внедряем собственные наработки, такие как ELT Framework. Также с 2012 года мы создаём аналитические системы и хранилища данных, и за это время моя команда столкнулась с самыми разными ситуациями, которые вызывали различные проблемы для реальной продуктивной эксплуатации СУБД. Некоторые из них были связаны с настройками баз данных, другие — с компонентами защиты, а третьи были настолько необычными, что их причиной оказалось исключительно странное и редкое поведение бизнес-логики, с которым разработчики хранилищ данных почти не сталкиваются. В этой статье вы найдете шесть кейсов, которые могут встретиться на любом проекте. Они помогут избежать попадания «ложки дегтя» в ваше хранилище.
https://habr.com/ru/companies/k2tech/articles/970874/
#субд #arenadata #работа_с_данными #хранилища_данных #миграция_данных
-
Круговорот обновлений СХД TATLIN.UNIFIED
Вы наверняка сталкивались с системами хранения данных семейства TATLIN или серверами VEGMAN, хотя можете об этом даже не подозревать. Например, делая заказ в интернет-магазине или пользуясь другими популярными онлайн-сервисами — в глубине ИТ-инфраструктуры для них можно обнаружить продукты YADRO. Добрый день, меня зовут Александр Чуриков, я технический эксперт отдела сервисного дизайна YADRO. Мы служим мостиком между сервисом и нашим R&D, который разрабатывает продукты — изучаем все боли сервиса, которые возникают при обслуживании, в том числе при обновлении и замене компонентов, и транслируем их в R&D.
https://habr.com/ru/companies/yadro/articles/857586/
#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san #хранилища_данных #резервное_копирование
-
Круговорот обновлений СХД TATLIN.UNIFIED
Вы наверняка сталкивались с системами хранения данных семейства TATLIN или серверами VEGMAN, хотя можете об этом даже не подозревать. Например, делая заказ в интернет-магазине или пользуясь другими популярными онлайн-сервисами — в глубине ИТ-инфраструктуры для них можно обнаружить продукты YADRO. Добрый день, меня зовут Александр Чуриков, я технический эксперт отдела сервисного дизайна YADRO. Мы служим мостиком между сервисом и нашим R&D, который разрабатывает продукты — изучаем все боли сервиса, которые возникают при обслуживании, в том числе при обновлении и замене компонентов, и транслируем их в R&D.
https://habr.com/ru/companies/yadro/articles/857586/
#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san #хранилища_данных #резервное_копирование
-
Круговорот обновлений СХД TATLIN.UNIFIED
Вы наверняка сталкивались с системами хранения данных семейства TATLIN или серверами VEGMAN, хотя можете об этом даже не подозревать. Например, делая заказ в интернет-магазине или пользуясь другими популярными онлайн-сервисами — в глубине ИТ-инфраструктуры для них можно обнаружить продукты YADRO. Добрый день, меня зовут Александр Чуриков, я технический эксперт отдела сервисного дизайна YADRO. Мы служим мостиком между сервисом и нашим R&D, который разрабатывает продукты — изучаем все боли сервиса, которые возникают при обслуживании, в том числе при обновлении и замене компонентов, и транслируем их в R&D.
https://habr.com/ru/companies/yadro/articles/857586/
#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san #хранилища_данных #резервное_копирование
-
Круговорот обновлений СХД TATLIN.UNIFIED
Вы наверняка сталкивались с системами хранения данных семейства TATLIN или серверами VEGMAN, хотя можете об этом даже не подозревать. Например, делая заказ в интернет-магазине или пользуясь другими популярными онлайн-сервисами — в глубине ИТ-инфраструктуры для них можно обнаружить продукты YADRO. Добрый день, меня зовут Александр Чуриков, я технический эксперт отдела сервисного дизайна YADRO. Мы служим мостиком между сервисом и нашим R&D, который разрабатывает продукты — изучаем все боли сервиса, которые возникают при обслуживании, в том числе при обновлении и замене компонентов, и транслируем их в R&D.
https://habr.com/ru/companies/yadro/articles/857586/
#serviceability #tatlin #tatlinunified #схд #системы_хранения_данных #san #хранилища_данных #резервное_копирование
-
[Перевод] Становятся ли жёсткие диски лучше? Спросим кривую отказов
Если вы уже давно знакомы с Backblaze (особенно, если следите за обзорами Drive Stats), то наверняка читали наши обсуждения кривой отказов. В статье « Drive Failure Over Time: The Bathtub Curve Is Leaking » мы писали о том, как проверяли истинность старого инженерного принципа, гласящего, что сбои в работе привода, представленные в виде временн о го графика, демонстрируют предсказуемую U-образную кривую, иначе называемую кривая «ванны». Но тест этого не подтвердил. В результате анализа нашей коллекции приводов были зафиксированы всплески и плато, которые никак не вписывались в предсказуемый паттерн. Теперь, спустя 13 лет непрерывного сбора данных, удалось получить более ясную картину, но и более странную. И «ванна» в этом случае не просто «потекла» (отсылка к leak в названии вышеупомянутой статьи, — прим. пер.), её форма больше напоминает бордюр при входе в душевую кабину. Скл а дная история о том, что вначале идут сбои, а потом спокойный средний период с плавным повышением отказов, больше не вписываются в реалии жизни наших приводов. Они становятся лучше. Говоря точнее, датасет Drive Stats указывает на повышение их качественных показателей конкретно в дата-центрах. Давайте же посмотрим, как выглядит полученная нами кривая отказов, и как она соотносится с прежними поколениями анализа. Если коротко, то жёсткие диски становятся лучше.
https://habr.com/ru/companies/ruvds/articles/958920/
#ruvds_перевод #хранилища_данных #анализ_hdd #срок_службы_hdd
-
[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера
Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.
https://habr.com/ru/companies/magnus-tech/articles/937470/
#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных
-
[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера
Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.
https://habr.com/ru/companies/magnus-tech/articles/937470/
#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных
-
[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера
Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.
https://habr.com/ru/companies/magnus-tech/articles/937470/
#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных
-
[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера
Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.
https://habr.com/ru/companies/magnus-tech/articles/937470/
#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных
-
[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик
Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.
https://habr.com/ru/companies/otus/articles/929938/
#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining
-
[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик
Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.
https://habr.com/ru/companies/otus/articles/929938/
#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining
-
[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик
Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.
https://habr.com/ru/companies/otus/articles/929938/
#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining
-
[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик
Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.
https://habr.com/ru/companies/otus/articles/929938/
#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining
-
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS
Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
https://habr.com/ru/companies/oleg-bunin/articles/884560/
#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных
-
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS
Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
https://habr.com/ru/companies/oleg-bunin/articles/884560/
#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных
-
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS
Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
https://habr.com/ru/companies/oleg-bunin/articles/884560/
#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных
-
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS
Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
https://habr.com/ru/companies/oleg-bunin/articles/884560/
#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных
-
Снапшоты, клоны и не только: как устроен и что умеет маппер в СХД TATLIN
Привет, Хабр! Меня зовут Алексей, я главный эксперт по разработке ПО в департаменте разработки СХД
https://habr.com/ru/companies/yadro/articles/911514/
#tatlinunified #схд #снапшоты #клоны #тонкие_тома #tatlin #хранилища_данных
-
Снапшоты, клоны и не только: как устроен и что умеет маппер в СХД TATLIN
Привет, Хабр! Меня зовут Алексей, я главный эксперт по разработке ПО в департаменте разработки СХД
https://habr.com/ru/companies/yadro/articles/911514/
#tatlinunified #схд #снапшоты #клоны #тонкие_тома #tatlin #хранилища_данных
-
Снапшоты, клоны и не только: как устроен и что умеет маппер в СХД TATLIN
Привет, Хабр! Меня зовут Алексей, я главный эксперт по разработке ПО в департаменте разработки СХД
https://habr.com/ru/companies/yadro/articles/911514/
#tatlinunified #схд #снапшоты #клоны #тонкие_тома #tatlin #хранилища_данных