#big_data — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #big_data, aggregated by home.social.
-
Московский мотоциклист: портрет на больших данных
Весна. На дорогах столицы всё меньше луж и всё больше их - шумных, быстрых, не отражающихся в зеркалах и тех, к кому горожане относятся по-разному. Автор статьи, например, относится к ним непосредственно , а потому в его голове давно зрела идея посмотреть на мотосообщество не через призму стереотипов, а сквозь петабайты больших данных Т2. Астрологи объявляют открытие мотосезона 2026: количество SQL-запросов по теме увеличивается вдвое! Промчаться по ночной столице
https://habr.com/ru/companies/t2/articles/1030044/
#мотоциклисты #Москва #Big_Data #геоаналитика #телеком #DMP #сегментация_аудитории #геолокация #сотовая_связь
-
Московский мотоциклист: портрет на больших данных
Весна. На дорогах столицы всё меньше луж и всё больше их - шумных, быстрых, не отражающихся в зеркалах и тех, к кому горожане относятся по-разному. Автор статьи, например, относится к ним непосредственно , а потому в его голове давно зрела идея посмотреть на мотосообщество не через призму стереотипов, а сквозь петабайты больших данных Т2. Астрологи объявляют открытие мотосезона 2026: количество SQL-запросов по теме увеличивается вдвое! Промчаться по ночной столице
https://habr.com/ru/companies/t2/articles/1030044/
#мотоциклисты #Москва #Big_Data #геоаналитика #телеком #DMP #сегментация_аудитории #геолокация #сотовая_связь
-
Московский мотоциклист: портрет на больших данных
Весна. На дорогах столицы всё меньше луж и всё больше их - шумных, быстрых, не отражающихся в зеркалах и тех, к кому горожане относятся по-разному. Автор статьи, например, относится к ним непосредственно , а потому в его голове давно зрела идея посмотреть на мотосообщество не через призму стереотипов, а сквозь петабайты больших данных Т2. Астрологи объявляют открытие мотосезона 2026: количество SQL-запросов по теме увеличивается вдвое! Промчаться по ночной столице
https://habr.com/ru/companies/t2/articles/1030044/
#мотоциклисты #Москва #Big_Data #геоаналитика #телеком #DMP #сегментация_аудитории #геолокация #сотовая_связь
-
Московский мотоциклист: портрет на больших данных
Весна. На дорогах столицы всё меньше луж и всё больше их - шумных, быстрых, не отражающихся в зеркалах и тех, к кому горожане относятся по-разному. Автор статьи, например, относится к ним непосредственно , а потому в его голове давно зрела идея посмотреть на мотосообщество не через призму стереотипов, а сквозь петабайты больших данных Т2. Астрологи объявляют открытие мотосезона 2026: количество SQL-запросов по теме увеличивается вдвое! Промчаться по ночной столице
https://habr.com/ru/companies/t2/articles/1030044/
#мотоциклисты #Москва #Big_Data #геоаналитика #телеком #DMP #сегментация_аудитории #геолокация #сотовая_связь
-
Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail
В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.
https://habr.com/ru/companies/vktech/articles/1032686/
#big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech
-
ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой
Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.
https://habr.com/ru/companies/otus/articles/1022158/
#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных
-
ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой
Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.
https://habr.com/ru/companies/otus/articles/1022158/
#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных
-
ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой
Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.
https://habr.com/ru/companies/otus/articles/1022158/
#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных
-
ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой
Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.
https://habr.com/ru/companies/otus/articles/1022158/
#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных
-
Avalon: как построить эффективный Feature Store на YDB
В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В городских сервисах Яндекса для таких задач мы создали собственное решение под названием Avalon. Оно служит универсальным каталогом признаков, которым легко пользоваться разработчикам и аналитикам вне зависимости от того, что им нужно хранить — бинарные индикаторы или сложные метрики вроде количества поездок у водителя. Наш Feature Store — Avalon — возник в момент, когда понадобилось масштабируемое и производительное хранилище с низкой задержкой, в котором можно структурировать признаки по иерархии «каталог/файл», получать быстрый доступ к ним из рантайма, автоматически отслеживать актуальность данных и контролировать жизненный цикл каждого признака. Роль СУБД для системы выполняет YDB, что позволяет достичь высокой отказоустойчивости и горизонтального масштабирования. Всем привет! Меня зовут Паша, я руковожу группой разработки технологий эффективности Такси. В этой статье я расскажу, как мы проектировали и строили Avalon, какие вызовы пришлось решать команде по мере роста нагрузок и аудитории, почему прежние подходы перестали соответствовать задачам современного продуктового анализа и как в результате получился удобный и надёжный Feature Store для множества бизнес-сценариев.
-
Почему Big Data стек небезопасен по своей природе
Год назад на рандом-кофе мы с коллегой обсуждали так называемую (мной) цифровую экологию и проблемы работы с большими данными, и он мне посоветовал доклад "The Unbelievable Insecurity of the Big Data Stack" с конференции Black Hat USA 2021 - в целом название полностью описывает содержание доклада. И вот только сейчас, спустя год, у меня дошли руки его разобрать и поделиться с вами своими мыслями на этот счёт. За пять лет доклад совершенно не утратил актуальности и, кажется, стал только более насущным. Доклад делала Sheila A. Berta - специалист по offensive security из Аргентины, которая много лет занимается поиском уязвимостей и исследованием инфраструктур. В последние годы она сфокусировалась на безопасности Big Data и cloud-native систем. Это не теоретическая работа, а результат практического ресёрча.
https://habr.com/ru/articles/1030842/
#big_data #data_security #безопасность_данных #архитектура_систем #архитектура_системы_хранения_данных #apache
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
ELT против ETL в FinOps: Почему мы сначала кладем сырые данные, а потом думаем
«Фарш невозможно прокрутить назад» — этой поговоркой инженеры данных могли бы объяснить, как работает классический ETL. Ошибка может случиться на любом этапе: не тот коэффициент применили, не ту валюту подставили, забыли про скидку. Но после того как исходные данные трансформированы и отчет сформирован, но иногда бывают такие ситуации, когда вернуться к первоисточнику по какой-то причину уже нельзя. В FinOps эта ситуация — не метафора, а суровая реальность. Данные от облачных провайдеров доступны лишь в ограниченном окне (30–90 дней), а иногда и меньше. Если вы сначала обработали их, а потом поняли, что ошиблись, может так случиться, что перезапросить исходники уже не получится. В этой статье мы разберем два подхода к построению процессов обработки и преобразования данных — ETL и ELT — и докажем, почему для FinOps выбор ELT — это не просто вопрос производительности, а вопрос выживания исторических данных.
https://habr.com/ru/companies/inferit/articles/1025790/
#облачные_вычисления #finops #финопс #data_engineering #data_warehouse #itинфраструктура #big_data #управление_проектами #системная_архитектура #devops
-
Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL
Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.
https://habr.com/ru/articles/1022460/
#clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python
-
Как я сделал глобальный семантический поиск для Telegram
TLDR: https://semagram.io/ Всё началось с того, что меня сократили на работе, и я несколько месяцев подряд не мог найти новую работу. Так получилось, что крупнейший работодатель региона Amadeus (хотя я работал даже не там) - решил заморозить найм и тоже сократить добрую часть консультантов именно в тот момент, когда я отрицательно трудоустроился. В итоге на рынке высвободилась большая масса айти-специалистов, которую не могли трудоустроить другие компании (а кто-то из них, возможно, и сам напрягся “а? Amadeus сокращает найм и внедряет ИИ? На всякий случай тоже заморозим найм”). Я оказался в общей массе. Так что параллельно с прохождением немногочисленных собеседований я начал думать о том, какие бы проекты запилить. Во-первых, продолжить обновлять свой опыт в резюме, пусть и немного в другом разделе. Во-вторых, а вдруг, мало ли что может случиться. Я брейнштормил идеи с ИИ, первые проекты были не особо примечательными...
-
Как перевернуло машину на пустом месте и при чем тут Big Data, компьютерное зрение и предиктивная аналитика
Привет, Хабр. Этой статьей я открываю сезон, который многие называют «зимняя романтика и гололед», а я теперь буду называть сезоном «внезапной наледи в тени леса». В прошедшие выходные мой хороший друг решил прокатиться за город. Скорость была абсолютно штатная, даже чуть ниже разрешенной – около 80 км/ч. Асфальт сухой, солнце слепит глаза, в машине играет приятный подкаст. И тут – въезд в тень лесополосы. Обычно он знает, что там может быть сыро, но в этот раз природа подготовила сюрприз в виде наледи. Машина клюнула носом, корму мгновенно поставило в занос, а через секунду мир совершил кульбит, и мой друг повис на ремне безопасности, глядя в перевернутое небо. Хорошо, что все живы, отделались ушибами и испугом. Но когда мы сидели у него на кухне и разбирали произошедшее (а он, как любой айтишник, начал с вопроса «почему?»), меня посетила мысль: Почему, черт возьми, современный автомобиль, напичканный электроникой, не предупредил его об этой ловушке? Ведь информационные технологии давно уже должны были сделать такие сюрпризы невозможными. Давайте разберем по полочкам, какие именно IT-решения могли бы предотвратить этот переворот, если бы они были не просто в машине, а работали в едином контексте.
https://habr.com/ru/articles/1010728/
#ADAS #V2X #Компьютерное_зрение #LiDAR #Big_Data #Предиктивная_аналитика #Машинное_обучение #Интернет_вещей #IoT #Беспроводные_технологии
-
Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода
Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта
https://habr.com/ru/articles/1005606/
#esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица
-
Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода
Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта
https://habr.com/ru/articles/1005606/
#esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица
-
Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода
Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта
https://habr.com/ru/articles/1005606/
#esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица
-
Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода
Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта
https://habr.com/ru/articles/1005606/
#esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица
-
Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор
В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.
https://habr.com/ru/articles/980368/
#StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные
-
Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор
В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.
https://habr.com/ru/articles/980368/
#StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные
-
Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор
В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.
https://habr.com/ru/articles/980368/
#StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные
-
Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор
В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.
https://habr.com/ru/articles/980368/
#StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные
-
[Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью
Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.
https://habr.com/ru/companies/otus/articles/934186/
#шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование
-
Практики OLS: единая точка правды становится еще более универсальной
Корпоративные практики BI отличаются тем, что единое хранилище данных позволяет самым разным сотрудникам — от рядовых специалистов до ТОП-менеджеров — получать нужную информацию и анализировать ее для принятия верных решений. Но это становится возможным только в том случае, если можно гарантировать, что каждый пользователь получит доступ только к данным, которые он имеет право видеть. О том, как этот подход работает на уровне объектов, и в чем разница между RLS и OLS, читайте под катом.
https://habr.com/ru/companies/visiology/articles/883628/
#Visiology #OLS #RLS #ClickHouse #ДанКо #управление_доступом #визуализация_данных #bi #big_data
-
Как провести unit-тестирование Flink-операторов: TestHarness
Привет всем, на связи снова Александр Бобряков, техлид в команде МТС Аналитики. Продолжаем цикл статей про фреймворк Apache Flink. Напомню, в предыдущих частях я рассказывал про построение пайплайна Kafka-to-Kafka с промежуточным разделением потока и дедупликацией событий. Также в предыдущей статье я рассказал, как можно динамически определить выходной Kafka-топик для каждого отправляемого события. Начиная с этой статьи начнём разбирать, как тестировать всё наше приложение Flink + Spring. Многие описанные подходы вполне применимы и в любом другом обычном Spring-приложении, поэтому, надеюсь, вы найдёте для себя что-то новое. В данной статье мы рассмотрим, как протестировать stateless- и stateful-операторы Flink с помощью абстракций TestHarness.
https://habr.com/ru/companies/ru_mts/articles/801693/
#java #big_data #data_engineering #распределенные_системы #дедупликация #apache_flink