home.social

#big_data — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #big_data, aggregated by home.social.

  1. Московский мотоциклист: портрет на больших данных

    Весна. На дорогах столицы всё меньше луж и всё больше их - шумных, быстрых, не отражающихся в зеркалах и тех, к кому горожане относятся по-разному. Автор статьи, например, относится к ним непосредственно , а потому в его голове давно зрела идея посмотреть на мотосообщество не через призму стереотипов, а сквозь петабайты больших данных Т2. Астрологи объявляют открытие мотосезона 2026: количество SQL-запросов по теме увеличивается вдвое! Промчаться по ночной столице

    habr.com/ru/companies/t2/artic

    #мотоциклисты #Москва #Big_Data #геоаналитика #телеком #DMP #сегментация_аудитории #геолокация #сотовая_связь

  2. Московский мотоциклист: портрет на больших данных

    Весна. На дорогах столицы всё меньше луж и всё больше их - шумных, быстрых, не отражающихся в зеркалах и тех, к кому горожане относятся по-разному. Автор статьи, например, относится к ним непосредственно , а потому в его голове давно зрела идея посмотреть на мотосообщество не через призму стереотипов, а сквозь петабайты больших данных Т2. Астрологи объявляют открытие мотосезона 2026: количество SQL-запросов по теме увеличивается вдвое! Промчаться по ночной столице

    habr.com/ru/companies/t2/artic

    #мотоциклисты #Москва #Big_Data #геоаналитика #телеком #DMP #сегментация_аудитории #геолокация #сотовая_связь

  3. Московский мотоциклист: портрет на больших данных

    Весна. На дорогах столицы всё меньше луж и всё больше их - шумных, быстрых, не отражающихся в зеркалах и тех, к кому горожане относятся по-разному. Автор статьи, например, относится к ним непосредственно , а потому в его голове давно зрела идея посмотреть на мотосообщество не через призму стереотипов, а сквозь петабайты больших данных Т2. Астрологи объявляют открытие мотосезона 2026: количество SQL-запросов по теме увеличивается вдвое! Промчаться по ночной столице

    habr.com/ru/companies/t2/artic

    #мотоциклисты #Москва #Big_Data #геоаналитика #телеком #DMP #сегментация_аудитории #геолокация #сотовая_связь

  4. Московский мотоциклист: портрет на больших данных

    Весна. На дорогах столицы всё меньше луж и всё больше их - шумных, быстрых, не отражающихся в зеркалах и тех, к кому горожане относятся по-разному. Автор статьи, например, относится к ним непосредственно , а потому в его голове давно зрела идея посмотреть на мотосообщество не через призму стереотипов, а сквозь петабайты больших данных Т2. Астрологи объявляют открытие мотосезона 2026: количество SQL-запросов по теме увеличивается вдвое! Промчаться по ночной столице

    habr.com/ru/companies/t2/artic

    #мотоциклисты #Москва #Big_Data #геоаналитика #телеком #DMP #сегментация_аудитории #геолокация #сотовая_связь

  5. Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail

    В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.

    habr.com/ru/companies/vktech/a

    #big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech

  6. ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

    Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

    habr.com/ru/companies/otus/art

    #clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

  7. ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

    Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

    habr.com/ru/companies/otus/art

    #clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

  8. ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

    Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

    habr.com/ru/companies/otus/art

    #clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

  9. ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

    Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

    habr.com/ru/companies/otus/art

    #clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

  10. Avalon: как построить эффективный Feature Store на YDB

    В современном развитии рекомендательных систем и алгоритмов принятия решений особое место занимают Feature Store — хранилища признаков, позволяющие быстро и централизованно управлять данными. В городских сервисах Яндекса для таких задач мы создали собственное решение под названием Avalon. Оно служит универсальным каталогом признаков, которым легко пользоваться разработчикам и аналитикам вне зависимости от того, что им нужно хранить — бинарные индикаторы или сложные метрики вроде количества поездок у водителя. Наш Feature Store — Avalon — возник в момент, когда понадобилось масштабируемое и производительное хранилище с низкой задержкой, в котором можно структурировать признаки по иерархии «каталог/файл», получать быстрый доступ к ним из рантайма, автоматически отслеживать актуальность данных и контролировать жизненный цикл каждого признака. Роль СУБД для системы выполняет YDB, что позволяет достичь высокой отказоустойчивости и горизонтального масштабирования. Всем привет! Меня зовут Паша, я руковожу группой разработки технологий эффективности Такси. В этой статье я расскажу, как мы проектировали и строили Avalon, какие вызовы пришлось решать команде по мере роста нагрузок и аудитории, почему прежние подходы перестали соответствовать задачам современного продуктового анализа и как в результате получился удобный и надёжный Feature Store для множества бизнес-сценариев.

    habr.com/ru/companies/yandex/a

    #ydb #субд #feature_store #архитектура #big_data

  11. Почему Big Data стек небезопасен по своей природе

    Год назад на рандом-кофе мы с коллегой обсуждали так называемую (мной) цифровую экологию и проблемы работы с большими данными, и он мне посоветовал доклад "The Unbelievable Insecurity of the Big Data Stack" с конференции Black Hat USA 2021 - в целом название полностью описывает содержание доклада. И вот только сейчас, спустя год, у меня дошли руки его разобрать и поделиться с вами своими мыслями на этот счёт. За пять лет доклад совершенно не утратил актуальности и, кажется, стал только более насущным. Доклад делала Sheila A. Berta - специалист по offensive security из Аргентины, которая много лет занимается поиском уязвимостей и исследованием инфраструктур. В последние годы она сфокусировалась на безопасности Big Data и cloud-native систем. Это не теоретическая работа, а результат практического ресёрча.

    habr.com/ru/articles/1030842/

    #big_data #data_security #безопасность_данных #архитектура_систем #архитектура_системы_хранения_данных #apache

  12. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  13. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  14. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  15. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  16. ELT против ETL в FinOps: Почему мы сначала кладем сырые данные, а потом думаем

    «Фарш невозможно прокрутить назад» — этой поговоркой инженеры данных могли бы объяснить, как работает классический ETL. Ошибка может случиться на любом этапе: не тот коэффициент применили, не ту валюту подставили, забыли про скидку. Но после того как исходные данные трансформированы и отчет сформирован, но иногда бывают такие ситуации, когда вернуться к первоисточнику по какой-то причину уже нельзя. В FinOps эта ситуация — не метафора, а суровая реальность. Данные от облачных провайдеров доступны лишь в ограниченном окне (30–90 дней), а иногда и меньше. Если вы сначала обработали их, а потом поняли, что ошиблись, может так случиться, что перезапросить исходники уже не получится. В этой статье мы разберем два подхода к построению процессов обработки и преобразования данных — ETL и ELT — и докажем, почему для FinOps выбор ELT — это не просто вопрос производительности, а вопрос выживания исторических данных.

    habr.com/ru/companies/inferit/

    #облачные_вычисления #finops #финопс #data_engineering #data_warehouse #itинфраструктура #big_data #управление_проектами #системная_архитектура #devops

  17. Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

    Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

    habr.com/ru/articles/1022460/

    #clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

  18. Как я сделал глобальный семантический поиск для Telegram

    TLDR: semagram.io/ Всё началось с того, что меня сократили на работе, и я несколько месяцев подряд не мог найти новую работу. Так получилось, что крупнейший работодатель региона Amadeus (хотя я работал даже не там) - решил заморозить найм и тоже сократить добрую часть консультантов именно в тот момент, когда я отрицательно трудоустроился. В итоге на рынке высвободилась большая масса айти-специалистов, которую не могли трудоустроить другие компании (а кто-то из них, возможно, и сам напрягся “а? Amadeus сокращает найм и внедряет ИИ? На всякий случай тоже заморозим найм”). Я оказался в общей массе. Так что параллельно с прохождением немногочисленных собеседований я начал думать о том, какие бы проекты запилить. Во-первых, продолжить обновлять свой опыт в резюме, пусть и немного в другом разделе. Во-вторых, а вдруг, мало ли что может случиться. Я брейнштормил идеи с ИИ, первые проекты были не особо примечательными...

    habr.com/ru/articles/1015876/

    #telegram #big_data #scraping #mtproto

  19. Как перевернуло машину на пустом месте и при чем тут Big Data, компьютерное зрение и предиктивная аналитика

    Привет, Хабр. Этой статьей я открываю сезон, который многие называют «зимняя романтика и гололед», а я теперь буду называть сезоном «внезапной наледи в тени леса». В прошедшие выходные мой хороший друг решил прокатиться за город. Скорость была абсолютно штатная, даже чуть ниже разрешенной – около 80 км/ч. Асфальт сухой, солнце слепит глаза, в машине играет приятный подкаст. И тут – въезд в тень лесополосы. Обычно он знает, что там может быть сыро, но в этот раз природа подготовила сюрприз в виде наледи. Машина клюнула носом, корму мгновенно поставило в занос, а через секунду мир совершил кульбит, и мой друг повис на ремне безопасности, глядя в перевернутое небо. Хорошо, что все живы, отделались ушибами и испугом. Но когда мы сидели у него на кухне и разбирали произошедшее (а он, как любой айтишник, начал с вопроса «почему?»), меня посетила мысль: Почему, черт возьми, современный автомобиль, напичканный электроникой, не предупредил его об этой ловушке? Ведь информационные технологии давно уже должны были сделать такие сюрпризы невозможными. Давайте разберем по полочкам, какие именно IT-решения могли бы предотвратить этот переворот, если бы они были не просто в машине, а работали в едином контексте.

    habr.com/ru/articles/1010728/

    #ADAS #V2X #Компьютерное_зрение #LiDAR #Big_Data #Предиктивная_аналитика #Машинное_обучение #Интернет_вещей #IoT #Беспроводные_технологии

  20. Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

    Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта

    habr.com/ru/articles/1005606/

    #esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица

  21. Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

    Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта

    habr.com/ru/articles/1005606/

    #esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица

  22. Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

    Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта

    habr.com/ru/articles/1005606/

    #esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица

  23. Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

    Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта

    habr.com/ru/articles/1005606/

    #esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица

  24. Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор

    В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.

    habr.com/ru/articles/980368/

    #StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные

  25. Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор

    В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.

    habr.com/ru/articles/980368/

    #StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные

  26. Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор

    В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.

    habr.com/ru/articles/980368/

    #StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные

  27. Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор

    В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.

    habr.com/ru/articles/980368/

    #StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные

  28. [Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

    Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

    habr.com/ru/companies/otus/art

    #шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

  29. Практики OLS: единая точка правды становится еще более универсальной

    Корпоративные практики BI отличаются тем, что единое хранилище данных позволяет самым разным сотрудникам — от рядовых специалистов до ТОП-менеджеров — получать нужную информацию и анализировать ее для принятия верных решений. Но это становится возможным только в том случае, если можно гарантировать, что каждый пользователь получит доступ только к данным, которые он имеет право видеть. О том, как этот подход работает на уровне объектов, и в чем разница между RLS и OLS, читайте под катом.

    habr.com/ru/companies/visiolog

    #Visiology #OLS #RLS #ClickHouse #ДанКо #управление_доступом #визуализация_данных #bi #big_data

  30. Как провести unit-тестирование Flink-операторов: TestHarness

    Привет всем, на связи снова Александр Бобряков, техлид в команде МТС Аналитики. Продолжаем цикл статей про фреймворк Apache Flink. Напомню, в предыдущих частях я рассказывал про построение пайплайна Kafka-to-Kafka с промежуточным разделением потока и дедупликацией событий. Также в предыдущей статье я рассказал, как можно динамически определить выходной Kafka-топик для каждого отправляемого события. Начиная с этой статьи начнём разбирать, как тестировать всё наше приложение Flink + Spring. Многие описанные подходы вполне применимы и в любом другом обычном Spring-приложении, поэтому, надеюсь, вы найдёте для себя что-то новое. В данной статье мы рассмотрим, как протестировать stateless- и stateful-операторы Flink с помощью абстракций TestHarness.

    habr.com/ru/companies/ru_mts/a

    #java #big_data #data_engineering #распределенные_системы #дедупликация #apache_flink