home.social

#большие_данные — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #большие_данные, aggregated by home.social.

  1. Почему президенты носят одинаковые костюмы, а Цукерберг ходит в одной футболке, и как это использовать в маркетинге?

    Если вы смотрите новости, то, наверняка, обратили внимание на то, что многие (если не все) президенты, премьер-министры и прочие ответственные лица носят только серые или темно-синие костюмы. Как это объяснить? Правилами этикета? Возможно… А еще Марк Цукерберг постоянно ходит в серой футболке. Вряд ли в ИТ-сообществе такие же жесткие правила поведения? В этой статье поговорим о том, как процессы принятия решений могут влиять на повседневную жизнь, маркетинг и объемы продаж вашего бизнеса.

    habr.com/ru/companies/lansoft_

    #маркетинг #cdp #профиль_клиента #психология_клиента #персонализация #большие_данные #рекомендательные_системы #рекомендательные_алгоритмы #принятие_решений

  2. Почему президенты носят одинаковые костюмы, а Цукерберг ходит в одной футболке, и как это использовать в маркетинге?

    Если вы смотрите новости, то, наверняка, обратили внимание на то, что многие (если не все) президенты, премьер-министры и прочие ответственные лица носят только серые или темно-синие костюмы. Как это объяснить? Правилами этикета? Возможно… А еще Марк Цукерберг постоянно ходит в серой футболке. Вряд ли в ИТ-сообществе такие же жесткие правила поведения? В этой статье поговорим о том, как процессы принятия решений могут влиять на повседневную жизнь, маркетинг и объемы продаж вашего бизнеса.

    habr.com/ru/companies/lansoft_

    #маркетинг #cdp #профиль_клиента #психология_клиента #персонализация #большие_данные #рекомендательные_системы #рекомендательные_алгоритмы #принятие_решений

  3. Почему президенты носят одинаковые костюмы, а Цукерберг ходит в одной футболке, и как это использовать в маркетинге?

    Если вы смотрите новости, то, наверняка, обратили внимание на то, что многие (если не все) президенты, премьер-министры и прочие ответственные лица носят только серые или темно-синие костюмы. Как это объяснить? Правилами этикета? Возможно… А еще Марк Цукерберг постоянно ходит в серой футболке. Вряд ли в ИТ-сообществе такие же жесткие правила поведения? В этой статье поговорим о том, как процессы принятия решений могут влиять на повседневную жизнь, маркетинг и объемы продаж вашего бизнеса.

    habr.com/ru/companies/lansoft_

    #маркетинг #cdp #профиль_клиента #психология_клиента #персонализация #большие_данные #рекомендательные_системы #рекомендательные_алгоритмы #принятие_решений

  4. Почему президенты носят одинаковые костюмы, а Цукерберг ходит в одной футболке, и как это использовать в маркетинге?

    Если вы смотрите новости, то, наверняка, обратили внимание на то, что многие (если не все) президенты, премьер-министры и прочие ответственные лица носят только серые или темно-синие костюмы. Как это объяснить? Правилами этикета? Возможно… А еще Марк Цукерберг постоянно ходит в серой футболке. Вряд ли в ИТ-сообществе такие же жесткие правила поведения? В этой статье поговорим о том, как процессы принятия решений могут влиять на повседневную жизнь, маркетинг и объемы продаж вашего бизнеса.

    habr.com/ru/companies/lansoft_

    #маркетинг #cdp #профиль_клиента #психология_клиента #персонализация #большие_данные #рекомендательные_системы #рекомендательные_алгоритмы #принятие_решений

  5. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  6. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  7. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  8. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  9. Next Best Action: от задолженности к прибыли через персонализацию коммуникаций

    Привет, Хабр! На связи — Ольга Кравченко, техдиректор по разработке моделей Газпромбанк.Тех. Сегодня я поделюсь кейсом, как наша команда создала инструмент, позволяющий нам продвигаться от просроченной задолженности к прибыли через персонализацию коммуникаций. Эта статья основана на моём выступлении на

    habr.com/ru/companies/oleg-bun

    #Data_Engineering #высоконагруженные_системы #искусственный_интеллект #Next_Best_Action #ml #данные #большие_данные

  10. Next Best Action: от задолженности к прибыли через персонализацию коммуникаций

    Привет, Хабр! На связи — Ольга Кравченко, техдиректор по разработке моделей Газпромбанк.Тех. Сегодня я поделюсь кейсом, как наша команда создала инструмент, позволяющий нам продвигаться от просроченной задолженности к прибыли через персонализацию коммуникаций. Эта статья основана на моём выступлении на

    habr.com/ru/companies/oleg-bun

    #Data_Engineering #высоконагруженные_системы #искусственный_интеллект #Next_Best_Action #ml #данные #большие_данные

  11. Next Best Action: от задолженности к прибыли через персонализацию коммуникаций

    Привет, Хабр! На связи — Ольга Кравченко, техдиректор по разработке моделей Газпромбанк.Тех. Сегодня я поделюсь кейсом, как наша команда создала инструмент, позволяющий нам продвигаться от просроченной задолженности к прибыли через персонализацию коммуникаций. Эта статья основана на моём выступлении на

    habr.com/ru/companies/oleg-bun

    #Data_Engineering #высоконагруженные_системы #искусственный_интеллект #Next_Best_Action #ml #данные #большие_данные

  12. Next Best Action: от задолженности к прибыли через персонализацию коммуникаций

    Привет, Хабр! На связи — Ольга Кравченко, техдиректор по разработке моделей Газпромбанк.Тех. Сегодня я поделюсь кейсом, как наша команда создала инструмент, позволяющий нам продвигаться от просроченной задолженности к прибыли через персонализацию коммуникаций. Эта статья основана на моём выступлении на

    habr.com/ru/companies/oleg-bun

    #Data_Engineering #высоконагруженные_системы #искусственный_интеллект #Next_Best_Action #ml #данные #большие_данные

  13. Синтетика как топливо: почему self-training работает и где начинается model collapse

    В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность. Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур

    habr.com/ru/articles/1018800/

    #искусственный_интеллект #машинное+обучение #большие_данные #bigdata #ai #стена_данных #gpu #пайплайн #качество_данных #синтетические_данные

  14. Apache Superset — боремся с фильтрами по дате. Часть 2

    В этой статье продолжаем борьбу с фильтрами по дате в Apache Superset. Сегодня разберем, как реализовать подобие логики remove_filter в старых версиях (до 5), чтобы виртуальный датасет не оборачивался фильтрами.

    habr.com/ru/articles/1016384/

    #apache_superset #jinja #фильтр #дата #танцы_с_бубном #визуализация #большие_данные

  15. Apache Superset — боремся с фильтрами по дате. Часть 1

    В этой статье хотелось бы начать раскрытие больной для многих пользователей Apache Superset темы — фильтры по дате. Начнем с малого: как суперсет выбирает колонку даты; как выбрать желаемую колонку вместо той, которую он выбирает; каким образом это реализовано; какие баги породили этим решением; почему КОП не доведет до добра.

    habr.com/ru/articles/1013520/

    #apache_superset #фильтрация_данных #костылизация #визуализация #большие_данные

  16. Почему один рубль не всегда стоит одинаково? Или куда вывезет кривая ценности?

    Почему в промо-акциях всегда указывается не только новая сниженная цена, но и та, которая была до скидки? Ответ на этот вопрос знает даже начинающий маркетолог. Если покупатель оценивает более низкую цену изолированно, он может даже не понять, что цена снижена, тем более насколько. Но ориентируясь на предыдущую цену, покупатель легко посчитает свою выгоду. Кстати, для этого даже не обязательно снижать цену, можно просто написать две разные цены. Как правило, покупатели не запоминают точные цены, особенно на недорогой товар. А знаете ли вы, что за открытие этой закономерности была присуждена Нобелевская премия по экономике? Конечно, не только за это, но давайте разбираться…

    habr.com/ru/companies/lansoft_

    #cdp #маркетинг #экономическое_обоснование #теория_перспектив #кривая_ценности #точка_отсчёта #большие_данные #промоакция #нобелевская_премия #азартные_игры

  17. Почему один рубль не всегда стоит одинаково? Или куда вывезет кривая ценности?

    Почему в промо-акциях всегда указывается не только новая сниженная цена, но и та, которая была до скидки? Ответ на этот вопрос знает даже начинающий маркетолог. Если покупатель оценивает более низкую цену изолированно, он может даже не понять, что цена снижена, тем более насколько. Но ориентируясь на предыдущую цену, покупатель легко посчитает свою выгоду. Кстати, для этого даже не обязательно снижать цену, можно просто написать две разные цены. Как правило, покупатели не запоминают точные цены, особенно на недорогой товар. А знаете ли вы, что за открытие этой закономерности была присуждена Нобелевская премия по экономике? Конечно, не только за это, но давайте разбираться…

    habr.com/ru/companies/lansoft_

    #cdp #маркетинг #экономическое_обоснование #теория_перспектив #кривая_ценности #точка_отсчёта #большие_данные #промоакция #нобелевская_премия #азартные_игры

  18. Почему один рубль не всегда стоит одинаково? Или куда вывезет кривая ценности?

    Почему в промо-акциях всегда указывается не только новая сниженная цена, но и та, которая была до скидки? Ответ на этот вопрос знает даже начинающий маркетолог. Если покупатель оценивает более низкую цену изолированно, он может даже не понять, что цена снижена, тем более насколько. Но ориентируясь на предыдущую цену, покупатель легко посчитает свою выгоду. Кстати, для этого даже не обязательно снижать цену, можно просто написать две разные цены. Как правило, покупатели не запоминают точные цены, особенно на недорогой товар. А знаете ли вы, что за открытие этой закономерности была присуждена Нобелевская премия по экономике? Конечно, не только за это, но давайте разбираться…

    habr.com/ru/companies/lansoft_

    #cdp #маркетинг #экономическое_обоснование #теория_перспектив #кривая_ценности #точка_отсчёта #большие_данные #промоакция #нобелевская_премия #азартные_игры

  19. Почему один рубль не всегда стоит одинаково? Или куда вывезет кривая ценности?

    Почему в промо-акциях всегда указывается не только новая сниженная цена, но и та, которая была до скидки? Ответ на этот вопрос знает даже начинающий маркетолог. Если покупатель оценивает более низкую цену изолированно, он может даже не понять, что цена снижена, тем более насколько. Но ориентируясь на предыдущую цену, покупатель легко посчитает свою выгоду. Кстати, для этого даже не обязательно снижать цену, можно просто написать две разные цены. Как правило, покупатели не запоминают точные цены, особенно на недорогой товар. А знаете ли вы, что за открытие этой закономерности была присуждена Нобелевская премия по экономике? Конечно, не только за это, но давайте разбираться…

    habr.com/ru/companies/lansoft_

    #cdp #маркетинг #экономическое_обоснование #теория_перспектив #кривая_ценности #точка_отсчёта #большие_данные #промоакция #нобелевская_премия #азартные_игры

  20. Python mmap: Улучшенный I/O файлов с помощью отображение файлов в память

    В Zen of Python есть много мудрых идей. Одна особенно полезная гласит: «Должен быть один — и желательно только один — очевидный способ сделать это». Тем не менее в Python существует несколько способов решить большинство задач. Например, есть разные способы чтения файла в Python, включая редко используемый модуль mmap . В этом руководстве вы узнаете: какие виды компьютерной памяти существуют; какие задачи можно решить с помощью mmap; как использовать отображение в память для более быстрого чтения больших файлов; как изменить часть файла, не перезаписывая весь файл; как использовать mmap для обмена информацией между несколькими процессами.

    habr.com/ru/articles/1001546/

    #mmap #python #memory_mapped_file #большие_файлы #большие_данные #работа_с_файлами #файлы #оптимизация_кода #Отображение_файла_в_память

  21. Python mmap: Улучшенный I/O файлов с помощью отображение файлов в память

    В Zen of Python есть много мудрых идей. Одна особенно полезная гласит: «Должен быть один — и желательно только один — очевидный способ сделать это». Тем не менее в Python существует несколько способов решить большинство задач. Например, есть разные способы чтения файла в Python, включая редко используемый модуль mmap . В этом руководстве вы узнаете: какие виды компьютерной памяти существуют; какие задачи можно решить с помощью mmap; как использовать отображение в память для более быстрого чтения больших файлов; как изменить часть файла, не перезаписывая весь файл; как использовать mmap для обмена информацией между несколькими процессами.

    habr.com/ru/articles/1001546/

    #mmap #python #memory_mapped_file #большие_файлы #большие_данные #работа_с_файлами #файлы #оптимизация_кода #Отображение_файла_в_память

  22. Python mmap: Улучшенный I/O файлов с помощью отображение файлов в память

    В Zen of Python есть много мудрых идей. Одна особенно полезная гласит: «Должен быть один — и желательно только один — очевидный способ сделать это». Тем не менее в Python существует несколько способов решить большинство задач. Например, есть разные способы чтения файла в Python, включая редко используемый модуль mmap . В этом руководстве вы узнаете: какие виды компьютерной памяти существуют; какие задачи можно решить с помощью mmap; как использовать отображение в память для более быстрого чтения больших файлов; как изменить часть файла, не перезаписывая весь файл; как использовать mmap для обмена информацией между несколькими процессами.

    habr.com/ru/articles/1001546/

    #mmap #python #memory_mapped_file #большие_файлы #большие_данные #работа_с_файлами #файлы #оптимизация_кода #Отображение_файла_в_память

  23. Python mmap: Улучшенный I/O файлов с помощью отображение файлов в память

    В Zen of Python есть много мудрых идей. Одна особенно полезная гласит: «Должен быть один — и желательно только один — очевидный способ сделать это». Тем не менее в Python существует несколько способов решить большинство задач. Например, есть разные способы чтения файла в Python, включая редко используемый модуль mmap . В этом руководстве вы узнаете: какие виды компьютерной памяти существуют; какие задачи можно решить с помощью mmap; как использовать отображение в память для более быстрого чтения больших файлов; как изменить часть файла, не перезаписывая весь файл; как использовать mmap для обмена информацией между несколькими процессами.

    habr.com/ru/articles/1001546/

    #mmap #python #memory_mapped_file #большие_файлы #большие_данные #работа_с_файлами #файлы #оптимизация_кода #Отображение_файла_в_память

  24. «Найден. Жив»: как передовые технологии помогают находить пропавших людей

    Эту историю неизбежно приходится начинать с тревожной статистики. В России ежегодно теряются сотни тысяч человек. Согласно данным МВД, в стране каждый год регистрируют до 180 тысяч заявлений о пропаже людей. Только за первую неделю нового года в добровольческий поисково-спасательный отряд « ЛизаАлерт » поступило больше 300 заявок от родственников и друзей исчезнувших людей. За сухими цифрами — человеческие судьбы, тревожные дни и ночи и всегда надежда на короткую, но предельно емкую фразу, которая для поисковиков и близких пропавших имеет самое важное значение: «Найден. Жив».

    habr.com/ru/companies/leader-i

    #беспилотники #безопасность #познавательно #поиск #спасение #большие_данные #нейросети #искусственный_интеллект #лиза_алерт

  25. Решение обратной задачи рекомендаций: опыт участия в VK RecSys Challenge

    В декабре 2025 года VK провёл RecSys Challenge LSVD — соревнование по машинному обучению с нестандартной постановкой задачи. Традиционные рекомендательные системы решают проблему "что показать пользователю", но здесь требовалось обратное: для каждого нового клипа определить, каким пользователям он может быть интересен. Такой подход помогает решать проблему холодного старта контента, когда новое видео только появляется в системе и не имеет истории взаимодействий. Я принял участие в этом челлендже и хочу поделиться своим решением, архитектурой системы и практическими выводами.

    habr.com/ru/articles/986440/

    #recsys_challenge_2025 #recsys #ml #рекомендации_контента #коллаборативная_фильтрация #большие_данные #bigdata #vk #vklsvd #huggingface

  26. Решение обратной задачи рекомендаций: опыт участия в VK RecSys Challenge

    В декабре 2025 года VK провёл RecSys Challenge LSVD — соревнование по машинному обучению с нестандартной постановкой задачи. Традиционные рекомендательные системы решают проблему "что показать пользователю", но здесь требовалось обратное: для каждого нового клипа определить, каким пользователям он может быть интересен. Такой подход помогает решать проблему холодного старта контента, когда новое видео только появляется в системе и не имеет истории взаимодействий. Я принял участие в этом челлендже и хочу поделиться своим решением, архитектурой системы и практическими выводами.

    habr.com/ru/articles/986440/

    #recsys_challenge_2025 #recsys #ml #рекомендации_контента #коллаборативная_фильтрация #большие_данные #bigdata #vk #vklsvd #huggingface

  27. Решение обратной задачи рекомендаций: опыт участия в VK RecSys Challenge

    В декабре 2025 года VK провёл RecSys Challenge LSVD — соревнование по машинному обучению с нестандартной постановкой задачи. Традиционные рекомендательные системы решают проблему "что показать пользователю", но здесь требовалось обратное: для каждого нового клипа определить, каким пользователям он может быть интересен. Такой подход помогает решать проблему холодного старта контента, когда новое видео только появляется в системе и не имеет истории взаимодействий. Я принял участие в этом челлендже и хочу поделиться своим решением, архитектурой системы и практическими выводами.

    habr.com/ru/articles/986440/

    #recsys_challenge_2025 #recsys #ml #рекомендации_контента #коллаборативная_фильтрация #большие_данные #bigdata #vk #vklsvd #huggingface

  28. Решение обратной задачи рекомендаций: опыт участия в VK RecSys Challenge

    В декабре 2025 года VK провёл RecSys Challenge LSVD — соревнование по машинному обучению с нестандартной постановкой задачи. Традиционные рекомендательные системы решают проблему "что показать пользователю", но здесь требовалось обратное: для каждого нового клипа определить, каким пользователям он может быть интересен. Такой подход помогает решать проблему холодного старта контента, когда новое видео только появляется в системе и не имеет истории взаимодействий. Я принял участие в этом челлендже и хочу поделиться своим решением, архитектурой системы и практическими выводами.

    habr.com/ru/articles/986440/

    #recsys_challenge_2025 #recsys #ml #рекомендации_контента #коллаборативная_фильтрация #большие_данные #bigdata #vk #vklsvd #huggingface

  29. DataHub + MCP: подключаем ИИ к управлению метаданными

    Чем больше данных в компании, тем критичнее становится понимание того, где именно они хранятся и как изменяются при обновлениях. В «Островке» мы пользуемся дата-каталогами, но в какой-то момент решили пойти чуть дальше: объединили DataHub с генеративным ИИ через Model Context Protocol, чтобы сделать работу с метаданными более интерактивной и быстрой. Теперь сотрудники могут получать развернутые ответы на сложные вопросы о таблицах, lineage и зависимостях данных, не тратя часы на ручной поиск и согласования. Получилась не просто автоматизация рутинных задач, а, по сути, инструмент self-service аналитики. Под катом делимся опытом внедрения связки DataHub + MCP, рассказываем об архитектуре решения и показываем реальные примеры, как ИИ становится практическим помощником в управлении метаданными.

    habr.com/ru/companies/ostrovok

    #data #datahub #ai #mcp #аналитика #большие_данные #датакаталог #метаданные #llm

  30. Миграция ГИС ГМП: как мы перенесли сотни терабайт данных, не останавливая федеральный ресурс

    Слышали о ГИС ГМП? Скорее всего, мало кто слышал. Зато точно видели, если: — вам на Госуслуги приходила пошлина на оплату нового загранпаспорта — вы получали уведомление о штрафе ГИБДД в банковском приложении — вы узнавали состояние своего единого налогового счёта (ЕНС) Чтобы всё это стало возможным, Федеральное Казначейство создало Государственную информационную систему о государственных и муниципальных платежах (ГИС ГМП). Именно она аккумулирует все назначенные людям и компаниям платежи и контролирует их оплату, сверяя платёжные поручения банков с начислениями. Как вы думаете, много ли там начислений? А платежей? Сотни миллиардов. В рамках импортозамещения нам в РТЛабс поставили задачу — мигрировать ГИС ГМП с базы данных Oracle на другую подходящую. Да-да, нам предстояло мигрировать систему, которая хранит сотни терабайт данных — кому и что было начислено, как и когда это оплатили. Как нам это удалось? Именно об этом я и хочу рассказать. На связи Михаил Денисов — технический директор блока развития казначейских проектов.

    habr.com/ru/companies/rtlabs/a

    #импортозамещение #базы_данных #большие_данные #shardman #postgres_pro #oracle

  31. Миграция ГИС ГМП: как мы перенесли сотни терабайт данных, не останавливая федеральный ресурс

    Слышали о ГИС ГМП? Скорее всего, мало кто слышал. Зато точно видели, если: — вам на Госуслуги приходила пошлина на оплату нового загранпаспорта — вы получали уведомление о штрафе ГИБДД в банковском приложении — вы узнавали состояние своего единого налогового счёта (ЕНС) Чтобы всё это стало возможным, Федеральное Казначейство создало Государственную информационную систему о государственных и муниципальных платежах (ГИС ГМП). Именно она аккумулирует все назначенные людям и компаниям платежи и контролирует их оплату, сверяя платёжные поручения банков с начислениями. Как вы думаете, много ли там начислений? А платежей? Сотни миллиардов. В рамках импортозамещения нам в РТЛабс поставили задачу — мигрировать ГИС ГМП с базы данных Oracle на другую подходящую. Да-да, нам предстояло мигрировать систему, которая хранит сотни терабайт данных — кому и что было начислено, как и когда это оплатили. Как нам это удалось? Именно об этом я и хочу рассказать. На связи Михаил Денисов — технический директор блока развития казначейских проектов.

    habr.com/ru/companies/rtlabs/a

    #импортозамещение #базы_данных #большие_данные #shardman #postgres_pro #oracle

  32. Миграция ГИС ГМП: как мы перенесли сотни терабайт данных, не останавливая федеральный ресурс

    Слышали о ГИС ГМП? Скорее всего, мало кто слышал. Зато точно видели, если: — вам на Госуслуги приходила пошлина на оплату нового загранпаспорта — вы получали уведомление о штрафе ГИБДД в банковском приложении — вы узнавали состояние своего единого налогового счёта (ЕНС) Чтобы всё это стало возможным, Федеральное Казначейство создало Государственную информационную систему о государственных и муниципальных платежах (ГИС ГМП). Именно она аккумулирует все назначенные людям и компаниям платежи и контролирует их оплату, сверяя платёжные поручения банков с начислениями. Как вы думаете, много ли там начислений? А платежей? Сотни миллиардов. В рамках импортозамещения нам в РТЛабс поставили задачу — мигрировать ГИС ГМП с базы данных Oracle на другую подходящую. Да-да, нам предстояло мигрировать систему, которая хранит сотни терабайт данных — кому и что было начислено, как и когда это оплатили. Как нам это удалось? Именно об этом я и хочу рассказать. На связи Михаил Денисов — технический директор блока развития казначейских проектов.

    habr.com/ru/companies/rtlabs/a

    #импортозамещение #базы_данных #большие_данные #shardman #postgres_pro #oracle

  33. Миграция ГИС ГМП: как мы перенесли сотни терабайт данных, не останавливая федеральный ресурс

    Слышали о ГИС ГМП? Скорее всего, мало кто слышал. Зато точно видели, если: — вам на Госуслуги приходила пошлина на оплату нового загранпаспорта — вы получали уведомление о штрафе ГИБДД в банковском приложении — вы узнавали состояние своего единого налогового счёта (ЕНС) Чтобы всё это стало возможным, Федеральное Казначейство создало Государственную информационную систему о государственных и муниципальных платежах (ГИС ГМП). Именно она аккумулирует все назначенные людям и компаниям платежи и контролирует их оплату, сверяя платёжные поручения банков с начислениями. Как вы думаете, много ли там начислений? А платежей? Сотни миллиардов. В рамках импортозамещения нам в РТЛабс поставили задачу — мигрировать ГИС ГМП с базы данных Oracle на другую подходящую. Да-да, нам предстояло мигрировать систему, которая хранит сотни терабайт данных — кому и что было начислено, как и когда это оплатили. Как нам это удалось? Именно об этом я и хочу рассказать. На связи Михаил Денисов — технический директор блока развития казначейских проектов.

    habr.com/ru/companies/rtlabs/a

    #импортозамещение #базы_данных #большие_данные #shardman #postgres_pro #oracle

  34. Язык и большие данные

    Язык всегда строился на интуиции носителей, а его изучение зависело от интроспекции лингвистов. Теперь же большие данные абсолютно меняют эту систему.

    habr.com/ru/articles/972916/

    #язык #лингвистика #новые_слова #нейросети #большие_данные

  35. Язык и большие данные

    Язык всегда строился на интуиции носителей, а его изучение зависело от интроспекции лингвистов. Теперь же большие данные абсолютно меняют эту систему.

    habr.com/ru/articles/972916/

    #язык #лингвистика #новые_слова #нейросети #большие_данные

  36. Язык и большие данные

    Язык всегда строился на интуиции носителей, а его изучение зависело от интроспекции лингвистов. Теперь же большие данные абсолютно меняют эту систему.

    habr.com/ru/articles/972916/

    #язык #лингвистика #новые_слова #нейросети #большие_данные

  37. Язык и большие данные

    Язык всегда строился на интуиции носителей, а его изучение зависело от интроспекции лингвистов. Теперь же большие данные абсолютно меняют эту систему.

    habr.com/ru/articles/972916/

    #язык #лингвистика #новые_слова #нейросети #большие_данные

  38. Что даст переход NVMe дисков на PCIe Gen 5: скорость 14 000+ МБ/с и мгновенная работа с большими данными

    Диски NVMe с интерфейсом PCIe Gen 5 обещают удвоенную производительность по сравнению с Gen 4 и впечатляющие скорости за 14 000 МБ/с. Но насколько эта скорость необходима в реальных задачах и кому действительно стоит планировать переход? Разбираемся в особенностях разных поколений PCIe SSD и помогаем определить, когда апгрейд имеет смысл.

    habr.com/ru/companies/mclouds/

    #итинфраструктура #ssdнакопители #pcie #хранение_данных #монтаж_видео #машинное_обучение #большие_данные #cad_системы #nvme_ssd #amd_epyc

  39. Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения

    Текущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e-commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента. И кажется, что все имеющиеся инструменты повышения эффективности уже использованы. Но есть ещё один. В этой статье я расскажу о нашем опыте повышения производительности операций в распределительных центрах торговой сети “Пятёрочка” без больших финансовых вливаний и долгосрочных разработок. Я руковожу Департаментом развития аналитики “Цепочки поставок и поддерживающие функции” в Х5 Tech, и моя команда занимается поиском путей повышения эффективности бизнеса через анализ больших данных.

    habr.com/ru/companies/X5Tech/a

    #Task_mining #process_intelligence #логистика #повышение_производительности #эффективность #большие_данные #big_data #цифровой_след #исследование #цепочки_поставок

  40. Как JSON может вас подвести

    JSON - наш повседневный помощник, но его коварные стороны могут обернуться неприятностями: потеря точности чисел, гигантские файлы, путаница с датами. Рассказываю, как избежать проблем и повысить эффективность с помощью стриминга в Node.js, MessagePack и Protobuf. Узнайте, где подводные камни и как их обойти на практике!

    habr.com/ru/articles/871616/

    #json #nodejs #javascript #messagepack #protocol_buffers #api #сериализация #стриминг #большие_данные #производительность

  41. Расцвет скоростей в сетях ЦОД: 400GbE уже мейнстрим или совсем мало?

    Привет! Меня зовут Михаил Шпак , я занимаюсь комплексной архитектурой технологических решений в сетевой части ИТ-холдинга Fplus, который выпускает широкий спектр высокотехнологичных электронных устройств. В данной статье я хочу показать, как за последние 5 лет требования современного бизнеса и развитие ресурсоемких приложений (искусственного интеллекта, поисковых систем, мобильной связи стандарта 5G и т.д.) изменили требования к архитектуре, скорости и отзывчивости сетей, используемых в центрах обработки данных. Давайте разберемся, какие комплексные технологические решения заставляют нас ускоряться, а где можно использовать старые наработки и отточенные десятилетиями практики.

    habr.com/ru/companies/fplus_te

    #ЦОД #400GbE #облачные_вычисления #cloud_computing #большие_данные #искусственный_интеллект #архитектура #gigabit_ethernet

  42. YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

    20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

    habr.com/ru/companies/yandex/a

    #ytsaurus #map_reduce #mapreduce #большие_данные #big_data

  43. Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

    Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

    habr.com/ru/companies/yandex/a

    #ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы

  44. Цифровая трансформация как основа непрерывного улучшения производства

    Всем привет! Сегодня в эфире – редкая тема, про IIoT. Команда промышленной аналитики и интернета вещей GlowByte обобщила и структурировала мысли о возможностях цифрового производства, которые, на их взгляд, раскрываются и развиваются одновременно при правильной организации цифровой трансформации производства и конфликтуют друг с другом – при неправильной.

    habr.com/ru/companies/glowbyte

    #iiot #интернет_вещей #цифровой_помощник #промышленный_интернет_вещей #internet_of_things #большие_данные #glowbyte #индустрия_40 #цифровая_трансформация #цифровое_производство

  45. Исследуем Скрытые Сокровища: Малоизвестные Библиотеки Python для Аналитики Данных

    Введение: Привет, Хабр! Сегодня мы исследуем мир менее известных, но чрезвычайно полезных библиотек Python, которые могут значительно обогатить ваш аналитический инструментарий. 🚀 Подписывайтесь на мой телеграмм-канал DataTechCommunity для получения ежедневных обновлений о Python и аналитике данных! Содержание: Рассматриваем 5 малоизвестных, но полезных библиотек для аналитиков данных. Они помогут вам в машинном обучении, обработке больших данных и визуализации.

    habr.com/ru/articles/787218/

    #Python_аналитика_данных #PyCaret #Vaex #Streamlit #Dask #Dash_Plotly #Машинное_обучение #Большие_данные #Интерактивные_дашборды #Аналитика_данных

  46. Большие данные для карт в реальном времени. Inception

    Возникла необходимость зафиксировать опыт с последнего проекта по прокачке производительности картографического сервиса. Так сказать, чтобы 2 раза не вставать при передаче опыта. И начнём с постановки, чтобы сразу определиться с аудиторией, кому мимо, а кому больше узнать как "прожевывать" и отображать на UI от 100К объектов в секунду и не лагать. Ну а кто-то вообще не в танке про картографические сервисы и хочет "на борт". Что вас ждёт по катом. 1. MapTiler/Maplibre - картографический провайдер и UI фрэймворк для работы с ним. 2. Создание своих слоёв данных на карте. 3. Рендеринг большого объёма данных на WebGL/WebGPU. Начнём от 100К. 4. Оптимизация рендеринга с ручной подготовкой буферов для GPU. 5. Обновление данных слоя в realtime. Начнём молотить от 1M объектов. 6. Сериализация данных в ArrayBuffer для передачи напрямую в GPU. Прокачать перформанс

    habr.com/ru/articles/922388/

    #Карты #производительность #большие_данные #maplibre #deckgl

  47. Со скоростью кометы: ускоряем Spark без переписывания кода

    Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

    habr.com/ru/companies/kryptoni

    #spark #apache #comet #DataFusion #большие_данные #анализ_данных #data_engineering #data_scientist #big_data #оптимизация

  48. Промежуточные витрины в SQL

    Привет, Хабр! Сегодня я хочу поговорить о том, без чего не обходится практически ни один серьёзный проект с большими данными (да и с не слишком большими тоже) — о промежуточных витринах (или более привычно – staging, core, data mart).

    habr.com/ru/companies/otus/art

    #BIаналитика #sql #Промежуточные_витрины #большие_данные #staging

  49. [Перевод] Ленивые вычисления в PHP: как генераторы и итераторы экономят память и ускоряют код

    Как обрабатывать миллионы строк в PHP и не убить память? Всё просто: генераторы и итераторы. Покажу, как ленивые вычисления экономят ресурсы, ускоряют код и упрощают работу с большими данными. С примерами, бенчмарками и разбором изнутри.

    habr.com/ru/articles/939814/

    #php #генераторы #итераторы #производительность #память #yield #iterator #ленивые_вычисления #оптимизация #большие_данные

  50. [Перевод] Ленивые вычисления в PHP: как генераторы и итераторы экономят память и ускоряют код

    Как обрабатывать миллионы строк в PHP и не убить память? Всё просто: генераторы и итераторы. Покажу, как ленивые вычисления экономят ресурсы, ускоряют код и упрощают работу с большими данными. С примерами, бенчмарками и разбором изнутри.

    habr.com/ru/articles/939814/

    #php #генераторы #итераторы #производительность #память #yield #iterator #ленивые_вычисления #оптимизация #большие_данные