#neoflex — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-04 · 14:52 UTC

Использование Trino для построения ETL-процессов

1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как базовый механизм интеграции, трансформации и подготовки данных, поступающих из множества гетерогенных источников. Ключевая цель этих процессов - избавиться от хаоса и разрозненности данных, которые почти всегда появляются в больших распределенных компаниях [1] . В рамках ETL-конвейера выполняется автоматизированное извлечение данных из различных источников, их очистка, нормализация и приведение к единой модели, после чего подготовленные данные загружаются в централизованное аналитическое хранилище. Это даёт три главных преимущества: обеспечивает высокое качество и согласованность данных, структурирует информацию под нужды бизнес-отчетности, а также отделяет аналитическую нагрузку от операционных систем, повышая таким образом производительность системы в целом. ETL возник как вынужденная мера, так как во время его появления (1970–1990-е) не было ни высокоскоростных сетей, ни мощных распределенных движков аналитики, ни концепции Data Lake. Единственным надёжным способом построить аналитическую отчетность было физически извлекать данные из операционных систем и копировать их в отдельную специализированную базу. Именно поэтому ETL закрепился как основной архитектурный паттерн аналитических систем на долгие десятилетия. Увы, такой подход породил и массу проблем: это дублирование данных, долгие пайплайны, сложные зависимости, задержки обновления и огромные затраты на поддержку. Традиционным ETL-процессам становится всё труднее справляться с постоянно растущим объемом поступающих данных. Более того, большие сложности возникают при работе с уже накопленной информацией, ведь её требуется хранить на протяжении многих лет, а значит — сохранять возможность глубокого анализа по всей доступной истории.

https://habr.com/ru/companies/neoflex/articles/1031326/

#Neoflex #Trino #ETL #ELT #Data_Lake #Lake_House

#lake_house #data_lake #elt #etl #trino #neoflex

Habr @[email protected] · 2026-05-04 · 14:52 UTC

Использование Trino для построения ETL-процессов

1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как базовый механизм интеграции, трансформации и подготовки данных, поступающих из множества гетерогенных источников. Ключевая цель этих процессов - избавиться от хаоса и разрозненности данных, которые почти всегда появляются в больших распределенных компаниях [1] . В рамках ETL-конвейера выполняется автоматизированное извлечение данных из различных источников, их очистка, нормализация и приведение к единой модели, после чего подготовленные данные загружаются в централизованное аналитическое хранилище. Это даёт три главных преимущества: обеспечивает высокое качество и согласованность данных, структурирует информацию под нужды бизнес-отчетности, а также отделяет аналитическую нагрузку от операционных систем, повышая таким образом производительность системы в целом. ETL возник как вынужденная мера, так как во время его появления (1970–1990-е) не было ни высокоскоростных сетей, ни мощных распределенных движков аналитики, ни концепции Data Lake. Единственным надёжным способом построить аналитическую отчетность было физически извлекать данные из операционных систем и копировать их в отдельную специализированную базу. Именно поэтому ETL закрепился как основной архитектурный паттерн аналитических систем на долгие десятилетия. Увы, такой подход породил и массу проблем: это дублирование данных, долгие пайплайны, сложные зависимости, задержки обновления и огромные затраты на поддержку. Традиционным ETL-процессам становится всё труднее справляться с постоянно растущим объемом поступающих данных. Более того, большие сложности возникают при работе с уже накопленной информацией, ведь её требуется хранить на протяжении многих лет, а значит — сохранять возможность глубокого анализа по всей доступной истории.

https://habr.com/ru/companies/neoflex/articles/1031326/

#Neoflex #Trino #ETL #ELT #Data_Lake #Lake_House

#lake_house #data_lake #elt #etl #trino #neoflex

Habr @[email protected] · 2026-05-04 · 14:52 UTC

Использование Trino для построения ETL-процессов

1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как базовый механизм интеграции, трансформации и подготовки данных, поступающих из множества гетерогенных источников. Ключевая цель этих процессов - избавиться от хаоса и разрозненности данных, которые почти всегда появляются в больших распределенных компаниях [1] . В рамках ETL-конвейера выполняется автоматизированное извлечение данных из различных источников, их очистка, нормализация и приведение к единой модели, после чего подготовленные данные загружаются в централизованное аналитическое хранилище. Это даёт три главных преимущества: обеспечивает высокое качество и согласованность данных, структурирует информацию под нужды бизнес-отчетности, а также отделяет аналитическую нагрузку от операционных систем, повышая таким образом производительность системы в целом. ETL возник как вынужденная мера, так как во время его появления (1970–1990-е) не было ни высокоскоростных сетей, ни мощных распределенных движков аналитики, ни концепции Data Lake. Единственным надёжным способом построить аналитическую отчетность было физически извлекать данные из операционных систем и копировать их в отдельную специализированную базу. Именно поэтому ETL закрепился как основной архитектурный паттерн аналитических систем на долгие десятилетия. Увы, такой подход породил и массу проблем: это дублирование данных, долгие пайплайны, сложные зависимости, задержки обновления и огромные затраты на поддержку. Традиционным ETL-процессам становится всё труднее справляться с постоянно растущим объемом поступающих данных. Более того, большие сложности возникают при работе с уже накопленной информацией, ведь её требуется хранить на протяжении многих лет, а значит — сохранять возможность глубокого анализа по всей доступной истории.

https://habr.com/ru/companies/neoflex/articles/1031326/

#Neoflex #Trino #ETL #ELT #Data_Lake #Lake_House

#neoflex #trino #etl #elt #data_lake #lake_house

Habr @[email protected] · 2026-04-01 · 11:22 UTC

Гайд системного аналитика по корректировкам витрин

Данный материал подходит для тех сотрудников, которые не имеют опыта работы или недавно пришли на проект, связанный с хранилищами данных. Сегодня хотим рассказать вам о рабочих буднях аналитика DWH, точнее об одной из частей этих будней. Надеемся, данное знание пригодится вам для того, чтобы быстро и без нервов освоиться на том проекте, на котором вы будете работать. Информацию описываем вам из нашей практики работы нашего аналитика хранилищ данных. Работу аналитика хранилищ данных можно разделить на две части: 1. Организация интеграции данных от какого-либо источника к какому-либо приемнику; 2. Поиск и решение проблем, связанных с некорректными выходными данными на приемнике, возникающих, например, в результате каких-либо технических сбоев или изменения требований к предоставляемым данным со стороны бизнеса. В этой статье хотим с вами поговорить именно о второй части, так как, согласно практике, именно по ней отсутствует какая-либо документация по действиям для устранения каких-либо проблем. В мире данных, где информация является ключевым активом, процессы ETL играют центральную роль в агрегации, очистке и подготовке данных для анализа и принятия решений. Однако одной из самых неприятных и критических проблем, с которой сталкиваются дата-инженеры и аналитики, является расхождение данных на приемнике (целевой системе) с данными в источнике. Как следствие, это может привести к некорректным отчетам, ошибочным бизнес-решениям и потере доверия к данным. В статье речь пойдет об ETL-процессе, когда с источника данных «протянут» информационный поток со своей логикой преобразований, который «кладет» некорректные данные в приемник.

https://habr.com/ru/companies/neoflex/articles/1017992/

#Neoflex #системный_анализ #системный_аналитик

#системный_аналитик #системный_анализ #neoflex

Habr @[email protected] · 2026-04-01 · 11:22 UTC

Гайд системного аналитика по корректировкам витрин

Данный материал подходит для тех сотрудников, которые не имеют опыта работы или недавно пришли на проект, связанный с хранилищами данных. Сегодня хотим рассказать вам о рабочих буднях аналитика DWH, точнее об одной из частей этих будней. Надеемся, данное знание пригодится вам для того, чтобы быстро и без нервов освоиться на том проекте, на котором вы будете работать. Информацию описываем вам из нашей практики работы нашего аналитика хранилищ данных. Работу аналитика хранилищ данных можно разделить на две части: 1. Организация интеграции данных от какого-либо источника к какому-либо приемнику; 2. Поиск и решение проблем, связанных с некорректными выходными данными на приемнике, возникающих, например, в результате каких-либо технических сбоев или изменения требований к предоставляемым данным со стороны бизнеса. В этой статье хотим с вами поговорить именно о второй части, так как, согласно практике, именно по ней отсутствует какая-либо документация по действиям для устранения каких-либо проблем. В мире данных, где информация является ключевым активом, процессы ETL играют центральную роль в агрегации, очистке и подготовке данных для анализа и принятия решений. Однако одной из самых неприятных и критических проблем, с которой сталкиваются дата-инженеры и аналитики, является расхождение данных на приемнике (целевой системе) с данными в источнике. Как следствие, это может привести к некорректным отчетам, ошибочным бизнес-решениям и потере доверия к данным. В статье речь пойдет об ETL-процессе, когда с источника данных «протянут» информационный поток со своей логикой преобразований, который «кладет» некорректные данные в приемник.

https://habr.com/ru/companies/neoflex/articles/1017992/

#Neoflex #системный_анализ #системный_аналитик

#системный_аналитик #системный_анализ #neoflex

Habr @[email protected] · 2026-04-01 · 11:22 UTC

Гайд системного аналитика по корректировкам витрин

Данный материал подходит для тех сотрудников, которые не имеют опыта работы или недавно пришли на проект, связанный с хранилищами данных. Сегодня хотим рассказать вам о рабочих буднях аналитика DWH, точнее об одной из частей этих будней. Надеемся, данное знание пригодится вам для того, чтобы быстро и без нервов освоиться на том проекте, на котором вы будете работать. Информацию описываем вам из нашей практики работы нашего аналитика хранилищ данных. Работу аналитика хранилищ данных можно разделить на две части: 1. Организация интеграции данных от какого-либо источника к какому-либо приемнику; 2. Поиск и решение проблем, связанных с некорректными выходными данными на приемнике, возникающих, например, в результате каких-либо технических сбоев или изменения требований к предоставляемым данным со стороны бизнеса. В этой статье хотим с вами поговорить именно о второй части, так как, согласно практике, именно по ней отсутствует какая-либо документация по действиям для устранения каких-либо проблем. В мире данных, где информация является ключевым активом, процессы ETL играют центральную роль в агрегации, очистке и подготовке данных для анализа и принятия решений. Однако одной из самых неприятных и критических проблем, с которой сталкиваются дата-инженеры и аналитики, является расхождение данных на приемнике (целевой системе) с данными в источнике. Как следствие, это может привести к некорректным отчетам, ошибочным бизнес-решениям и потере доверия к данным. В статье речь пойдет об ETL-процессе, когда с источника данных «протянут» информационный поток со своей логикой преобразований, который «кладет» некорректные данные в приемник.

https://habr.com/ru/companies/neoflex/articles/1017992/

#Neoflex #системный_анализ #системный_аналитик

#neoflex #системный_анализ #системный_аналитик

Habr @[email protected] · 2026-02-24 · 10:32 UTC

Как организовать тестовую среду, сохраняя покой владельца данных

Привет, сообществу Habr! Хочу поделиться опытом с коллегами - как мы решили одну из наболевших проблем нашей команды разработки – отсутствие полноты данных для тестирования реализованного функционала в условиях ограниченного доступа к реальным данным компании. Если вы работаете с персональными данными, то наверняка сталкивались с такой проблемой. Наша команда Neoflex работает на проектах заказчика. При старте работ мы всегда подписываем NDA, но все равно этого недостаточно, чтобы владелец доверил нам полный доступ к промышленным данным. Мы его прекрасно понимаем: данные - основа благополучия компании и видеть их должен ограниченный круг лиц, отвечающий за бизнес-результат. Чтобы удовлетворить ожидания заказчика, выполнить вверенную нам работу и достичь высоких результатов при разработке функционала, нам нужны данные для тестирования, близкие к реальным. Тут возникает сложность – на тестовом контуре либо небольшой срез не консистентных промышленных данных, на которых нельзя протестировать полноценно функционал (например, витрину по операциям определенного сегмента клиентов с глубиной месяц, квартал), либо мы начинаем генерировать синтетику, не всегда попадая в нюансы вариативности данных, тратя на это дополнительные ресурсы. Периодически наши члены команды на ретроспективе, разбирая проблемный кейс, обсуждали свою боль – нужен тестовый контур для тестирования с достаточным количеством данных, близких к бизнесовым, обновляемый по расписанию - иначе мы можем выкатить на прод слабо оттестированный функционал.

https://habr.com/ru/companies/neoflex/articles/1003000/

#Маскирование #Neoflex #SQL #СУБД

#субд #sql #neoflex #маскирование

Habr @[email protected] · 2026-02-24 · 10:32 UTC

Как организовать тестовую среду, сохраняя покой владельца данных

Привет, сообществу Habr! Хочу поделиться опытом с коллегами - как мы решили одну из наболевших проблем нашей команды разработки – отсутствие полноты данных для тестирования реализованного функционала в условиях ограниченного доступа к реальным данным компании. Если вы работаете с персональными данными, то наверняка сталкивались с такой проблемой. Наша команда Neoflex работает на проектах заказчика. При старте работ мы всегда подписываем NDA, но все равно этого недостаточно, чтобы владелец доверил нам полный доступ к промышленным данным. Мы его прекрасно понимаем: данные - основа благополучия компании и видеть их должен ограниченный круг лиц, отвечающий за бизнес-результат. Чтобы удовлетворить ожидания заказчика, выполнить вверенную нам работу и достичь высоких результатов при разработке функционала, нам нужны данные для тестирования, близкие к реальным. Тут возникает сложность – на тестовом контуре либо небольшой срез не консистентных промышленных данных, на которых нельзя протестировать полноценно функционал (например, витрину по операциям определенного сегмента клиентов с глубиной месяц, квартал), либо мы начинаем генерировать синтетику, не всегда попадая в нюансы вариативности данных, тратя на это дополнительные ресурсы. Периодически наши члены команды на ретроспективе, разбирая проблемный кейс, обсуждали свою боль – нужен тестовый контур для тестирования с достаточным количеством данных, близких к бизнесовым, обновляемый по расписанию - иначе мы можем выкатить на прод слабо оттестированный функционал.

https://habr.com/ru/companies/neoflex/articles/1003000/

#Маскирование #Neoflex #SQL #СУБД

#субд #sql #neoflex #маскирование

Habr @[email protected] · 2026-02-24 · 10:32 UTC

Как организовать тестовую среду, сохраняя покой владельца данных

Привет, сообществу Habr! Хочу поделиться опытом с коллегами - как мы решили одну из наболевших проблем нашей команды разработки – отсутствие полноты данных для тестирования реализованного функционала в условиях ограниченного доступа к реальным данным компании. Если вы работаете с персональными данными, то наверняка сталкивались с такой проблемой. Наша команда Neoflex работает на проектах заказчика. При старте работ мы всегда подписываем NDA, но все равно этого недостаточно, чтобы владелец доверил нам полный доступ к промышленным данным. Мы его прекрасно понимаем: данные - основа благополучия компании и видеть их должен ограниченный круг лиц, отвечающий за бизнес-результат. Чтобы удовлетворить ожидания заказчика, выполнить вверенную нам работу и достичь высоких результатов при разработке функционала, нам нужны данные для тестирования, близкие к реальным. Тут возникает сложность – на тестовом контуре либо небольшой срез не консистентных промышленных данных, на которых нельзя протестировать полноценно функционал (например, витрину по операциям определенного сегмента клиентов с глубиной месяц, квартал), либо мы начинаем генерировать синтетику, не всегда попадая в нюансы вариативности данных, тратя на это дополнительные ресурсы. Периодически наши члены команды на ретроспективе, разбирая проблемный кейс, обсуждали свою боль – нужен тестовый контур для тестирования с достаточным количеством данных, близких к бизнесовым, обновляемый по расписанию - иначе мы можем выкатить на прод слабо оттестированный функционал.

https://habr.com/ru/companies/neoflex/articles/1003000/

#Маскирование #Neoflex #SQL #СУБД

#маскирование #neoflex #sql #субд

Habr @[email protected] · 2025-12-18 · 15:22 UTC

Ключи в базах данных: больше чем просто идентификатор

Начиная с первых курсов университета, первой ассоциацией у студентов ИТ специальностей со словом «ключ» в базах данных является идентификатор. В принципе это верно, однако следует это понятие расширить – связать его с целостностью данных и производительностью. Рассмотрим эволюцию подходов к работе с ключами на примере роста выдуманной компании NeoCat.

https://habr.com/ru/articles/978212/

#Neoflex #Базы_данных #Классификация_ключей

#классификация_ключей #базы_данных #neoflex

Habr @[email protected] · 2025-12-18 · 15:22 UTC

Ключи в базах данных: больше чем просто идентификатор

Начиная с первых курсов университета, первой ассоциацией у студентов ИТ специальностей со словом «ключ» в базах данных является идентификатор. В принципе это верно, однако следует это понятие расширить – связать его с целостностью данных и производительностью. Рассмотрим эволюцию подходов к работе с ключами на примере роста выдуманной компании NeoCat.

https://habr.com/ru/articles/978212/

#Neoflex #Базы_данных #Классификация_ключей

#классификация_ключей #базы_данных #neoflex

Habr @[email protected] · 2025-12-18 · 15:22 UTC

Ключи в базах данных: больше чем просто идентификатор

Начиная с первых курсов университета, первой ассоциацией у студентов ИТ специальностей со словом «ключ» в базах данных является идентификатор. В принципе это верно, однако следует это понятие расширить – связать его с целостностью данных и производительностью. Рассмотрим эволюцию подходов к работе с ключами на примере роста выдуманной компании NeoCat.

https://habr.com/ru/articles/978212/

#Neoflex #Базы_данных #Классификация_ключей

#neoflex #базы_данных #классификация_ключей

Habr @[email protected] · 2025-10-16 · 11:42 UTC

HumanDynamics: как мы построили цифровой мир, жители которого пошли в банк и взяли кредит

Статья посвящена рассказу о том, как простая задача генерации синтетических данных для банка переросла в создание фреймворка симуляции цифровой цивилизации под названием HumanDynamics.

https://habr.com/ru/companies/neoflex/articles/957104/

#Neoflex #HumanDynamics #llmмодели #llmагент #aiмодель #data_science

#data_science #aiмодель #llmагент #llmмодели #humandynamics #neoflex

Habr @[email protected] · 2025-10-16 · 11:42 UTC

HumanDynamics: как мы построили цифровой мир, жители которого пошли в банк и взяли кредит

Статья посвящена рассказу о том, как простая задача генерации синтетических данных для банка переросла в создание фреймворка симуляции цифровой цивилизации под названием HumanDynamics.

https://habr.com/ru/companies/neoflex/articles/957104/

#Neoflex #HumanDynamics #llmмодели #llmагент #aiмодель #data_science

#data_science #aiмодель #llmагент #llmмодели #humandynamics #neoflex

Habr @[email protected] · 2025-10-16 · 11:42 UTC

HumanDynamics: как мы построили цифровой мир, жители которого пошли в банк и взяли кредит

Статья посвящена рассказу о том, как простая задача генерации синтетических данных для банка переросла в создание фреймворка симуляции цифровой цивилизации под названием HumanDynamics.

https://habr.com/ru/companies/neoflex/articles/957104/

#Neoflex #HumanDynamics #llmмодели #llmагент #aiмодель #data_science

#neoflex #humandynamics #llmмодели #llmагент #aiмодель #data_science

Habr @[email protected] · 2025-07-08 · 12:02 UTC

ИИ-магия: фронтенд, который думает

Автор: Кристина Паревская, Neoflex Мы живем в мире быстро развивающихся технологий. С каждым годом frontend-разработка проще не становится. Сегодня frontend-разработчики могут не просто создавать обычные формы, но и игры, и даже запускать модели ИИ для выполнения задач, например, распознавания объекта. В данной статье будет рассказано, как на примере системы по распознаванию возгораний объекта в доме можно без backend части добавить в свое приложение модель для обнаружения пожара. Погружаемся в тему пожаров и возгораний Распознавание возгораний объектов на ранних стадиях является важной и актуальной проблемой в наши дни, решение которой снизит экономический риски и спасет жизни многих людей. Такие компании, как Johnson Controls, Honeywell International, Inc., GENTEX CORPORATION, Siemens, Robert Bosch GmbH, Halmaplc, Eaton, Raytheon Technologies Corporation уделяют свое внимание исследованиям в области распознавания возгораний объектов и предлагают свои решения по устранению пожаров. Этими компаниями движут желание помочь людям, быстрое развитие беспроводных технологий и развитие строительной отрасли, охватившей весь мир.

https://habr.com/ru/companies/neoflex/articles/925926/

#Neoflex #frontendразработка

#neoflex #frontendразработка

Habr @[email protected] · 2025-07-08 · 12:02 UTC

ИИ-магия: фронтенд, который думает

Автор: Кристина Паревская, Neoflex Мы живем в мире быстро развивающихся технологий. С каждым годом frontend-разработка проще не становится. Сегодня frontend-разработчики могут не просто создавать обычные формы, но и игры, и даже запускать модели ИИ для выполнения задач, например, распознавания объекта. В данной статье будет рассказано, как на примере системы по распознаванию возгораний объекта в доме можно без backend части добавить в свое приложение модель для обнаружения пожара. Погружаемся в тему пожаров и возгораний Распознавание возгораний объектов на ранних стадиях является важной и актуальной проблемой в наши дни, решение которой снизит экономический риски и спасет жизни многих людей. Такие компании, как Johnson Controls, Honeywell International, Inc., GENTEX CORPORATION, Siemens, Robert Bosch GmbH, Halmaplc, Eaton, Raytheon Technologies Corporation уделяют свое внимание исследованиям в области распознавания возгораний объектов и предлагают свои решения по устранению пожаров. Этими компаниями движут желание помочь людям, быстрое развитие беспроводных технологий и развитие строительной отрасли, охватившей весь мир.

https://habr.com/ru/companies/neoflex/articles/925926/

#Neoflex #frontendразработка

#neoflex #frontendразработка

Habr @[email protected] · 2025-07-08 · 12:02 UTC

ИИ-магия: фронтенд, который думает

Автор: Кристина Паревская, Neoflex Мы живем в мире быстро развивающихся технологий. С каждым годом frontend-разработка проще не становится. Сегодня frontend-разработчики могут не просто создавать обычные формы, но и игры, и даже запускать модели ИИ для выполнения задач, например, распознавания объекта. В данной статье будет рассказано, как на примере системы по распознаванию возгораний объекта в доме можно без backend части добавить в свое приложение модель для обнаружения пожара. Погружаемся в тему пожаров и возгораний Распознавание возгораний объектов на ранних стадиях является важной и актуальной проблемой в наши дни, решение которой снизит экономический риски и спасет жизни многих людей. Такие компании, как Johnson Controls, Honeywell International, Inc., GENTEX CORPORATION, Siemens, Robert Bosch GmbH, Halmaplc, Eaton, Raytheon Technologies Corporation уделяют свое внимание исследованиям в области распознавания возгораний объектов и предлагают свои решения по устранению пожаров. Этими компаниями движут желание помочь людям, быстрое развитие беспроводных технологий и развитие строительной отрасли, охватившей весь мир.

https://habr.com/ru/companies/neoflex/articles/925926/

#Neoflex #frontendразработка

#frontendразработка #neoflex

Habr @[email protected] · 2025-06-26 · 10:22 UTC