home.social

#пайплайн — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #пайплайн, aggregated by home.social.

  1. Релизы без боли для тимлида: как собрать предсказуемый процесс из очевидных практик

    «Релиз» — слово, от которого у многих тимлидов подскакивает артериальное давление. Ведь за ним часто стоит ночь без сна: кто-то внёс правку в последний момент, тесты упали, а в проде уже ждут обновления. Знакомо? Но релиз может стать предсказуемым процессом. В статье на примерах покажу, какие процессы, правила и инструменты помогают команде SourceCraft Security избежать авралов.

    habr.com/ru/companies/sourcecr

    #релиз #релизный_цикл #пайплайн

  2. Релизы без боли для тимлида: как собрать предсказуемый процесс из очевидных практик

    «Релиз» — слово, от которого у многих тимлидов подскакивает артериальное давление. Ведь за ним часто стоит ночь без сна: кто-то внёс правку в последний момент, тесты упали, а в проде уже ждут обновления. Знакомо? Но релиз может стать предсказуемым процессом. В статье на примерах покажу, какие процессы, правила и инструменты помогают команде SourceCraft Security избежать авралов.

    habr.com/ru/companies/sourcecr

    #релиз #релизный_цикл #пайплайн

  3. Релизы без боли для тимлида: как собрать предсказуемый процесс из очевидных практик

    «Релиз» — слово, от которого у многих тимлидов подскакивает артериальное давление. Ведь за ним часто стоит ночь без сна: кто-то внёс правку в последний момент, тесты упали, а в проде уже ждут обновления. Знакомо? Но релиз может стать предсказуемым процессом. В статье на примерах покажу, какие процессы, правила и инструменты помогают команде SourceCraft Security избежать авралов.

    habr.com/ru/companies/sourcecr

    #релиз #релизный_цикл #пайплайн

  4. Релизы без боли для тимлида: как собрать предсказуемый процесс из очевидных практик

    «Релиз» — слово, от которого у многих тимлидов подскакивает артериальное давление. Ведь за ним часто стоит ночь без сна: кто-то внёс правку в последний момент, тесты упали, а в проде уже ждут обновления. Знакомо? Но релиз может стать предсказуемым процессом. В статье на примерах покажу, какие процессы, правила и инструменты помогают команде SourceCraft Security избежать авралов.

    habr.com/ru/companies/sourcecr

    #релиз #релизный_цикл #пайплайн

  5. QA в CI/CD: как перестать гонять тесты руками и настроить это один раз

    Разбираю как выглядит нормальный QA-пайплайн в GitHub Actions: от линтинга до E2E тестов на Playwright. С рабочими конфигами, кэшированием и уведомлениями о падениях.

    habr.com/ru/articles/1021592/

    #GitHub_Actions #QA #автотесты #Playwright #Jest #DevOps #пайплайн #тестирование

  6. QA в CI/CD: как перестать гонять тесты руками и настроить это один раз

    Разбираю как выглядит нормальный QA-пайплайн в GitHub Actions: от линтинга до E2E тестов на Playwright. С рабочими конфигами, кэшированием и уведомлениями о падениях.

    habr.com/ru/articles/1021592/

    #GitHub_Actions #QA #автотесты #Playwright #Jest #DevOps #пайплайн #тестирование

  7. QA в CI/CD: как перестать гонять тесты руками и настроить это один раз

    Разбираю как выглядит нормальный QA-пайплайн в GitHub Actions: от линтинга до E2E тестов на Playwright. С рабочими конфигами, кэшированием и уведомлениями о падениях.

    habr.com/ru/articles/1021592/

    #GitHub_Actions #QA #автотесты #Playwright #Jest #DevOps #пайплайн #тестирование

  8. QA в CI/CD: как перестать гонять тесты руками и настроить это один раз

    Разбираю как выглядит нормальный QA-пайплайн в GitHub Actions: от линтинга до E2E тестов на Playwright. С рабочими конфигами, кэшированием и уведомлениями о падениях.

    habr.com/ru/articles/1021592/

    #GitHub_Actions #QA #автотесты #Playwright #Jest #DevOps #пайплайн #тестирование

  9. Синтетика как топливо: почему self-training работает и где начинается model collapse

    В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность. Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур

    habr.com/ru/articles/1018800/

    #искусственный_интеллект #машинное+обучение #большие_данные #bigdata #ai #стена_данных #gpu #пайплайн #качество_данных #синтетические_данные

  10. Синтетика как топливо: почему self-training работает и где начинается model collapse

    В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность. Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур

    habr.com/ru/articles/1018800/

    #искусственный_интеллект #машинное+обучение #большие_данные #bigdata #ai #стена_данных #gpu #пайплайн #качество_данных #синтетические_данные

  11. Синтетика как топливо: почему self-training работает и где начинается model collapse

    В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность. Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур

    habr.com/ru/articles/1018800/

    #искусственный_интеллект #машинное+обучение #большие_данные #bigdata #ai #стена_данных #gpu #пайплайн #качество_данных #синтетические_данные

  12. Синтетика как топливо: почему self-training работает и где начинается model collapse

    В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность. Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур

    habr.com/ru/articles/1018800/

    #искусственный_интеллект #машинное+обучение #большие_данные #bigdata #ai #стена_данных #gpu #пайплайн #качество_данных #синтетические_данные

  13. Иллюзия смысла: как фильтрация данных создает научные фантомы

    В современных задачах анализа данных, от биоинформатики и нейробиологии до социальных и поведенческих исследований, обычно используется традиционный пайплайн обработки данных. Он почти всегда включает агрессивную предварительную фильтрацию признаков, снижение размерности (PCA и аналоги), а затем кластеризацию или обучение нейросетевых моделей. На практике эти шаги считаются технически необходимыми и редко подвергаются сомнению. В этой статье я хочу обсудить, почему в исследовательском анализе такая практика может приводить к систематически некорректным выводам — и даже к созданию искусственных сущностей, не существующих в реальности. Код, эксперимент и комментарий кандидата биологических наук, сотрудника РАН Дарьи Романовой ниже.

    habr.com/ru/companies/timeweb/

    #искуственный_интеллект #пайплайн #научное_исследование #timeweb_статьи

  14. Нужно ли обучать YOLO с нуля? Практические выводы

    Для меня машинное обучение - это прежде всего экспериментальная наука. Выигрывает не тот, кто придумал самую сложную архитектуру, а тот, кто быстрее проходит итерации (анализирует кривые потерь, меняет гипотезы и снова запускает обучение). И именно в этой постоянной гонке я всё чаще задаю себе один и тот же вопрос, а нужно ли вообще обучать модель с нуля? Когда я говорю «обучать с нуля», я имею в виду именно пустые веса. Не fine-tuning и не до обучение, а старт с нулевой инициализацией (PyTorch-модель без пред обученных параметров или YOLO с отключёнными pretrained-весами). Каждый раз перед началом обучения я задаю себе два простых вопроса: зачем я собираюсь тренировать модель и какая архитектура мне действительно нужна? Если ответы на эти вопросы расплывчатые, есть большой риск просто потратить ресурсы и время, а в итоге получить модель хуже готовых решений. Если же после этих вопросов сама цель становится ясной и обоснованной, тогда стоит двигаться дальше.

    habr.com/ru/articles/994080/

    #yolo #detection #детекция_объектов #ml #гиперпараметры #эксперимент #sgd #j #обучение_нейронных_сетей #пайплайн

  15. Нужно ли обучать YOLO с нуля? Практические выводы

    Для меня машинное обучение - это прежде всего экспериментальная наука. Выигрывает не тот, кто придумал самую сложную архитектуру, а тот, кто быстрее проходит итерации (анализирует кривые потерь, меняет гипотезы и снова запускает обучение). И именно в этой постоянной гонке я всё чаще задаю себе один и тот же вопрос, а нужно ли вообще обучать модель с нуля? Когда я говорю «обучать с нуля», я имею в виду именно пустые веса. Не fine-tuning и не до обучение, а старт с нулевой инициализацией (PyTorch-модель без пред обученных параметров или YOLO с отключёнными pretrained-весами). Каждый раз перед началом обучения я задаю себе два простых вопроса: зачем я собираюсь тренировать модель и какая архитектура мне действительно нужна? Если ответы на эти вопросы расплывчатые, есть большой риск просто потратить ресурсы и время, а в итоге получить модель хуже готовых решений. Если же после этих вопросов сама цель становится ясной и обоснованной, тогда стоит двигаться дальше.

    habr.com/ru/articles/994080/

    #yolo #detection #детекция_объектов #ml #гиперпараметры #эксперимент #sgd #j #обучение_нейронных_сетей #пайплайн

  16. Нужно ли обучать YOLO с нуля? Практические выводы

    Для меня машинное обучение - это прежде всего экспериментальная наука. Выигрывает не тот, кто придумал самую сложную архитектуру, а тот, кто быстрее проходит итерации (анализирует кривые потерь, меняет гипотезы и снова запускает обучение). И именно в этой постоянной гонке я всё чаще задаю себе один и тот же вопрос, а нужно ли вообще обучать модель с нуля? Когда я говорю «обучать с нуля», я имею в виду именно пустые веса. Не fine-tuning и не до обучение, а старт с нулевой инициализацией (PyTorch-модель без пред обученных параметров или YOLO с отключёнными pretrained-весами). Каждый раз перед началом обучения я задаю себе два простых вопроса: зачем я собираюсь тренировать модель и какая архитектура мне действительно нужна? Если ответы на эти вопросы расплывчатые, есть большой риск просто потратить ресурсы и время, а в итоге получить модель хуже готовых решений. Если же после этих вопросов сама цель становится ясной и обоснованной, тогда стоит двигаться дальше.

    habr.com/ru/articles/994080/

    #yolo #detection #детекция_объектов #ml #гиперпараметры #эксперимент #sgd #j #обучение_нейронных_сетей #пайплайн

  17. Нужно ли обучать YOLO с нуля? Практические выводы

    Для меня машинное обучение - это прежде всего экспериментальная наука. Выигрывает не тот, кто придумал самую сложную архитектуру, а тот, кто быстрее проходит итерации (анализирует кривые потерь, меняет гипотезы и снова запускает обучение). И именно в этой постоянной гонке я всё чаще задаю себе один и тот же вопрос, а нужно ли вообще обучать модель с нуля? Когда я говорю «обучать с нуля», я имею в виду именно пустые веса. Не fine-tuning и не до обучение, а старт с нулевой инициализацией (PyTorch-модель без пред обученных параметров или YOLO с отключёнными pretrained-весами). Каждый раз перед началом обучения я задаю себе два простых вопроса: зачем я собираюсь тренировать модель и какая архитектура мне действительно нужна? Если ответы на эти вопросы расплывчатые, есть большой риск просто потратить ресурсы и время, а в итоге получить модель хуже готовых решений. Если же после этих вопросов сама цель становится ясной и обоснованной, тогда стоит двигаться дальше.

    habr.com/ru/articles/994080/

    #yolo #detection #детекция_объектов #ml #гиперпараметры #эксперимент #sgd #j #обучение_нейронных_сетей #пайплайн

  18. BLIMP — Пайплайн синтеза и разметки изображений в Blender

    Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender

    habr.com/ru/articles/989112/

    #blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения

  19. BLIMP — Пайплайн синтеза и разметки изображений в Blender

    Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender

    habr.com/ru/articles/989112/

    #blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения

  20. BLIMP — Пайплайн синтеза и разметки изображений в Blender

    Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender

    habr.com/ru/articles/989112/

    #blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения

  21. BLIMP — Пайплайн синтеза и разметки изображений в Blender

    Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender

    habr.com/ru/articles/989112/

    #blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения

  22. Как облегчить работу дизайнера с помощью ИИ и сохранить визуальный стиль

    Представьте оркестр без нот и метронома: музыканты играют «как чувствуют», и мелодия каждый раз звучит по-другому. Так же ведет себя генерация изображений по одному промпту — красиво, но неповторяемо. В работе с брендовым визуалом это ощущается особенно: дизайнерам приходится идти дальше простой текстовой инструкции и вручную подбирать референсы, выравнивать композицию, корректировать цвет, отбирать вариации и собирать их в единый стиль. Мы в X5 Tech решили превратить генеративный ИИ из источника хаотичных вариаций в стабильный конвейер брендового визуала. Зафиксировали стиль, задали структуру, выстроили управление вариациями, и в итоге собрали рабочий пайплайн. Когда он заработал, скорость выросла почти вдвое, некоторые команды полностью отказались от фотостоков или значительно сократили их использование, а 40–45% визуального контента «Пятерочки» и «Чижика» теперь создается с участием ИИ. В этой статье — разбор принципов, на которых держатся пайплайны управления генерациями: как модели помогают контролировать структуру и стиль, какую роль в этом играет дизайнер и за счет чего связка ControlNet, LoRA, Style Reference и мультимодальных ИИ превращает генерации в предсказуемую систему.

    habr.com/ru/companies/X5Tech/a

    #генерация_изображений #генеративный_ии #визуальный_стиль #controlnet #lora #style_transfer #midjourney #автоматизация #пайплайн #брендинг

  23. Как облегчить работу дизайнера с помощью ИИ и сохранить визуальный стиль

    Представьте оркестр без нот и метронома: музыканты играют «как чувствуют», и мелодия каждый раз звучит по-другому. Так же ведет себя генерация изображений по одному промпту — красиво, но неповторяемо. В работе с брендовым визуалом это ощущается особенно: дизайнерам приходится идти дальше простой текстовой инструкции и вручную подбирать референсы, выравнивать композицию, корректировать цвет, отбирать вариации и собирать их в единый стиль. Мы в X5 Tech решили превратить генеративный ИИ из источника хаотичных вариаций в стабильный конвейер брендового визуала. Зафиксировали стиль, задали структуру, выстроили управление вариациями, и в итоге собрали рабочий пайплайн. Когда он заработал, скорость выросла почти вдвое, некоторые команды полностью отказались от фотостоков или значительно сократили их использование, а 40–45% визуального контента «Пятерочки» и «Чижика» теперь создается с участием ИИ. В этой статье — разбор принципов, на которых держатся пайплайны управления генерациями: как модели помогают контролировать структуру и стиль, какую роль в этом играет дизайнер и за счет чего связка ControlNet, LoRA, Style Reference и мультимодальных ИИ превращает генерации в предсказуемую систему.

    habr.com/ru/companies/X5Tech/a

    #генерация_изображений #генеративный_ии #визуальный_стиль #controlnet #lora #style_transfer #midjourney #автоматизация #пайплайн #брендинг

  24. Как облегчить работу дизайнера с помощью ИИ и сохранить визуальный стиль

    Представьте оркестр без нот и метронома: музыканты играют «как чувствуют», и мелодия каждый раз звучит по-другому. Так же ведет себя генерация изображений по одному промпту — красиво, но неповторяемо. В работе с брендовым визуалом это ощущается особенно: дизайнерам приходится идти дальше простой текстовой инструкции и вручную подбирать референсы, выравнивать композицию, корректировать цвет, отбирать вариации и собирать их в единый стиль. Мы в X5 Tech решили превратить генеративный ИИ из источника хаотичных вариаций в стабильный конвейер брендового визуала. Зафиксировали стиль, задали структуру, выстроили управление вариациями, и в итоге собрали рабочий пайплайн. Когда он заработал, скорость выросла почти вдвое, некоторые команды полностью отказались от фотостоков или значительно сократили их использование, а 40–45% визуального контента «Пятерочки» и «Чижика» теперь создается с участием ИИ. В этой статье — разбор принципов, на которых держатся пайплайны управления генерациями: как модели помогают контролировать структуру и стиль, какую роль в этом играет дизайнер и за счет чего связка ControlNet, LoRA, Style Reference и мультимодальных ИИ превращает генерации в предсказуемую систему.

    habr.com/ru/companies/X5Tech/a

    #генерация_изображений #генеративный_ии #визуальный_стиль #controlnet #lora #style_transfer #midjourney #автоматизация #пайплайн #брендинг

  25. Как облегчить работу дизайнера с помощью ИИ и сохранить визуальный стиль

    Представьте оркестр без нот и метронома: музыканты играют «как чувствуют», и мелодия каждый раз звучит по-другому. Так же ведет себя генерация изображений по одному промпту — красиво, но неповторяемо. В работе с брендовым визуалом это ощущается особенно: дизайнерам приходится идти дальше простой текстовой инструкции и вручную подбирать референсы, выравнивать композицию, корректировать цвет, отбирать вариации и собирать их в единый стиль. Мы в X5 Tech решили превратить генеративный ИИ из источника хаотичных вариаций в стабильный конвейер брендового визуала. Зафиксировали стиль, задали структуру, выстроили управление вариациями, и в итоге собрали рабочий пайплайн. Когда он заработал, скорость выросла почти вдвое, некоторые команды полностью отказались от фотостоков или значительно сократили их использование, а 40–45% визуального контента «Пятерочки» и «Чижика» теперь создается с участием ИИ. В этой статье — разбор принципов, на которых держатся пайплайны управления генерациями: как модели помогают контролировать структуру и стиль, какую роль в этом играет дизайнер и за счет чего связка ControlNet, LoRA, Style Reference и мультимодальных ИИ превращает генерации в предсказуемую систему.

    habr.com/ru/companies/X5Tech/a

    #генерация_изображений #генеративный_ии #визуальный_стиль #controlnet #lora #style_transfer #midjourney #автоматизация #пайплайн #брендинг

  26. Пишем меньше — делаем больше: зачем выносить всё в конфигурации

    У меня дома стоит Bluetooth-колонка в ванной. Руки там вечно мокрые и мыльные, поэтому включить звук дождя или музыку проще по событию, например, по голосовой команде. Конечно, можно поднять Home Assistant или написать небольшой Python-скрипт, который слушал бы датчики и управлял колонкой. Но в тот момент я работал с NiFi и решил проверить, справится ли он с бытовой задачей. Оказалось, что это не только «enterprise ETL» инструмент, а еще и гибкая платформа, которая умеет работать с MQTT-брокером. Поэтому я настроил через него простую цепочку, и колонкой начал управлять не самодельный скрипт, а NiFi. Этот простой пример хорошо показывает идею. Если инструмент способен подружиться с бытовыми устройствами, то в промышленной архитектуре его потенциал раскрывается в полном объеме. В Big Data подключение нового источника часто превращается в мини-проект. Требуется неделя разработки, набор уникальных скриптов, собственные форматы, исключения и обходные решения. Но когда пять источников превращаются в пятьдесят, инфраструктура начинает рассыпаться: форматы скачут, API капризничают, схемы дрейфуют, а поддержка становится бесконечным бегом с препятствиями. Мы проходили через это несколько раз и поняли, что нам нужен фреймворк, который позволит предсказуемо, быстро и без зоопарка самописных ETL-процессов подключать новые источники. Привет, Хабр! Я ведущий инженер-разработчик направления BigData & BI К2Тех Кирилл Гофтенюк. В этой статье расскажу, как устроен наш фреймворк на базе ADS.NiFi и Arenadata Prosperity . Покажу, как он работает, зачем нужен такой подход и что нам дал переход от хаотичных скриптов к управляемой архитектуре.

    habr.com/ru/companies/k2tech/a

    #фреймфорки #nifi #arenadata_prosperity #архитектура_данных #пайплайн #инженерная_инфраструктура

  27. Как загрузить GPU на максимум. Разбираем узкие места в инфраструктуре для ИИ

    Представим, что вы запускаете обучение модели, ждете, что процесс пойдет как по маслу. Но вместо этого в инструментах мониторинга видите, что GPU загружен на 40–60%, а то и меньше. Время обучения растягивается и эффективность не та, что вы ожидали. Даже самый быстрый GPU беспомощен, если данные не успевают до него «доехать». Он просто ждет. В статье разберем, почему для эффективного AI-обучения важны быстрые диски, память и CPU, и расскажем, как спроектировать сбалансированную инфраструктуру — даже в условиях ограниченных ресурсов.

    habr.com/ru/companies/mclouds/

    #gpu #видеокарты #процессоры #сети #оперативная_память #диск #cpu #пайплайн #производительность #инфраструктура

  28. Как мы изобрели свой велосипед с vuls и запустили сканирование уязвимого ПО на базе OpenSource решения

    Как сканировать любую инфраструктуру на уязвимости — без агентов, бесплатно, через Jump Host и без боли? Мы в K2 Облаке искали именно такое решение — и не нашли. Зато взяли Open Source-инструмент Vuls и сделали из него полноценный автоматизированный сервис с GitLab-интеграцией, красивыми PDF-отчётами и нативной работой с облачным API. В статье рассказываем, как превратили «сырое» решение в удобный инструмент с CI-пайплайнами, алертами и конфигами, которые генерируются за секунды. Привет, Хабр! На связи Роман Масягутов и Анастасия Козлова из команды K2 Облака. В этой статье — краткий разбор нашей практики по автоматизации сканирования инфраструктур: как организовали удалённое сканирование без агентов, с одного хоста, без вмешательства в работу приложений и без дополнительных затрат.

    habr.com/ru/companies/k2tech/a

    #Vuls #opensource #devops #инфраструктура #безопасность #кибербезопасность #сканирование #архитектура #cicd #пайплайн

  29. Scikit-learn теперь умеет в пайплайны: что изменилось и как работать с библиотекой в 2025 году

    Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit , predict , score — через sklearn. В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами. Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях. Почитать гайд →

    habr.com/ru/companies/netology

    #scikitlearn #sklearn #пайплайн #python #pandas #машинное_обучение #machine_learning #ml #классификация #регрессия

  30. Как я оставила печати и взяла SQL: путь к Data Quality

    Привет, Хабр! Когда-то я проверяла завещания и готовила доверенности, а теперь проверяю витрины данных, ищу дубли и считаю доходность по инвестиционным инструментам. Меня зовут Арина Шахтарина, и я — Data Quality-инженер в Сбере. Это история о том, как любовь к данным и таблицам превратилась в новую профессию, и почему SQL — лучший универсальный язык после русского. Тут будет про карьерные повороты, боли с форматами данных, проверки данных и немного про мечты, которые сбываются (даже если ты не в отпуске).

    habr.com/ru/companies/oleg-bun

    #качество_данных #dq #data_quality #пайплайн #коммуникации #bi #sql #бизнеслогика #базы_данных #Data_Internals

  31. Как я оставила печати и взяла SQL: путь к Data Quality

    Привет, Хабр! Когда-то я проверяла завещания и готовила доверенности, а теперь проверяю витрины данных, ищу дубли и считаю доходность по инвестиционным инструментам. Меня зовут Арина Шахтарина, и я — Data Quality-инженер в Сбере. Это история о том, как любовь к данным и таблицам превратилась в новую профессию, и почему SQL — лучший универсальный язык после русского. Тут будет про карьерные повороты, боли с форматами данных, проверки данных и немного про мечты, которые сбываются (даже если ты не в отпуске).

    habr.com/ru/companies/oleg-bun

    #качество_данных #dq #data_quality #пайплайн #коммуникации #bi #sql #бизнеслогика #базы_данных #Data_Internals

  32. Как я оставила печати и взяла SQL: путь к Data Quality

    Привет, Хабр! Когда-то я проверяла завещания и готовила доверенности, а теперь проверяю витрины данных, ищу дубли и считаю доходность по инвестиционным инструментам. Меня зовут Арина Шахтарина, и я — Data Quality-инженер в Сбере. Это история о том, как любовь к данным и таблицам превратилась в новую профессию, и почему SQL — лучший универсальный язык после русского. Тут будет про карьерные повороты, боли с форматами данных, проверки данных и немного про мечты, которые сбываются (даже если ты не в отпуске).

    habr.com/ru/companies/oleg-bun

    #качество_данных #dq #data_quality #пайплайн #коммуникации #bi #sql #бизнеслогика #базы_данных #Data_Internals

  33. Как я оставила печати и взяла SQL: путь к Data Quality

    Привет, Хабр! Когда-то я проверяла завещания и готовила доверенности, а теперь проверяю витрины данных, ищу дубли и считаю доходность по инвестиционным инструментам. Меня зовут Арина Шахтарина, и я — Data Quality-инженер в Сбере. Это история о том, как любовь к данным и таблицам превратилась в новую профессию, и почему SQL — лучший универсальный язык после русского. Тут будет про карьерные повороты, боли с форматами данных, проверки данных и немного про мечты, которые сбываются (даже если ты не в отпуске).

    habr.com/ru/companies/oleg-bun

    #качество_данных #dq #data_quality #пайплайн #коммуникации #bi #sql #бизнеслогика #базы_данных #Data_Internals

  34. CAG и KAG: Улучшенные методы дополнения генерации после RAG

    Если вы следите за развитием технологий в области обработки естественного языка, то наверняка слышали о технологии Retrieval Augmented Generation (RAG), которая объединяет методы поиска с генеративными моделями для создания более интеллектуальных, обогащенных контекстом ответов. Но, как и любая технология, RAG имеет свои особенности, и именно здесь на помощь приходят два подхода: Cache-Augmented Generation (CAG) и Knowledge-Augmented Generation (KAG). В этой статье мы подробно рассмотрим, что представляют собой эти методы, чем они отличаются друг от друга и в чем заключается их преимущество. Давайте начнем! Читать далее ->

    habr.com/ru/companies/raft/art

    #large_language_models #language_processing #ai #ии #пайплайн #rag

  35. CAG и KAG: Улучшенные методы дополнения генерации после RAG

    Если вы следите за развитием технологий в области обработки естественного языка, то наверняка слышали о технологии Retrieval Augmented Generation (RAG), которая объединяет методы поиска с генеративными моделями для создания более интеллектуальных, обогащенных контекстом ответов. Но, как и любая технология, RAG имеет свои особенности, и именно здесь на помощь приходят два подхода: Cache-Augmented Generation (CAG) и Knowledge-Augmented Generation (KAG). В этой статье мы подробно рассмотрим, что представляют собой эти методы, чем они отличаются друг от друга и в чем заключается их преимущество. Давайте начнем! Читать далее ->

    habr.com/ru/companies/raft/art

    #large_language_models #language_processing #ai #ии #пайплайн #rag

  36. CAG и KAG: Улучшенные методы дополнения генерации после RAG

    Если вы следите за развитием технологий в области обработки естественного языка, то наверняка слышали о технологии Retrieval Augmented Generation (RAG), которая объединяет методы поиска с генеративными моделями для создания более интеллектуальных, обогащенных контекстом ответов. Но, как и любая технология, RAG имеет свои особенности, и именно здесь на помощь приходят два подхода: Cache-Augmented Generation (CAG) и Knowledge-Augmented Generation (KAG). В этой статье мы подробно рассмотрим, что представляют собой эти методы, чем они отличаются друг от друга и в чем заключается их преимущество. Давайте начнем! Читать далее ->

    habr.com/ru/companies/raft/art

    #large_language_models #language_processing #ai #ии #пайплайн #rag

  37. CAG и KAG: Улучшенные методы дополнения генерации после RAG

    Если вы следите за развитием технологий в области обработки естественного языка, то наверняка слышали о технологии Retrieval Augmented Generation (RAG), которая объединяет методы поиска с генеративными моделями для создания более интеллектуальных, обогащенных контекстом ответов. Но, как и любая технология, RAG имеет свои особенности, и именно здесь на помощь приходят два подхода: Cache-Augmented Generation (CAG) и Knowledge-Augmented Generation (KAG). В этой статье мы подробно рассмотрим, что представляют собой эти методы, чем они отличаются друг от друга и в чем заключается их преимущество. Давайте начнем! Читать далее ->

    habr.com/ru/companies/raft/art

    #large_language_models #language_processing #ai #ии #пайплайн #rag

  38. DevOps — смерть это новая жизнь…

    Есть мнение, что DevOps как индустрия — скорее мертва, чем жива. Нужны ли нам в таком случае мероприятия по интеграции процессов разработки, тестирования и эксплуатации? Мы решили задать самые наболевшие вопросы Диме Зайцеву, директору программного комитета DevOps Conf 2025. Да, всё ещё у нас и на западном рынке, когда мы слышим слово DevOps, то думаем, что у сисадминов изменили имя, и они стали стоить дороже. Это распространённая идея. Но мы так не считаем. И эти люди никуда не уйдут. Очевидно, они всё ещё нужны. У нас всё ещё на них держится огромная инфраструктура. Над ней надо работать, её нужно развертывать.

    habr.com/ru/companies/oleg-bun

    #NextOps #sre #системное_администрирование #билд #релиз #пайплайн #devops_культура #инфраструктура #хаосинжиниринг #aiops

  39. DevOps — смерть это новая жизнь…

    Есть мнение, что DevOps как индустрия — скорее мертва, чем жива. Нужны ли нам в таком случае мероприятия по интеграции процессов разработки, тестирования и эксплуатации? Мы решили задать самые наболевшие вопросы Диме Зайцеву, директору программного комитета DevOps Conf 2025. Да, всё ещё у нас и на западном рынке, когда мы слышим слово DevOps, то думаем, что у сисадминов изменили имя, и они стали стоить дороже. Это распространённая идея. Но мы так не считаем. И эти люди никуда не уйдут. Очевидно, они всё ещё нужны. У нас всё ещё на них держится огромная инфраструктура. Над ней надо работать, её нужно развертывать.

    habr.com/ru/companies/oleg-bun

    #NextOps #sre #системное_администрирование #билд #релиз #пайплайн #devops_культура #инфраструктура #хаосинжиниринг #aiops

  40. DevOps — смерть это новая жизнь…

    Есть мнение, что DevOps как индустрия — скорее мертва, чем жива. Нужны ли нам в таком случае мероприятия по интеграции процессов разработки, тестирования и эксплуатации? Мы решили задать самые наболевшие вопросы Диме Зайцеву, директору программного комитета DevOps Conf 2025. Да, всё ещё у нас и на западном рынке, когда мы слышим слово DevOps, то думаем, что у сисадминов изменили имя, и они стали стоить дороже. Это распространённая идея. Но мы так не считаем. И эти люди никуда не уйдут. Очевидно, они всё ещё нужны. У нас всё ещё на них держится огромная инфраструктура. Над ней надо работать, её нужно развертывать.

    habr.com/ru/companies/oleg-bun

    #NextOps #sre #системное_администрирование #билд #релиз #пайплайн #devops_культура #инфраструктура #хаосинжиниринг #aiops

  41. DevOps — смерть это новая жизнь…

    Есть мнение, что DevOps как индустрия — скорее мертва, чем жива. Нужны ли нам в таком случае мероприятия по интеграции процессов разработки, тестирования и эксплуатации? Мы решили задать самые наболевшие вопросы Диме Зайцеву, директору программного комитета DevOps Conf 2025. Да, всё ещё у нас и на западном рынке, когда мы слышим слово DevOps, то думаем, что у сисадминов изменили имя, и они стали стоить дороже. Это распространённая идея. Но мы так не считаем. И эти люди никуда не уйдут. Очевидно, они всё ещё нужны. У нас всё ещё на них держится огромная инфраструктура. Над ней надо работать, её нужно развертывать.

    habr.com/ru/companies/oleg-bun

    #NextOps #sre #системное_администрирование #билд #релиз #пайплайн #devops_культура #инфраструктура #хаосинжиниринг #aiops

  42. Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK

    В маркетинге и продажах крупных компаний есть несколько аналитических задач, которые требуют регулярной обработки сотен тысяч и миллионов записей из разных источников. Например, это прогнозирование продаж или планирование рекламных кампаний. Как правило, их решение не обходится без построения длинного пайплайна обработки данных. ML‑инженеру или аналитику данных нужен ансамбль из нескольких моделей и сервисов, чтобы собрать качественный датасет, провести эксперименты и выбрать наиболее подходящие алгоритмы. Сбор, очистка и агрегация данных занимают большую часть времени и вычислительных ресурсов, а эти затраты хочется оптимизировать. В статье покажем, как мы ускорили построение пайплайнов обработки данных с помощью связки DataSphere Jobs и Apache Airflow™.

    habr.com/ru/companies/yandex_c

    #apache_airflow #datasphere #пайплайн #dag

  43. Python-праздник на Positive Hack Days Fest 2

    Двадцать шестого мая в рамках Итак, начнем

    habr.com/ru/companies/pt/artic

    #phdays #python #ai #llm #pypi #ml #ci/cd #пайплайн

  44. Как мы упростили работу с данными с помощью пайплайна: пошаговый план

    Привет, меня зовут Руслан Шкарин . Я Senior Software Engineer и это моя первая статья в DIY-медиа вАЙТИ от

    habr.com/ru/companies/beeline_

    #вайти #пайплайн #data_engineering

  45. Очистка данных перед загрузкой в хранилище: Подробное руководство с техническими деталями

    Детально рассмотрим, кто занимается очисткой данных, какие инструменты и языки программирования используются для этой цели, приведем примеры кода на SQL для очистки данных, узнаем, сколько времени может занять этот процесс и какие последствия могут наступить при его игнорировании.

    habr.com/ru/articles/794036/

    #очистка_данных #хранилище_данных #etlпроцессы #etl #пайплайн

  46. Автоматическая генерация CI/CD пайплайна для развёртывания инфраструктуры

    При нашей работе мы используем подход «Инфраструктура как код». Однако в процессе его использования мы столкнулись с проблемой написания пайплайнов для инфраструктуры. Во всём «виноват» terragrunt: каждому модулю terragrunt нужна отдельная джоба в пайплайне на plan и apply, но для каждого модуля они во многом повторяют друг друга. Подобное постоянное написание одинаковых частей CI/CD пайплайна при добавлении новых баз и бакетов навевало тоску. Рассказываем, как мы создали генератор джоб в Gitlab CI/CD и навсегда забыли о ручном написании пайплайнов для развёртывания элементов инфраструктуры.

    habr.com/ru/companies/magnit/a

    #ci/cd #gitlab #gitlabci #terragrunt #terraform #инфраструктура_как_код #пайплайн #автогенерация