#аугментация_данных — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #аугментация_данных, aggregated by home.social.
-
Растягиваем кошек, чтобы избежать переобучения. Аугментация данных в машинном обучении
Главной проблемой при обучении нейросетей остаётся нехватка качественной информации. Всем моделям глубокого обучения может потребоваться большой объём данных для достижения удовлетворительных результатов. Для успешного обучения модели данные должны быть разнообразными и соответствовать поставленной задаче. В противном случае пользы от такой сети будет мало. Хорошо известно, что нехватка данных легко приводит к переобучению. Но вот беда, трудно предусмотреть и собрать данные, которые покрывали бы все ситуации. Допустим, вы хотите научить систему находить на фото конкретную кошку. Вам потребуются снимки этого животного в самых разных позах — будь то сидя, стоя или обдирающей диван. А если требуется распознавать кошек в принципе, то вариантов становится в разы больше. Видов кошек в природе тысячи, они все разных цветов и размеров. Почему это важно? Представьте, что наш набор данных может содержать изображения кошек и собак. Кошки в наборе смотрят исключительно влево с точки зрения наблюдателя. Неудивительно, что обученная модель может неправильно классифицировать кошек, смотрящих вправо. Поэтому всегда нужно проверять свою выборку на разнообразие. Если данные не подходят под реальные условия, то и задачу решить не получится. Что делать, если у нас дефицит данных?
https://habr.com/ru/companies/ruvds/articles/985934/
#ml #машинное+обучение #машинное_обучение #аугментация #аугментация_данных #переобучение #overfitting #синтетические_данные #ruvds_статьи
-
Аугментация данных для повышения точности классификации вредоносного ПО с использованием модели CNN
Современные компьютерные атаки становятся все более сложными и изощренными, создавая серьезную угрозу информационной безопасности как для крупных организаций, так и для обычных пользователей устройств, подключенных к глобальной сети. Вредоносное программное обеспечение (ВПО) эволюционирует, используя сложные методы сокрытия и мутации кода, что затрудняет его выявление антивирусными программами и системами защиты. Одним из ключевых методов, применяемых вредоносными программами для обхода систем обнаружения, является метаморфизм. Данный процесс заключается в модификации внутреннего содержимого исполняемого файла при его распространении [1], что приводит к созданию множества хэшей для одной и той же вредоносной программы. Такой механизм делает стандартные методы обнаружения, основанные на сигнатурах, малоэффективными, поскольку каждое новое представление ВПО воспринимается как новый уникальный файл. В связи с этим возникает необходимость в применении более продвинутых методов анализа, основанных на машинном обучении и, в частности, сверточных нейронных сетях (CNN), способных распознавать вредоносные программы по их структурным признакам. Перспективным является подход, заключающийся в преобразовании исполняемых файлов программ с целью их анализа методами компьютерного зрения. Однако эффективность нейросетевых моделей напрямую зависит от объема и разнообразия обучающей выборки. В области кибербезопасности получение достаточного количества размеченных данных может быть затруднено, так как ВПО постоянно изменяется, а доступ к реальным образцам обычно ограничен. В связи с этим, в настоящее время актуальным становится вопрос улучшения качества классификации вредоносных программ нейронными сетями с применением аугментации данных, особенно в условиях ограниченного набора данных на входе. Таким образом возможно искусственно расширить обучающую выборку с помощью трансформаций.
https://habr.com/ru/articles/964364/
#сверточные_нейросети #cnn #вредоносные_программы #аугментация_данных
-
Визуализация и аугментация текстовых данных
В современном мире, где данные играют ключевую роль в принятии решений, визуализация и аугментация текстовых данных становятся важными инструментами для анализа и понимания информации. Эти методы позволяют не только представить данные в наглядной форме, но и улучшить их качество, что делает их более полезными для различных задач. Сегодня достаточно быстро генерировать большой объем расширенной, но лишенной лишнего и максимально близкой к исходному запросу в 1-5 предложений информацию. По данной информации можно принимать определенные решения: что стоит использовать при показе продукта, стартапа, презентации. Что стоит написать, чтобы тот или иной контингент сотрудников лучше понял и усвоил предлагаемый материал с данными. Что стоит рассказать, а о чем можно промолчать. Автоматизация и даже роботизация работы с текстовыми данными и их визуализация позволяет сэкономить колоссальное количество времени на создание контента, а время уделить возможности выбирать из разных набросков, шаблонов, предложений. В будущем и сам выбор может быть автоматизирован системами принятия решений и нейросетями.
https://habr.com/ru/articles/852148/
#нейросеть #GPT #GAN #нейросетевая_модель #визуализация_данных #генерация_информации #аугментация_информации #аугментация_данных #автоматизация_стилей
-
Визуализация и аугментация текстовых данных
В современном мире, где данные играют ключевую роль в принятии решений, визуализация и аугментация текстовых данных становятся важными инструментами для анализа и понимания информации. Эти методы позволяют не только представить данные в наглядной форме, но и улучшить их качество, что делает их более полезными для различных задач. Сегодня достаточно быстро генерировать большой объем расширенной, но лишенной лишнего и максимально близкой к исходному запросу в 1-5 предложений информацию. По данной информации можно принимать определенные решения: что стоит использовать при показе продукта, стартапа, презентации. Что стоит написать, чтобы тот или иной контингент сотрудников лучше понял и усвоил предлагаемый материал с данными. Что стоит рассказать, а о чем можно промолчать. Автоматизация и даже роботизация работы с текстовыми данными и их визуализация позволяет сэкономить колоссальное количество времени на создание контента, а время уделить возможности выбирать из разных набросков, шаблонов, предложений. В будущем и сам выбор может быть автоматизирован системами принятия решений и нейросетями.
https://habr.com/ru/articles/852148/
#нейросеть #GPT #GAN #нейросетевая_модель #визуализация_данных #генерация_информации #аугментация_информации #аугментация_данных #автоматизация_стилей
-
Искусство аугментации: как улучшить модели компьютерного зрения без сбора новых данных
Представьте, что вы разрабатываете модель компьютерного зрения для распознавания кошек на фотографиях. Чем больше разных фото кошек вы покажете модели, тем лучше она будет справляться с задачей. Но что делать, если у вас не хватает фотографий? Вы же не пойдете делать 10000 фотографий вашего питомца? На такой случай существует решение — метод аугментации данных. Сегодня подробно разберемся в том, как работает аугментация: рассмотрим ее влияние на точность моделей, разберем основные методы и инструменты для ее реализации, обсудим лучшие практики и типичные ошибки при работе с этим методом. Надеемся, что наш материал будет полезен как начинающим специалистам, так и опытным практикам машинного обучения и компьютерного зрения.
https://habr.com/ru/companies/magnus-tech/articles/850070/
#аугментация_данных #методы_аугментации #примеры_аугментации #инструменты_аугментации #искуственный_интеллект #albumentations #imgaug #Augmentor #обучение_нейросетей
-
Искусство аугментации: как улучшить модели компьютерного зрения без сбора новых данных
Представьте, что вы разрабатываете модель компьютерного зрения для распознавания кошек на фотографиях. Чем больше разных фото кошек вы покажете модели, тем лучше она будет справляться с задачей. Но что делать, если у вас не хватает фотографий? Вы же не пойдете делать 10000 фотографий вашего питомца? На такой случай существует решение — метод аугментации данных. Сегодня подробно разберемся в том, как работает аугментация: рассмотрим ее влияние на точность моделей, разберем основные методы и инструменты для ее реализации, обсудим лучшие практики и типичные ошибки при работе с этим методом. Надеемся, что наш материал будет полезен как начинающим специалистам, так и опытным практикам машинного обучения и компьютерного зрения.
https://habr.com/ru/companies/magnus-tech/articles/850070/
#аугментация_данных #методы_аугментации #примеры_аугментации #инструменты_аугментации #искуственный_интеллект #albumentations #imgaug #Augmentor #обучение_нейросетей
-
Искусство аугментации: как улучшить модели компьютерного зрения без сбора новых данных
Представьте, что вы разрабатываете модель компьютерного зрения для распознавания кошек на фотографиях. Чем больше разных фото кошек вы покажете модели, тем лучше она будет справляться с задачей. Но что делать, если у вас не хватает фотографий? Вы же не пойдете делать 10000 фотографий вашего питомца? На такой случай существует решение — метод аугментации данных. Сегодня подробно разберемся в том, как работает аугментация: рассмотрим ее влияние на точность моделей, разберем основные методы и инструменты для ее реализации, обсудим лучшие практики и типичные ошибки при работе с этим методом. Надеемся, что наш материал будет полезен как начинающим специалистам, так и опытным практикам машинного обучения и компьютерного зрения.
https://habr.com/ru/companies/magnus-tech/articles/850070/
#аугментация_данных #методы_аугментации #примеры_аугментации #инструменты_аугментации #искуственный_интеллект #albumentations #imgaug #Augmentor #обучение_нейросетей
-
«А можно быстрее?»: разбираем методы ускорения обучения нейронных сетей
Современные нейросетевые архитектуры достигают впечатляющих результатов в сложных задачах ИИ благодаря росту объемов данных и вычислительных мощностей. Однако обратной стороной медали стала высокая ресурсоемкость обучения. Например, последняя версия GPT-4 от OpenAI обучалась на большом GPU-кластере. По некоторым данным , она содержит около 1,8 триллиона параметров, а ее обучение обошлось более чем в 100 млн долларов. А модель Llama 3.1 405B, вроде бы оптимизированная под ограниченные ресурсы, все равно требовала более 15 триллионов токенов и свыше 16 тысяч GPU NVIDIA H100. И хотя нынешнее качество работы LLM уже можно действительно назвать выдающимся, на практике они подкидывают разработчикам широкий ряд проблем производительности: от запредельных объемов данных до оптимизации гиперпараметров. Все это приводит к потребности в ускорении обучения. Мы подготовили серию материалов, которые помогут разобраться в ускорении обучения нейросетей. В этой статье рассмотрим различные теоретические аспекты от аппаратного ускорения до правильной организации самого обучения, в следующей — поговорим о практике. В общем, нас ждет глубокое погружение в тему. Приятного прочтения!
https://habr.com/ru/companies/magnus-tech/articles/840902/
#обучение_нейросетей #ускорить_обучение_нейросетей #глубокие_нейросети #tensorflow #оптимизация_обучения_нейросетей #подбор_гиперпараметров #аугментация_данных #прунинг
-
Создание искусственного датасета для обучения модели с использованием Paddle OCR
Привет, коллеги! Продолжаем тему разработки плагина для распознавания иврита с использованием Paddle OCR. В прошлый раз я забыла представиться, сделаю это в этом посте) Меня зовут Алексей, я руковожу компанией, которая занимается разработкой с применением ИИ-технологий. Сам я тоже погружен в разработку, но больше доверяю это своей команде – нам удалось собрать команду классных профи. Истории из нашей совместной работы я и планирую рассказывать в своем блоге. Вернемся к теме статьи. Сегодня остановимся подробнее на создании искусственного датасета для обучения модели с использованием Paddle OCR. Этим занимался мой коллега Александр – экспертв компьютерном зрении. Когда перед нами встала задача распознавания текста на иврите, стало ясно, что найти готовый датасет с нужными характеристиками практически невозможно. Это подтолкнуло нас к созданию собственного датасета, который оказался не только полезным, но и дал возможность потренироваться в генерации синтетических данных. В этом посте мы подробно расскажем, как именно подошли к этому процессу.
https://habr.com/ru/articles/839326/
#искусственный_интеллект #компьютерное_зрение #распознавание_текста #paddleocr #tesseract #датасет #аугментация_данных
-
Как правильно генерировать обучающие данные для OCR?
Мы в Smart Engines много пишем про распознавание документов. И, конечно, для распознавания документов нам требуется обучать нейросети, в частности, сети, распознающие текст на картинке. А им, как известно, нужно больше золота данных. И сегодня мы бы хотели поговорить о влиянии обучающих данных на итоговую сеть и о том, как такие данные синтезировать. Далее
https://habr.com/ru/companies/smartengines/articles/793520/
#искусственные_нейронные_сети #аугментация_данных #синтез_изображений #машинное_обучение