#распознавание_изображений — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-26 · 08:52 UTC

Как ускорить распознавание объектов нейросетями среди множества классов, не жертвуя памятью и точностью

Эксперты российской ИТ-компании «Криптонит» Никита Габдуллин и Илья Андросов разработали принципиально новый метод организации скрытого пространства нейросетей. В ряде сценариев он позволяет снизить требования к памяти GPU и существенно ускорить классификацию объектов нейронными сетями. Вместо того, чтобы мириться с ростом вычислительных затрат и требований к памяти по мере увеличения числа классов, авторы призывают отказаться от классификационного слоя и случайного распределения классов в скрытом пространстве нейросети.

https://habr.com/ru/companies/kryptonite/articles/1038878/

#нейросети #машинное_обучение #машинное_зрение #компьютерное_зрение #классификация_изображений #распознавание_изображений #распознавание_лиц #классификация #классификатор_данных

#классификатор_данных #классификация #распознавание_лиц #распознавание_изображений #классификация_изображений #компьютерное_зрение

Habr @[email protected] · 2026-02-25 · 09:02 UTC

Russtech + Стажеры + ML: история разработки решения для мониторинга цифровых экранов

Всем привет! Меня зовут Никита Крестьянинов, я руководитель группы управления бизнес-процессами служб сервиса в команде Russtech. Сегодня я хочу рассказать, как мы совместно со стажерами разработали ИИ-инструмент, способный отслеживать состояние работы цифровых рекламных конструкций.

https://habr.com/ru/companies/wildberries/articles/1001952/

#машинное_обучение #распознавание_изображений #unet #стажировка #computer_vision #классификация #dooh

#dooh #классификация #computer_vision #стажировка #unet #распознавание_изображений

Habr @[email protected] · 2026-02-25 · 09:02 UTC

Russtech + Стажеры + ML: история разработки решения для мониторинга цифровых экранов

Всем привет! Меня зовут Никита Крестьянинов, я руководитель группы управления бизнес-процессами служб сервиса в команде Russtech. Сегодня я хочу рассказать, как мы совместно со стажерами разработали ИИ-инструмент, способный отслеживать состояние работы цифровых рекламных конструкций.

https://habr.com/ru/companies/wildberries/articles/1001952/

#машинное_обучение #распознавание_изображений #unet #стажировка #computer_vision #классификация #dooh

#машинное_обучение #распознавание_изображений #unet #стажировка #computer_vision #классификация

Habr @[email protected] · 2026-02-19 · 20:32 UTC

Распознавание изображений локальными LLM

Читая HABR, наткнулся на статью про мышление больших моделей и их способности распознавания изображений. И у меня возникла идея небольшого теста одной имеющейся у меня модели LLM, которая умеет распозновать фото, а именно llama4:16x17b НО запущенной полностью локально. Весит эта модель 67 гигабайт, если интересно на чем она была запущена отвечу в комментариях. На написание статьи меня подвинул один из комментариев - "а как интересно нейросеть распознает разные типы животных"

https://habr.com/ru/articles/1001640/

#llm #llmмодели #llmархитектура #распознавание #распознавание_объектов #распознавание_изображений #распознавание_образов

#распознавание_образов #распознавание_изображений #распознавание_объектов #распознавание #llmархитектура #llmмодели

Habr @[email protected] · 2026-02-17 · 09:42 UTC

Как РСХБ Abbyy импортозамещал

Привет, Хабр! Меня зовут Михаил Пушкарёв, в команде РСХБ.Цифра я отвечаю за развитие систем класса ECM и OCR. В РСХБ технологии OCR применяются начиная с 2010 года и развиваются до сих пор. Технология направлена, в первую очередь, на ускорение и обслуживание клиентов банка. Сформированная конструкция контуров и наличие локальных установок делали процесс развития и обновления системы не просто сложным, а очень сложным. Помимо этого, на горизонте всё более явно начинал «маячить» процесс переходов на отечественные ОС, что привело бы к невозможности работы со всеми программными комплексами из-за того, что толстые клиенты предусматривали работу только с ОС Windows. Конечно же, непосредственный уход с рынка Abbyy накладывал свой отпечаток на данные процесс. К моменту ухода Abbyy мы уже сформировали собственную компетенцию, которая позволяла нам в полной мере заниматься развитием проекта (добавлять новые шаблоны) или решать какие-либо проблемы. Но так как ПО не является свободно распространяемым, по сути мы лишились обновлений комплекса. Все факторы в совокупности, а также желание навести порядок в архитектуре решений и избавиться нескольких разных решений с разными принципами работы, подвели нас к тому, что проект импортозамещения стал актуальным и нужным для реализации. Первый вопрос, который волновал всех: «А на что собственно меняем?!».

https://habr.com/ru/companies/rshb/articles/1000384/

#распознавание_изображений #распознавание_документов #импортозамещение #abbyy

#abbyy #импортозамещение #распознавание_документов #распознавание_изображений

Habr @[email protected] · 2025-11-27 · 10:02 UTC

Предопределённые векторы для обучения нейросетей с экономией памяти

Одна из базовых функций систем машинного зрения состоит в классификации объектов. Для решения этой задачи традиционно применяются методы обучения с учителем (SL). Эти методы обеспечивают высокую точность, но при этом размер нейросетевой модели увеличивается с увеличением количества классов. Такая особенность ограничивает применимость SL в тех случаях, когда число классов слишком велико или заранее неизвестно. Эксперт отдела перспективных исследований компании «Криптонит» Никита Габдуллин предложил новую методологию, позволяющую добиться одного и того же размера нейросетевой модели независимо от числа классов. Это достигается за счёт использования предопределённых векторных систем в качестве целевой конфигурации скрытого пространства (Latent Space Configuration, LSC) во время обучения. С проблемой раздувания классов сталкиваются во многих областях — от ритейла до научных исследований. Мы рассмотрим её на задаче распознавания лиц, где каждый человек (его ID) считается отдельным классом. Существующий подход (SL) требует, чтобы размер последнего классификационного слоя был пропорционален количеству этих ID. Когда число идентифицируемых лиц исчисляется миллионами, параметры этого слоя становятся просто астрономическими, а модель — непрактичной из-за непомерных требований к ресурсам (в частности — к видеопамяти). Это становится существенным барьером на пути к масштабированию. В качестве решения этой проблемы эксперт «Криптонита» предложил радикально новый метод — LSC, который устраняет прямую зависимость между размером модели и числом классов. Вместо того, чтобы заставлять сеть запоминать каждый класс во всё увеличивающемся классификационном слое, LSC учит её проецировать входные данные — например, изображения лиц — в заранее заданную, фиксированную систему векторов в абстрактном скрытом пространстве.

https://habr.com/ru/companies/kryptonite/articles/970844/

#нейросети #машинное_обучение #обучение_с_учителем #распознавание_лиц #распознавание_изображений #машинное_зрение #компьютерное_зрение #классификация_изображений

#нейросети #машинное_обучение #обучение_с_учителем #распознавание_лиц #распознавание_изображений #машинное_зрение

Habr @[email protected] · 2025-11-27 · 10:02 UTC

Предопределённые векторы для обучения нейросетей с экономией памяти

Одна из базовых функций систем машинного зрения состоит в классификации объектов. Для решения этой задачи традиционно применяются методы обучения с учителем (SL). Эти методы обеспечивают высокую точность, но при этом размер нейросетевой модели увеличивается с увеличением количества классов. Такая особенность ограничивает применимость SL в тех случаях, когда число классов слишком велико или заранее неизвестно. Эксперт отдела перспективных исследований компании «Криптонит» Никита Габдуллин предложил новую методологию, позволяющую добиться одного и того же размера нейросетевой модели независимо от числа классов. Это достигается за счёт использования предопределённых векторных систем в качестве целевой конфигурации скрытого пространства (Latent Space Configuration, LSC) во время обучения. С проблемой раздувания классов сталкиваются во многих областях — от ритейла до научных исследований. Мы рассмотрим её на задаче распознавания лиц, где каждый человек (его ID) считается отдельным классом. Существующий подход (SL) требует, чтобы размер последнего классификационного слоя был пропорционален количеству этих ID. Когда число идентифицируемых лиц исчисляется миллионами, параметры этого слоя становятся просто астрономическими, а модель — непрактичной из-за непомерных требований к ресурсам (в частности — к видеопамяти). Это становится существенным барьером на пути к масштабированию. В качестве решения этой проблемы эксперт «Криптонита» предложил радикально новый метод — LSC, который устраняет прямую зависимость между размером модели и числом классов. Вместо того, чтобы заставлять сеть запоминать каждый класс во всё увеличивающемся классификационном слое, LSC учит её проецировать входные данные — например, изображения лиц — в заранее заданную, фиксированную систему векторов в абстрактном скрытом пространстве.

https://habr.com/ru/companies/kryptonite/articles/970844/

#нейросети #машинное_обучение #обучение_с_учителем #распознавание_лиц #распознавание_изображений #машинное_зрение #компьютерное_зрение #классификация_изображений

#нейросети #машинное_обучение #обучение_с_учителем #распознавание_лиц #распознавание_изображений #машинное_зрение

Habr @[email protected] · 2025-11-27 · 10:02 UTC

Предопределённые векторы для обучения нейросетей с экономией памяти

Одна из базовых функций систем машинного зрения состоит в классификации объектов. Для решения этой задачи традиционно применяются методы обучения с учителем (SL). Эти методы обеспечивают высокую точность, но при этом размер нейросетевой модели увеличивается с увеличением количества классов. Такая особенность ограничивает применимость SL в тех случаях, когда число классов слишком велико или заранее неизвестно. Эксперт отдела перспективных исследований компании «Криптонит» Никита Габдуллин предложил новую методологию, позволяющую добиться одного и того же размера нейросетевой модели независимо от числа классов. Это достигается за счёт использования предопределённых векторных систем в качестве целевой конфигурации скрытого пространства (Latent Space Configuration, LSC) во время обучения. С проблемой раздувания классов сталкиваются во многих областях — от ритейла до научных исследований. Мы рассмотрим её на задаче распознавания лиц, где каждый человек (его ID) считается отдельным классом. Существующий подход (SL) требует, чтобы размер последнего классификационного слоя был пропорционален количеству этих ID. Когда число идентифицируемых лиц исчисляется миллионами, параметры этого слоя становятся просто астрономическими, а модель — непрактичной из-за непомерных требований к ресурсам (в частности — к видеопамяти). Это становится существенным барьером на пути к масштабированию. В качестве решения этой проблемы эксперт «Криптонита» предложил радикально новый метод — LSC, который устраняет прямую зависимость между размером модели и числом классов. Вместо того, чтобы заставлять сеть запоминать каждый класс во всё увеличивающемся классификационном слое, LSC учит её проецировать входные данные — например, изображения лиц — в заранее заданную, фиксированную систему векторов в абстрактном скрытом пространстве.

https://habr.com/ru/companies/kryptonite/articles/970844/

#нейросети #машинное_обучение #обучение_с_учителем #распознавание_лиц #распознавание_изображений #машинное_зрение #компьютерное_зрение #классификация_изображений

#нейросети #машинное_обучение #обучение_с_учителем #распознавание_лиц #распознавание_изображений #машинное_зрение

Habr @[email protected] · 2025-11-27 · 10:02 UTC

Предопределённые векторы для обучения нейросетей с экономией памяти

Одна из базовых функций систем машинного зрения состоит в классификации объектов. Для решения этой задачи традиционно применяются методы обучения с учителем (SL). Эти методы обеспечивают высокую точность, но при этом размер нейросетевой модели увеличивается с увеличением количества классов. Такая особенность ограничивает применимость SL в тех случаях, когда число классов слишком велико или заранее неизвестно. Эксперт отдела перспективных исследований компании «Криптонит» Никита Габдуллин предложил новую методологию, позволяющую добиться одного и того же размера нейросетевой модели независимо от числа классов. Это достигается за счёт использования предопределённых векторных систем в качестве целевой конфигурации скрытого пространства (Latent Space Configuration, LSC) во время обучения. С проблемой раздувания классов сталкиваются во многих областях — от ритейла до научных исследований. Мы рассмотрим её на задаче распознавания лиц, где каждый человек (его ID) считается отдельным классом. Существующий подход (SL) требует, чтобы размер последнего классификационного слоя был пропорционален количеству этих ID. Когда число идентифицируемых лиц исчисляется миллионами, параметры этого слоя становятся просто астрономическими, а модель — непрактичной из-за непомерных требований к ресурсам (в частности — к видеопамяти). Это становится существенным барьером на пути к масштабированию. В качестве решения этой проблемы эксперт «Криптонита» предложил радикально новый метод — LSC, который устраняет прямую зависимость между размером модели и числом классов. Вместо того, чтобы заставлять сеть запоминать каждый класс во всё увеличивающемся классификационном слое, LSC учит её проецировать входные данные — например, изображения лиц — в заранее заданную, фиксированную систему векторов в абстрактном скрытом пространстве.

https://habr.com/ru/companies/kryptonite/articles/970844/

#нейросети #машинное_обучение #обучение_с_учителем #распознавание_лиц #распознавание_изображений #машинное_зрение #компьютерное_зрение #классификация_изображений

#классификация_изображений #компьютерное_зрение #машинное_зрение #распознавание_изображений #распознавание_лиц #обучение_с_учителем

Habr @[email protected] · 2025-11-24 · 07:02 UTC

Куда лить бензин?

Представляете, китайская нейронка Qwen дико врёт! Встал на дороге. Хорошо рядом заправка. Могу дотолкать – силы есть. Интернет есть. Гугл какую-то фигню про мою машину пишет. Решил нейронку проверить – они же сейчас самые умные! Кидаю туда фотку, задаю вопрос. А она как сговорилась с Гуглом! Тоже, мол это электромобиль и бензин она не потребляет!

https://habr.com/ru/articles/969212/

#нейросеть #распознавание_изображений

Habr @[email protected] · 2025-11-13 · 08:42 UTC

[Перевод] Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

https://habr.com/ru/articles/965706/

#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений

#распознавание_изображений #классификатор #fast #orb #computer_vision #компьютерное_зрение

Habr @[email protected] · 2025-07-25 · 11:22 UTC

Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности

Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально. Пришел клиент, принес проект. Система поиска родственных связей по фото. Все работает, все ищется, но хочется, чтобы было еще точнее, еще глубже. «А что если сравнивать…уши», – подумали мы. Почему уши? Потому что они, как и лица, обладают уникальной формой, но в отличие от лица — не меняются с возрастом, не маскируются бородой и не хмурятся на паспортном контроле. Идеальный кандидат для дополнительного биометрического сигнала. Но не все так просто. Нам предстоял полный цикл разработки модуля распознавания и сравнения ушей:

https://habr.com/ru/articles/931070/

#биометрическая_аутентификация #биометрия #распознавание_изображений #эмбеддинги #embeddings #visual_transformer #датасет #cnn #искусственный_интеллект #компьютерное_зрение

#биометрическая_аутентификация #биометрия #распознавание_изображений #эмбеддинги #embeddings #visual_transformer

Habr @[email protected] · 2025-07-25 · 11:22 UTC

Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности

Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально. Пришел клиент, принес проект. Система поиска родственных связей по фото. Все работает, все ищется, но хочется, чтобы было еще точнее, еще глубже. «А что если сравнивать…уши», – подумали мы. Почему уши? Потому что они, как и лица, обладают уникальной формой, но в отличие от лица — не меняются с возрастом, не маскируются бородой и не хмурятся на паспортном контроле. Идеальный кандидат для дополнительного биометрического сигнала. Но не все так просто. Нам предстоял полный цикл разработки модуля распознавания и сравнения ушей:

https://habr.com/ru/articles/931070/

#биометрическая_аутентификация #биометрия #распознавание_изображений #эмбеддинги #embeddings #visual_transformer #датасет #cnn #искусственный_интеллект #компьютерное_зрение

#биометрическая_аутентификация #биометрия #распознавание_изображений #эмбеддинги #embeddings #visual_transformer

Habr @[email protected] · 2025-07-03 · 19:32 UTC

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Привет, Хабр! Если вы когда-либо сталкивались с автоматическим распознаванием документов, то знаете, насколько сложно работать с документами удостоверяющими личность (ID-документами). Хотя, казалось бы, что может быть проще, чем распознать фото паспорта, но на практике это может вызывать сложности у OCR-алгоритмов. Ведь паспорта, водительские удостоверения и другие ID-формы часто содержат сложные фоны, голограммы, блики от ламинации и т.п. Раньше для распознавания ID-документов в наших продуктах мы использовали бинаризацию — метод, который упрощал изображение до черно-белого формата. Однако вместе с шумами при бинаризации «затирались» и полезные данные. А когда в кадр попадали пальцы или документ лежал под углом, результаты распознавания могли стать совсем непредсказуемыми. Под катом расскажем, как нам удалось повысить точность распознавания ID-документов на 40%, какие технологии за этим стоят и почему старые методы перестали справляться с современными вызовами. Узнать подробности

https://habr.com/ru/companies/contentai/articles/924660/

#распознавание_образов #распознавание_изображений #распознавание_текста #документы_удостоверяющие_личность #паспорта #паспорт #ocr #ocrтехнологии

#распознавание_образов #распознавание_изображений #распознавание_текста #документы_удостоверяющие_личность #паспорта #паспорт

Habr @[email protected] · 2025-07-03 · 19:32 UTC

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Привет, Хабр! Если вы когда-либо сталкивались с автоматическим распознаванием документов, то знаете, насколько сложно работать с документами удостоверяющими личность (ID-документами). Хотя, казалось бы, что может быть проще, чем распознать фото паспорта, но на практике это может вызывать сложности у OCR-алгоритмов. Ведь паспорта, водительские удостоверения и другие ID-формы часто содержат сложные фоны, голограммы, блики от ламинации и т.п. Раньше для распознавания ID-документов в наших продуктах мы использовали бинаризацию — метод, который упрощал изображение до черно-белого формата. Однако вместе с шумами при бинаризации «затирались» и полезные данные. А когда в кадр попадали пальцы или документ лежал под углом, результаты распознавания могли стать совсем непредсказуемыми. Под катом расскажем, как нам удалось повысить точность распознавания ID-документов на 40%, какие технологии за этим стоят и почему старые методы перестали справляться с современными вызовами. Узнать подробности

https://habr.com/ru/companies/contentai/articles/924660/

#распознавание_образов #распознавание_изображений #распознавание_текста #документы_удостоверяющие_личность #паспорта #паспорт #ocr #ocrтехнологии

#распознавание_образов #распознавание_изображений #распознавание_текста #документы_удостоверяющие_личность #паспорта #паспорт

Habr @[email protected] · 2025-07-03 · 19:32 UTC

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Привет, Хабр! Если вы когда-либо сталкивались с автоматическим распознаванием документов, то знаете, насколько сложно работать с документами удостоверяющими личность (ID-документами). Хотя, казалось бы, что может быть проще, чем распознать фото паспорта, но на практике это может вызывать сложности у OCR-алгоритмов. Ведь паспорта, водительские удостоверения и другие ID-формы часто содержат сложные фоны, голограммы, блики от ламинации и т.п. Раньше для распознавания ID-документов в наших продуктах мы использовали бинаризацию — метод, который упрощал изображение до черно-белого формата. Однако вместе с шумами при бинаризации «затирались» и полезные данные. А когда в кадр попадали пальцы или документ лежал под углом, результаты распознавания могли стать совсем непредсказуемыми. Под катом расскажем, как нам удалось повысить точность распознавания ID-документов на 40%, какие технологии за этим стоят и почему старые методы перестали справляться с современными вызовами. Узнать подробности

https://habr.com/ru/companies/contentai/articles/924660/

#распознавание_образов #распознавание_изображений #распознавание_текста #документы_удостоверяющие_личность #паспорта #паспорт #ocr #ocrтехнологии

#распознавание_образов #распознавание_изображений #распознавание_текста #документы_удостоверяющие_личность #паспорта #паспорт

Habr @[email protected] · 2025-07-03 · 19:32 UTC

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Привет, Хабр! Если вы когда-либо сталкивались с автоматическим распознаванием документов, то знаете, насколько сложно работать с документами удостоверяющими личность (ID-документами). Хотя, казалось бы, что может быть проще, чем распознать фото паспорта, но на практике это может вызывать сложности у OCR-алгоритмов. Ведь паспорта, водительские удостоверения и другие ID-формы часто содержат сложные фоны, голограммы, блики от ламинации и т.п. Раньше для распознавания ID-документов в наших продуктах мы использовали бинаризацию — метод, который упрощал изображение до черно-белого формата. Однако вместе с шумами при бинаризации «затирались» и полезные данные. А когда в кадр попадали пальцы или документ лежал под углом, результаты распознавания могли стать совсем непредсказуемыми. Под катом расскажем, как нам удалось повысить точность распознавания ID-документов на 40%, какие технологии за этим стоят и почему старые методы перестали справляться с современными вызовами. Узнать подробности

https://habr.com/ru/companies/contentai/articles/924660/

#распознавание_образов #распознавание_изображений #распознавание_текста #документы_удостоверяющие_личность #паспорта #паспорт #ocr #ocrтехнологии

#ocrтехнологии #ocr #паспорт #паспорта #документы_удостоверяющие_личность #распознавание_текста

Habr @[email protected] · 2025-06-24 · 14:42 UTC

HandReader и Znaki — лучшая архитектура и самый большой набор данных для распознавания русского дактиля

Всем привет! Ранее мы уже писали о нашем наборе данных Bukva — первом наборе данных для распознавания русского дактильного языка в изоляции, который содержит более 3 700 видеороликов, разделённых на 33 класса, каждый из которых соответствует одной букве русского алфавита. Эта статья посвящена распознаванию непрерывного дактильного языка. Мы расскажем о наших моделях, которые добиваются наилучших результатов на наборах данных непрерывного американского дактильного языка ChicagoFSWild и ChicagoFSWild+ , а также о нашем новом наборе данных Znaki — первом открытом наборе данных непрерывного русского дактильного языка, содержащем более 37 000 видео.

https://habr.com/ru/companies/sberbank/articles/921004/

#распознавание_изображений #машинное+обучение #глубокое_обучение #жестовый_язык

#распознавание_изображений #машинное #глубокое_обучение #жестовый_язык

Habr @[email protected] · 2025-05-29 · 17:52 UTC

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Привет, Хабр! В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь ) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло. Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML. Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы. Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

https://habr.com/ru/companies/contentai/articles/913152/

#ocr #распознавание_изображений #contentcapture

#contentcapture #распознавание_изображений #ocr

Habr @[email protected] · 2025-03-20 · 17:52 UTC

Технологии распознавания паспорта – 10 лет. Хабрология от Smart Engines

Десять лет назад, 17 марта 2015 года, мы опубликовали свой самый первый хабр . Тогда мы впервые представили городу и миру нашу технологию распознавания паспорта на мобильнике. Публика в комментах разделилась на два лагеря: одни сомневались в пользе решения, другие критиковали за недостаток возможностей и предлагали идеи по улучшению. Теперь, с высоты уже немалого времени докладываем: 1) идея себя оправдала и даже превзошла самые смелые ожидания; 2) работа по совершенствованию технологии была проделана; 3) работы было и будет очень много. Собрали для вас хайлайты этой увлекательной и яркой истории. Как это было?

https://habr.com/ru/companies/smartengines/articles/892420/

#ии #распознавание_образов #распознавание_изображений #распознавание_текста #распознавание_паспорта #документы #ocr #ocrтехнологии #компьютерное_зрение #программирование

#программирование #компьютерное_зрение #ocrтехнологии #ocr #документы #распознавание_паспорта

Habr @[email protected] · 2025-03-05 · 14:12 UTC

Распознавание день в день: как настроить шаблон нового документа без программирования

Привет, Хабр! Вы прекрасно знаете, что мы в Smart Engines непрерывно совершенствуем наши системы распознавания российского паспорта и других документов. Вместе с этим мы постоянно расширяем список документов, которые могут быть распознаны при помощи наших решений, – и будем делать это и дальше. Но что если бизнесу нужно оперативно настроить распознавание нового корпоративного документа с жесткой структурой? Сегодня такая потребность есть практически у любой организации. Можно прийти с этой задачей к нам, и мы обязательно поможем. Но есть и альтернативный сценарий – встроить возможность настройки распознавания к себе. Для этого мы выпустили специальный инструмент – дизайнер форм . С ним ждать никого не придется, а добавлять распознавание новых форм можно будет по мере их появления, буквально день в день . О нем мы сегодня и поговорим.

https://habr.com/ru/companies/smartengines/articles/888190/

#smart_engines #распознавание_образов #распознавание_изображений #документы #настройка_формы #ocr #ocrтехнологии #искусственный_интеллект #дизайнер #nocode

#nocode #дизайнер #искусственный_интеллект #ocrтехнологии #ocr #настройка_формы

Habr @[email protected] · 2025-02-16 · 22:12 UTC

А мы все видим

В библиотеке искусственного интеллекта для 1С появилась опция анализа изображения. Можно попросить большую языковую модель (LLM) выдать информацию на основании того, что она видит. Будет полезно познакомиться с тем, как это работает и что является best practice при работе с изображениями и LLM

https://habr.com/ru/articles/883054/

#искусственный_интеллект #распознавание_изображений #1с

#1с #распознавание_изображений #искусственный_интеллект

Habr @[email protected] · 2025-02-11 · 10:52 UTC

Разворачиваем простой OCR-сервер на Python

Тема компьютерного зрения достаточно обширна: в ней рассматриваются различные способы распознавания статичных изображений и видео. Однако многие из предлагаемых в интернете решений требуют повышенных вычислительных мощностей, сложного ПО и специального оборудования. В этой статье мы не будем рассматривать что‑то сложное, а вместо этого разберём создание простого сервера для распознавания изображений на Python.

https://habr.com/ru/companies/otus/articles/880038/

#computer_vision #ocrтехнологии #python #компьютерное_зрение #распознавание_изображений

#распознавание_изображений #компьютерное_зрение #python #ocrтехнологии #computer_vision

Habr @[email protected] · 2025-02-06 · 07:52 UTC

Распознавание снимков — почему нейросеть не лучший выбор, и как мне помог сервис распознаваний капчи — личный опыт

До определенного момента я свято верил в то, что в современном мире ручное распознавание капчи постепенно становится анахронизмом, особенно, когда речь идет о таких простых капчах - как капча картинка (где необходимо просто распознать текст на фотографии и ввести его в текстовом формате). Но знаете, оказалось все не так однозначно (как бы это ни звучало).

https://habr.com/ru/articles/879940/

#распознавание_изображений #распознавание_объектов

#распознавание_объектов #распознавание_изображений

Habr @[email protected] · 2024-10-17 · 17:42 UTC

Как мы перенесли распознавание на базе ИИ в веб и изменили веб-банкинг? В Markswebb оценили

Привет, Хабр! Недавно аналитическое агентство Markswebb выкатило ежегодный рейтинг лучших веб-версий банковских приложений в 2024 году. Эксперты сравнили удобство и функциональность использования банковских услуг в браузере и выбрали банки с лучшими веб-приложениями по качеству клиентского опыта. Лидирующие позиции в обеих номинациях рейтинга - «Цифровой офис» (Digital Office) и «Цифровой банк для повседневных операций» (Daily Banking) - заняли наши клиенты! Достичь крутых результатов удалось в том числе благодаря использованию систем распознавания Smart Engines . Рассказываем, как наши ИИ-решения помогли ведущим банкам поставить новые рекорды в сфере цифрового гостеприимства. Добро пожаловать!

https://habr.com/ru/companies/smartengines/articles/851476/

#распознавание_образов #распознавание_изображений #wasm #webassembly #банк #банкинг #ии #искусственный_интеллект #омниканальность #браузеры

#распознавание_образов #распознавание_изображений #wasm #webassembly #банк #банкинг

Habr @[email protected] · 2024-10-17 · 17:42 UTC

Как мы перенесли распознавание на базе ИИ в веб и изменили веб-банкинг? В Markswebb оценили

Привет, Хабр! Недавно аналитическое агентство Markswebb выкатило ежегодный рейтинг лучших веб-версий банковских приложений в 2024 году. Эксперты сравнили удобство и функциональность использования банковских услуг в браузере и выбрали банки с лучшими веб-приложениями по качеству клиентского опыта. Лидирующие позиции в обеих номинациях рейтинга - «Цифровой офис» (Digital Office) и «Цифровой банк для повседневных операций» (Daily Banking) - заняли наши клиенты! Достичь крутых результатов удалось в том числе благодаря использованию систем распознавания Smart Engines . Рассказываем, как наши ИИ-решения помогли ведущим банкам поставить новые рекорды в сфере цифрового гостеприимства. Добро пожаловать!

https://habr.com/ru/companies/smartengines/articles/851476/

#распознавание_образов #распознавание_изображений #wasm #webassembly #банк #банкинг #ии #искусственный_интеллект #омниканальность #браузеры

#распознавание_образов #распознавание_изображений #wasm #webassembly #банк #банкинг

Habr @[email protected] · 2024-10-17 · 17:42 UTC

Как мы перенесли распознавание на базе ИИ в веб и изменили веб-банкинг? В Markswebb оценили

Привет, Хабр! Недавно аналитическое агентство Markswebb выкатило ежегодный рейтинг лучших веб-версий банковских приложений в 2024 году. Эксперты сравнили удобство и функциональность использования банковских услуг в браузере и выбрали банки с лучшими веб-приложениями по качеству клиентского опыта. Лидирующие позиции в обеих номинациях рейтинга - «Цифровой офис» (Digital Office) и «Цифровой банк для повседневных операций» (Daily Banking) - заняли наши клиенты! Достичь крутых результатов удалось в том числе благодаря использованию систем распознавания Smart Engines . Рассказываем, как наши ИИ-решения помогли ведущим банкам поставить новые рекорды в сфере цифрового гостеприимства. Добро пожаловать!

https://habr.com/ru/companies/smartengines/articles/851476/

#распознавание_образов #распознавание_изображений #wasm #webassembly #банк #банкинг #ии #искусственный_интеллект #омниканальность #браузеры

#распознавание_образов #распознавание_изображений #wasm #webassembly #банк #банкинг

Habr @[email protected] · 2024-10-17 · 17:42 UTC

Как мы перенесли распознавание на базе ИИ в веб и изменили веб-банкинг? В Markswebb оценили

Привет, Хабр! Недавно аналитическое агентство Markswebb выкатило ежегодный рейтинг лучших веб-версий банковских приложений в 2024 году. Эксперты сравнили удобство и функциональность использования банковских услуг в браузере и выбрали банки с лучшими веб-приложениями по качеству клиентского опыта. Лидирующие позиции в обеих номинациях рейтинга - «Цифровой офис» (Digital Office) и «Цифровой банк для повседневных операций» (Daily Banking) - заняли наши клиенты! Достичь крутых результатов удалось в том числе благодаря использованию систем распознавания Smart Engines . Рассказываем, как наши ИИ-решения помогли ведущим банкам поставить новые рекорды в сфере цифрового гостеприимства. Добро пожаловать!

https://habr.com/ru/companies/smartengines/articles/851476/

#распознавание_образов #распознавание_изображений #wasm #webassembly #банк #банкинг #ии #искусственный_интеллект #омниканальность #браузеры

#браузеры #омниканальность #искусственный_интеллект #ии #банкинг #банк

Habr @[email protected] · 2024-10-09 · 11:42 UTC

OpenCV: компьютерное зрение на Python

Компьютерное зрение — это перспективное направление развития технологий, позволяющее обучить компьютер навыкам распознавания изображений и видео. С помощью компьютерного зрения компьютеры могут не только анализировать и понимать визуальную информацию, такую как изображения и видео, но и принимать решения на основе увиденного. Так автопилот, управляющий автомобилем, может анализировать изображения, поступающие с камер и принимать решения на основании данной информации. Компьютерное зрение на производстве позволяет выявлять износ различных деталей до того, как это приведет к поломке. В этой статье мы рассмотрим несколько примеров работы с компьютерным зрением с помощью бесплатной библиотеки OpenCV.

https://habr.com/ru/companies/otus/articles/849136/

#opencv #python #computer_vision #компьютерное_зрение #распознавание_изображений

Habr @[email protected] · 2024-10-04 · 09:02 UTC

Адские условия: Самый суровый краш-тест технологии распознавания паспорта

Как вы знаете, в ситуациях, когда необходимо быстро и безопасно обработать данные паспорта и любых других документов, технологии распознавания Smart Engines творят настоящие чудеса. Качеству и надежности нашей технологии доверяют лидеры цифровой трансформации: госведомства, ведущие банки, аэропорты, промышленность и бизнес. Мы ценим доверие наших клиентов, а для вас, дорогие читатели, решили наглядно показать эффективность наших систем. Так сказать, лучше один раз увидеть, чем сто раз услышать. Летс гоу!

https://habr.com/ru/companies/smartengines/articles/848130/

#распознавание_образов #распознавание_изображений #распознавание_текста #распознавание_паспорта #документы #ocrтехнологии #ocr #компьютерное_зрение #тест #smart_engines

#smart_engines #тест #компьютерное_зрение #ocr #ocrтехнологии #документы

Habr @[email protected] · 2024-09-19 · 14:22 UTC

Методы предпроцессинга в IDP-системе ITFB EasyDoc

Всем привет! На связи команда Data Science компании ITFB Group. У нашей компании есть собственная разработка ITFB EasyDoc — система распознавания и извлечения данных из любого типа документов. В современном мире автоматизация обработки документов стала неотъемлемой частью множества бизнес-процессов. Предобработка изображений документов является важным шагом для обеспечения точности и надежности дальнейшего распознавания атрибутов. В этой статье мы хотим рассказать о некоторых эффективных методах предпроцессинга документов, позволяющих увеличивать как качество OCR-систем (Optical Character Recognition), так и различные CV и NLP пайплайны. Всем, кому интересна эта тема, — добро пожаловать под кат.

https://habr.com/ru/companies/itfb/articles/844380/

#ocr #ocrтехнологии #распознавание #распознавание_изображений #распознавание_паспорта #распознавание_документов #распознавание_объектов #распознавание_номеров #распознавание_текста #idp

#idp #распознавание_текста #распознавание_номеров #распознавание_объектов #распознавание_документов #распознавание_паспорта

Habr @[email protected] · 2024-09-11 · 14:22 UTC

Софт на диете: как мы в DCAP OCR разгоняли

Привет! Мы в «СёрчИнформ» 20 лет создаем софт для защиты информации и постоянно его оптимизируем. Например, последовательно работаем над ресурсоемкостью продуктов (низкая нагрузка на оборудование – важное преимущество для заказчиков), и придумали в этом направлении много удачных (не только наше мнение) решений. Запускаем серию постов об этом. Сегодня – о том, как пересобрали архитектуру OCR в нашей DCAP-системе (файловом аудиторе), чтобы ускорить анализ изображений, не перегружая серверы и пользовательские ПК.

https://habr.com/ru/companies/searchinform/articles/842514/

#OCR #DCAP #сёрчинформ #fileauditor #распознавание_изображений #ресурсоемкость #оптимизация_производительности

#оптимизация_производительности #ресурсоемкость #распознавание_изображений #fileauditor #сёрчинформ #dcap

Habr @[email protected] · 2024-05-02 · 06:32 UTC

Камера с распознаванием лиц и стрельбой слезоточивым газом

На Kickstarter стартовал сбор заказов на камеру видео наблюдения, использующую технологию распознавания лиц и отпугивающую злоумышленников пейнтбольными шарами. Когда PaintCam замечает кого-то, кого не знает, то через динамик советует убираться. Если нарушитель решает остаться, включается обратный отсчет, а потом камера стреляет шариками с краской. Особо гуманистичные владельцы могут зарядить камеру снарядами со слезоточивым газом.

https://habr.com/ru/articles/811669/

#распознавание_изображений #камера #ии #промышленный_дизайн

#промышленный_дизайн #ии #камера #распознавание_изображений

Habr @[email protected] · 2024-04-24 · 06:42 UTC

Невероятный уровень «галлюцинирования» и проявление эмпатии от ChatGPT

Я много раз слышал о том, что ChatGPT галлюцинирует, то есть придумывает то, чего в реальности нет, но никогда с этим не сталкивался. Были какие-то неточности, но я их списывал на неактуальность базы данных или не замечал. Или как-то попросил его исправить грамматические ошибки, он их исправил, только зачем-то еще и текст в 2 раза сократил. На днях дочке задали выучить слова. Текст был написан от руки, и ей было трудно читать. Я подумал, что надо бы сделать печатные быквы и распечатать, переписывать не хотелось, решил использовать ChatGPT.

https://habr.com/ru/articles/809979/

#chatgpt #распознавание #распознавание_изображений #галлюцинации

#галлюцинации #распознавание_изображений #распознавание #chatgpt

Habr @[email protected] · 2024-02-21 · 17:12 UTC

Codia AI: скрины в дизайн и дизайн в код

Факт, что сейчас искусственный интеллект занимает центральное место в различных аспектах нашей повседневной жизни, делает его одной из самых важных и динамично развивающихся технологий нашего времени. Они поджидают нас и в автоматизации процессов, и в анализе данных, и в обработке естественного языка, и в медицинской диагностике, и в финансовых прогнозах и во многом другом. Но я бы хотела поговорить и о дизайне. Компания Codia, из технологического центра Сингапура, идет, нет, даже бежит на свет в темноте, в виде искусственного интеллекта. Команда предлагает нам интересные продукты: Codia AI Design и Codia AI Figma to code, где первый способен воспроизвести наш набросок и фотографию в драфт, а второй способен подобный драфт воспроизвести в код. Предлагаю рассмотреть эти плагины и концепцию их работы. Приступим(:

https://habr.com/ru/companies/bothub/articles/795143/

#искусственный_интеллект #figma #figma_plugin #распознавание_изображений

#распознавание_изображений #figma_plugin #figma #искусственный_интеллект

Habr @[email protected] · 2024-02-21 · 17:12 UTC

Codia AI: скрины в дизайн и дизайн в код

Факт, что сейчас искусственный интеллект занимает центральное место в различных аспектах нашей повседневной жизни, делает его одной из самых важных и динамично развивающихся технологий нашего времени. Они поджидают нас и в автоматизации процессов, и в анализе данных, и в обработке естественного языка, и в медицинской диагностике, и в финансовых прогнозах и во многом другом. Но я бы хотела поговорить и о дизайне. Компания Codia, из технологического центра Сингапура, идет, нет, даже бежит на свет в темноте, в виде искусственного интеллекта. Команда предлагает нам интересные продукты: Codia AI Design и Codia AI Figma to code, где первый способен воспроизвести наш набросок и фотографию в драфт, а второй способен подобный драфт воспроизвести в код. Предлагаю рассмотреть эти плагины и концепцию их работы. Приступим(:

https://habr.com/ru/companies/bothub/articles/795143/

#искусственный_интеллект #figma #figma_plugin #распознавание_изображений

#распознавание_изображений #figma_plugin #figma #искусственный_интеллект

Habr @[email protected] · 2023-12-11 · 15:17 UTC

Добавляем зрение, слух и голос в свой ChatGPT бот в Telegram

Поддержка преобразования речи в текст была в OpenAI API уже давно, а вот из текста в речь, а также распознавание изображений было добавлено совсем недавно. В связи с чем продолжаю свою серию туториалов по разработке собственного ChatGPT бота в Telegram.

https://habr.com/ru/articles/779742/

#ai #chatgpt #tts #распознавание_изображений #openai #телеграмбот #яндексоблако

#яндексоблако #телеграмбот #openai #распознавание_изображений #tts #chatgpt

Habr @[email protected] · 2023-12-11 · 15:17 UTC

Добавляем зрение, слух и голос в свой ChatGPT бот в Telegram

Поддержка преобразования речи в текст была в OpenAI API уже давно, а вот из текста в речь, а также распознавание изображений было добавлено совсем недавно. В связи с чем продолжаю свою серию туториалов по разработке собственного ChatGPT бота в Telegram.

https://habr.com/ru/articles/779742/

#ai #chatgpt #tts #распознавание_изображений #openai #телеграмбот #яндексоблако

#яндексоблако #телеграмбот #openai #распознавание_изображений #tts #chatgpt