home.social

#paddleocr — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #paddleocr, aggregated by home.social.

  1. Быстрый OCR на основе Paddle

    Распознать текст на скане документа – задача не новая. А вот уложиться в пару секунд на CPU – уже вызов. Там, где готовые фреймворки долго "думают", я сделала своё OCR решение на основе PaddleOCR с конвертацией в ONNX. В этой статье я расскажу почему в качестве ядра был выбран Paddle, и как работает весь алгоритм на основе его моделей.

    habr.com/ru/articles/1037868/

    #ocr #компьютерное_зрение #onnxruntime #paddleocr

  2. @alerque

    In the first stage, I'm using #PaddleOCR

    github.com/PaddlePaddle/Paddle

    Their doc says they support Windows, macOS and Linux. For simplicity, I wrapped the python dependency into podman/docker, so it's Linux-only for now. If there are potential users other than me, I guess it won't be too hard to make it cross platform.

    github.com/Endle/beanbeaver-ocr

    Before PaddleOCR, I first tried #docTR

    github.com/mindee/doctr

    Some Reddit posts claimed that docTR was the best. It was pretty well for English (Latin characters), but it doesn't support Chinese. It would try to recognize a Chinese character as a combination of Latin characters with a relatively high confidence.

    PaddleOCR supports Chinese recognize, but I turned it to English-only mode. For the T&T receipt I showed, PaddleOCR provides a very low confidence to Chinese words (github.com/Endle/beanbeaver/bl), so beanbeaver can parse this bilingual receipt by the English parts

  3. PaddleOCR‑VL 1.5 vừa được phát hành, cập nhật mạnh mẽ với cải tiến hiệu năng nhận dạng văn bản & hình ảnh. Đây là tin tốt cho cộng đồng AI và Computer Vision! #PaddleOCR #OCR #ComputerVision #AI #NhậnDạngVănBản #CôngNghệ #AIcôngNghệ #VisionAI

    reddit.com/r/LocalLLaMA/commen

  4. 🎉 Oh, joy! Another tool promising to revolutionize your life by converting PDFs into a smorgasbord of formats you never knew you needed. 🤖✨ Complete with buzzword bingo: #PaddleOCR, #LLM, TypeScript SDK, and WebSocket updates! Don't forget to remind your grandma to self-host it! 😂🙄
    github.com/majcheradam/ocrbase #PDFconversion #TypeScriptSDK #selfhosting #HackerNews #ngated

  5. Ehmm...... "Error initializing OCR engine 'paddleocr': PaddlePaddle is not available. PaddlePaddle does not support Python 3.10 yet. Please use Python 3.8-3.12 for PaddleOCR support, or use Tesseract instead." #paddleocr #python

  6. Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

    Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе. Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

    habr.com/ru/articles/966846/

    #ocr #распознавание_текста #vlm #llm #мультимодальные_модели #qwen3 #gemma3 #paddleocr

  7. Mô hình PaddleOCR-VL đã được tinh chỉnh để nhận diện văn bản trong manga Nhật Bản! Độ chính xác đạt 70% (từ 27%), xử lý tốt các bong bóng thoại và font chữ cách điệu. Bước tiến lớn cho OCR chuyên biệt.
    #OCR #Manga #JapaneseManga #AI #MachineLearning #PaddleOCR #ComputerVision
    #NhậnDạngVănBản #MangaNhật #TríTuệNhânTạo #HọcMáy

    reddit.com/r/LocalLLaMA/commen

  8. When processed with #PaddleOCR VL, we get :

    Azniq n Umeyras Wanuyi Muhend L£id

    instead of :

    Azniq n Umeɣras Wanuɣi Muḥend Lɛid

  9. 关于PaddleOCR-VL和PaddleOCR对数学类书籍识别的对比 利用PaddleOCR-VL对小蓝本进行OCR,比PaddleOCR有明显进步。 之前 成功安装PaddleOCR-VL之后,就尝试使用再...

    #AI #AI #OCR #PaddleOCR-VL #PaddleOCR

    Origin | Interest | Match
  10. 关于PaddleOCR-VL和PaddleOCR对数学类书籍识别的对比 利用PaddleOCR-VL对小蓝本进行OCR,比PaddleOCR有明显进步。 之前 成功安装PaddleOCR-VL之后,就尝试使用再...

    #AI #AI #OCR #PaddleOCR #PaddleOCR-VL

    Origin | Interest | Match
  11. 关于PaddleOCR-VL和PaddleOCR对数学类书籍识别的对比 利用PaddleOCR-VL对小蓝本进行OCR,比PaddleOCR有明显进步。 之前 成功安装PaddleOCR-VL之后,就尝试使用再...

    #AI #AI #OCR #PaddleOCR #PaddleOCR-VL

    Origin | Interest | Match
  12. 关于PaddleOCR-VL和PaddleOCR对数学类书籍识别的对比 利用PaddleOCR-VL对小蓝本进行OCR,比PaddleOCR有明显进步。 之前 成功安装PaddleOCR-VL之后,就尝试使用再...

    #AI #AI #OCR #PaddleOCR-VL #PaddleOCR

    Origin | Interest | Match
  13. 关于PaddleOCR-VL和PaddleOCR对数学类书籍识别的对比 利用PaddleOCR-VL对小蓝本进行OCR,比PaddleOCR有明显进步。 之前 成功安装PaddleOCR-VL之后,就尝试使用再...

    #AI #AI #OCR #PaddleOCR #PaddleOCR-VL

    Origin | Interest | Match
  14. Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

    Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи. Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала. В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.

    habr.com/ru/articles/951016/

    #машинное+обучение #computer_vision #yolov8 #ocr #paddleocr #нейросети #обработка_изображений #цифровая_трансформация #автоматизация #промышленность

  15. Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

    Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи. Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала. В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.

    habr.com/ru/articles/951016/

    #машинное+обучение #computer_vision #yolov8 #ocr #paddleocr #нейросети #обработка_изображений #цифровая_трансформация #автоматизация #промышленность

  16. Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

    Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи. Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала. В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.

    habr.com/ru/articles/951016/

    #машинное+обучение #computer_vision #yolov8 #ocr #paddleocr #нейросети #обработка_изображений #цифровая_трансформация #автоматизация #промышленность

  17. Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

    Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи. Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала. В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.

    habr.com/ru/articles/951016/

    #машинное+обучение #computer_vision #yolov8 #ocr #paddleocr #нейросети #обработка_изображений #цифровая_трансформация #автоматизация #промышленность

  18. Распознавание текста на изображении и общение с распознанным текстом. Paddle OCR + LLM

    Данная статья описывает процесс создания проложения для распознавания текста на изображении и общения с распознанным текстом. В процессе разработки используются: Язык: Python Оптическое Распознавание Символов(OCR): Paddle OCR Площадка для языковой модели: Ollama Большая языковая модель(LLM): qwen2:7b Сетевой фреймворк для API: FastAPI

    habr.com/ru/articles/933634/

    #ocr #optical_recognition #llm #большие_языковые_модели #ollama #paddlepaddle #paddleocr #ollama_python_librar #qwen

  19. Создание искусственного датасета для обучения модели с использованием Paddle OCR

    Привет, коллеги! Продолжаем тему разработки плагина для распознавания иврита с использованием Paddle OCR. В прошлый раз я забыла представиться, сделаю это в этом посте) Меня зовут Алексей, я руковожу компанией, которая занимается разработкой с применением ИИ-технологий. Сам я тоже погружен в разработку, но больше доверяю это своей команде – нам удалось собрать команду классных профи. Истории из нашей совместной работы я и планирую рассказывать в своем блоге. Вернемся к теме статьи. Сегодня остановимся подробнее на создании искусственного датасета для обучения модели с использованием Paddle OCR. Этим занимался мой коллега Александр – экспертв компьютерном зрении. Когда перед нами встала задача распознавания текста на иврите, стало ясно, что найти готовый датасет с нужными характеристиками практически невозможно. Это подтолкнуло нас к созданию собственного датасета, который оказался не только полезным, но и дал возможность потренироваться в генерации синтетических данных. В этом посте мы подробно расскажем, как именно подошли к этому процессу.

    habr.com/ru/articles/839326/

    #искусственный_интеллект #компьютерное_зрение #распознавание_текста #paddleocr #tesseract #датасет #аугментация_данных

  20. Создание плагина для распознавания текста на иврите: мой опыт и решения

    Всем привет! Хочу поделиться недавним проектом, в котором я разрабатывал плагин для распознавания текста на иврите. Задача была непростая, особенно учитывая, что клиент уже пытался использовать Tesseract OCR, но точность распознавания оставляла желать лучшего. В этой статье расскажу о том, с какими трудностями я столкнулся и как их преодолел.

    habr.com/ru/articles/836714/

    #искусственный_интеллект #ocrтехнологии #распознавание_текста #paddleocr #tesseract_ocr #python #датасет #аугментация #easyocr

  21. Up until this week, I'd never hit an issue writing and testing Python code on my laptop, and then running it on my #raspberrypi, but I've hit some challenges with the latest revision of my bicycle dashcam ( github.com/raudette/SmartDashc ). It seems like the python OCR library I've picked, #paddleocr, does not just work out of the box on ARM64. Might have to choose another OCR engine.