home.social

#tesseract_ocr — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #tesseract_ocr, aggregated by home.social.

  1. Pdf-extract-API

    Проект предлагает инструмент для конвертации изображений и PDF-файлов в текст форматов Markdown и JSON с высокой точностью, включая поддержку табличных данных и математических формул.

    Он основан на FastAPI, использует Celery для асинхронной обработки и Redis для кэширования результатов OCR, предоставляя различные стратегии для конвертации, такие как Marker, Surya-OCR и Tesseract, а также возможность удаления персонально идентифицируемой информации.

    src: github.com/CatchTheTornado/pdf

    #blacktriangle #opensorce #github #OCR #tesseract_ocr #tesseract #markdown #pdf #fastapi #json #marker #Surya-OCR #Celery

  2. Создание плагина для распознавания текста на иврите: мой опыт и решения

    Всем привет! Хочу поделиться недавним проектом, в котором я разрабатывал плагин для распознавания текста на иврите. Задача была непростая, особенно учитывая, что клиент уже пытался использовать Tesseract OCR, но точность распознавания оставляла желать лучшего. В этой статье расскажу о том, с какими трудностями я столкнулся и как их преодолел.

    habr.com/ru/articles/836714/

    #искусственный_интеллект #ocrтехнологии #распознавание_текста #paddleocr #tesseract_ocr #python #датасет #аугментация #easyocr