home.social

#imagetotext — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #imagetotext, aggregated by home.social.

  1. OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

    Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions . В этой статье расскажу про свой опыт работы с HunyuanOCR end-to-end моделью от Tencent для распознавания текста на 1B параметров. Несмотря на громкие заявления о «SOTA-результатах» и компактности, в публичных обзорах практически не описано, как эта модель ведет себя в реальных задачах: с чем приходится столкнуться при настройке окружения, почему она может уйти в бесконечное зацикливание и как заставить её эффективно парсить сложные таблицы на обычном «железе». Поделюсь результатами своих экспериментов, покажу боевые промпты и объясню, в каких сценариях этот OCR-инструмент реально помогает экономить время, а где лучше даже не пытаться его использовать.

    habr.com/ru/companies/raft/art

    #ocr #document #ocrтехнологии #ocr_распознавание_документов #document_parsing #распознавание_текста #обработка_документов #таблицы #сканы #imagetotext

  2. Janus Pro от DeepSeek: стоит ли она внимания? Сравнение генерации и объяснений с Dalle-3 и SD3

    Появились первые тесты новой нейросети Janus — эта модель не только генерирует изображения, но и анализирует их, объясняя детали и делая осмысленные комментарии. В этой статье мы разберёмся, как Janus Pro (7B) справляется с генерацией изображений по сравнению с Stable Diffusion 3 (Medium) и Dall-3 , а также кто лучше анализирует и комментирует изображения — Janus Pro или Dalle-3 . Ну что, готовы? Тогда погнали!

    habr.com/ru/companies/bothub/a

    #ai #ии #janus #deepseek #генерация_изображений #анализ_изображений #texttoimage #imagetotext

  3. Can't Ctrl+C something because it's baked to pixels? Now you can!

    NormCap is an unusual screen capture tool. It doesn't capture images, but extracts *text* from a selected area of your screen.

    dynobo.github.io/normcap/

    #Productivity #OCR #ScreenCapture #Screenshot #TextCapture #NormCap #ImageToText