home.social

#ocr — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #ocr, aggregated by home.social.

  1. Regex vs. LLM for B2B document extraction. This week, I tried out both.

    :blobcoffee: The rule-based pipeline with pytesseract + regex worked perfectly for Layout A. For Layout B? Every single field returned None.

    :blobcoffee: Because "PO Number" and "Order Reference" are the same thing for a human. Not for a regex pattern.

    :blobcoffee: The LLM-based approach (pytesseract + Ollama + LLaMA 3) extracted both layouts correctly, without touching a single rule. It even normalized the date format automatically.

    :blobcoffee: But LLMs aren't always the right answer. If your documents are stable, speed matters at scale, or explainability is required, regex might still win.

    Full comparison with code and trade-off breakdown on TDS: shorturl.at/v4gdl

  2. Regex vs. LLM for B2B document extraction. This week, I tried out both.

    :blobcoffee: The rule-based pipeline with pytesseract + regex worked perfectly for Layout A. For Layout B? Every single field returned None.

    :blobcoffee: Because "PO Number" and "Order Reference" are the same thing for a human. Not for a regex pattern.

    :blobcoffee: The LLM-based approach (pytesseract + Ollama + LLaMA 3) extracted both layouts correctly, without touching a single rule. It even normalized the date format automatically.

    :blobcoffee: But LLMs aren't always the right answer. If your documents are stable, speed matters at scale, or explainability is required, regex might still win.

    Full comparison with code and trade-off breakdown on TDS: shorturl.at/v4gdl

    #Python #DataScience #business #technology #dataengineering #LLM #Automation #OCR

  3. Regex vs. LLM for B2B document extraction. This week, I tried out both.

    :blobcoffee: The rule-based pipeline with pytesseract + regex worked perfectly for Layout A. For Layout B? Every single field returned None.

    :blobcoffee: Because "PO Number" and "Order Reference" are the same thing for a human. Not for a regex pattern.

    :blobcoffee: The LLM-based approach (pytesseract + Ollama + LLaMA 3) extracted both layouts correctly, without touching a single rule. It even normalized the date format automatically.

    :blobcoffee: But LLMs aren't always the right answer. If your documents are stable, speed matters at scale, or explainability is required, regex might still win.

    Full comparison with code and trade-off breakdown on TDS: shorturl.at/v4gdl

    #Python #DataScience #business #technology #dataengineering #LLM #Automation #OCR

  4. Regex vs. LLM for B2B document extraction. This week, I tried out both.

    :blobcoffee: The rule-based pipeline with pytesseract + regex worked perfectly for Layout A. For Layout B? Every single field returned None.

    :blobcoffee: Because "PO Number" and "Order Reference" are the same thing for a human. Not for a regex pattern.

    :blobcoffee: The LLM-based approach (pytesseract + Ollama + LLaMA 3) extracted both layouts correctly, without touching a single rule. It even normalized the date format automatically.

    :blobcoffee: But LLMs aren't always the right answer. If your documents are stable, speed matters at scale, or explainability is required, regex might still win.

    Full comparison with code and trade-off breakdown on TDS: shorturl.at/v4gdl

    #Python #DataScience #business #technology #dataengineering #LLM #Automation #OCR

  5. Regex vs. LLM for B2B document extraction. This week, I tried out both.

    :blobcoffee: The rule-based pipeline with pytesseract + regex worked perfectly for Layout A. For Layout B? Every single field returned None.

    :blobcoffee: Because "PO Number" and "Order Reference" are the same thing for a human. Not for a regex pattern.

    :blobcoffee: The LLM-based approach (pytesseract + Ollama + LLaMA 3) extracted both layouts correctly, without touching a single rule. It even normalized the date format automatically.

    :blobcoffee: But LLMs aren't always the right answer. If your documents are stable, speed matters at scale, or explainability is required, regex might still win.

    Full comparison with code and trade-off breakdown on TDS: shorturl.at/v4gdl

    #Python #DataScience #business #technology #dataengineering #LLM #Automation #OCR

  6. Si vous avez besoin d'un scanner de document qui fasse de l'ocr sur Android, libre évidemment, OSS document scanner a l'air de faire un job correct.
    Multilingue, le texte est disponible en surimpression du document et peut être exporté.

    apt.izzysoft.de/packages/com.a

    :boost_requested:

    #android #oss #ocr

  7. Si vous avez besoin d'un scanner de document qui fasse de l'ocr sur Android, libre évidemment, OSS document scanner a l'air de faire un job correct.
    Multilingue, le texte est disponible en surimpression du document et peut être exporté.

    apt.izzysoft.de/packages/com.a

    :boost_requested:

    #android #oss #ocr

  8. Si vous avez besoin d'un scanner de document qui fasse de l'ocr sur Android, libre évidemment, OSS document scanner a l'air de faire un job correct.
    Multilingue, le texte est disponible en surimpression du document et peut être exporté.

    apt.izzysoft.de/packages/com.a

    :boost_requested:

    #android #oss #ocr

  9. Si vous avez besoin d'un scanner de document qui fasse de l'ocr sur Android, libre évidemment, OSS document scanner a l'air de faire un job correct.
    Multilingue, le texte est disponible en surimpression du document et peut être exporté.

    apt.izzysoft.de/packages/com.a

    :boost_requested:

    #android #oss #ocr

  10. Извлечение параметров из 2D-чертежей: 6 YOLO-моделей, кастомный OCR и стрелочная логика

    PDF‑чертёж кажется простым документом, пока не нужно автоматически вытащить из него всё, что влияет на стоимость изготовления детали : габариты, диаметры, резьбы, квалитеты, шероховатости, материал, массу и тип детали. Мы собрали для этого пайплайн из детекции, OCR и инженерной логики: научили систему находить проекции, отделять контур детали от служебных линий, связывать стрелки с размерами и превращать чертёж в JSON для калькулятора стоимости. В статье разбираем архитектуру решения, узкие места и приёмы, которые реально сработали на производственных чертежах. Читать кейс

    habr.com/ru/articles/1033824/

    #ocr #ocrтехнологии #детекция_текста #распознавание_документов #машинное_зрение #компьютерное_зрение #обработка_изображений #инженерная_оптимизация

  11. Извлечение параметров из 2D-чертежей: 6 YOLO-моделей, кастомный OCR и стрелочная логика

    PDF‑чертёж кажется простым документом, пока не нужно автоматически вытащить из него всё, что влияет на стоимость изготовления детали : габариты, диаметры, резьбы, квалитеты, шероховатости, материал, массу и тип детали. Мы собрали для этого пайплайн из детекции, OCR и инженерной логики: научили систему находить проекции, отделять контур детали от служебных линий, связывать стрелки с размерами и превращать чертёж в JSON для калькулятора стоимости. В статье разбираем архитектуру решения, узкие места и приёмы, которые реально сработали на производственных чертежах. Читать кейс

    habr.com/ru/articles/1033824/

    #ocr #ocrтехнологии #детекция_текста #распознавание_документов #машинное_зрение #компьютерное_зрение #обработка_изображений #инженерная_оптимизация

  12. Извлечение параметров из 2D-чертежей: 6 YOLO-моделей, кастомный OCR и стрелочная логика

    PDF‑чертёж кажется простым документом, пока не нужно автоматически вытащить из него всё, что влияет на стоимость изготовления детали : габариты, диаметры, резьбы, квалитеты, шероховатости, материал, массу и тип детали. Мы собрали для этого пайплайн из детекции, OCR и инженерной логики: научили систему находить проекции, отделять контур детали от служебных линий, связывать стрелки с размерами и превращать чертёж в JSON для калькулятора стоимости. В статье разбираем архитектуру решения, узкие места и приёмы, которые реально сработали на производственных чертежах. Читать кейс

    habr.com/ru/articles/1033824/

    #ocr #ocrтехнологии #детекция_текста #распознавание_документов #машинное_зрение #компьютерное_зрение #обработка_изображений #инженерная_оптимизация

  13. Извлечение параметров из 2D-чертежей: 6 YOLO-моделей, кастомный OCR и стрелочная логика

    PDF‑чертёж кажется простым документом, пока не нужно автоматически вытащить из него всё, что влияет на стоимость изготовления детали : габариты, диаметры, резьбы, квалитеты, шероховатости, материал, массу и тип детали. Мы собрали для этого пайплайн из детекции, OCR и инженерной логики: научили систему находить проекции, отделять контур детали от служебных линий, связывать стрелки с размерами и превращать чертёж в JSON для калькулятора стоимости. В статье разбираем архитектуру решения, узкие места и приёмы, которые реально сработали на производственных чертежах. Читать кейс

    habr.com/ru/articles/1033824/

    #ocr #ocrтехнологии #детекция_текста #распознавание_документов #машинное_зрение #компьютерное_зрение #обработка_изображений #инженерная_оптимизация

  14. Verwundetenlisten Österreich-Ungarn im Ersten Weltkrieg

    Die Verwundetenlisten Östereich-Ungarn im Ersten Weltkrieg, deren Erfassung im Herbst 2025 gestartet wurde, erzählen weit mehr, als der Titel zunächst vermuten lässt. Sie dokumentieren nicht nur Verwundungen, Krankheiten und Todesfälle, sondern geben auch Einblicke in die Lebenssituationen der ersten Kriegswochen und -monate im gesamten Habsburgerreich – einem Staat, der damals fast doppelt so groß war wie das heutige Deutschland. Aus den bisher 18,6 Prozent der per Zeichenerkennung […]

    compgen.de/2026/05/verwundeten

  15. Verwundetenlisten Österreich-Ungarn im Ersten Weltkrieg

    Die Verwundetenlisten Östereich-Ungarn im Ersten Weltkrieg, deren Erfassung im Herbst 2025 gestartet wurde, erzählen weit mehr, als der Titel zunächst vermuten lässt. Sie dokumentieren nicht nur Verwundungen, Krankheiten und Todesfälle, sondern geben auch Einblicke in die Lebenssituationen der ersten Kriegswochen und -monate im gesamten Habsburgerreich – einem Staat, der damals fast doppelt so groß war wie das heutige Deutschland. Aus den bisher 18,6 Prozent der per Zeichenerkennung […]

    compgen.de/2026/05/verwundeten

  16. Les chinois :

    - Désolé butterfly, bien que notre modèle ne supporte pas encore ta langue de papillon, nous aimerons bien l'intégrer si tu …

    - Écoutes nous avons un concours de finetuning, si tu veux, on te fournit l'Infra et 20 000 Yuan Renminbi si tu arrives à créer ton modèle vers « ton kabyle ».

    😅

    Et en Algérie ? Pourquoi l'Algérie ne propose pas des concours pour ces langues de « couscous » ? J'aimerais bien savoir.

    #OCR

  17. Les chinois :

    - Désolé butterfly, bien que notre modèle ne supporte pas encore ta langue de papillon, nous aimerons bien l'intégrer si tu …

    - Écoutes nous avons un concours de finetuning, si tu veux, on te fournit l'Infra et 20 000 Yuan Renminbi si tu arrives à créer ton modèle vers « ton kabyle ».

    😅

    Et en Algérie ? Pourquoi l'Algérie ne propose pas des concours pour ces langues de « couscous » ? J'aimerais bien savoir.

    #OCR

  18. Les chinois :

    - Désolé butterfly, bien que notre modèle ne supporte pas encore ta langue de papillon, nous aimerons bien l'intégrer si tu …

    - Écoutes nous avons un concours de finetuning, si tu veux, on te fournit l'Infra et 20 000 Yuan Renminbi si tu arrives à créer ton modèle vers « ton kabyle ».

    😅

    Et en Algérie ? Pourquoi l'Algérie ne propose pas des concours pour ces langues de « couscous » ? J'aimerais bien savoir.

    #OCR

  19. Les chinois :

    - Désolé butterfly, bien que notre modèle ne supporte pas encore ta langue de papillon, nous aimerons bien l'intégrer si tu …

    - Écoutes nous avons un concours de finetuning, si tu veux, on te fournit l'Infra et 20 000 Yuan Renminbi si tu arrives à créer ton modèle vers « ton kabyle ».

    😅

    Et en Algérie ? Pourquoi l'Algérie ne propose pas des concours pour ces langues de « couscous » ? J'aimerais bien savoir.

    #OCR

  20. Les chinois :

    - Désolé butterfly, bien que notre modèle ne supporte pas encore ta langue de papillon, nous aimerons bien l'intégrer si tu …

    - Écoutes nous avons un concours de finetuning, si tu veux, on te fournit l'Infra et 20 000 Yuan Renminbi si tu arrives à créer ton modèle vers « ton kabyle ».

    😅

    Et en Algérie ? Pourquoi l'Algérie ne propose pas des concours pour ces langues de « couscous » ? J'aimerais bien savoir.

    #OCR

  21. Wenn dir nach einem ToughMudder nicht alles weh tut, warst du nicht dabei. 💪

    #ToughMudder #OCR #runnersofmastodon

  22. Wenn dir nach einem ToughMudder nicht alles weh tut, warst du nicht dabei. 💪

    #ToughMudder #OCR #runnersofmastodon

  23. Can anyone point me to a serious #OCR /document-reading stack that actually works?

    I’m not looking for Tesseract/OCRmyPDF/Paperless/Stirling-style OCR. I’m looking for self-hostable vision-language OCR or document AI: printed documents only, no handwriting, but strong on bad scans, tables, columns, forms and layout. Hardware is negotiable; accuracy is not.

    Is there a known model/server/pipeline/GPU setup approaching ChatGPT/Claude OCR, or is this becoming another cloud API/token lock-in?

  24. Can anyone point me to a serious /document-reading stack that actually works?

    I’m not looking for Tesseract/OCRmyPDF/Paperless/Stirling-style OCR. I’m looking for self-hostable vision-language OCR or document AI: printed documents only, no handwriting, but strong on bad scans, tables, columns, forms and layout. Hardware is negotiable; accuracy is not.

    Is there a known model/server/pipeline/GPU setup approaching ChatGPT/Claude OCR, or is this becoming another cloud API/token lock-in?

  25. Can anyone point me to a serious #OCR /document-reading stack that actually works?

    I’m not looking for Tesseract/OCRmyPDF/Paperless/Stirling-style OCR. I’m looking for self-hostable vision-language OCR or document AI: printed documents only, no handwriting, but strong on bad scans, tables, columns, forms and layout. Hardware is negotiable; accuracy is not.

    Is there a known model/server/pipeline/GPU setup approaching ChatGPT/Claude OCR, or is this becoming another cloud API/token lock-in?

  26. Can anyone point me to a serious #OCR /document-reading stack that actually works?

    I’m not looking for Tesseract/OCRmyPDF/Paperless/Stirling-style OCR. I’m looking for self-hostable vision-language OCR or document AI: printed documents only, no handwriting, but strong on bad scans, tables, columns, forms and layout. Hardware is negotiable; accuracy is not.

    Is there a known model/server/pipeline/GPU setup approaching ChatGPT/Claude OCR, or is this becoming another cloud API/token lock-in?

  27. Can anyone point me to a serious #OCR /document-reading stack that actually works?

    I’m not looking for Tesseract/OCRmyPDF/Paperless/Stirling-style OCR. I’m looking for self-hostable vision-language OCR or document AI: printed documents only, no handwriting, but strong on bad scans, tables, columns, forms and layout. Hardware is negotiable; accuracy is not.

    Is there a known model/server/pipeline/GPU setup approaching ChatGPT/Claude OCR, or is this becoming another cloud API/token lock-in?

  28. @Quenti @azwaw @Taflelli Mise à jour :

    PaddlePaddle ne peut pas accepter ma PR.
    Iels proposent par contre à quiconque désirant créer un modèle #OCR en kabyle de participer au 10ème hackaton OCR.

    En prime : 20 000 RMB Yuan Renminbi.

    github.com/PaddlePaddle/Paddle

  29. @Quenti @azwaw @Taflelli Mise à jour :

    PaddlePaddle ne peut pas accepter ma PR.
    Iels proposent par contre à quiconque désirant créer un modèle #OCR en kabyle de participer au 10ème hackaton OCR.

    En prime : 20 000 RMB Yuan Renminbi.

    github.com/PaddlePaddle/Paddle

  30. @Quenti @azwaw @Taflelli Mise à jour :

    PaddlePaddle ne peut pas accepter ma PR.
    Iels proposent par contre à quiconque désirant créer un modèle #OCR en kabyle de participer au 10ème hackaton OCR.

    En prime : 20 000 RMB Yuan Renminbi.

    github.com/PaddlePaddle/Paddle

  31. @Quenti @azwaw @Taflelli Mise à jour :

    PaddlePaddle ne peut pas accepter ma PR.
    Iels proposent par contre à quiconque désirant créer un modèle #OCR en kabyle de participer au 10ème hackaton OCR.

    En prime : 20 000 RMB Yuan Renminbi.

    github.com/PaddlePaddle/Paddle

  32. @Quenti @azwaw @Taflelli Mise à jour :

    PaddlePaddle ne peut pas accepter ma PR.
    Iels proposent par contre à quiconque désirant créer un modèle #OCR en kabyle de participer au 10ème hackaton OCR.

    En prime : 20 000 RMB Yuan Renminbi.

    github.com/PaddlePaddle/Paddle

  33. Is there no #FOSS #OCR site as good as what the big tech cos can offer with their LLM and VLM tools which are charged for or read your data? Is FOSS in any way making headroads into #FOSSLLMmodels #fossvlmmodels ?

  34. Is there no site as good as what the big tech cos can offer with their LLM and VLM tools which are charged for or read your data? Is FOSS in any way making headroads into ?

  35. Is there no #FOSS #OCR site as good as what the big tech cos can offer with their LLM and VLM tools which are charged for or read your data? Is FOSS in any way making headroads into #FOSSLLMmodels #fossvlmmodels ?

  36. Is there no #FOSS #OCR site as good as what the big tech cos can offer with their LLM and VLM tools which are charged for or read your data? Is FOSS in any way making headroads into #FOSSLLMmodels #fossvlmmodels ?

  37. Is there no #FOSS #OCR site as good as what the big tech cos can offer with their LLM and VLM tools which are charged for or read your data? Is FOSS in any way making headroads into #FOSSLLMmodels #fossvlmmodels ?

  38. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  39. Is there a FOSS model that does using machine vision learning tricks to get text of tricky docs where fails? Using to get & co to do it is stomach-turning....

  40. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  41. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  42. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  43. OneOCR — скрытая OCR внутри Windows 11

    OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.

    habr.com/ru/articles/1032188/

    #ocr #ml

  44. OneOCR — скрытая OCR внутри Windows 11

    OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.

    habr.com/ru/articles/1032188/

    #ocr #ml

  45. OneOCR — скрытая OCR внутри Windows 11

    OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.

    habr.com/ru/articles/1032188/

    #ocr #ml