home.social

#docx — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #docx, aggregated by home.social.

  1. Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек

    Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)

    habr.com/ru/articles/1025626/

    #python #flask # #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация

  2. Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек

    Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)

    habr.com/ru/articles/1025626/

    #python #flask # #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация

  3. Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек

    Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)

    habr.com/ru/articles/1025626/

    #python #flask # #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация

  4. Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек

    Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)

    habr.com/ru/articles/1025626/

    #python #flask # #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация

  5. CW: На днях появился BlueHammer — опубликованный прототип уязвимости нулевого дня в Windows-системах. Позволяет повысить права (привелегии) в системе до уровня учётной записи SYSTEM или расширенных админских.
    Уязвимость нулевого дня оказалась опубликована вместе с протипом (примером) использования. Опубликовано человеком (Chaotic Eclipse), которому не удалось сообщить о проблеме через официальные каналы Microsoft, потому что соответствующее подразделение (MSRC) захотело прямо аж видео с подтверждением работоспособности данной уязвимости. Отказываясь иначе вести диалог и принимать информацию к сведению.

    Это тот апофеоз тотальной идиотии, который преобладает в Microsoft последние 10+ лет. Ниже расписано более детально по этой теме.
    Очередное дно пробито, но это не первый раз, а стабильность — это верный признак мастерства.
    Нет такого, что Linux или BSD-системы вдруг стали модными и популярными, это людям приходится уходить с Windows-систем из-за такого качества работы Microsoft.

    #bluehammer #microsoft #windows #cve #lang_ru @Russia

    RE: https://hub.hubzilla.de/item/fadba136-52e4-46e3-9101-5d8c7b0d61fb
  6. Open Document Format

    Voor wie zijn hele digitale bestaan zich afspeelt binnen het ecosysteem van Microsoft Windows is dit waarschijnlijk hogere wiskunde. Maar voor Linuxgebruikers is het een subtiele triomf. LibreOffice opent .odf, .docx, .doc, en desnoods iets wat in 1997 op een floppy is opgeslagen.

    Lees de gehele #column >> morpurgomedia.nl/columns-blogs

    #linux #mint #kernel #update #changelogs #laptop #LibreOffice #Microsoft #office #odf #docx #MorpurgoMedia

  7. #LibreOffice 26.2.1 bringt über 70 Korrekturen - #fosstopia:

    #LibreOffice26.2.1 steht bereit und liefert viele Korrekturen für alle drei großen Desktop Systeme. Die Aktualisierung konzentriert sich stark auf eine bessere Zusammenarbeit mit #Microsoft #Office und behebt zahlreiche Fehler, die beim Austausch von Dokumenten auftraten. Besonders betroffen waren beschädigte #DOCX Dateien und fehlerhafte Formatierungen in komplexen Texten.

    fosstopia.de/libreoffice-26-2-

  8. Книга в Markdown: Автоматическая сборка статического сайта mdBook и файла DOCX с оформлением по ГОСТ

    Текст книг, учебных пособий, научно-технических статей, документации, дипломных и курсовых работ часто набирается и редактируется в WYSIWYG-редакторе, таком как Microsoft Word, в том числе вследствие того, что издательства и организации требуют от авторов оформленный по ГОСТ или внутренним стандартам docx-документ. Процесс работы в Microsoft Word и аналогичных редакторах не лишён недостатков: docx-файлы трудно версионировать в git, а для объединения нескольких документов в один придётся перенумеровывать источники, рисунки, таблицы, формулы. Альтернативой docx является LaTeX. Однако работа со стилями в LaTeX простотой и минималистичным синтаксисом не отличается , причём издательства от использования формата docx отказываться не торопятся. А инструменты в духе typst отличаются нестандартным синтаксисом языка для описания документов, причём возможность генерации сайтов в typst имеет пометку «in preview». Markdown — популярный и удобный язык разметки, но это также и очень ограниченный формат. Поэтому задача написания в Markdown сложной технической документации по ГОСТ, научной статьи с автоматической настройкой оформления для заданного издательства или хорошо оформленного онлайн-учебника может показаться неосуществимой. В этой статье рассмотрим способ работы над научно-техническими статьями и книгами в формате Markdown на основе подхода Docs as Code с учётом строгих ограничений на оформление, используемый Петром Советовым @true-grue и мной при подготовке учебных материалов в РТУ МИРЭА. Способ заключается в применении утилиты pandoc для построения дерева абстрактного синтаксиса (AST) Markdown-документа с последующим переписыванием AST набором фильтров на Lua и трансляцией AST в форматы docx и pdf, соответствующие ГОСТ, а также в диалект markdown, совместимый с mdBook , для генерации онлайн-учебника в виде статического сайта. Исходный код книги , написанной с использованием описанного в статье подхода, опубликован на GitHub.

    habr.com/ru/articles/987982/

    #pandoc #markdown #lua #python #документирование #гост #docx #graphviz #mdbook #github

  9. Книга в Markdown: Автоматическая сборка статического сайта mdBook и файла DOCX с оформлением по ГОСТ

    Текст книг, учебных пособий, научно-технических статей, документации, дипломных и курсовых работ часто набирается и редактируется в WYSIWYG-редакторе, таком как Microsoft Word, в том числе вследствие того, что издательства и организации требуют от авторов оформленный по ГОСТ или внутренним стандартам docx-документ. Процесс работы в Microsoft Word и аналогичных редакторах не лишён недостатков: docx-файлы трудно версионировать в git, а для объединения нескольких документов в один придётся перенумеровывать источники, рисунки, таблицы, формулы. Альтернативой docx является LaTeX. Однако работа со стилями в LaTeX простотой и минималистичным синтаксисом не отличается , причём издательства от использования формата docx отказываться не торопятся. А инструменты в духе typst отличаются нестандартным синтаксисом языка для описания документов, причём возможность генерации сайтов в typst имеет пометку «in preview». Markdown — популярный и удобный язык разметки, но это также и очень ограниченный формат. Поэтому задача написания в Markdown сложной технической документации по ГОСТ, научной статьи с автоматической настройкой оформления для заданного издательства или хорошо оформленного онлайн-учебника может показаться неосуществимой. В этой статье рассмотрим способ работы над научно-техническими статьями и книгами в формате Markdown на основе подхода Docs as Code с учётом строгих ограничений на оформление, используемый Петром Советовым @true-grue и мной при подготовке учебных материалов в РТУ МИРЭА. Способ заключается в применении утилиты pandoc для построения дерева абстрактного синтаксиса (AST) Markdown-документа с последующим переписыванием AST набором фильтров на Lua и трансляцией AST в форматы docx и pdf, соответствующие ГОСТ, а также в диалект markdown, совместимый с mdBook , для генерации онлайн-учебника в виде статического сайта. Исходный код книги , написанной с использованием описанного в статье подхода, опубликован на GitHub.

    habr.com/ru/articles/987982/

    #pandoc #markdown #lua #python #документирование #гост #docx #graphviz #mdbook #github

  10. Книга в Markdown: Автоматическая сборка статического сайта mdBook и файла DOCX с оформлением по ГОСТ

    Текст книг, учебных пособий, научно-технических статей, документации, дипломных и курсовых работ часто набирается и редактируется в WYSIWYG-редакторе, таком как Microsoft Word, в том числе вследствие того, что издательства и организации требуют от авторов оформленный по ГОСТ или внутренним стандартам docx-документ. Процесс работы в Microsoft Word и аналогичных редакторах не лишён недостатков: docx-файлы трудно версионировать в git, а для объединения нескольких документов в один придётся перенумеровывать источники, рисунки, таблицы, формулы. Альтернативой docx является LaTeX. Однако работа со стилями в LaTeX простотой и минималистичным синтаксисом не отличается , причём издательства от использования формата docx отказываться не торопятся. А инструменты в духе typst отличаются нестандартным синтаксисом языка для описания документов, причём возможность генерации сайтов в typst имеет пометку «in preview». Markdown — популярный и удобный язык разметки, но это также и очень ограниченный формат. Поэтому задача написания в Markdown сложной технической документации по ГОСТ, научной статьи с автоматической настройкой оформления для заданного издательства или хорошо оформленного онлайн-учебника может показаться неосуществимой. В этой статье рассмотрим способ работы над научно-техническими статьями и книгами в формате Markdown на основе подхода Docs as Code с учётом строгих ограничений на оформление, используемый Петром Советовым @true-grue и мной при подготовке учебных материалов в РТУ МИРЭА. Способ заключается в применении утилиты pandoc для построения дерева абстрактного синтаксиса (AST) Markdown-документа с последующим переписыванием AST набором фильтров на Lua и трансляцией AST в форматы docx и pdf, соответствующие ГОСТ, а также в диалект markdown, совместимый с mdBook , для генерации онлайн-учебника в виде статического сайта. Исходный код книги , написанной с использованием описанного в статье подхода, опубликован на GitHub.

    habr.com/ru/articles/987982/

    #pandoc #markdown #lua #python #документирование #гост #docx #graphviz #mdbook #github

  11. Книга в Markdown: Автоматическая сборка статического сайта mdBook и файла DOCX с оформлением по ГОСТ

    Текст книг, учебных пособий, научно-технических статей, документации, дипломных и курсовых работ часто набирается и редактируется в WYSIWYG-редакторе, таком как Microsoft Word, в том числе вследствие того, что издательства и организации требуют от авторов оформленный по ГОСТ или внутренним стандартам docx-документ. Процесс работы в Microsoft Word и аналогичных редакторах не лишён недостатков: docx-файлы трудно версионировать в git, а для объединения нескольких документов в один придётся перенумеровывать источники, рисунки, таблицы, формулы. Альтернативой docx является LaTeX. Однако работа со стилями в LaTeX простотой и минималистичным синтаксисом не отличается , причём издательства от использования формата docx отказываться не торопятся. А инструменты в духе typst отличаются нестандартным синтаксисом языка для описания документов, причём возможность генерации сайтов в typst имеет пометку «in preview». Markdown — популярный и удобный язык разметки, но это также и очень ограниченный формат. Поэтому задача написания в Markdown сложной технической документации по ГОСТ, научной статьи с автоматической настройкой оформления для заданного издательства или хорошо оформленного онлайн-учебника может показаться неосуществимой. В этой статье рассмотрим способ работы над научно-техническими статьями и книгами в формате Markdown на основе подхода Docs as Code с учётом строгих ограничений на оформление, используемый Петром Советовым @true-grue и мной при подготовке учебных материалов в РТУ МИРЭА. Способ заключается в применении утилиты pandoc для построения дерева абстрактного синтаксиса (AST) Markdown-документа с последующим переписыванием AST набором фильтров на Lua и трансляцией AST в форматы docx и pdf, соответствующие ГОСТ, а также в диалект markdown, совместимый с mdBook , для генерации онлайн-учебника в виде статического сайта. Исходный код книги , написанной с использованием описанного в статье подхода, опубликован на GitHub.

    habr.com/ru/articles/987982/

    #pandoc #markdown #lua #python #документирование #гост #docx #graphviz #mdbook #github

  12. Interesting.. When I download the official HICSS paper template from google docs in #ODF format, #OnlyOffice and #LibreOffice both use Calibri font. But when I download it in #docx format, the fonts are preserved. The paper says it is in "Times" font.

    Can this have something to do with font fallback feature that ODF lacks? (Times to Times New Roman).

    Maybe it is just Google Docs not converting to ODF correctly.

  13. Quelqu'un sait s'il y a un document plus récent qui indique les formats de fichiers acceptés par la #dinum ?
    Je n'ai trouvé que ça et ça a 10 ans...

    numerique.gouv.fr/offre-accomp

    #RGI #formats_ouverts #docx #odt #odf #LibreOffice #servicepublic

  14. Quelqu'un sait s'il y a un document plus récent qui indique les formats de fichiers acceptés par la #dinum ?
    Je n'ai trouvé que ça et ça a 10 ans...

    numerique.gouv.fr/offre-accomp

    #RGI #formats_ouverts #docx #odt #odf #LibreOffice #servicepublic

  15. "Mark (up) my #WORD!" - #Pandoc #Templates für ' #docx' u.a. -

    Mechanismen, mit denen wir – mittels Pandoc über „Templates“ oder wahlweise über geeignet formatierte „Referenzdokumente“ – (halbwegs) automatisiert Office-Dokumente wie Texte oder Folien erzeugen.

    gnulinux.ch/mark-up-my-word-pa

  16. 📢 Χρησιμοποιείτε ακόμα Windows 7, 8 ή 8.1; Δεν είστε μόνοι! 🖥️

    Ανακαλύψτε γιατί το @ONLYOFFICE Desktop Editors είναι η ιδανική, μοντέρνα και ασφαλής επιλογή για εσάς! ✨

    👉 Διαβάστε το πλήρες άρθρο εδώ: onlyoffice.com/blog/el/2025/11

  17. 📢 Χρησιμοποιείτε ακόμα Windows 7, 8 ή 8.1; Δεν είστε μόνοι! 🖥️

    Ανακαλύψτε γιατί το @ONLYOFFICE Desktop Editors είναι η ιδανική, μοντέρνα και ασφαλής επιλογή για εσάς! ✨

    👉 Διαβάστε το πλήρες άρθρο εδώ: onlyoffice.com/blog/el/2025/11

    #ONLYOFFICE #Windows7 #Windows8 #OfficeSoftware #ΔωρεάνΛογισμικό #ΕργαλείαΓραφείου #Παραγωγικότητα #MicrosoftOffice #DOCX #XLSX #OpenSource #Ασφάλεια #TechTips #Tech

  18. 📢 :ruby: New gem & CLI tool: yaml-converter converts your yaml to markdown, html, or pdf in native Ruby, and docx via pandoc (and any other format Pandoc supports). Can *stream* conversion of yaml to markdown! Many other options.
    You may be thinking - no one asked for this!
    But I did. And I'm building something with it right now. I'd love to know your thoughts about the gem.
    github.com/galtzo-floss/yaml-c #ruby #yaml #markdown #html #pdf #docx

  19. Format-specific output can be passed through from input to output via “raw blocks” and “raw inlines”. E.g., inserting a pagebreak in docx would work via “raw_attributes” in Markdown:

    ```{=openxml}
    <w:p>
    <w:r><w:br w:type="page"/></w:r>
    </w:p>
    ```

    Or to insert HTML from org mode:

    @@html:<var>x</var>@@

  20. Convertir varios archivos de Word #docx o #doc al mismo tiempo a PDF.
    Muy fácil si tienes #LibreOffice en Ubuntu.

  21. Good morning, after research, collecting a PDF to a book to be published digitally works hopelessly.

    So I have to bundle my.odf to #doc #docx #RTF or #formatted-EPUB files in a way that also creates a table of contents.

    Is there a @libreoffice template for this?

    #Book #books #digitally @draft2digital