home.social

#spacy — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #spacy, aggregated by home.social.

  1. Извлечение и обработка требований из документов с помощью NLP-инструментов

    Приветствую всех читателей Хабр. Думаю, многим знаком этот сценарий: появляется задача — и первая мысль: «скормлю все LLM, она разберётся». Поначалу получается красиво, всё работает и есть первые результаты. Потом начинаешь проверять детали и замечаешь, что модель местами добавляет текст от себя. Потом смотришь на затрачиваемое время и понимаешь, что при текущей скорости обработка всего объёма документов закончится через год. Именно в такой ситуации я оказался, когда захотел обработать базу ГОСТов. Эта статья — про то, как я прошёл путь от « кидаем всё в LLM » до детерминированного пайплайна на классических NLP-инструментах . И про то, как в этом помогли те же самые языковые модели — но уже в роли консультантов, а не рабочей лошадки.

    habr.com/ru/companies/ascon/ar

    #nlp #spacy

  2. Использование библиотеки spaCy для поиска сущностей в тексте

    Снова приветствую всех читателей Хабр. В предыдущей статье был приведен пример создания кода проекта для задачи автоматизации обработки данных, в результате чего получилось подготовить нужную информацию по модели данных ЛОЦМАН: PLM. Эти данные планируется использовать для построения механизмов обработки поисковых запросов пользователей к базе ЛОЦМАН:PLM — в частности, для распознавания сущностей в тексте запроса. Это позволит понимать, на какие объекты модели данных ссылается пользователь: изделия, их параметры, типы документов и так далее. Для решения новой задачи я решил опробовать возможности библиотеки spaCy , в которой сущности можно распознавать на основе заранее заданных паттернов. В ходе экспериментов с библиотекой и её модулями EntityRuler и SpanRuler я столкнулся с рядом особенностей, и в данной статье делюсь накопленным опытом и наработками — надеюсь, они окажутся полезными и для вас.

    habr.com/ru/articles/976600/

    #nlp #spacy #ruler #python

  3. [LangExtract](developers.googleblog.com/en/i) has got me curious, but I don't get what makes it different from a [spacy-llm/prodigy](prodi.gy/docs/large-language-m) setup. Is it just that I am spared the effort of chunking long input and/or constructing output JSON from entities and offsets by writing the corresponding python code myself?...

    Ah, one more difference is that langextract is #OpenSource whereas prodigy is not (?). (On the other hand, prodigy has a better integration with a correction+training workflow.)

    #llm #google #langextract #nlp #spacy #prodigy #ner

  4. Что такое NER, зачем он нужен и когда не поможет

    Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста. Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения. Привет, меня зовут Александр Агеев, на протяжении года я занимался NER-моделями для определения сущностей на этикетках продуктов питания. Несмотря на мою любовь к NER, у этой технологии есть свои границы — кейсы, которые она не может решить хорошо, поэтому надо подключать другие инструменты. В статье я дам критерии применимости NER для решения практических задач.

    habr.com/ru/articles/921698/

    #нейросети_python #named_entity_recognition #ner #natural_language_processing #nlp #spacy #примеры_кода #обучение_моделей

  5. #til the German transformer model for #spacy is not trained for #ner. Room for improvement, I'd say.