home.social

#pymorphy — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #pymorphy, aggregated by home.social.

  1. Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

    В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.

    habr.com/ru/articles/1027992/

    #словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy

  2. Python не нашел глаголов у Фета

    Афанасий Фет написал импрессионистскую картину в стихах. Сможет ли цифровой анализ объективно подтвердить или опровергнуть этот миф?

    habr.com/ru/articles/995274/

    #python #pymorphy #nlp #nltk_python #стихотворения #проза #чтение #литература #литература_художественная

  3. С помощью Python реабилитировал алкогольную романтику у Довлатова

    Я проанализировал эпизоды с упоминанием алкоголя в полном корпусе произведений Довлатова и посмотрел, как и для чего он использует алкоголь в рассказах.

    habr.com/ru/articles/985126/

    #python #slovnet #razdel #natasha #pandas #pymorphy #seaborn #counter

  4. С помощью Python реабилитировал алкогольную романтику у Довлатова

    Я проанализировал эпизоды с упоминанием алкоголя в полном корпусе произведений Довлатова и посмотрел, как и для чего он использует алкоголь в рассказах.

    habr.com/ru/articles/985126/

    #python #slovnet #razdel #natasha #pandas #pymorphy #seaborn #counter

  5. С помощью Python реабилитировал алкогольную романтику у Довлатова

    Я проанализировал эпизоды с упоминанием алкоголя в полном корпусе произведений Довлатова и посмотрел, как и для чего он использует алкоголь в рассказах.

    habr.com/ru/articles/985126/

    #python #slovnet #razdel #natasha #pandas #pymorphy #seaborn #counter

  6. С помощью Python реабилитировал алкогольную романтику у Довлатова

    Я проанализировал эпизоды с упоминанием алкоголя в полном корпусе произведений Довлатова и посмотрел, как и для чего он использует алкоголь в рассказах.

    habr.com/ru/articles/985126/

    #python #slovnet #razdel #natasha #pandas #pymorphy #seaborn #counter

  7. Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

    Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

    habr.com/ru/articles/977210/

    #проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

  8. Пушкин против Ершова: кто победит в дуэли стилей?

    Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.

    habr.com/ru/articles/967162/

    #python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество

  9. Как мы воскресили русский NLP и сократили потребление памяти на 90%

    Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.

    habr.com/ru/articles/963748/

    #python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык

  10. SteosMorphy: опенсорс замена давно умершему PyMorphy2

    PyMorphy2 - самая популярная библиотека для обработки слов в русском языке. Однако последний коммит в репозиторий этой библиотеки был сделан более 5 лет назад, а её установка на Python версии 3.11+ вызывает трудности, что делает использование данной библиотеки в нынешнее время максимально затруднительным. Предлагаю рассмотреть новую Open Source библиотеку SteosMorphy , которая является аналогом PyMorphy, но делает всё быстрее и круче! Ознакомиться

    habr.com/ru/articles/949604/

    #pymorphy #steosmorphy #обработка_языка #nlp #nlp_обработка_текста #pymorphy2 #обработка_слов #морфология #python #golang

  11. Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

    Предварительная обработка текстовых данных: ключевые этапы и методы Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

    habr.com/ru/articles/881998/

    #nltk #python3 #pymorphy #ml #deep_learning

  12. Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

    Предварительная обработка текстовых данных: ключевые этапы и методы Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

    habr.com/ru/articles/881998/

    #nltk #python3 #pymorphy #ml #deep_learning

  13. Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

    Предварительная обработка текстовых данных: ключевые этапы и методы Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

    habr.com/ru/articles/881998/

    #nltk #python3 #pymorphy #ml #deep_learning

  14. Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

    Предварительная обработка текстовых данных: ключевые этапы и методы Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

    habr.com/ru/articles/881998/

    #nltk #python3 #pymorphy #ml #deep_learning

  15. Как расслабиться инженеру на работе при помощи Python?

    Всем привет! Меня зовут Владимир Ганзюк Работаю инженером НСИ и изучаю для себя C#, но не сталкиваясь с Python, наткнулся я как-то случайно на одну очень интересную библиотеку Pymorhp. Pymorph – морфологический анализатор для русского языка, использует словари из OpenCorpora. Исходный код можно получить на github. Документация к библиотеке написана достаточно хорошо.

    habr.com/ru/articles/830668/

    #pymorphy #python #нси