#pymorphy — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #pymorphy, aggregated by home.social.
-
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *
В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.
https://habr.com/ru/articles/1027992/
#словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy
-
Python не нашел глаголов у Фета
Афанасий Фет написал импрессионистскую картину в стихах. Сможет ли цифровой анализ объективно подтвердить или опровергнуть этот миф?
https://habr.com/ru/articles/995274/
#python #pymorphy #nlp #nltk_python #стихотворения #проза #чтение #литература #литература_художественная
-
С помощью Python реабилитировал алкогольную романтику у Довлатова
Я проанализировал эпизоды с упоминанием алкоголя в полном корпусе произведений Довлатова и посмотрел, как и для чего он использует алкоголь в рассказах.
https://habr.com/ru/articles/985126/
#python #slovnet #razdel #natasha #pandas #pymorphy #seaborn #counter
-
С помощью Python реабилитировал алкогольную романтику у Довлатова
Я проанализировал эпизоды с упоминанием алкоголя в полном корпусе произведений Довлатова и посмотрел, как и для чего он использует алкоголь в рассказах.
https://habr.com/ru/articles/985126/
#python #slovnet #razdel #natasha #pandas #pymorphy #seaborn #counter
-
С помощью Python реабилитировал алкогольную романтику у Довлатова
Я проанализировал эпизоды с упоминанием алкоголя в полном корпусе произведений Довлатова и посмотрел, как и для чего он использует алкоголь в рассказах.
https://habr.com/ru/articles/985126/
#python #slovnet #razdel #natasha #pandas #pymorphy #seaborn #counter
-
С помощью Python реабилитировал алкогольную романтику у Довлатова
Я проанализировал эпизоды с упоминанием алкоголя в полном корпусе произведений Довлатова и посмотрел, как и для чего он использует алкоголь в рассказах.
https://habr.com/ru/articles/985126/
#python #slovnet #razdel #natasha #pandas #pymorphy #seaborn #counter
-
Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python
Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.
https://habr.com/ru/articles/977210/
#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet
-
Пушкин против Ершова: кто победит в дуэли стилей?
Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.
https://habr.com/ru/articles/967162/
#python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество
-
Как мы воскресили русский NLP и сократили потребление памяти на 90%
Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.
https://habr.com/ru/articles/963748/
#python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык
-
SteosMorphy: опенсорс замена давно умершему PyMorphy2
PyMorphy2 - самая популярная библиотека для обработки слов в русском языке. Однако последний коммит в репозиторий этой библиотеки был сделан более 5 лет назад, а её установка на Python версии 3.11+ вызывает трудности, что делает использование данной библиотеки в нынешнее время максимально затруднительным. Предлагаю рассмотреть новую Open Source библиотеку SteosMorphy , которая является аналогом PyMorphy, но делает всё быстрее и круче! Ознакомиться
https://habr.com/ru/articles/949604/
#pymorphy #steosmorphy #обработка_языка #nlp #nlp_обработка_текста #pymorphy2 #обработка_слов #морфология #python #golang
-
Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных
Предварительная обработка текстовых данных: ключевые этапы и методы Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.
-
Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных
Предварительная обработка текстовых данных: ключевые этапы и методы Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.
-
Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных
Предварительная обработка текстовых данных: ключевые этапы и методы Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.
-
Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных
Предварительная обработка текстовых данных: ключевые этапы и методы Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.
-
Как расслабиться инженеру на работе при помощи Python?
Всем привет! Меня зовут Владимир Ганзюк Работаю инженером НСИ и изучаю для себя C#, но не сталкиваясь с Python, наткнулся я как-то случайно на одну очень интересную библиотеку Pymorhp. Pymorph – морфологический анализатор для русского языка, использует словари из OpenCorpora. Исходный код можно получить на github. Документация к библиотеке написана достаточно хорошо.