#mawo — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #mawo, aggregated by home.social.
-
Как мы адаптировали LLM для русского языка
Как мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed . В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли. Мы - это я и мой друг =)
https://habr.com/ru/articles/964510/
#nlp #llm #machinelearning #RussianNLP #tokenization #pytorch #deeplearning #ProductionML #mawo
-
Как мы воскресили русский NLP и сократили потребление памяти на 90%
Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.
https://habr.com/ru/articles/963748/
#python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык
-
Как мы воскресили русский NLP и сократили потребление памяти на 90%
Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.
https://habr.com/ru/articles/963748/
#python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык
-
Как мы воскресили русский NLP и сократили потребление памяти на 90%
Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.
https://habr.com/ru/articles/963748/
#python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык
-
Как мы воскресили русский NLP и сократили потребление памяти на 90%
Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.
https://habr.com/ru/articles/963748/
#python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык