home.social

#mawo — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #mawo, aggregated by home.social.

  1. Как мы адаптировали LLM для русского языка

    Как мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed . В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли. Мы - это я и мой друг =)

    habr.com/ru/articles/964510/

    #nlp #llm #machinelearning #RussianNLP #tokenization #pytorch #deeplearning #ProductionML #mawo

  2. Как мы воскресили русский NLP и сократили потребление памяти на 90%

    Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.

    habr.com/ru/articles/963748/

    #python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык

  3. Как мы воскресили русский NLP и сократили потребление памяти на 90%

    Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.

    habr.com/ru/articles/963748/

    #python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык

  4. Как мы воскресили русский NLP и сократили потребление памяти на 90%

    Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.

    habr.com/ru/articles/963748/

    #python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык

  5. Как мы воскресили русский NLP и сократили потребление памяти на 90%

    Как мы воскресили русский NLP и сократили потребление памяти на 90% Форкнули четыре ключевых библиотеки русского NLP (pymorphy, razdel, slovnet, natasha), которые не обновлялись годами. Сократили потребление памяти на 90%, ускорили загрузку в 30 раз, повысили точность токенизации с 70% до 95%. Всё работает offline, 100% совместимо с оригинальными API. Экосистема MAWO — production-ready инструменты для работы с русским текстом. Помните ли вы тот момент, когда открываешь проект для обработки русского текста и видишь знакомую картину? В requirements.txt красуется pymorphy2, последний коммит в репозитории датирован 2015 годом, Python 3.12 ругается на deprecated методы, а production ждать не будет. Знакомо? Тогда эта история для вас.

    habr.com/ru/articles/963748/

    #python #nlp #opensource #морфология #natasha #pymorphy #mawo #русский_язык