home.social

#labse — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #labse, aggregated by home.social.

  1. Язык твой — друг твой. Развиваем малые языки в эпоху ИИ

    Всем привет. Хочу поделиться с сообществом небольшим опытом и наработками для исследования и развития языков, в особенности малых. Для большинства таких языков нет ни систем машинного перевода, ни виртуальных ассистентов, ни других языковых моделей. Основная проблема тут в недостатке данных и отсутствии большого интереса у крупных компаний в их развитии. Однако есть достаточно большое число людей, которым дорог их язык, и которые прикладывают усилия по их сохранению и развитию. Предлагаю обсудить это и познакомиться с инструментами, которые помогут не только собирать данные, но и делать на их основе полезные вещи, типа паралельных книг для изучения языка и систем машинного перевода. Мы научимся: 1. Дообучать мультиязычные языковые модели, переводящие текст в векторное представление (эмбеддинги). 2. Использовать их для выравнивания текстов библиотекой lingtrain-aligner, извлекая из текстов параллельные корпуса. 3. Загружать датасеты и модели на HuggingFace, чтобы это было доступно всем. 4. Создавать из выравнивания параллельные книги для изучения языков. 5. Начнем собирать датасет инструкций на малых языках, чтобы языковые модели и виртуальные смогли понимать и общаться на чувашском, якутском, башкирском и других языках. Все это в делается в виде открытых проектов и сообществ, поэтому приглашаю всех интересующихся изучением и поддержкой языков подключаться к нам , будет интересно.

    habr.com/ru/articles/791188/

    #lingtrain #машинное_обучение #компьютерная_лингвистика #малые_языки #opensourse #labse #параллельный_корпус #nlp #петпроекты