home.social

#малые_языки — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #малые_языки, aggregated by home.social.

  1. Как мы собираем ингушский язык: словарь, корпус и ИИ в одном проекте

    Ингушский язык — один из нахских языков кавказской семьи, родной для примерно 400–500 тысяч человек. На нём говорят в Ингушетии, частично в Чечне и диаспоре по всей России. Язык живой и имеет государственный статус, но его цифровое присутствие долго оставалось минимальным: разрозненные PDF-словари, несколько сообществ в соцсетях, почти ничего пригодного для повседневного использования. Так появился PaydaDosh — открытая лингвистическая платформа, которая сегодня является крупнейшим онлайн-словарём ингушского языка.

    habr.com/ru/articles/1024816/

    #ингушский_язык #лингвистика #словарь #малые_языки #лексикография #корпус_текстов #NLP #открытые_данные

  2. Язык твой — друг твой. Развиваем малые языки в эпоху ИИ

    Всем привет. Хочу поделиться с сообществом небольшим опытом и наработками для исследования и развития языков, в особенности малых. Для большинства таких языков нет ни систем машинного перевода, ни виртуальных ассистентов, ни других языковых моделей. Основная проблема тут в недостатке данных и отсутствии большого интереса у крупных компаний в их развитии. Однако есть достаточно большое число людей, которым дорог их язык, и которые прикладывают усилия по их сохранению и развитию. Предлагаю обсудить это и познакомиться с инструментами, которые помогут не только собирать данные, но и делать на их основе полезные вещи, типа паралельных книг для изучения языка и систем машинного перевода. Мы научимся: 1. Дообучать мультиязычные языковые модели, переводящие текст в векторное представление (эмбеддинги). 2. Использовать их для выравнивания текстов библиотекой lingtrain-aligner, извлекая из текстов параллельные корпуса. 3. Загружать датасеты и модели на HuggingFace, чтобы это было доступно всем. 4. Создавать из выравнивания параллельные книги для изучения языков. 5. Начнем собирать датасет инструкций на малых языках, чтобы языковые модели и виртуальные смогли понимать и общаться на чувашском, якутском, башкирском и других языках. Все это в делается в виде открытых проектов и сообществ, поэтому приглашаю всех интересующихся изучением и поддержкой языков подключаться к нам , будет интересно.

    habr.com/ru/articles/791188/

    #lingtrain #машинное_обучение #компьютерная_лингвистика #малые_языки #opensourse #labse #параллельный_корпус #nlp #петпроекты