home.social

#rumodernbert — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #rumodernbert, aggregated by home.social.

  1. Сравнение RuModernBERT и multilingual-e5-base для NER на русском

    Однажды при мне два ИИ экcперта закусились на тему какая модель лучше извлекает именованные данные на русском языке: RuModernBERT или multilingual-e5-base. Я послушал их аргументы и решил поставить небольшой эксперимент на реальных данных (благо данных хоть отбавляй). Итак, условия NER задачи:

    habr.com/ru/articles/1006998/

    #ner #e5 #rumodernbert

  2. RuModernBERT и USER2: эволюция русскоязычных энкодеров

    Привет, Хабр! В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов: модели, которые преобразуют любой текст, от анекдота до официального запроса в техподдержку, в векторное представление — эмбеддинг. Эмбеддинги отражают важные свойства текста, его семантику. Все энкодеры в NLP можно условно разделить на две группы: • Pre‑train‑модели (BERT, RoBERTa, DeBERTa). Учатся основным языковым закономерностям, но не умеют явно создавать единый эмбеддинг для всего текста и требуют дообучения под конкретную задачу. • Энкодеры текстов (SBERT). Сразу выдают готовые семантические эмбеддинги — используются в FAISS, Milvus, других векторных БД. Поверх векторного представления можно применять классические алгоритмы ML. Для оценки схожести текстов просто считаем косинусную близость между эмбеддингами. В этой статье мы расскажем о технических деталях обучения таких моделей: как возникла идея, как мы её реализовывали, что получилось в итоге.

    habr.com/ru/companies/vk/artic

    #bert #rumodernbert #modernbert #user2 #энкодеры