#rumodernbert — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #rumodernbert, aggregated by home.social.

Habr @[email protected] · 2026-03-05 · 13:22 UTC

Сравнение RuModernBERT и multilingual-e5-base для NER на русском
Однажды при мне два ИИ экcперта закусились на тему какая модель лучше извлекает именованные данные на русском языке: RuModernBERT или multilingual-e5-base. Я послушал их аргументы и решил поставить небольшой эксперимент на реальных данных (благо данных хоть отбавляй). Итак, условия NER задачи:
https://habr.com/ru/articles/1006998/
#ner #e5 #rumodernbert

#rumodernbert #e5 #ner
Habr @[email protected] · 2025-07-24 · 12:32 UTC

RuModernBERT и USER2: эволюция русскоязычных энкодеров
Привет, Хабр! В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов: модели, которые преобразуют любой текст, от анекдота до официального запроса в техподдержку, в векторное представление — эмбеддинг. Эмбеддинги отражают важные свойства текста, его семантику. Все энкодеры в NLP можно условно разделить на две группы: • Pre‑train‑модели (BERT, RoBERTa, DeBERTa). Учатся основным языковым закономерностям, но не умеют явно создавать единый эмбеддинг для всего текста и требуют дообучения под конкретную задачу. • Энкодеры текстов (SBERT). Сразу выдают готовые семантические эмбеддинги — используются в FAISS, Milvus, других векторных БД. Поверх векторного представления можно применять классические алгоритмы ML. Для оценки схожести текстов просто считаем косинусную близость между эмбеддингами. В этой статье мы расскажем о технических деталях обучения таких моделей: как возникла идея, как мы её реализовывали, что получилось в итоге.
https://habr.com/ru/companies/vk/articles/930382/
#bert #rumodernbert #modernbert #user2 #энкодеры

#bert #rumodernbert #modernbert #user2 #энкодеры