home.social

#энкодеры — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #энкодеры, aggregated by home.social.

  1. RuModernBERT и USER2: эволюция русскоязычных энкодеров

    Привет, Хабр! В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов: модели, которые преобразуют любой текст, от анекдота до официального запроса в техподдержку, в векторное представление — эмбеддинг. Эмбеддинги отражают важные свойства текста, его семантику. Все энкодеры в NLP можно условно разделить на две группы: • Pre‑train‑модели (BERT, RoBERTa, DeBERTa). Учатся основным языковым закономерностям, но не умеют явно создавать единый эмбеддинг для всего текста и требуют дообучения под конкретную задачу. • Энкодеры текстов (SBERT). Сразу выдают готовые семантические эмбеддинги — используются в FAISS, Milvus, других векторных БД. Поверх векторного представления можно применять классические алгоритмы ML. Для оценки схожести текстов просто считаем косинусную близость между эмбеддингами. В этой статье мы расскажем о технических деталях обучения таких моделей: как возникла идея, как мы её реализовывали, что получилось в итоге.

    habr.com/ru/companies/vk/artic

    #bert #rumodernbert #modernbert #user2 #энкодеры

  2. Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

    Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO. В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто используем современные генеративные модели и энкодеры. В статье расскажу, как мы в компании разрабатываем и оптимизируем семантический поиск по сложным документам: PDF, HTML и DOCX.

    habr.com/ru/companies/yadro/ar

    #search #семантический_поиск #нейросети #информационный_поиск #эмбеддинги #crossencoder #biencoder #генеративные_модели #энкодеры