home.social

#crossencoder — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #crossencoder, aggregated by home.social.

  1. Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

    Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO. В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто используем современные генеративные модели и энкодеры. В статье расскажу, как мы в компании разрабатываем и оптимизируем семантический поиск по сложным документам: PDF, HTML и DOCX.

    habr.com/ru/companies/yadro/ar

    #search #семантический_поиск #нейросети #информационный_поиск #эмбеддинги #crossencoder #biencoder #генеративные_модели #энкодеры

  2. Cross-Encoder для улучшения RAG на русском

    Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников. Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос. Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста. В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить. Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

    habr.com/ru/articles/797657/

    #crossencoder #biencoder #RAG #эмбеддинги #векторизация #нейросети #обучение_нейросетей