#sentencetransformers — Public Fediverse posts on home.social

Habr @[email protected] · 2026-03-10 · 07:32 UTC

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.

https://habr.com/ru/articles/1008422/

#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг

#эмбеддинг #benchmark #epg #iptv #tokenizer #sentencetransformers

yegorov @[email protected] · 2026-03-10 · 06:37 UTC

If you are building an application that requires search, I recommend using Elasticsearch early on. In addition to the usual full-text search, Elasticsearch allows you to perform a hybrid search: combine the results of text and vector search.
Of course, for small amounts of data, you can use PostgreSQL tsvector with the pgvector extension, but in the long term, Elasticsearch will provide good performance.

#Elasticsearch #Search #tsvector #pgvector #KNN #Embedding #SentenceTransformers #AI

#elasticsearch #search #tsvector #pgvector #knn #embedding

Habr @[email protected] · 2026-02-24 · 08:22 UTC

Лучший перевод Шекспира с точки зрения математики

За переводы сонетов Шекспира брались многие мастера и любители. Мне стало интересным провести лексико-семантический анализ нескольких переводов 74 сонета и сравнить их с оригиналом. Я взял авторов, авторитет которых как поэтов и переводчиков вне сомнения Маршака и Пастернака. И двух переводчиков, не известных как поэты - Николая Гербеля и Модеста Чайковского. Я захотел проверить, кто из переводчиков точнее всего передал смысл, ритм и эмоции оригинала, используя алгоритмы машинного обучения.

https://habr.com/ru/articles/996614/

#python #nlp #nlpмодели #nltk_python #проза #поэзия #литература_художественная #sentencetransformers #sbert

#sbert #sentencetransformers #литература_художественная #поэзия #проза #nltk_python

Habr @[email protected] · 2026-02-09 · 17:42 UTC

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.

https://habr.com/ru/articles/994618/

#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели