#sentencetransformers — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #sentencetransformers, aggregated by home.social.
-
Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG
Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.
https://habr.com/ru/articles/1008422/
#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг
-
If you are building an application that requires search, I recommend using Elasticsearch early on. In addition to the usual full-text search, Elasticsearch allows you to perform a hybrid search: combine the results of text and vector search.
Of course, for small amounts of data, you can use PostgreSQL tsvector with the pgvector extension, but in the long term, Elasticsearch will provide good performance.#Elasticsearch #Search #tsvector #pgvector #KNN #Embedding #SentenceTransformers #AI
-
Лучший перевод Шекспира с точки зрения математики
За переводы сонетов Шекспира брались многие мастера и любители. Мне стало интересным провести лексико-семантический анализ нескольких переводов 74 сонета и сравнить их с оригиналом. Я взял авторов, авторитет которых как поэтов и переводчиков вне сомнения Маршака и Пастернака. И двух переводчиков, не известных как поэты - Николая Гербеля и Модеста Чайковского. Я захотел проверить, кто из переводчиков точнее всего передал смысл, ритм и эмоции оригинала, используя алгоритмы машинного обучения.
https://habr.com/ru/articles/996614/
#python #nlp #nlpмодели #nltk_python #проза #поэзия #литература_художественная #sentencetransformers #sbert
-
Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как
Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.
https://habr.com/ru/articles/994618/
#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели
-
𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰𝗙𝗶𝗻𝗱𝗲𝗿 - A browser-based semantic search engine you can use to query your own texts!
Demo: https://geo.rocks/semanticfinder/
Blog Post: https://geo.rocks/post/semanticfinder-semantic-search-frontend-only/
GitHub: https://github.com/do-me/SemanticFinder/Built with amazing open-source software: #SentenceTransformers (all-MiniLM-L6-v2), #transformers.js, #CodeMirror and #Bootstrap. #SemanticFinder
-
𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰𝗙𝗶𝗻𝗱𝗲𝗿 - A browser-based semantic search engine you can use to query your own texts!
Demo: https://geo.rocks/semanticfinder/
Blog Post: https://geo.rocks/post/semanticfinder-semantic-search-frontend-only/
GitHub: https://github.com/do-me/SemanticFinder/Built with amazing open-source software: #SentenceTransformers (all-MiniLM-L6-v2), #transformers.js, #CodeMirror and #Bootstrap. #SemanticFinder