home.social

#retrieval — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #retrieval, aggregated by home.social.

  1. 🙈Ah yes, another riveting tale of #academic buzzword-bingo, where "rethinking retrieval" is code for "we need something to publish" and "direct corpus interaction" sounds like a euphemism for an awkward office party. 🤖💡 But don't worry, because soon we'll be 'agentic searching' for the meaning of life, if only we could comprehend what any of this actually means. 🙃
    arxiv.org/abs/2605.05242 #jargon #buzzword #bingo #retrieval #humor #tech #satire #HackerNews #ngated

  2. This is a handy list for comparing the features of vector databases (holy mole there are a lot of them), including year of launch, opensource-ness, licences, and implementation language: superlinked.com/vector-db-comp

  3. RAG: Как собрать свой ретривер для особых случаев

    С опытом у RAG-инженера накапливается солидный багаж эвристик и инструментов, которые в определенных задачах превосходят по качеству или скорости стандартные. Фраза «а для этого у меня есть собственный ретривер» звучит с некоторым снобизмом, но добавляет к профессионализму несколько пойнтов. Хотите в свою коллекцию ретривер, который умеет работать с терминами, плохо различимыми в векторном пространстве эмбеддинга, в частности с именами и названиями? Тогда давайте перейдём от снобизма к практике. Начнём с обработки текста и сегментируем его на фрагменты - «чанки». Далее сделаем TFIDF модель, добавим поиск и обернём всё это в ретривер LangChain. Наконец сравним наш ретривер с двумя-тремя стандартными решениями. А Ollama поможет с вопросами для бенчмарка.

    habr.com/ru/articles/1022244/

    #rag #rag_pipeline #text_mining #text_generation #retrieval #ollama #gensim #langchain

  4. NEWAVE. Делаем интеллектуальный ретривал музыки

    Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

    habr.com/ru/articles/989756/

    #CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

  5. RAG-системы: что это такое, принципы работы, архитектура и ограничения

    Retrieval-Augmented Generation (RAG) всё чаще упоминается в контексте LLM и всё чаще фигурирует в требованиях к разработчикам, но за этим термином обычно скрывается довольно размытое представление о том, как такие системы реально устроены. В этой статье я разбираю RAG как архитектурный подход: зачем он вообще появился, какие задачи решает, как выглядит базовый пайплайн от данных до ответа модели и где на практике чаще всего возникают проблемы.

    habr.com/ru/articles/989000/

    #rag #llm #retrieval #nlp #embeddings #semanticsearch #informationretrieval

  6. Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

    Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

    habr.com/ru/articles/987954/

    #RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

  7. Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

    Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

    habr.com/ru/articles/987954/

    #RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

  8. Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

    Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

    habr.com/ru/articles/987954/

    #RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

  9. Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

    Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

    habr.com/ru/articles/987954/

    #RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

  10. A quotation from Arthur Conan Doyle

    You see, I consider that a man’s brain originally is like a little empty attic, and you have to stock it with such furniture as you choose. A fool takes in all the lumber of every sort that he comes across, so that the knowledge which might be useful to him gets crowded out, or at best is jumbled up with a lot of other things, so that he has a difficulty in laying his hands upon it. Now the skilful workman is very careful indeed as to what he takes into his brain-attic. He will have nothing but the tools which may help him in doing his work, but of these he has a large assortment, and all in the most perfect order. It is a mistake to think that that little room has elastic walls and can distend to any extent. Depend upon it there comes a time when for every addition of knowledge you forget something that you knew before. It is of the highest importance, therefore, not to have useless facts elbowing out the useful ones.

    Arthur Conan Doyle (1859-1930) British writer and physician
    Story (1886-04), “A Study in Scarlet,” Part 1, ch. 2 [Holmes], Beeton’s Christmas Annual, Vol. 28 (1887-11-21)

    More about this quote: wist.info/doyle-arthur-conan/8…

    #quote #quotes #quotation #qotd #arthurconandoyle #sherlockholmes #brain #facts #memory #mind #organization #retrieval #storage #trivia #information #knowledge

  11. We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?

    In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.

    zansara.dev/posts/2025-11-04-h

    #AI #GenAI #LLMs #BM25 #Embedding #Retrieval #RAG

  12. We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?

    In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.

    zansara.dev/posts/2025-11-04-h

    #AI #GenAI #LLMs #BM25 #Embedding #Retrieval #RAG

  13. We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?

    In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.

    zansara.dev/posts/2025-11-04-h

    #AI #GenAI #LLMs #BM25 #Embedding #Retrieval #RAG

  14. We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?

    In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.

    zansara.dev/posts/2025-11-04-h

    #AI #GenAI #LLMs #BM25 #Embedding #Retrieval #RAG

  15. We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?

    In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.

    zansara.dev/posts/2025-11-04-h

    #AI #GenAI #LLMs #BM25 #Embedding #Retrieval #RAG

  16. 🚀 Perplexity just dropped their Search API — the same infra behind their answer engine, now open to devs.

    Fast, fresh, AI-first search with sub-doc snippets + an SDK + OSS evals.

    Perfect for grounding LLMs, building agents, or just hacking.

    Overview → dropletdrift.com/perplexity-se

    #AI #WebDev #APIs #Developers #PerplexityAI #SearchAPI #AIagents #LLM #AIDev #DevTools #OpenSource #SDK #Search #HybridSearch #ContextEngineering #Retrieval #RAG #RealtimeAI #AIFirst #Innovation

  17. #DataViz Decision-Making Guide

    "How do you decide between #Plotly and #Seaborn?
    * If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
    * If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
    by Amit Yadav: medium.com/@amit25173/plotly-v

    #dataDev #retrieval #dataMining

  18. #DataViz Decision-Making Guide

    "How do you decide between #Plotly and #Seaborn?
    * If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
    * If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
    by Amit Yadav: medium.com/@amit25173/plotly-v

    #dataDev #retrieval #dataMining

  19. Decision-Making Guide

    "How do you decide between and ?
    * If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
    * If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
    by Amit Yadav: medium.com/@amit25173/plotly-v

  20. #DataViz Decision-Making Guide

    "How do you decide between #Plotly and #Seaborn?
    * If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
    * If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
    by Amit Yadav: medium.com/@amit25173/plotly-v

    #dataDev #retrieval #dataMining

  21. #DataViz Decision-Making Guide

    "How do you decide between #Plotly and #Seaborn?
    * If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
    * If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
    by Amit Yadav: medium.com/@amit25173/plotly-v

    #dataDev #retrieval #dataMining

  22. Ускорение и облегчение моделей для поддержания диалога виртуальных ассистентов Салют

    Привет, Хабр! Меня зовут Александр Абрамов и я ML Lead продукта в SberDevices. Эта статья — про обучение core-моделей retrieval-based диалоговых систем, поговорим про хинты для ускорения обучения и сходимости, также затрону тему общей схемы inference и оптимизации её компонентов. Речь пойдёт о ML с позиции пайплайнов и продакшена виртуального ассистента Салют.

    habr.com/ru/companies/oleg-bun

    #NLP #retrieval #виртуальные_ассистенты_салют #machinelearning #архитектура #inference #faiss #консистентность #bert #gpt

  23. 'Atlas: Few-shot Learning with Retrieval Augmented Language Models', by Gautier Izacard et al.

    jmlr.org/papers/v24/23-0037.ht

    #retrieval #atlas #answering

  24. The #research tracks for the Open Search Symposium (4-6 October) are complete!
    Find all research tracks, talks, workshops and keynotes at: opensearchfoundation.org/ossym

    ➡ Research and Updates from the EU Project OpenWebSearch.eu groups and researchers

    #HumanCentric Search / #UserExperience

    #MachineLearning and #Retrieval

    #OpenSearch Ecosystem

    You can participate on location at CERN (Geneva, Switzerland) or ONLINE.
    Participation is free of charge.

  25. Teaching Smaller Language Models To Generalise To Unseen Compositional Questions

    Tim Hartill, Neset TAN, Michael Witbrock, Patricia J. Riddle

    Action editor: Karthik Narasimhan.

    openreview.net/forum?id=d4Vr6E

    #retrieval #answering #multitask

  26. When a team creates, it needs a direction but the road does not exist yet.
    We are designing a software product. Here is the dependency weakness that we are using as #roadmap: data.yt/#presentations #DataKit #governance #softwareDevelopment #softDev #dev #product #dataRetention #archiving #retrieval #dataMining #dataDon

  27. @texasmemory have you done (or do you know of) any #iEEG studies of the #testing #effect or paradigms that could have looked at #retrieval practice vs #study ?

    [hashtagging the hell out of this: #episodic #memory]

  28. #introduction
    Hello people :-)
    I am a French data engineer.
    Here i will initiate conversations from texts about #security #MastodonForks #governance #data protection #dataPrivacy #GDPR #discoverability #psychology #sociality #archives #library #retrieval

    If you see this message, please boost it so this new account appears in your local timeline (and gets federated if your posts are public).