#retrieval — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #retrieval, aggregated by home.social.
-
🙈Ah yes, another riveting tale of #academic buzzword-bingo, where "rethinking retrieval" is code for "we need something to publish" and "direct corpus interaction" sounds like a euphemism for an awkward office party. 🤖💡 But don't worry, because soon we'll be 'agentic searching' for the meaning of life, if only we could comprehend what any of this actually means. 🙃
https://arxiv.org/abs/2605.05242 #jargon #buzzword #bingo #retrieval #humor #tech #satire #HackerNews #ngated -
This is a handy list for comparing the features of vector databases (holy mole there are a lot of them), including year of launch, opensource-ness, licences, and implementation language: https://superlinked.com/vector-db-comparison
-
RAG: Как собрать свой ретривер для особых случаев
С опытом у RAG-инженера накапливается солидный багаж эвристик и инструментов, которые в определенных задачах превосходят по качеству или скорости стандартные. Фраза «а для этого у меня есть собственный ретривер» звучит с некоторым снобизмом, но добавляет к профессионализму несколько пойнтов. Хотите в свою коллекцию ретривер, который умеет работать с терминами, плохо различимыми в векторном пространстве эмбеддинга, в частности с именами и названиями? Тогда давайте перейдём от снобизма к практике. Начнём с обработки текста и сегментируем его на фрагменты - «чанки». Далее сделаем TFIDF модель, добавим поиск и обернём всё это в ретривер LangChain. Наконец сравним наш ретривер с двумя-тремя стандартными решениями. А Ollama поможет с вопросами для бенчмарка.
https://habr.com/ru/articles/1022244/
#rag #rag_pipeline #text_mining #text_generation #retrieval #ollama #gensim #langchain
-
NEWAVE. Делаем интеллектуальный ретривал музыки
Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?
https://habr.com/ru/articles/989756/
#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning
-
RAG-системы: что это такое, принципы работы, архитектура и ограничения
Retrieval-Augmented Generation (RAG) всё чаще упоминается в контексте LLM и всё чаще фигурирует в требованиях к разработчикам, но за этим термином обычно скрывается довольно размытое представление о том, как такие системы реально устроены. В этой статье я разбираю RAG как архитектурный подход: зачем он вообще появился, какие задачи решает, как выглядит базовый пайплайн от данных до ответа модели и где на практике чаще всего возникают проблемы.
https://habr.com/ru/articles/989000/
#rag #llm #retrieval #nlp #embeddings #semanticsearch #informationretrieval
-
Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей
Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.
https://habr.com/ru/articles/987954/
#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных
-
Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей
Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.
https://habr.com/ru/articles/987954/
#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных
-
Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей
Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.
https://habr.com/ru/articles/987954/
#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных
-
Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей
Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.
https://habr.com/ru/articles/987954/
#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных
-
GibRAM an in-memory ephemeral GraphRAG runtime for retrieval
https://github.com/gibram-io/gibram
#HackerNews #GibRAM #GraphRAG #in-memory #runtime #retrieval #ephemeral #technology
-
A quotation from Arthur Conan Doyle
You see, I consider that a man’s brain originally is like a little empty attic, and you have to stock it with such furniture as you choose. A fool takes in all the lumber of every sort that he comes across, so that the knowledge which might be useful to him gets crowded out, or at best is jumbled up with a lot of other things, so that he has a difficulty in laying his hands upon it. Now the skilful workman is very careful indeed as to what he takes into his brain-attic. He will have nothing but the tools which may help him in doing his work, but of these he has a large assortment, and all in the most perfect order. It is a mistake to think that that little room has elastic walls and can distend to any extent. Depend upon it there comes a time when for every addition of knowledge you forget something that you knew before. It is of the highest importance, therefore, not to have useless facts elbowing out the useful ones.
Arthur Conan Doyle (1859-1930) British writer and physician
Story (1886-04), “A Study in Scarlet,” Part 1, ch. 2 [Holmes], Beeton’s Christmas Annual, Vol. 28 (1887-11-21)More about this quote: wist.info/doyle-arthur-conan/8…
#quote #quotes #quotation #qotd #arthurconandoyle #sherlockholmes #brain #facts #memory #mind #organization #retrieval #storage #trivia #information #knowledge
-
We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?
In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.
-
We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?
In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.
-
We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?
In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.
-
We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?
In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.
-
We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?
In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.
-
Pyversity – Fast Result Diversification for Retrieval and RAG
https://github.com/Pringled/pyversity
#HackerNews #Pyversity #Fast #Result #Diversification #Retrieval #RAG
-
🚀 Perplexity just dropped their Search API — the same infra behind their answer engine, now open to devs.
Fast, fresh, AI-first search with sub-doc snippets + an SDK + OSS evals.
Perfect for grounding LLMs, building agents, or just hacking.
Overview → https://dropletdrift.com/perplexity-search-api-an-intro-for-developers/
#AI #WebDev #APIs #Developers #PerplexityAI #SearchAPI #AIagents #LLM #AIDev #DevTools #OpenSource #SDK #Search #HybridSearch #ContextEngineering #Retrieval #RAG #RealtimeAI #AIFirst #Innovation
-
How Home Affairs and DVA are using GovAI
Federal agencies have been using AI for some time now, but there have been rolling concerns about an…
#NewsBeep #News #Artificialintelligence #AI #AlicjaMosbauer #APScensus #ArtificialIntelligence #AU #Australia #DepartmentofFinance #DepartmentofHomeAffairs #DepartmentofVeteransAffairs #DigitalTransformationAgency #GovAI #LLMs #MarcelGabriel #OLlama #RAG #retrieval-augmentedgeneration #Technology
https://www.newsbeep.com/au/82326/ -
Enhancing Frame Detection with Retrieval Augmented Generation — https://arxiv.org/abs/2502.12210
#HackerNews #Enhancing #Frame #Detection #Retrieval #Augmented #Generation #AI #Research #Machine #Learning -
#DataViz on two requirements:
* zooming, panning and rescaling
* shareable dashboards"Plotly vs. Bokeh: Interactive Python Visualisation Pros and Cons", by Dr Paul Iacomi: https://pauliacomi.com/2020/06/07/plotly-v-bokeh.html
#dataDev #retrieval #dataMining #plotly #Dash #Bokeh #python #dataInteraction #data #dataDon #widgets #ipython #jupyter #dashboards #businessIntelligence
-
#DataViz on two requirements:
* zooming, panning and rescaling
* shareable dashboards"Plotly vs. Bokeh: Interactive Python Visualisation Pros and Cons", by Dr Paul Iacomi: https://pauliacomi.com/2020/06/07/plotly-v-bokeh.html
#dataDev #retrieval #dataMining #plotly #Dash #Bokeh #python #dataInteraction #data #dataDon #widgets #ipython #jupyter #dashboards #businessIntelligence
-
@[email protected] @[email protected]
#DataViz on two requirements:
* zooming, panning and rescaling
* shareable dashboards"Plotly vs. Bokeh: Interactive Python Visualisation Pros and Cons", by Dr Paul Iacomi: https://pauliacomi.com/2020/06/07/plotly-v-bokeh.html
#dataDev #retrieval #dataMining #plotly #Dash #Bokeh #python #dataInteraction #data #dataDon #widgets #ipython #jupyter #dashboards #businessIntelligence
-
#DataViz on two requirements:
* zooming, panning and rescaling
* shareable dashboards"Plotly vs. Bokeh: Interactive Python Visualisation Pros and Cons", by Dr Paul Iacomi: https://pauliacomi.com/2020/06/07/plotly-v-bokeh.html
#dataDev #retrieval #dataMining #plotly #Dash #Bokeh #python #dataInteraction #data #dataDon #widgets #ipython #jupyter #dashboards #businessIntelligence
-
#DataViz on two requirements:
* zooming, panning and rescaling
* shareable dashboards"Plotly vs. Bokeh: Interactive Python Visualisation Pros and Cons", by Dr Paul Iacomi: https://pauliacomi.com/2020/06/07/plotly-v-bokeh.html
#dataDev #retrieval #dataMining #plotly #Dash #Bokeh #python #dataInteraction #data #dataDon #widgets #ipython #jupyter #dashboards #businessIntelligence
-
#DataViz Decision-Making Guide
"How do you decide between #Plotly and #Seaborn?
* If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
* If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
by Amit Yadav: https://medium.com/@amit25173/plotly-vs-seaborn-f7207dd3e642 -
#DataViz Decision-Making Guide
"How do you decide between #Plotly and #Seaborn?
* If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
* If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
by Amit Yadav: https://medium.com/@amit25173/plotly-vs-seaborn-f7207dd3e642 -
#DataViz Decision-Making Guide
"How do you decide between #Plotly and #Seaborn?
* If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
* If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
by Amit Yadav: https://medium.com/@amit25173/plotly-vs-seaborn-f7207dd3e642 -
#DataViz Decision-Making Guide
"How do you decide between #Plotly and #Seaborn?
* If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
* If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
by Amit Yadav: https://medium.com/@amit25173/plotly-vs-seaborn-f7207dd3e642 -
#DataViz Decision-Making Guide
"How do you decide between #Plotly and #Seaborn?
* If you need interactive and dynamic visualizations, especially for dashboards or 3D data, Plotly is the way to go.
* If you’re focused on statistical analysis, creating publication-ready visuals, or conducting exploratory data analysis, Seaborn is likely your best choice."
by Amit Yadav: https://medium.com/@amit25173/plotly-vs-seaborn-f7207dd3e642 -
📝 "Multilingual Generative Question Answering with Haystack and Cohere"
👤 Bilge Yucel (@bilgeyucel)
#pyladies #python #languagemodel #haystack #retrieval #multilingual #cohere
-
Ускорение и облегчение моделей для поддержания диалога виртуальных ассистентов Салют
Привет, Хабр! Меня зовут Александр Абрамов и я ML Lead продукта в SberDevices. Эта статья — про обучение core-моделей retrieval-based диалоговых систем, поговорим про хинты для ускорения обучения и сходимости, также затрону тему общей схемы inference и оптимизации её компонентов. Речь пойдёт о ML с позиции пайплайнов и продакшена виртуального ассистента Салют.
https://habr.com/ru/companies/oleg-bunin/articles/834728/
#NLP #retrieval #виртуальные_ассистенты_салют #machinelearning #архитектура #inference #faiss #консистентность #bert #gpt
-
'Atlas: Few-shot Learning with Retrieval Augmented Language Models', by Gautier Izacard et al.
http://jmlr.org/papers/v24/23-0037.html
#retrieval #atlas #answering -
The #research tracks for the Open Search Symposium (4-6 October) are complete!
Find all research tracks, talks, workshops and keynotes at: https://opensearchfoundation.org/ossym23➡ Research and Updates from the EU Project OpenWebSearch.eu groups and researchers
➡ #HumanCentric Search / #UserExperience
➡ #MachineLearning and #Retrieval
➡ #OpenSearch Ecosystem
You can participate on location at CERN (Geneva, Switzerland) or ONLINE.
Participation is free of charge. -
Teaching Smaller Language Models To Generalise To Unseen Compositional Questions
Tim Hartill, Neset TAN, Michael Witbrock, Patricia J. Riddle
Action editor: Karthik Narasimhan.
-
When a team creates, it needs a direction but the road does not exist yet.
We are designing a software product. Here is the dependency weakness that we are using as #roadmap: http://data.yt/#presentations #DataKit #governance #softwareDevelopment #softDev #dev #product #dataRetention #archiving #retrieval #dataMining #dataDon -
Die Linkedin-Gruppe "Information & Document Management" ist Nachfolger der gleichnamigen von XING gelöschten Gruppe. https://www.linkedin.com/groups/14188051/members/
#IDMNL #Dokumentenmanagement #AI #MachineLearning #Analytics #Collaboration #BPM #RPA #Automation #Scanning #Preservation #Revisionssicherheit #revisionssichereArchivierung #Communication #Trends #IT #Software #Imaging #Retrieval #Search
-
Linkedin-Gruppe "Information & Document Management" ist Nachfolger der gleichnamigen von XING gelöschten Gruppe. https://www.linkedin.com/groups/14188051/members/
#IDMNL #Dokumentenmanagement #AI #MachineLearning #Analytics #Collaboration #BPM #RPA #Automation #Scanning #Preservation #Revisionssicherheit #revisionssichereArchivierung #Communication #Trends #IT #Software #Imaging #Retrieval #Search
-
Cory Doctorow @pluralistic "on how a poisoned #ML system could be abused in ways that evade detection": https://pluralistic.net/2022/10/21/let-me-summarize/#i-read-the-abstract #LLM #seq2seq #metaBackdoor #machineLearning #ai #backdoors #modelSpinning #dataGovernance @dataGovernance #AIEthics #ethicalAI #retrieval #dataMining #dataDon #infoSec
-
Nach drei Tagen schon 400 Mitglieder in der neuen Linkedin-Gruppe "Information & Document Management", aber das geht noch besser. Den Link https://www.linkedin.com/groups/14188051/members/ kann man gern weitergeben
#IDMNL #Dokumentenmanagement #AI #MachineLearning #Analytics #Collaboration #BPM #RPA #Automation #Scanning #Preservation #Revisionssicherheit #revisionssichereArchivierung #Communication #Trends #IT #Software #Imaging #Retrieval #Search
-
Nach drei Tagen schon 400 Mitglieder in der neuen Linkedin-Gruppe "Information & Document Management", aber das geht noch besser. Den Link https://www.linkedin.com/groups/14188051/members/ kann man gern weitergeben
#IDMNL #Dokumentenmanagement #AI #MachineLearning #Analytics #Collaboration #BPM #RPA #Automation #Scanning #Preservation #Revisionssicherheit #revisionssichereArchivierung #Communication #Trends #IT #Software #Imaging #Retrieval #Search
-
#introduction #learn #enjoy #joy
#metadata #naming #microBlogging #linguistics #retrieval #wordsMatter #howTo #Mastodon
#safety #security #protection #privacy #secrecy #confidentiality
#cooperation #networkPolitics #benevolence #institutions #entitlement #confidence #stateViolence #anger #inclusion #sociology
#coloniality #whiteness #meritocracy #decolonial #history #colonialism #feminisms #antiRacism #alphabetMafia
#blanchité #colonialité #méritocratie #décoloniale #lectureDécoloniale -
@texasmemory have you done (or do you know of) any #iEEG studies of the #testing #effect or paradigms that could have looked at #retrieval practice vs #study ?
-
#introduction
Hello people :-)
I am a French data engineer.
Here i will initiate conversations from texts about #security #MastodonForks #governance #data protection #dataPrivacy #GDPR #discoverability #psychology #sociality #archives #library #retrievalIf you see this message, please boost it so this new account appears in your local timeline (and gets federated if your posts are public).