Search
106 results for “llamaindex”
-
🚀 44 skills to make any AI coding assistant powerful:
🎮 Games: #pygame, #OpenRCT2, mGBA
🌐 Extensions: #Firefox, #Thunderbird
🐍 Python: #Django, pytest, SQLAlchemy
🐧 Linux: #KDE Plasmoid, Kate
🤖 AI: #LlamaIndex
and more!
-
LlamaIndex launches LiteParse, a new TypeScript-native library for parsing complex PDFs in AI agent workflows. The open-source tool runs locally, preserving document layout for better LLM understanding. It addresses a key bottleneck in RAG systems where data ingestion has become slower than the models themselves. https://www.marktechpost.com/2026/03/19/llamaindex-releases-liteparse-a-cli-and-typescript-native-library-for-spatial-pdf-parsing-in-ai-agent-workflows/ #AIagent #AI #GenAI #AgenticAI #LlamaIndex
-
LlamaIndex has released LiteParse, a new open-source TypeScript library for parsing PDFs in AI agent workflows. Unlike traditional tools that convert to Markdown, LiteParse preserves spatial layout using a grid approach. Zero Python dependencies, runs locally on Node.js. Aims to solve the data ingestion bottleneck in RAG pipelines. #AIagent #AI #GenAI #AgenticAI #LlamaIndex https://www.marktechpost.com/2026/03/19/llamaindex-releases-liteparse-a-cli-and-typescript-native-library-for-spatial-pdf-parsing-in-ai-agent-workflows/
-
New AI Leader Series 🎥
@Experian_US 's Head of AI/ML Innovation James Lin shares why his team chose LlamaIndex to build AI customer support agents designed to improve NPS — and what mattered most in production.
-
LlamaIndex is sponsoring + speaking at @wandb ( @CoreWeave ) Fully Connected London (Nov 4–5), a 2-day event for engineers shipping AI to prod.
Talk: Automating knowledge work with AI agents
Speaker: @tuana (Sr. DevRel Eng)https://wandb.ai/site/resources/events/fully-connected/london/
-
🚀 LlamaIndex is headed to @money2020 in Las Vegas!
We’re meeting with fintech and financial leaders to show how AI agents built on LlamaIndex are transforming underwriting, compliance, operations and more — all powered by private docs & data.
Want to see how? Book a meeting with us & enter to win limited-edition LlamaIndex swag:
👉 https://landing.llamaindex.ai/llamaindex-at-money-2020-vegas -
We’re bringing AI agents to the insurance frontier at #ITCVegas2025 🦙
See how LlamaIndex is helping insurers streamline claims, underwriting & CX.📅 Pre-book a meeting → get exclusive LlamaIndex swag 👇
🔗 https://landing.llamaindex.ai/itcvegas2025 -
📢 Episode 2 of the AI Leader Series is live!
We talk with Swami Chandrasekaran, Head of AI & Data Labs at @KPMG_US, about how the Big Four firm powers context-aware AI agents with LlamaIndex.
👉 Watch now + subscribe: https://www.youtube.com/watch?v=qkpUo9RheOo
-
How @Jeppesen (a @Boeing company) went from 512h → 64h to build AI agents:
✅ Built a Unified Chatbot Framework on LlamaIndex
✅ 1,792h saved already
✅ Nearly 4,900h projected annuallyFrom chatbot to full agent orchestration system. 🚀
Case study: https://www.llamaindex.ai/blog/jeppesen-a-boeing-company-saves-2-000-engineering-hours-with-unified-chat-framework-built-on -
LlamaIndex review: Easy context-augmented LLM applications - “Turn your enterprise data into production-ready LLM applications,” blares the LlamaIn... - https://www.infoworld.com/article/3715622/llamaindex-review-easy-context-augmented-llm-applications.html#tk.rss_all #developmentlibrariesandframeworks #artificialintelligence #softwaredevelopment #developmenttools #cloudcomputing #generativeai
-
Интеграция DeepEval для тестирования LlamaIndex Workflow
Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых ответов. DeepEval предоставляет набор инструментов и метрик, специально разработанных для оценки LLM-приложений, что делает его подходящим решением для тестирования LlamaIndex Workflow. Давайте разберем два подхода к интеграции DeepEval с LlamaIndex Workflow:
-
🚀 Excited to co-sponsor Agentic AI in Action in SF with AWS, Elastic, and TwelveLabs on Aug 26 in SF!
Catch our own Laurie Voss (VP Dev Rel) with a live tech talk: “Building Document Agents with LlamaIndex: Effective Design Patterns”.
Expect food, demos, partner insights, and AI networking magic. See you at the AWS Loft!
🔗 Register today: https://www.aicamp.ai/event/eventdetails/W2025082609
-
🚀 @SkySQL just cracked the code on hallucination-free SQL generation.
Using @llamaindex, they built AI agents that turn natural language into accurate SQL queries across complex database schemas.
Key wins:
✅ Zero hallucinated queries
✅ Faster development cycles
✅ Seamless MariaDB integrationThe future of database interactions is here 👇
https://www.llamaindex.ai/blog/how-skysql-enables-smarter-text-to-sql-agents-with-llamaindex?utm_source=socials&utm_medium=li_social -
→ Mindlid: 20% lift in top-1 recall for wellness app
🔗 Available via #GeminiAPI & #VertexAI
Integrates with #LangChain, #LlamaIndex, #Haystack, #Weaviate, #Qdrant, #ChromaDB & Vector Search
🧪 Colab notebooks for Gemini API & Vertex AI ready to use -
→ Mindlid: 20% lift in top-1 recall for wellness app
🔗 Available via #GeminiAPI & #VertexAI
Integrates with #LangChain, #LlamaIndex, #Haystack, #Weaviate, #Qdrant, #ChromaDB & Vector Search
🧪 Colab notebooks for Gemini API & Vertex AI ready to use -
→ Mindlid: 20% lift in top-1 recall for wellness app
🔗 Available via #GeminiAPI & #VertexAI
Integrates with #LangChain, #LlamaIndex, #Haystack, #Weaviate, #Qdrant, #ChromaDB & Vector Search
🧪 Colab notebooks for Gemini API & Vertex AI ready to use -
→ Mindlid: 20% lift in top-1 recall for wellness app
🔗 Available via #GeminiAPI & #VertexAI
Integrates with #LangChain, #LlamaIndex, #Haystack, #Weaviate, #Qdrant, #ChromaDB & Vector Search
🧪 Colab notebooks for Gemini API & Vertex AI ready to use -
→ Mindlid: 20% lift in top-1 recall for wellness app
🔗 Available via #GeminiAPI & #VertexAI
Integrates with #LangChain, #LlamaIndex, #Haystack, #Weaviate, #Qdrant, #ChromaDB & Vector Search
🧪 Colab notebooks for Gemini API & Vertex AI ready to use -
https://www.tkhunt.com/2291331/ RAGの主流となった「Agentic RAG(エージェント型RAG)」、徹底解説 #AgenticAi #AgenticRAG #AI #AIエージェント #ArtificialIntelligence #Cohere #ContextualAI #LangChain #LlamaIndex #llm #MCP #Pinecone #rag #エージェント型AI #エージェント型RAG #エンタープライズAI #シリコンバレーVC #ベクトルデータベース #人工知能 #生成AI
-
Hybrid RAG knowledge base за 15 минут — почему пришлось собрать свою lite версию RAG и в чем опасность RAG фреймворков
Архитектура Hybrid RAG систем заняла нишу корпоративных баз знаний, став стандартом для построения сервисов генерации контента на основе внутренних корпоративных данных. Уже пару лет у этого подхода практически нет альтернатив, когда речь заходит о сочетании возможностей генеративного ИИ с требованиями корпоративной безопасности и доверия к полученным результатам. Ключевое преимущество RAG перед обычным взаимодействием с нейросетями заключается в прозрачности: мы четко видим, на основе каких документов был сформирован ответ, и можем проверить каждый шаг пайплайна Почти в каждом проекте, которые мне удалось наблюдать, происходило одно и то же - сначала команда стартует с LangChain или LlamaIndex через пару месяцев пайплайн становится неуправляемым, далее половина фреймворка выкидывается и пишется свой костомный retrieval. В итоге архитектура почти всегда выглядит одинаково - Frontend + Python backend + vector search + LLM API В этой статье я покажу почему это происходит, поделюсь сложностями с которыми можно столкнуться при реализации корпоративных баз знаний основанных на RAG технологиях, расскажу почему готовые фреймворки иногда могут быть опасны для проекта и как я пришел к созданию универсальной сборки RAG системы разворачиваемой за 15 минут За последние два года вокруг вокруг RAG систем сформировалась огромная инфраструктура. Появились специализированные фреймворки и облачные сервисы. Однако, если присмотреться к реальным запросам бизнеса, вырисовывается устойчивый паттерн. Компании хотят быстрый запуск без глубокого погружения в разработку продукта, в пару кликов загрузить корпоративные документы и получать ответы на запросы по своим внутренним документам. Компаниям не нужен очередной конструктор с бесконечными настройками, а востребована легкая, быстро разворачиваемая корпоративная RAG база знаний Основной актив, с которым должны работать такие системы это регламенты, техническая документация, договоры, инструкции и неструктурированные базы знаний. И здесь RAG действительно незаменим. Но существует и обратная сторона медали:
https://habr.com/ru/articles/1005776/
#RAG #knowledge_base #hybrid_rag #rag_система #база_знаний #it_проекты #поисковые_системы #rag_ai #ai_agent #корпоративные_решения
-
Hybrid RAG для бизнеса: умный поиск по документам без облака и утечки данных
Крупная логистическая компания. Многолетний архив — договоры с перевозчиками, регламенты, переписка по инцидентам. Менеджер хочет узнать: были ли у нас претензии к этому контрагенту и на каких условиях мы с ним работали два года назад? Открывает почту, потом SharePoint, потом звонит в архив. Через час у него есть частичный ответ. Та же ситуация повторяется в таможне, банках и юридических фирмах. Данные накоплены — в PDF, Word, сканах, таблицах. Но корпоративная база знаний не отвечает на вопросы: нет инструмента, который понимал бы смысл запроса, а не просто искал по ключевым словам. Автоматизация документооборота упёрлась в потолок классических СЭД.
https://habr.com/ru/articles/1024696/
#Автоматизация_Документооборота #ИИ_для_Бизнеса #Нейросеть_Без_Облака #HybridRAG #Self_Hosted #LangGraph #Haystack #Qdrant #LlamaIndex #observability
-
Разворачиваем RAG на Java без боли: практический гайд
Всем привет! Недавно столкнулся с проблемой, что в настоящее время большая часть обучающих материалов по Retrieval‑Augmented Generation (RAG) сосредоточена на Python‑экосистеме (LangChain, LlamaIndex и тому подобное), а пошаговые руководства, которые показывают, как быстро собрать рабочее RAG‑приложение на чистом Java‑стеке , встречаются крайне редко. Эта статья представляет собой простое практическое руководство, где мы разберём весь процесс от настройки окружения до полного примера кода, чтобы даже начинающий Java‑разработчик мог развернуть RAG.
https://habr.com/ru/articles/1027426/
#RAG #Java #Spring_AI #Qdrant #Ollama #LLM #bgem3 #embeddings
-
"In this course, you will:
📖 Study AI Agents in theory, design, and practice.
🧑💻 Learn to use established AI Agent libraries such as smolagents, LangChain, and LlamaIndex.
💾 Share your agents on the Hugging Face Hub and explore agents created by the community.
🏆 Participate in challenges where you will evaluate your agents against other students’.
🎓 Earn a certificate of completion by completing assignments.
And more!At the end of this course you’ll understand how Agents work and how to build your own Agents using the latest libraries and tools."
https://huggingface.co/learn/agents-course/unit0/introduction
-
"In this course, you will:
📖 Study AI Agents in theory, design, and practice.
🧑💻 Learn to use established AI Agent libraries such as smolagents, LangChain, and LlamaIndex.
💾 Share your agents on the Hugging Face Hub and explore agents created by the community.
🏆 Participate in challenges where you will evaluate your agents against other students’.
🎓 Earn a certificate of completion by completing assignments.
And more!At the end of this course you’ll understand how Agents work and how to build your own Agents using the latest libraries and tools."
https://huggingface.co/learn/agents-course/unit0/introduction
-
"In this course, you will:
📖 Study AI Agents in theory, design, and practice.
🧑💻 Learn to use established AI Agent libraries such as smolagents, LangChain, and LlamaIndex.
💾 Share your agents on the Hugging Face Hub and explore agents created by the community.
🏆 Participate in challenges where you will evaluate your agents against other students’.
🎓 Earn a certificate of completion by completing assignments.
And more!At the end of this course you’ll understand how Agents work and how to build your own Agents using the latest libraries and tools."
https://huggingface.co/learn/agents-course/unit0/introduction
-
"In this course, you will:
📖 Study AI Agents in theory, design, and practice.
🧑💻 Learn to use established AI Agent libraries such as smolagents, LangChain, and LlamaIndex.
💾 Share your agents on the Hugging Face Hub and explore agents created by the community.
🏆 Participate in challenges where you will evaluate your agents against other students’.
🎓 Earn a certificate of completion by completing assignments.
And more!At the end of this course you’ll understand how Agents work and how to build your own Agents using the latest libraries and tools."
https://huggingface.co/learn/agents-course/unit0/introduction
-
"In this course, you will:
📖 Study AI Agents in theory, design, and practice.
🧑💻 Learn to use established AI Agent libraries such as smolagents, LangChain, and LlamaIndex.
💾 Share your agents on the Hugging Face Hub and explore agents created by the community.
🏆 Participate in challenges where you will evaluate your agents against other students’.
🎓 Earn a certificate of completion by completing assignments.
And more!At the end of this course you’ll understand how Agents work and how to build your own Agents using the latest libraries and tools."
https://huggingface.co/learn/agents-course/unit0/introduction
-
Как я собрал AI-ассистента для отца с больным сердцем: Tool-Calling RAG Pipeline на GPT-4o-mini без LangChain
Мой отец — человек, переживший несколько сложнейших операций на сердце. Жизнь с хроническим заболеванием — это бесконечный поток анализов, заключений и схем приёма лекарств. Находясь далеко (я живу во Вьетнаме), я постоянно волновался: не забудет ли он про дозу, правильно ли понял назначение, задал ли все нужные вопросы врачу? Мне нужен был не просто бот-напоминалка, а второй пилот — умный, конфиденциальный и мультимодальный AI-Кардиолог . Ассистент, который знает его анамнез наизусть, понимает голосовые команды и может «прочитать» фотографию свежего анализа. Я решил собрать полноценный автономный агент с возможностью вызова внешних инструментов ( Tool‑Calling ) и локальной базой знаний ( RAG ), но без использования громоздких фреймворков вроде LangChain или LlamaIndex.
https://habr.com/ru/articles/961280/
#ai #rag #tool_calling #python #telegrambot #gpt4o_mini #chromadb #ocrтехнологии #медицина #llm
-
Bessere KI-Antworten – auch ohne Hochleistungsrechner
KI-Systeme, die Texte nicht nur generieren, sondern gezielt in Dokumenten recherchieren, sind mittlerweile etablierter Stand der Technik. Einer dieser Ansätze heißt Retrieval-Augmented Generation (RAG): Stellt ein Benutzer eine Frage, sucht das System relevante Informationen in einer Wissensbasis – zum Beispiel in einem Wiki – und nutzt diese als Grundlage, um relevante Inhalte bzw. Quellen aufzulisten oder mittels KI Antworten daraus zu generieren.
Das Problem: Damit ein solches System gut funktioniert, müssen viele Stellschrauben richtig eingestellt werden. Diese sogenannte Hyperparameter-Optimierung ist normalerweise entweder zeitaufwändig oder rechenintensiv und in jedem Fall technisch anspruchsvoll. Unsere aktuelle Untersuchung zeigt jedoch: Eine automatisierte Optimierung ist möglich – sogar auf einem normalen Laptop.
Ausgangslage
Grundlage unserer Untersuchung im Open Science Lab war die Weiterentwicklung unseres RAG-Moduls für Wikibase4Research. Mit dem zuvor bestehenden System war es bereits sehr einfach möglich, eine Mediawiki Installation zu erhalten, deren Inhalte KI-gestützt via RAG durchsuchbar sind. Egal ob es nun um Artikelseiten in einem einfachen Mediawiki, strukturierte Wissensdaten in einer Wikibase oder eine Kombination aus beidem wie zum Beispiel Semantic Mediawiki oder Semantic Wikibase geht.
Eine Einführung in die grundlegende Funktionsweise von RAG und Wikibase4Research liefert das folgende Video:
Um eine hohe Qualität der KI-basierten Suchergebnisse und Antworten zu erhalten, ist es aber nötig, das System entsprechend der verwendeten Daten zu konfigurieren. Für diese Einstellungen gibt es keine Standardfälle, es gehört in das Arbeitsfeld eines Data Scientist die Systemparameter zu testen und zu verbessern. In diesem Prozess wird daher klassisch ein hohes Maß an Erfahrung und Fachwissen benötigt, um optimale Ergebnisse zu erhalten.
Die Alternative ist der nun in Wikibase4Research integrierte AutoRAG Ansatz, der die Parameter vollautomatisch optimiert. Dieser Prozess wird im Farchjargon „Hyperparameter Tuning“ oder auch „Hyperparameter Optimierung“ genannt.
Anforderungen
Die Rahmenbedingungen für ein Hyperparameter Tuning können sehr unterschiedlich sein. In unserem Fall ergeben sich die Anforderungen vor allem aus der Nutzergruppe von Wikibase4Research.
Forscher/Innen
Im Forschungskontext haben wir es mit fächerspezifischen Daten zu tun. Die beteiligten Wissenschaftler sind Experten in ihrer jeweiligen Fachdomäne. Expertise im Bereich spezieller Data-Science-Anwendungen ist in den Projektteams meist nicht vorhanden. Dies ist durchaus sinnvoll, denn das Projektteam ist somit auf die im Projekt zu bearbeitenden Forschungsfragen spezialisiert.
Daten
Für die Optimierung wird ein Test-Datensatz benötigt, der mögliche Fragen (Suchanfragen) mit den optimalen Quellen in den Daten verknüpft. Dieser Datensatz wird mit den Suchergebnissen des Systems verglichen, um die Qualität der Systemeinstellung bewerten zu können (Idealdaten). Solche Testdaten liegen in den überwiegenden Fällen nicht vor.
Endnutzer/Innen
Wer nutzt die Daten letztendlich und welche Art von Anfragen werden gestellt? Diese Frage ist entscheidend bei der Optimierung. Werden die Endnutzer spezifische Fakten aus den Daten abfragen wie zum Beispiel Jahreszahlen bestimmter Ereignisse oder eher Zusammenfassungen ganzer Absätze oder Artikel erwarten? Zu welchen Themen werden voraussichtlich Fragen gestellt? Erwarte ich eher Fragen zum Inhalt der Daten oder Fragen auf der Metaebene wie zum Beispiel zur Anzahl von Quellen, der Struktur und Länge von Texten, des Schreibstils oder zur Medienart? Werden Suchanfragen von Wissenschaftlern im Fachjargon gestellt oder eher in Umgangssprache formuliert? Die frühzeitige Definition grundlegender Personas für die zu erwartende Nutzergruppe hilft nicht nur bei der Optimierung von RAG, sondern ist auch ein wichtiger Schritt bei der Erstellung von Design und Benutzeroberflächen in der Präsentation der Forschungsergebnisse.
Infrastruktur
Hohe Rechenkapazitäten, Zugang zu GPU-Processing und Budget für industrielle KI-Services ist in vielen Projekten nicht vorhanden. Wikibase4Research bietet die Option, externe Schnittstellen wie Huggingface, OpenAI oder die SAIA-Umgebung der GWDG zur Ausführung von KI-Modellen zu nutzen. Die dort bestehenden Limits für kostenlose Nutzung reichen aber meist nicht aus, um die Vielzahl an Parameter-Konfigurationen zu testen, die zur Optimierung eines RAG-Systems notwendig ist. Ideal wäre also, die Ausführung lokal auf allgemein verfügbarer Hardware durchführen zu können, was auch unter dem Aspekt der ressourcenschonenden Nutzung von KI ein erstrebenswertes Ziel ist.
Es ergibt sich für unseren Ansatz daher folgender Anforderungskatalog:
- Anpassung auf die verwendeten Daten
- vollautomatische Optimierung
- keine technischen Vorkenntnisse nötig
- Test-Datensatz wird generiert
- User-Persona-Profile berücksichtigen
- möglichst effizient, mit geringem Ressourcenbedarf
Methodik
Daten
Als Datengrundlage dienten jeweils 50 zufällige Artikel aus drei MediaWiki-basierten Wissenssammlungen:
Um die Qualität der Suche zu bewerten, wurden automatisch Frage-Kontext-Antwort-Tripel erzeugt. Zum Einsatz kam dafür das mehrsprachige Sprachmodell IBM Granite 4 350M Nano, das speziell für Umgebungen mit geringer Rechenleistung wie zum Beispiel für On-Device-Anwendungsfälle entwickelt wurde.
LLM-Prompt
Um hinsichtlich der erwarteten Nutzung realistische Fragen zu generieren, wurde der an das Modell gelieferte Prompt („Erstelle Fragen aus dem Seiteninhalt“) um speziell angepasste Rollenbeschreibungen (Personas) ergänzt, die per Konfigurationsdatei individualisiert werden können. Eine solche Persona-Definition könnte zum Beispiel lauten: „You are a scientist who wants to learn about historic manorhouses in Europe“.
Parameter
In einem RAG-Prozess werden die zu durchsuchenden Daten in einer speziellen Datenbank indiziert, um später schnell und effizient relevante Inhalte zu finden.
Information Extraction und Indizierung von Daten in einem RAG-ProzessDie meisten von uns verwendeten Parameter optimieren diesen Prozess der Informations Extraktion (IE). Dabei wird bestimmt, in welcher Form die Daten gespeichert werden und ob diese ggf. vor dem Speichern um Metadaten wie Schlagworte, Titel oder Zusammenfassungen ergänzt werden. Für die Vektorisierung verwendeten wir das Modell Qwen3-embedding:0.6B. Die mittels AutoRAG optimierten Parameter sind im Folgenden aufgelistet:
- Chunk_Size: Wie groß sind die Informationsabschnitte, die später zugreifbar sein sollen?
- Chunk_Overlap: Wie stark überlappen sich die Informationsabschnitte?
- Extractors: Welche Datenanreicherungen sollen erfolgen (zum Beispiel Zusammenfassung erstellen, Fragen generieren)?
- Top_K: Wieviele Chunks werden als Suchergebnis geliefert?
Sind die Daten eingelesen und wird eine Suchanfrage gestellt, wird das System nach relevanten Informationsabschnitten durchsucht. Dieser Prozess wird „Information Retrieval“ genannt. Man kann es mit den Ergebnissen einer Google-Suche vergleichen, bei der die relevantesten Ergebnisse nicht zwangsläufig an erster Stelle der Liste stehen.
Information Retrieval in einem RAG ProzessInformation Retrieval bedeutet, zur Frage des Nutzers relevante Informationen zu finden. In diesem Prozessschritt optimieren wir den Parameter „Top_K“, der definiert, wie viele der Suchergebnisse im weiteren Prozess berücksichtigt werden. Ist Top_K zu klein, sind wichtige Quellen eventuell nicht enthalten. Ist Top_K zu groß, verarbeitet man eventuell eine große Menge wenig relevanter Inhalte.
Optimierungsverfahren
Statt alle möglichen Kombinationen auszuprobieren (was sehr lange dauern würde), kommt ein Suchalgorithmus zum Einsatz, der die verschiedenen Parameter stufenweise verbessert. Dieses als Greedy („gierig“) benannte Verfahren optimiert zunächst nur einen einzigen Parameter, dann den nächsten usw. Wir verzichten damit auf optimale Lösungen, erreichen aber hinreichend gute Ergebnisse mit akzeptablem Aufwand.
Als Bewertungsmaß für die Optimierung dient dabei der sogenannte Mean Reciprocal Rank (MRR) – ein Maß dafür, an welcher Position relevante Inhalte in der Trefferliste platziert sind. Ein entscheidender Vorteil:
Antwort Generierung in einem RAG Prozess. Diese Phase wurde in der Optimierung NICHT berücksichtigt
Die Bewertung erfolgt vollständig ohne KI-Antwortgenerierung. Es wird also nur getestet, wie gut das System relevante Inhalte findet, nicht wie gut eine KI daraus später Antworten generiert. Dadurch wird erheblich Rechenzeit gespart.Technische Umsetzung
Die Implementierung erfolgte vollständig im MediaWiki-Umfeld mit:
- Wikibase4Research
- einer Docker-basierten Python-API
- dem RAG-Framework LlamaIndex
- lokaler Modellbereitstellung über Ollama
Die Experimente liefen auf einem handelsüblichen Laptop aus dem Jahr 2022 (Dell Latitude 5421, Intel Core i7-11850H mit 8 Kernen, 16 GB RAM) – ohne GPU-Beschleunigung.
Ergebnisse
Trotz der bewusst schlanken Hardware-Ausstattung konnte die Optimierung meist bereits innerhalb einer Stunde abgeschlossen werden. Dabei wurde bei allen Datensätzen eine starke Verbesserungen der Abfrageergebnisse erzielt.
Für unser Qualitästmaß, den Mean Reciprocal Rank (MRR), ergab sich eine Steigerung von durchschnittlich 12 bis 25 Prozent gegenüber den voreingestellten Parametern. Das bedeutet, in den Ergebnissen der Suchanfrage waren mehr relevante Quellen aufgeführt und relevante Quellen standen in der Ergebnisliste an höherer Stelle als zuvor. In einzelnen Datensätzen ergaben sich sogar Verbesserungen von bis zu 50 Prozent. Dabei ließen sich vergleichbare Ergebnisse auch mit Artikeln erreichen, die nicht Teil der Optimierungsschleife waren (Cross-Validation).
Warum ist das relevant?
Für wissenschaftliche Infrastrukturen wie digitale Bibliotheken, Fachrepositorien oder Forschungsdatenplattformen ist es entscheidend, KI-Systeme effizient und ressourcenschonend betreiben zu können. Die Ergebnisse zeigen: Sinnvolle RAG-Optimierung ist auch ohne Rechenzentrum machbar.
Das senkt technische Hürden, reduziert Kosten und macht den Einsatz moderner KI-Technologien auch in kleineren Projekten realistisch.
Ausblick
Die für die Suche verwendeten Embedding-Vector-Modelle haben einen erheblichen Einfluss auf die Ergebnisse (vgl. Orbach et al. (2025)) und zwar sowohl auf die Rechenzeit als auch auf die Ergebnisqualität. Dabei zeigen Modelle nicht auf allen Datensätzen die gleichen Ergebnisse.
Es ist auch nur begrenzt möglich, die Optimierung mit extrem kleinen oder schnellen Embedding-Modellen auszuführen und die optimierten Parameter dann zusammen mit einem anderen, leistungsfähigen Modell im Live-Betrieb einzusetzen. Sind die eingesetzten Embedding-Modelle nicht angepasst genug an die verwendete Wissensdomäne, liefert auch die Optimierung nur suboptimale Ergebnisse.
Genau an diesem Punkt wird unsere Arbeit im Open Science Lab in der nächsten Zeit ansetzen. Gemeinsam mit den Fachinformationsdiensten FID Material Science, FID Move, FID Pyhsik und FID Philosophie evaluieren wir die Möglichkeit einer stärkeren Vernetzung von NFDI und FIDs mit dem Ziel, die einzelnen Wissendomänen mit fachspezifischen Embedding-Modellen zu versorgen. Zielsetzung ist es, damit den Zugang zu dieser Technologie noch weiter zu vereinfachen sowie die Qualität der Ergebnisse von KI-Anwendungen im Forschungs- und Bibliotheksumfeld gezielt zu erhöhen.
Prof. Dr. Ina Blümel, Open Science Lab // Foto: TIB/C. Bierwagen
„AutoRAG ist für uns ein wichtiger Innovationsschritt: Es macht RAG in offenen Wissensräumen wie Wikibase messbar, wiederholbar und mit überschaubaren Ressourcen betreibbar. Für Projekte wie NFDI4Culture und weitere Vorhaben im Open Science Lab bedeutet das spürbar bessere, nachvollziehbare KI-gestützte Suche über heterogene Bestände – ohne dass tiefes Spezial-Know-how aufgebaut werden muss. Nächster Schritt ist der Ausbau fachspezifischer Embeddings, kuratierter Testsets und transparenter Workflows, damit die Qualität und Nachnutzbarkeit langfristig steigt.“
Relevante Links
- Wikibase4Research: https://gitlab.com/nfdi4culture/wikibase4research/wikibase4research
- Wikibase4Research-RAG Modul: https://gitlab.com/nfdi4culture/wikibase4research/wikibase-RAG