#knowledge_graphs — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #knowledge_graphs, aggregated by home.social.
-
Графы знаний в юридическом домене: эксперимент с LightRAG
Юридический домен требует понимания многочисленных связей между сущностями, рассеянными по множеству документов. Поэтому кажется, что область знаний, организованная таким образом, идеально может быть представлена в виде графа знаний: связи между нормами, прецедентами и понятиями, рассеянными по тысячам документов, наконец-то перестают теряться. Современные фреймворки обещают построить такой граф автоматически, в пару команд. Но между "запуском из коробки" и рабочей аналитической системой на практике лежит немалая дистанция. Это первая часть практического эксперимента с LightRAG, одним из самых известных графовых фреймворков. На небольшом корпусе из Гражданского кодекса РФ и судебной практики разбираем, как фреймворк устроен, как его быстро развернуть, и почему граф из "коробки", без оптимизации и тонкой настройки, при всей внешней убедительности, еще не готов к полноценной работе в юридическом домене.
https://habr.com/ru/articles/1036652/
#RAG #retrievalaugmented_generation #ai #artificial_intelligence #llm #large_language_models #vector_database #graph_database #knowledge_graphs #lightrag
-
Графы знаний в юридическом домене: как не потерять сложность при построении RAG-системы
Ни одна современная AI-система в юридическом домене не обходится без RAG: юридические данные слишком специфичны, слишком изменчивы и никогда слишком редко составляли значимую часть обучающей выборки LLM, чтобы доверять ей без внешней базы знаний. Обычно при построении RAG-системы используют модуль поиска, основанный на векторных БД. Однако в таких сложно организованных областях знаний, как юридическая, архитектура, основанная на поиске в хранилище "плоских" эмбеддингов, может не справиться. Векторный поиск позволяет находить семантически близкие (схожие) фрагменты текстов, тогда как юридический домен также требует понимания многочисленных связей между сущностями , рассеянными по множеству документов . Кажется, что область знаний, организованная таким образом, идеально может быть представлена в виде графа знаний, особенно после появления современных инструментов, позволяющих автоматически строить такие графы на тысячах документов и использовать их в качестве хранилища знаний для RAG-систем. Однако все имеет свою цену: неполнота или неточность построенного графа может свести на нет все вложенные ресурсы и оставить вас с системой, которая хуже "наивного" векторного поиска. Какие преимущества поиска по графу знаний по сравнению с классическим векторным поиском, а также каковы критерии, когда использование графового поиска действительно необходимо для построения RAG-системы в юридическом домене?
https://habr.com/ru/articles/1012556/
#RAG #retrievalaugmented_generation #ai #artificial_intelligence #llm #large_language_models #vector_database #graph_database #knowledge_graphs #graphrag
-
Графы знаний в юридическом домене: как не потерять сложность при построении RAG-системы
Ни одна современная AI-система в юридическом домене не обходится без RAG: юридические данные слишком специфичны, слишком изменчивы и никогда слишком редко составляли значимую часть обучающей выборки LLM, чтобы доверять ей без внешней базы знаний. Обычно при построении RAG-системы используют модуль поиска, основанный на векторных БД. Однако в таких сложно организованных областях знаний, как юридическая, архитектура, основанная на поиске в хранилище "плоских" эмбеддингов, может не справиться. Векторный поиск позволяет находить семантически близкие (схожие) фрагменты текстов, тогда как юридический домен также требует понимания многочисленных связей между сущностями , рассеянными по множеству документов . Кажется, что область знаний, организованная таким образом, идеально может быть представлена в виде графа знаний, особенно после появления современных инструментов, позволяющих автоматически строить такие графы на тысячах документов и использовать их в качестве хранилища знаний для RAG-систем. Однако все имеет свою цену: неполнота или неточность построенного графа может свести на нет все вложенные ресурсы и оставить вас с системой, которая хуже "наивного" векторного поиска. Какие преимущества поиска по графу знаний по сравнению с классическим векторным поиском, а также каковы критерии, когда использование графового поиска действительно необходимо для построения RAG-системы в юридическом домене?
https://habr.com/ru/articles/1012556/
#RAG #retrievalaugmented_generation #ai #artificial_intelligence #llm #large_language_models #vector_database #graph_database #knowledge_graphs #graphrag
-
Графы знаний в юридическом домене: как не потерять сложность при построении RAG-системы
Ни одна современная AI-система в юридическом домене не обходится без RAG: юридические данные слишком специфичны, слишком изменчивы и никогда слишком редко составляли значимую часть обучающей выборки LLM, чтобы доверять ей без внешней базы знаний. Обычно при построении RAG-системы используют модуль поиска, основанный на векторных БД. Однако в таких сложно организованных областях знаний, как юридическая, архитектура, основанная на поиске в хранилище "плоских" эмбеддингов, может не справиться. Векторный поиск позволяет находить семантически близкие (схожие) фрагменты текстов, тогда как юридический домен также требует понимания многочисленных связей между сущностями , рассеянными по множеству документов . Кажется, что область знаний, организованная таким образом, идеально может быть представлена в виде графа знаний, особенно после появления современных инструментов, позволяющих автоматически строить такие графы на тысячах документов и использовать их в качестве хранилища знаний для RAG-систем. Однако все имеет свою цену: неполнота или неточность построенного графа может свести на нет все вложенные ресурсы и оставить вас с системой, которая хуже "наивного" векторного поиска. Какие преимущества поиска по графу знаний по сравнению с классическим векторным поиском, а также каковы критерии, когда использование графового поиска действительно необходимо для построения RAG-системы в юридическом домене?
https://habr.com/ru/articles/1012556/
#RAG #retrievalaugmented_generation #ai #artificial_intelligence #llm #large_language_models #vector_database #graph_database #knowledge_graphs #graphrag
-
Графы знаний в юридическом домене: как не потерять сложность при построении RAG-системы
Ни одна современная AI-система в юридическом домене не обходится без RAG: юридические данные слишком специфичны, слишком изменчивы и никогда слишком редко составляли значимую часть обучающей выборки LLM, чтобы доверять ей без внешней базы знаний. Обычно при построении RAG-системы используют модуль поиска, основанный на векторных БД. Однако в таких сложно организованных областях знаний, как юридическая, архитектура, основанная на поиске в хранилище "плоских" эмбеддингов, может не справиться. Векторный поиск позволяет находить семантически близкие (схожие) фрагменты текстов, тогда как юридический домен также требует понимания многочисленных связей между сущностями , рассеянными по множеству документов . Кажется, что область знаний, организованная таким образом, идеально может быть представлена в виде графа знаний, особенно после появления современных инструментов, позволяющих автоматически строить такие графы на тысячах документов и использовать их в качестве хранилища знаний для RAG-систем. Однако все имеет свою цену: неполнота или неточность построенного графа может свести на нет все вложенные ресурсы и оставить вас с системой, которая хуже "наивного" векторного поиска. Какие преимущества поиска по графу знаний по сравнению с классическим векторным поиском, а также каковы критерии, когда использование графового поиска действительно необходимо для построения RAG-системы в юридическом домене?
https://habr.com/ru/articles/1012556/
#RAG #retrievalaugmented_generation #ai #artificial_intelligence #llm #large_language_models #vector_database #graph_database #knowledge_graphs #graphrag
-
Wikontic: строим графы из текстов, используя онтологию и LLM
Привет, Хабр! Это Алла, я работаю исследователем в команде «Модели с памятью» Лаборатории когнитивных систем искусственного интеллекта Института AIRI и занимаюсь исследованиями на стыке графов знаний и языковых моделей. Ранее я уже писала на Хабре статью про построение графов знаний из текстов по мотивам одной из наших публикаций. Мы активно продолжаем работать дальше и создали Wikontic — полноценный пайплайн для этой задачи. Недавно мы представляли его на интерактивной демо‑сессии на AAAI 2026 в Сингапуре — про это несколько дней назад вышел хабр от моего коллеги Айдара. Здесь я расскажу подробнее о том, как устроен новый пайплайн, и какие идеи пришли к нам в голову при его создании.
-
Benchmarking the Most Reliable Document Parsing API
https://www.tensorlake.ai/blog/benchmarks
#ycombinator #context_engineering #document_processing #machine_learning #LLM #RAG #vector_database #knowledge_graphs #document_parsing #structured_extraction #AI_workflows #Document_Parsing #OCR #Benchmarks #TEDS #Enterprise_AI -
Benchmarking the Most Reliable Document Parsing API
https://www.tensorlake.ai/blog/benchmarks
#ycombinator #context_engineering #document_processing #machine_learning #LLM #RAG #vector_database #knowledge_graphs #document_parsing #structured_extraction #AI_workflows #Document_Parsing #OCR #Benchmarks #TEDS #Enterprise_AI -
Benchmarking the Most Reliable Document Parsing API
https://www.tensorlake.ai/blog/benchmarks
#ycombinator #context_engineering #document_processing #machine_learning #LLM #RAG #vector_database #knowledge_graphs #document_parsing #structured_extraction #AI_workflows #Document_Parsing #OCR #Benchmarks #TEDS #Enterprise_AI -
Benchmarking the Most Reliable Document Parsing API
https://www.tensorlake.ai/blog/benchmarks
#ycombinator #context_engineering #document_processing #machine_learning #LLM #RAG #vector_database #knowledge_graphs #document_parsing #structured_extraction #AI_workflows #Document_Parsing #OCR #Benchmarks #TEDS #Enterprise_AI -
Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем
Машинный перевод может улучшить существующие вопросно‑ответные системы (англ. Question Answering — QA), которые имеют ограниченные языковые возможности, позволяя им поддерживать несколько языков. Однако у машинного перевода есть один основной недостаток: часто такие системы не справляются с переводом именованных сущностей, которые нельзя перевести дословно. Например, немецкое название фильма «The Pope Must Die» переводится как «Ein Papst zum Küssen», что дословно означает «Папа для поцелуев». На Русском языке название фильма звучит так: «Папа должен похудеть». Поскольку правильность именованных сущностей критична для вопросно‑ответных систем, необходимо как можно лучше обеспечить правильность их перевода. В данной статье я представляю наш метод машинного перевода, учитывающий именованные сущности, под названием «Lingua Franca». Он использует графы знаний для использования хранящейся там символьной информации с целью обеспечения правильности перевода именованных сущностей. И да, это работает!
https://habr.com/ru/articles/791616/
#машинный_перевод #именованые_сущности #machine_translation #named_entities #question_answering #вопросно_ответный_поиск #графы_знаний #knowledge_graphs #information_retrieval
-
ChatGPT плохо отвечает на «простые вопросы». Как это починить?
Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI), работающей над мультимодальными подходами. В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.