home.social

#neo4j — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #neo4j, aggregated by home.social.

  1. Как мы строили MVP data lineage системы в ЮMoney

    Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.

    habr.com/ru/companies/yoomoney

    #data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные

  2. Как мы строили MVP data lineage системы в ЮMoney

    Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.

    habr.com/ru/companies/yoomoney

    #data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные

  3. Как мы строили MVP data lineage системы в ЮMoney

    Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.

    habr.com/ru/companies/yoomoney

    #data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные

  4. Как мы строили MVP data lineage системы в ЮMoney

    Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.

    habr.com/ru/companies/yoomoney

    #data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные

  5. The other fun project of the weekend was another kind of beast:

    I wanted to be able to listen system output from specific RPG programs running on our AS400

    The idea was the following:

    could I generate a graph from dependencies used when X or Y RPG routine run?

    I wanted to be able to map physical programs from libraries and other dependencies.

    so I went the Java path since its the main language we use to interface with AS400 routines.

    Then I used Neo4J to graph the output of the Java ibmi listening server.

    I’m probably going to write a long form about this since it was really interesting to vibe code.

    At some point I had to query the RPG routine themselves to be able to find key dependencies my main RPG routines were using.

    so I basically created an API endpoint that I can query with specific program names to then find their dependencies and again graph the results to Neo4J

    I still have to fine-tune the codebase before I publish this publicly but I’m pretty happy about the results

    🔗 https://rmendes.net/notes/2026/04/19/60bd6

  6. In my preparation of my talk @jcon about #JSpecify, I released version 4.0.0 of #Neo4j migrations, fully embracing JSpecify and #NullAway. Null-safety on the Java module path, as it should be. See you next week in Cologne.

    github.com/michael-simons/neo4

  7. Graph DB vs relational DB for AI apps… is it hype or actually useful?

    We’re refactoring a real app live and testing it ourselves. Curious where graphs actually shine. Jump in and help us break it 🎭
    youtube.com/live/KUcZL2yHjGU
    #Neo4j #GraphDatabases

  8. The OntoWeaver team is proud to release version 1.4 of its tool 🥳

    OntoWeaver allows to easily parse iterable data (like tables or documents) and create a Semantic Knowledge Graph. Basically, you write a simple YAML file telling what data you want to be a node or a property, you call a generic command, and 🎉 , you have your graph ready.

    With the 1.4 series, the main new feature is an option to display progress bars when doing heavy processing (like loading large CSV files).

    The documentation has also been heavily updated, completed and polished:
    ontoweaver.readthedocs.io/en/l

    #python #SKG #KG #graph #neo4j #ontoweaver #biocypher #science #bioinformatics #pasteur #ontologies #semanticWeb

  9. The OntoWeaver team is proud to release version 1.4 of its tool 🥳

    OntoWeaver allows to easily parse iterable data (like tables or documents) and create a Semantic Knowledge Graph. Basically, you write a simple YAML file telling what data you want to be a node or a property, you call a generic command, and 🎉 , you have your graph ready.

    With the 1.4 series, the main new feature is an option to display progress bars when doing heavy processing (like loading large CSV files).

    The documentation has also been heavily updated, completed and polished:
    ontoweaver.readthedocs.io/en/l

    #python #SKG #KG #graph #neo4j #ontoweaver #biocypher #science #bioinformatics #pasteur #ontologies #semanticWeb

  10. The OntoWeaver team is proud to release version 1.4 of its tool 🥳

    OntoWeaver allows to easily parse iterable data (like tables or documents) and create a Semantic Knowledge Graph. Basically, you write a simple YAML file telling what data you want to be a node or a property, you call a generic command, and 🎉 , you have your graph ready.

    With the 1.4 series, the main new feature is an option to display progress bars when doing heavy processing (like loading large CSV files).

    The documentation has also been heavily updated, completed and polished:
    ontoweaver.readthedocs.io/en/l

    #python #SKG #KG #graph #neo4j #ontoweaver #biocypher #science #bioinformatics #pasteur #ontologies #semanticWeb

  11. The OntoWeaver team is proud to release version 1.4 of its tool 🥳

    OntoWeaver allows to easily parse iterable data (like tables or documents) and create a Semantic Knowledge Graph. Basically, you write a simple YAML file telling what data you want to be a node or a property, you call a generic command, and 🎉 , you have your graph ready.

    With the 1.4 series, the main new feature is an option to display progress bars when doing heavy processing (like loading large CSV files).

    The documentation has also been heavily updated, completed and polished:
    ontoweaver.readthedocs.io/en/l

    #python #SKG #KG #graph #neo4j #ontoweaver #biocypher #science #bioinformatics #pasteur #ontologies #semanticWeb

  12. The OntoWeaver team is proud to release version 1.4 of its tool 🥳

    OntoWeaver allows to easily parse iterable data (like tables or documents) and create a Semantic Knowledge Graph. Basically, you write a simple YAML file telling what data you want to be a node or a property, you call a generic command, and 🎉 , you have your graph ready.

    With the 1.4 series, the main new feature is an option to display progress bars when doing heavy processing (like loading large CSV files).

    The documentation has also been heavily updated, completed and polished:
    https://
    ontoweaver.readthedocs.io/en/latest

    #python #SKG #KG #graph #neo4j #ontoweaver #biocypher #science #bioinformatics #pasteur #ontologies #semanticWeb

  13. Как я построил Graph RAG систему с точностью 96.7% за 5 дней: от научных статей до production-ready пайплайна

    Я реализовал Graph RAG систему, которая комбинирует 5 техник из свежих научных статей (KET-RAG, HippoRAG 2, VectorCypher) в единый пайплайн с декларативным Datalog reasoning-движком, полной провенансной трассировкой и типизированным API. Результат: 174/180 (96.7%) на билингвальном бенчмарке из 30 вопросов, оценённых в 6 режимах retrieval. Три режима достигли 100%. В статье — архитектура, 10 уроков оптимизации и эволюция от 38% до 96.7% за 10 итераций.

    habr.com/ru/articles/1003064/

    #GraphRAG #RAG #Neo4j #NLP #LLM #Python #Datalog #Knowledge_Graph #embeddings #PageRank

  14. ----------------

    🛠️ Tool
    ===================

    Opening: PentAGI is an autonomous penetration testing framework that combines LLM-driven agents with a curated suite of professional security tools. The project positions itself as a self-hosted, microservices-capable platform that orchestrates reconnaissance, exploitation, reporting and long-term memory for red-team workflows.

    Key Features:
    • Agent orchestration: Autonomous AI agents that plan and execute multi-step pentest tasks and delegate to specialized sub-agents.
    • Toolchain integration: Built-in support for more than 20 standard pentesting utilities, including nmap, metasploit and sqlmap for scanning and exploitation workflows.
    • Knowledge graph: Graphiti integration backed by Neo4j to map semantic relationships between assets, findings and techniques.
    • Persistent vector storage: Use of PostgreSQL with pgvector extension for embedding-based memory and retrieval.
    • Monitoring & reporting: Integration points for Grafana/Prometheus and automated generation of vulnerability reports with exploitation details.

    Technical Implementation (conceptual):
    • The architecture is microservices-oriented, with task-specific services for crawling, tool execution orchestration, memory management and API layers (REST and GraphQL).
    • Sandbox isolation is enforced at container level via Docker so that tool execution occurs in separated runtime environments.
    • LLM connectivity is abstracted to support multiple providers (OpenAI, Anthropic, Ollama, AWS Bedrock, Google AI), allowing the agent logic to leverage various models and endpoints for planning and natural-language reasoning.
    • Knowledge persistence combines a graph database (Neo4j) for relationships and a vector database approach via pgvector for embedding similarity searches and long-term memory reuse.

    Use Cases:
    • Autonomous reconnaissance and attack surface enumeration for internal red teams.
    • Reproducible test runs that store command outputs and reasoning for audit and reporting.
    • Research and proof-of-concept development where multi-tool orchestration and LLM planning accelerate workflows.

    Limitations and Considerations:
    • Autonomous offensive operations raise ethical and legal constraints; operator oversight and rules-of-engagement remain necessary.
    • False positives and hallucinated steps from LLM-driven planning can occur; results should be validated by human operators.
    • Resource and operational costs scale with model usage and container orchestration; observability integrations (Grafana/Prometheus) are provided but operational tuning is required.

    References: PentAGI lists integrations with nmap, metasploit, sqlmap, Neo4j, pgvector, and support for multiple LLM providers.

    🔹 tool #AI #pentesting #Neo4j #pgvector

    🔗 Source: github.com/vxcontrol/pentagi

  15. Native OpenCypher: A Game-Changer for ArcadeDB Graph Queries A complete reimplementation that brings massive performance gains, a smaller footprint, and full support for modern Cypher syntax. Up to 187x faster. blog.arcadedb.com/native-openc... #cypher #GraphDatabase #Neo4j #OPENCYPHER

  16. Super happy about the last two releases of the #Neo4j #JDBC driver

    github.com/neo4j/neo4j-jdbc/re

    github.com/neo4j/neo4j-jdbc/re

    Create relationships (start and end-node and the relationship), via one simple #SQL insert statement.

    Great help from @meistermeier and another colleague finding all the edges when this thing is deployed to AWS Glue.

    Good fun.

  17. Semantic RAG – как научить AI-ассистентов понимать, а не угадывать

    Одна из самых распространённых задач для AI-ассистента — поиск ответов на вопросы. Пользователи ожидают, что он сможет находить информацию во внутренних wiki, базах знаний техподдержки, Word-документах, Excel-файлах и других корпоративных источниках. Сегодня такой поиск чаще всего реализуется с помощью подхода Retrieval-Augmented Generation (RAG). Суть проста: сначала ассистент находит фрагменты документов, которые кажутся релевантными запросу, и уже на их основе формирует связанный ответ. На первый взгляд схема выглядит логичной. Но на практике у классического RAG есть целый ряд ограничений, которые быстро дают о себе знать при реальных внедрениях. В этой статье мы разберём основные проблемы и покажем, как можно их обойти.

    habr.com/ru/articles/943372/

    #RAG #Memgraph #neo4j #text2sql #ассистент #gpt

  18. Semantic RAG – как научить AI-ассистентов понимать, а не угадывать

    Одна из самых распространённых задач для AI-ассистента — поиск ответов на вопросы. Пользователи ожидают, что он сможет находить информацию во внутренних wiki, базах знаний техподдержки, Word-документах, Excel-файлах и других корпоративных источниках. Сегодня такой поиск чаще всего реализуется с помощью подхода Retrieval-Augmented Generation (RAG). Суть проста: сначала ассистент находит фрагменты документов, которые кажутся релевантными запросу, и уже на их основе формирует связанный ответ. На первый взгляд схема выглядит логичной. Но на практике у классического RAG есть целый ряд ограничений, которые быстро дают о себе знать при реальных внедрениях. В этой статье мы разберём основные проблемы и покажем, как можно их обойти.

    habr.com/ru/articles/943372/

    #RAG #Memgraph #neo4j #text2sql #ассистент #gpt

  19. Semantic RAG – как научить AI-ассистентов понимать, а не угадывать

    Одна из самых распространённых задач для AI-ассистента — поиск ответов на вопросы. Пользователи ожидают, что он сможет находить информацию во внутренних wiki, базах знаний техподдержки, Word-документах, Excel-файлах и других корпоративных источниках. Сегодня такой поиск чаще всего реализуется с помощью подхода Retrieval-Augmented Generation (RAG). Суть проста: сначала ассистент находит фрагменты документов, которые кажутся релевантными запросу, и уже на их основе формирует связанный ответ. На первый взгляд схема выглядит логичной. Но на практике у классического RAG есть целый ряд ограничений, которые быстро дают о себе знать при реальных внедрениях. В этой статье мы разберём основные проблемы и покажем, как можно их обойти.

    habr.com/ru/articles/943372/

    #RAG #Memgraph #neo4j #text2sql #ассистент #gpt

  20. Semantic RAG – как научить AI-ассистентов понимать, а не угадывать

    Одна из самых распространённых задач для AI-ассистента — поиск ответов на вопросы. Пользователи ожидают, что он сможет находить информацию во внутренних wiki, базах знаний техподдержки, Word-документах, Excel-файлах и других корпоративных источниках. Сегодня такой поиск чаще всего реализуется с помощью подхода Retrieval-Augmented Generation (RAG). Суть проста: сначала ассистент находит фрагменты документов, которые кажутся релевантными запросу, и уже на их основе формирует связанный ответ. На первый взгляд схема выглядит логичной. Но на практике у классического RAG есть целый ряд ограничений, которые быстро дают о себе знать при реальных внедрениях. В этой статье мы разберём основные проблемы и покажем, как можно их обойти.

    habr.com/ru/articles/943372/

    #RAG #Memgraph #neo4j #text2sql #ассистент #gpt

  21. Would like to see powerful @icij Panama Papers project graph database analysis tools (@neo4j, , Datashare) used to collect, analyze Jeffrey Epstein / Ghislane Maxwell crimes - investigative journalist collaboration + crowdsourced element

  22. Would like to see powerful @icij Panama Papers project graph database analysis tools (@neo4j, #Linkurious, #ICIJ Datashare) used to collect, analyze Jeffrey Epstein / Ghislane Maxwell crimes - investigative journalist collaboration + crowdsourced element
    #neo4j #JeffreyEpstein #GhislaneMaxwell

  23. Would like to see powerful @icij Panama Papers project graph database analysis tools (@neo4j, #Linkurious, #ICIJ Datashare) used to collect, analyze Jeffrey Epstein / Ghislane Maxwell crimes - investigative journalist collaboration + crowdsourced element
    #neo4j #JeffreyEpstein #GhislaneMaxwell

  24. 🥁📢 #SpringModulith 2.0 M2, 1.4.3, and 1.3.9 are out! Milestone with event publication registry implementations for #MongoDB and #Neo4j. Bug fixes, dependency upgrades to the latest Boot releases, etc. Grab it while it's 🔥! 🍃📦

    spring.io/blog/2025/08/22/spri

  25. I like what we achieved with the #JDBC driver for #Neo4j… Also, the demos are so nice on the module path with #Java24

    github.com/neo4j/neo4j-jdbc/re

  26. Today is the DBA Appreciation Day!

    Bring your DBAs a cake and a coffee, please. And don't drop any tables in production, pretty please. It's weekend ...

    #PostgreSQL #SQLServer #Oracle #DB2 #MySQL #MariaDB #Snowflake #SQLite #Neo4j #Teradata #SAPHana #Aerospike #ApacheSpark #Clickhouse #Informix #WarehousePG #Greenplum #Adabas

  27. Today is the DBA Appreciation Day!

    Bring your DBAs a cake and a coffee, please. And don't drop any tables in production, pretty please. It's weekend ...

    #PostgreSQL #SQLServer #Oracle #DB2 #MySQL #MariaDB #Snowflake #SQLite #Neo4j #Teradata #SAPHana #Aerospike #ApacheSpark #Clickhouse #Informix #WarehousePG #Greenplum #Adabas

  28. Today is the DBA Appreciation Day!

    Bring your DBAs a cake and a coffee, please. And don't drop any tables in production, pretty please. It's weekend ...

    #PostgreSQL #SQLServer #Oracle #DB2 #MySQL #MariaDB #Snowflake #SQLite #Neo4j #Teradata #SAPHana #Aerospike #ApacheSpark #Clickhouse #Informix #WarehousePG #Greenplum #Adabas

  29. Today is the DBA Appreciation Day!

    Bring your DBAs a cake and a coffee, please. And don't drop any tables in production, pretty please. It's weekend ...

    #PostgreSQL #SQLServer #Oracle #DB2 #MySQL #MariaDB #Snowflake #SQLite #Neo4j #Teradata #SAPHana #Aerospike #ApacheSpark #Clickhouse #Informix #WarehousePG #Greenplum #Adabas

  30. New case study on how LLMs support knowledge graph creation for historical bookbinding:
    “Stitching History into Semantics” presents BookBindKG, a Neo4j-based framework for documenting 19th-century Greek bookbinding with LLM-generated ontologies, Cypher queries, and semantic reasoning.
    Open access: mdpi.com/2504-4990/7/3/59

    #KnowledgeGraphs #DigitalHumanities #CulturalHeritage #BookHistory #AIforHumanities #Neo4j #OntologyEngineering #LLM #MachineLearning #openaccess

  31. Awhile back, I created a web app to find concerts pof bands featured on #BagelRadio . I found it amazingly useful. I am not thinking that I would love to have something like this for other concerts.

    I am thinking of creating a general-purpose database for events and different views of the data for different interests. One that comes to mind is artists featured here on Six Degrees of Ohio.

    This would also allow me to play with a #GraphDatabase like #Neo4J while i am at it.