home.social

#duckdb_wasm — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #duckdb_wasm, aggregated by home.social.

  1. Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям

    Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому. Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме. Зачем может пригодиться эта программа и подход со структурированием текстовой информации своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп. разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…

    habr.com/ru/articles/1036594/

    #семантический_поиск #структурирование_инфомации #локальный_поиск_по_документам #эмбеддинги #duckdb_wasm #wllama #llmприложения #sql #rag #llm

  2. Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям

    Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому. Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме. Зачем может пригодиться эта программа и подход со структурированием текстовой информации своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп. разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…

    habr.com/ru/articles/1036594/

    #семантический_поиск #структурирование_инфомации #локальный_поиск_по_документам #эмбеддинги #duckdb_wasm #wllama #llmприложения #sql #rag #llm

  3. Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям

    Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому. Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме. Зачем может пригодиться эта программа и подход со структурированием текстовой информации своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп. разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…

    habr.com/ru/articles/1036594/

    #семантический_поиск #структурирование_инфомации #локальный_поиск_по_документам #эмбеддинги #duckdb_wasm #wllama #llmприложения #sql #rag #llm

  4. Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям

    Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому. Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме. Зачем может пригодиться эта программа и подход со структурированием текстовой информации своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп. разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…

    habr.com/ru/articles/1036594/

    #семантический_поиск #структурирование_инфомации #локальный_поиск_по_документам #эмбеддинги #duckdb_wasm #wllama #llmприложения #sql #rag #llm

  5. PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM

    Любой, кто хоть раз пытался «по-быстрому» проанализировать CSV-файл или прототип БД, сталкивался с выбором из неудобств: открывать в Excel, запускать Jupyter, возиться с pandas, или поднимать Postgres/ClickHouse ради пары запросов. Мне показалось странным, что в 2025 году до сих пор нет удобной zero-setup SQL-песочницы для локальных данных. Так родился PondPilot - open-source инструмент для анализа данных, работающий прямо в браузере, без серверов и настройки.

    habr.com/ru/articles/913682/

    #sql #duckdb #duckdb_wasm

  6. Московское жилье в шаговой доступности от…
    Кадый день вы совершаете почти одни и те же действия - просыпаетесь, чистите зубы, завтракаете, кто-то из вас отводит детей в садик или начальную школу, потом вы идете на работу, возвращаясь с работы вы идете на спортивную тренировку, заходите в магазин или в пункт выдачи заказов и возвращаетесь домой. На выходных идете в парк или в торговый центр на шоппинг, возможно в театр или ночной клуб. Поиски и сравнения места для жительства включают в себя оценку окрестностей вокруг. А можно пойти с обратной стороны и присмотреть дома где все нужное вам по соседству. Чтобы меньше времени проводить в дороге и больше моментов жизни было с пользой. Программа расчитала десятки миллионов пешеходных дистанций от жилых зданий Москвы в 2км от метро и я опубликовал данные на Github в виде поисковика жилья для гиков .
    #openstreetmap_h3 #duckdb #github_pages #sql #duckdb_wasm #жилье_для_айтишника
    habr.com/ru/articles/774516/