#duckdb_wasm — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #duckdb_wasm, aggregated by home.social.
-
Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям
Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому. Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме. Зачем может пригодиться эта программа и подход со структурированием текстовой информации своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп. разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…
https://habr.com/ru/articles/1036594/
#семантический_поиск #структурирование_инфомации #локальный_поиск_по_документам #эмбеддинги #duckdb_wasm #wllama #llmприложения #sql #rag #llm
-
Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям
Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому. Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме. Зачем может пригодиться эта программа и подход со структурированием текстовой информации своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп. разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…
https://habr.com/ru/articles/1036594/
#семантический_поиск #структурирование_инфомации #локальный_поиск_по_документам #эмбеддинги #duckdb_wasm #wllama #llmприложения #sql #rag #llm
-
Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям
Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому. Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме. Зачем может пригодиться эта программа и подход со структурированием текстовой информации своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп. разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…
https://habr.com/ru/articles/1036594/
#семантический_поиск #структурирование_инфомации #локальный_поиск_по_документам #эмбеддинги #duckdb_wasm #wllama #llmприложения #sql #rag #llm
-
Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям
Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому. Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме. Зачем может пригодиться эта программа и подход со структурированием текстовой информации своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп. разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…
https://habr.com/ru/articles/1036594/
#семантический_поиск #структурирование_инфомации #локальный_поиск_по_документам #эмбеддинги #duckdb_wasm #wllama #llmприложения #sql #rag #llm
-
PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM
Любой, кто хоть раз пытался «по-быстрому» проанализировать CSV-файл или прототип БД, сталкивался с выбором из неудобств: открывать в Excel, запускать Jupyter, возиться с pandas, или поднимать Postgres/ClickHouse ради пары запросов. Мне показалось странным, что в 2025 году до сих пор нет удобной zero-setup SQL-песочницы для локальных данных. Так родился PondPilot - open-source инструмент для анализа данных, работающий прямо в браузере, без серверов и настройки.
-
Московское жилье в шаговой доступности от…
Кадый день вы совершаете почти одни и те же действия - просыпаетесь, чистите зубы, завтракаете, кто-то из вас отводит детей в садик или начальную школу, потом вы идете на работу, возвращаясь с работы вы идете на спортивную тренировку, заходите в магазин или в пункт выдачи заказов и возвращаетесь домой. На выходных идете в парк или в торговый центр на шоппинг, возможно в театр или ночной клуб. Поиски и сравнения места для жительства включают в себя оценку окрестностей вокруг. А можно пойти с обратной стороны и присмотреть дома где все нужное вам по соседству. Чтобы меньше времени проводить в дороге и больше моментов жизни было с пользой. Программа расчитала десятки миллионов пешеходных дистанций от жилых зданий Москвы в 2км от метро и я опубликовал данные на Github в виде поисковика жилья для гиков .
#openstreetmap_h3 #duckdb #github_pages #sql #duckdb_wasm #жилье_для_айтишника
https://habr.com/ru/articles/774516/