#text_generation — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-05 · 07:22 UTC

Как Gemma и LangGraph написали законопроект победившего биопанка

Для специального бенчмарка мне потребовался нормативно-правовой документ с научной терминологией, перекрестными ссылками и набором сложных для векторизации имён. По традиции для подобных задач я использую тексты в жанре Киберпанк. Сразу вспомнил о «Манифесте Киберпанка» (слишком коротком для моей задачи) и Предложении 653 из «Видоизмененного углерода», у которого в реальности вообще нет текста. Делать подобный текст руками долго и довольно странно. В итоге решил совместить, опробовать агентную архитектуру для подготовки корпоративной «нетленки» и проверить, на что способна локальная модель в плане юридических и околонаучных текстов.

https://habr.com/ru/articles/1030684/

#text_generation #ollama #gemma #киберпанк #будущее #langgraph #agentic_ai #legal_ai

#legal_ai #agentic_ai #langgraph #будущее #киберпанк #gemma

Habr @[email protected] · 2026-04-02 · 08:52 UTC

PageIndex: замена векторному поиску в RAG?

Попытки заменить чем-то векторный поиск в RAG продолжаются. Про GraphRAG я уже высказывался , новый претендент на замену - Pageindex. Идея простая. Сегментируем документ на страницы, при помощи LLM и хитрого кода строим для него таблицу содержания, TOC с деревом узлов и саммари для каждого узла. Далее отправляем эту структуру в промпт поискового запроса и просим LLM найти релевантные узлы. За каждым найденным узлом закреплены страницы документа. Эти страницы достаём и используем в качестве контекста в финальном запросе. Нет чанков, не нужны эмбеддинги и векторные хранилища. Выглядит заманчиво. Попытаюсь добавить к этой идее немного критики и заодно расскажу как эту штуку запустить локально.

https://habr.com/ru/articles/1017318/

#rag #text_mining #text_generation #indexing #ollama #litellm

#litellm #ollama #indexing #text_generation #text_mining #rag

Habr @[email protected] · 2024-06-24 · 11:42 UTC

Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.

https://habr.com/ru/articles/823952/

#finetuning #gpt #gpt2 #natural_language_processing #text_generation #русский_язык #дообучение #языковая_модель

#языковая_модель #дообучение #русский_язык #text_generation #natural_language_processing #gpt2