#text_generation — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #text_generation, aggregated by home.social.
-
Как Gemma и LangGraph написали законопроект победившего биопанка
Для специального бенчмарка мне потребовался нормативно-правовой документ с научной терминологией, перекрестными ссылками и набором сложных для векторизации имён. По традиции для подобных задач я использую тексты в жанре Киберпанк. Сразу вспомнил о «Манифесте Киберпанка» (слишком коротком для моей задачи) и Предложении 653 из «Видоизмененного углерода», у которого в реальности вообще нет текста. Делать подобный текст руками долго и довольно странно. В итоге решил совместить, опробовать агентную архитектуру для подготовки корпоративной «нетленки» и проверить, на что способна локальная модель в плане юридических и околонаучных текстов.
https://habr.com/ru/articles/1030684/
#text_generation #ollama #gemma #киберпанк #будущее #langgraph #agentic_ai #legal_ai
-
PageIndex: замена векторному поиску в RAG?
Попытки заменить чем-то векторный поиск в RAG продолжаются. Про GraphRAG я уже высказывался , новый претендент на замену - Pageindex. Идея простая. Сегментируем документ на страницы, при помощи LLM и хитрого кода строим для него таблицу содержания, TOC с деревом узлов и саммари для каждого узла. Далее отправляем эту структуру в промпт поискового запроса и просим LLM найти релевантные узлы. За каждым найденным узлом закреплены страницы документа. Эти страницы достаём и используем в качестве контекста в финальном запросе. Нет чанков, не нужны эмбеддинги и векторные хранилища. Выглядит заманчиво. Попытаюсь добавить к этой идее немного критики и заодно расскажу как эту штуку запустить локально.
https://habr.com/ru/articles/1017318/
#rag #text_mining #text_generation #indexing #ollama #litellm
-
Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки
В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.
https://habr.com/ru/articles/823952/
#finetuning #gpt #gpt2 #natural_language_processing #text_generation #русский_язык #дообучение #языковая_модель