home.social

#text_generation — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #text_generation, aggregated by home.social.

  1. Как Gemma и LangGraph написали законопроект победившего биопанка

    Для специального бенчмарка мне потребовался нормативно-правовой документ с научной терминологией, перекрестными ссылками и набором сложных для векторизации имён. По традиции для подобных задач я использую тексты в жанре Киберпанк. Сразу вспомнил о «Манифесте Киберпанка» (слишком коротком для моей задачи) и Предложении 653 из «Видоизмененного углерода», у которого в реальности вообще нет текста. Делать подобный текст руками долго и довольно странно. В итоге решил совместить, опробовать агентную архитектуру для подготовки корпоративной «нетленки» и проверить, на что способна локальная модель в плане юридических и околонаучных текстов.

    habr.com/ru/articles/1030684/

    #text_generation #ollama #gemma #киберпанк #будущее #langgraph #agentic_ai #legal_ai

  2. Как Gemma и LangGraph написали законопроект победившего биопанка

    Для специального бенчмарка мне потребовался нормативно-правовой документ с научной терминологией, перекрестными ссылками и набором сложных для векторизации имён. По традиции для подобных задач я использую тексты в жанре Киберпанк. Сразу вспомнил о «Манифесте Киберпанка» (слишком коротком для моей задачи) и Предложении 653 из «Видоизмененного углерода», у которого в реальности вообще нет текста. Делать подобный текст руками долго и довольно странно. В итоге решил совместить, опробовать агентную архитектуру для подготовки корпоративной «нетленки» и проверить, на что способна локальная модель в плане юридических и околонаучных текстов.

    habr.com/ru/articles/1030684/

    #text_generation #ollama #gemma #киберпанк #будущее #langgraph #agentic_ai #legal_ai

  3. Как Gemma и LangGraph написали законопроект победившего биопанка

    Для специального бенчмарка мне потребовался нормативно-правовой документ с научной терминологией, перекрестными ссылками и набором сложных для векторизации имён. По традиции для подобных задач я использую тексты в жанре Киберпанк. Сразу вспомнил о «Манифесте Киберпанка» (слишком коротком для моей задачи) и Предложении 653 из «Видоизмененного углерода», у которого в реальности вообще нет текста. Делать подобный текст руками долго и довольно странно. В итоге решил совместить, опробовать агентную архитектуру для подготовки корпоративной «нетленки» и проверить, на что способна локальная модель в плане юридических и околонаучных текстов.

    habr.com/ru/articles/1030684/

    #text_generation #ollama #gemma #киберпанк #будущее #langgraph #agentic_ai #legal_ai

  4. Как Gemma и LangGraph написали законопроект победившего биопанка

    Для специального бенчмарка мне потребовался нормативно-правовой документ с научной терминологией, перекрестными ссылками и набором сложных для векторизации имён. По традиции для подобных задач я использую тексты в жанре Киберпанк. Сразу вспомнил о «Манифесте Киберпанка» (слишком коротком для моей задачи) и Предложении 653 из «Видоизмененного углерода», у которого в реальности вообще нет текста. Делать подобный текст руками долго и довольно странно. В итоге решил совместить, опробовать агентную архитектуру для подготовки корпоративной «нетленки» и проверить, на что способна локальная модель в плане юридических и околонаучных текстов.

    habr.com/ru/articles/1030684/

    #text_generation #ollama #gemma #киберпанк #будущее #langgraph #agentic_ai #legal_ai

  5. RAG: Как собрать свой ретривер для особых случаев

    С опытом у RAG-инженера накапливается солидный багаж эвристик и инструментов, которые в определенных задачах превосходят по качеству или скорости стандартные. Фраза «а для этого у меня есть собственный ретривер» звучит с некоторым снобизмом, но добавляет к профессионализму несколько пойнтов. Хотите в свою коллекцию ретривер, который умеет работать с терминами, плохо различимыми в векторном пространстве эмбеддинга, в частности с именами и названиями? Тогда давайте перейдём от снобизма к практике. Начнём с обработки текста и сегментируем его на фрагменты - «чанки». Далее сделаем TFIDF модель, добавим поиск и обернём всё это в ретривер LangChain. Наконец сравним наш ретривер с двумя-тремя стандартными решениями. А Ollama поможет с вопросами для бенчмарка.

    habr.com/ru/articles/1022244/

    #rag #rag_pipeline #text_mining #text_generation #retrieval #ollama #gensim #langchain

  6. PageIndex: замена векторному поиску в RAG?

    Попытки заменить чем-то векторный поиск в RAG продолжаются. Про GraphRAG я уже высказывался , новый претендент на замену - Pageindex. Идея простая. Сегментируем документ на страницы, при помощи LLM и хитрого кода строим для него таблицу содержания, TOC с деревом узлов и саммари для каждого узла. Далее отправляем эту структуру в промпт поискового запроса и просим LLM найти релевантные узлы. За каждым найденным узлом закреплены страницы документа. Эти страницы достаём и используем в качестве контекста в финальном запросе. Нет чанков, не нужны эмбеддинги и векторные хранилища. Выглядит заманчиво. Попытаюсь добавить к этой идее немного критики и заодно расскажу как эту штуку запустить локально.

    habr.com/ru/articles/1017318/

    #rag #text_mining #text_generation #indexing #ollama #litellm

  7. PageIndex: замена векторному поиску в RAG?

    Попытки заменить чем-то векторный поиск в RAG продолжаются. Про GraphRAG я уже высказывался , новый претендент на замену - Pageindex. Идея простая. Сегментируем документ на страницы, при помощи LLM и хитрого кода строим для него таблицу содержания, TOC с деревом узлов и саммари для каждого узла. Далее отправляем эту структуру в промпт поискового запроса и просим LLM найти релевантные узлы. За каждым найденным узлом закреплены страницы документа. Эти страницы достаём и используем в качестве контекста в финальном запросе. Нет чанков, не нужны эмбеддинги и векторные хранилища. Выглядит заманчиво. Попытаюсь добавить к этой идее немного критики и заодно расскажу как эту штуку запустить локально.

    habr.com/ru/articles/1017318/

    #rag #text_mining #text_generation #indexing #ollama #litellm

  8. PageIndex: замена векторному поиску в RAG?

    Попытки заменить чем-то векторный поиск в RAG продолжаются. Про GraphRAG я уже высказывался , новый претендент на замену - Pageindex. Идея простая. Сегментируем документ на страницы, при помощи LLM и хитрого кода строим для него таблицу содержания, TOC с деревом узлов и саммари для каждого узла. Далее отправляем эту структуру в промпт поискового запроса и просим LLM найти релевантные узлы. За каждым найденным узлом закреплены страницы документа. Эти страницы достаём и используем в качестве контекста в финальном запросе. Нет чанков, не нужны эмбеддинги и векторные хранилища. Выглядит заманчиво. Попытаюсь добавить к этой идее немного критики и заодно расскажу как эту штуку запустить локально.

    habr.com/ru/articles/1017318/

    #rag #text_mining #text_generation #indexing #ollama #litellm

  9. PageIndex: замена векторному поиску в RAG?

    Попытки заменить чем-то векторный поиск в RAG продолжаются. Про GraphRAG я уже высказывался , новый претендент на замену - Pageindex. Идея простая. Сегментируем документ на страницы, при помощи LLM и хитрого кода строим для него таблицу содержания, TOC с деревом узлов и саммари для каждого узла. Далее отправляем эту структуру в промпт поискового запроса и просим LLM найти релевантные узлы. За каждым найденным узлом закреплены страницы документа. Эти страницы достаём и используем в качестве контекста в финальном запросе. Нет чанков, не нужны эмбеддинги и векторные хранилища. Выглядит заманчиво. Попытаюсь добавить к этой идее немного критики и заодно расскажу как эту штуку запустить локально.

    habr.com/ru/articles/1017318/

    #rag #text_mining #text_generation #indexing #ollama #litellm

  10. Часть-1. Почему ИИ рисует каракули вместо текста: анатомия проблемы и дорожная карта решений

    Привет, чемпионы! Давайте начистоту. Вы уже перепробовали все: и промпты в кавычках, и уговоры на английском, и даже шептали запросы своему GPU. Результат? Очередная вывеска с текстом, напоминающим древние руны, переведенные через пять языков. Знакомо? Это наша общая, фундаментальная боль, и сегодня мы не будем ее заливать кофеином и надеждой. Мы возьмем ее, положим на операционный стол и проведем полную анатомическую диссекцию.

    habr.com/ru/companies/datafeel

    #ml #ai #design #texttoimage #image_generation #text_generation #fix_text_on_image #contentmaker #contentmarketing #midjourney

  11. Часть-1. Почему ИИ рисует каракули вместо текста: анатомия проблемы и дорожная карта решений

    Привет, чемпионы! Давайте начистоту. Вы уже перепробовали все: и промпты в кавычках, и уговоры на английском, и даже шептали запросы своему GPU. Результат? Очередная вывеска с текстом, напоминающим древние руны, переведенные через пять языков. Знакомо? Это наша общая, фундаментальная боль, и сегодня мы не будем ее заливать кофеином и надеждой. Мы возьмем ее, положим на операционный стол и проведем полную анатомическую диссекцию.

    habr.com/ru/companies/datafeel

    #ml #ai #design #texttoimage #image_generation #text_generation #fix_text_on_image #contentmaker #contentmarketing #midjourney

  12. Часть-1. Почему ИИ рисует каракули вместо текста: анатомия проблемы и дорожная карта решений

    Привет, чемпионы! Давайте начистоту. Вы уже перепробовали все: и промпты в кавычках, и уговоры на английском, и даже шептали запросы своему GPU. Результат? Очередная вывеска с текстом, напоминающим древние руны, переведенные через пять языков. Знакомо? Это наша общая, фундаментальная боль, и сегодня мы не будем ее заливать кофеином и надеждой. Мы возьмем ее, положим на операционный стол и проведем полную анатомическую диссекцию.

    habr.com/ru/companies/datafeel

    #ml #ai #design #texttoimage #image_generation #text_generation #fix_text_on_image #contentmaker #contentmarketing #midjourney

  13. Часть-1. Почему ИИ рисует каракули вместо текста: анатомия проблемы и дорожная карта решений

    Привет, чемпионы! Давайте начистоту. Вы уже перепробовали все: и промпты в кавычках, и уговоры на английском, и даже шептали запросы своему GPU. Результат? Очередная вывеска с текстом, напоминающим древние руны, переведенные через пять языков. Знакомо? Это наша общая, фундаментальная боль, и сегодня мы не будем ее заливать кофеином и надеждой. Мы возьмем ее, положим на операционный стол и проведем полную анатомическую диссекцию.

    habr.com/ru/companies/datafeel

    #ml #ai #design #texttoimage #image_generation #text_generation #fix_text_on_image #contentmaker #contentmarketing #midjourney

  14. [Перевод] Эволюция языковых моделей для генерации текста с высоты птичьего полёта

    В этой статье я хотел бы поделиться своими заметками о том, как языковые модели развивались в последние десятилетия. Этот текст может послужить туториалом для новичков и помочь понять ключевые концепции языковых моделей на протяжении их истории. Стоит отметить, что я не углубляюсь в детали реализации и математические аспекты, однако уровень описания достаточен для правильного понимания эволюции LMs.

    habr.com/ru/articles/828968/

    #языковые_модели #большие_языковые_модели #генерация_текста #трансформеры #large_language_models #text_generation #transformers #evolution #эволюция

  15. Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

    В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.

    habr.com/ru/articles/823952/

    #finetuning #gpt #gpt2 #natural_language_processing #text_generation #русский_язык #дообучение #языковая_модель

  16. Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

    В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.

    habr.com/ru/articles/823952/

    #finetuning #gpt #gpt2 #natural_language_processing #text_generation #русский_язык #дообучение #языковая_модель

  17. Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

    В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.

    habr.com/ru/articles/823952/

    #finetuning #gpt #gpt2 #natural_language_processing #text_generation #русский_язык #дообучение #языковая_модель

  18. ChatGPT Глубокая интеграция

    Первое, что приходит в голову, когда речь заходит о ChatGPT и играх, это работа с текстом: диалоги, квесты, сюжет. Но это банально, скучно и не интересно. Мне же хочется, чтобы ИИ мог управлять буквально каждым аспектом геймплея. Сейчас я нахожусь на начальном этапе, и тем не менее мне удалось найти способ, которым можно реализовать все задуманное. Фундаментальной вещью в каждой игре является движение объектов, с этого я и решил начать.

    habr.com/ru/articles/807441/

    #chatgpt #java #libgdx #parsing #compilation #text_generation #gamedev #game_engine #futures #graphics