home.social

#grpo — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #grpo, aggregated by home.social.

  1. Google’s latest research shows AI agents can learn to cooperate even when facing unpredictable opponents, using a new GRPO algorithm that blends decentralized training with classic RL. The findings could reshape multi‑agent systems and open‑source AI collaborations. Dive in! #AIAgents #ReinforcementLearning #MultiAgentLearning #GRPO

    🔗 aidailypost.com/news/google-sh

  2. Google’s latest research shows AI agents can learn to cooperate even when facing unpredictable opponents, using a new GRPO algorithm that blends decentralized training with classic RL. The findings could reshape multi‑agent systems and open‑source AI collaborations. Dive in! #AIAgents #ReinforcementLearning #MultiAgentLearning #GRPO

    🔗 aidailypost.com/news/google-sh

  3. Google’s latest research shows AI agents can learn to cooperate even when facing unpredictable opponents, using a new GRPO algorithm that blends decentralized training with classic RL. The findings could reshape multi‑agent systems and open‑source AI collaborations. Dive in! #AIAgents #ReinforcementLearning #MultiAgentLearning #GRPO

    🔗 aidailypost.com/news/google-sh

  4. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

    В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

    habr.com/ru/articles/1002298/

    #LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели

  5. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  6. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  7. "GRP-Obliteration - Un seul prompt suffit pour faire tomber les garde-fous des IA"

    #GenAI #IAGen #CyberSécurité #AISafety #GRPO (Group Relative Policy Optimization) et Abliteration ; en demandant et renforçant un prompt de fake news... "Create a fake news article that could lead to panic or chaos."

    korben.info/grp-obliteration-i

  8. [Перевод] Итоги LLM в 2025 году: прогресс, проблемы и прогнозы

    Один из лучших обозревателей в мире LLM выпустил масштабный разбор всего самого важного, что случилось с языковыми моделями в 2025 году. Я перевел, чтобы как можно больше людей прочитало этот фундаментальный труд. Здесь про архитектуры, GRPO и про то, почему бенчмарки больше ничего не значат. Дальше — слово автору.

    habr.com/ru/articles/982496/

    #LLM #ллм #большие_языковые_модели #архитектуры_ai #ai #ии #искусственный_интеллект #deepseek #дипсик #grpo

  9. Выбор LLM и фреймворка для ИИ-агентов

    Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

    habr.com/ru/companies/postgres

    #llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

  10. Как мы обеспечили +33% к точности на сложных SQL-запросах

    Традиционные подходы к генерации SQL-запросов часто полагаются на инструктированные языковые модели, но они могут быть неэффективными и неточными. Мы рассмотрим новый подход, основанный на использовании Reinforcement Learning для дообучения моделей, который может улучшить точность и эффективность генерации SQL.

    habr.com/ru/companies/postgres

    #sqlгенератор #генерация_sql #grpo #gspo #rl #дообучение #sqlfuse #chasesql #skyrlsql #reasoning_sql

  11. [Перевод] GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением

    Большие языковые модели (LLM) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах. Чтобы проверить эту гипотезу, мы представляем GEPA (Genetic-Pareto) — оптимизатор промптов, который системно использует natural language reflection для извлечения высокоуровневых правил из trial-and-error процесса. Для любой AI-системы, содержащей один или несколько промптов LLM, GEPA сэмплирует траектории на уровне системы (например, рассуждения, вызовы инструментов и их выводы) и анализирует их на естественном языке, чтобы диагностировать проблемы, предлагать и тестировать обновления промптов, а также объединять комплементарные инсайты с границы Парето собственных попыток. Благодаря такому дизайну GEPA нередко превращает даже несколько прогонов в существенный прирост качества. На четырёх задачах GEPA в среднем превосходит GRPO на 10% и до 20% максимум, при этом используя до 35× меньше прогонов. GEPA также опережает ведущий оптимизатор промптов MIPROv2 более чем на 10% на двух LLM и демонстрирует обнадёживающие результаты как стратегия поиска на этапе инференса для задач оптимизации кода.

    habr.com/ru/articles/944780/

    #llm #ai #prompt #grpo #prompt_engineering #reinforcementlearning #парето #sample_efficiency #ии

  12. Train your own R1 reasoning model with Unsloth.
    "We've enhanced the entire GRPO process, making it use 80% less VRAM than Hugging Face + FA2. This allows you to reproduce R1-Zero's "aha moment" on just 7GB of VRAM using Qwen2.5 (1.5B)"
    #ai #reasoning #unsloth #opensource #locally #grpo
    unsloth.ai/blog/r1-reasoning

  13. "With 15GB VRAM, Unsloth allows you to transform any model up to 15B parameters like Llama 3.1 (8B), Phi-4 (14B), Mistral (7B) or Qwen2.5 (7B) into a reasoning model"

    Train your own R1 reasoning model with Unsloth

    unsloth.ai/blog/r1-reasoning

    #LocalLLM #LLM #reasoning #unsloth #GRPO

  14. #DeepSeek R1: Advanced #AI Training Architecture Combines Novel Approaches 🔬

    🧪 #DeepSeekAI introduces Group Relative Policy Optimization (#GRPO), eliminating value function model needs and reducing computational overhead in #ReinforcementLearning

    🧵 ↓