#grpo — Public Fediverse posts on home.social

AI Daily Post @[email protected] · 2026-03-11 · 23:13 UTC

Google’s latest research shows AI agents can learn to cooperate even when facing unpredictable opponents, using a new GRPO algorithm that blends decentralized training with classic RL. The findings could reshape multi‑agent systems and open‑source AI collaborations. Dive in! #AIAgents #ReinforcementLearning #MultiAgentLearning #GRPO

🔗 https://aidailypost.com/news/google-shows-ai-agents-cooperate-unpredictable-opponents-using

#aiagents #reinforcementlearning #multiagentlearning #grpo

AI Daily Post @[email protected] · 2026-03-11 · 23:13 UTC

Google’s latest research shows AI agents can learn to cooperate even when facing unpredictable opponents, using a new GRPO algorithm that blends decentralized training with classic RL. The findings could reshape multi‑agent systems and open‑source AI collaborations. Dive in! #AIAgents #ReinforcementLearning #MultiAgentLearning #GRPO

🔗 https://aidailypost.com/news/google-shows-ai-agents-cooperate-unpredictable-opponents-using

#grpo #multiagentlearning #reinforcementlearning #aiagents

AI Daily Post @[email protected] · 2026-03-11 · 23:13 UTC

Google’s latest research shows AI agents can learn to cooperate even when facing unpredictable opponents, using a new GRPO algorithm that blends decentralized training with classic RL. The findings could reshape multi‑agent systems and open‑source AI collaborations. Dive in! #AIAgents #ReinforcementLearning #MultiAgentLearning #GRPO

🔗 https://aidailypost.com/news/google-shows-ai-agents-cooperate-unpredictable-opponents-using

#aiagents #reinforcementlearning #multiagentlearning #grpo

Habr @[email protected] · 2026-02-21 · 19:22 UTC

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

https://habr.com/ru/articles/1002298/

#LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели

#языковые_модели #constitutional_ai #grpo #qlora #lora #выравнивание

deepseek @[email protected] · 2026-02-21 · 19:11 UTC

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

#LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

Origin | Interest | Match

#llm #rlhf #dpo #finetuning #выравнивание #lora

deepseek @[email protected] · 2026-02-21 · 19:11 UTC

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

#LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

Origin | Interest | Match

#llm #rlhf #dpo #finetuning #выравнивание #lora

gaby_wald @[email protected] · 2026-02-11 · 11:57 UTC

"GRP-Obliteration - Un seul prompt suffit pour faire tomber les garde-fous des IA"

#GenAI #IAGen #CyberSécurité #AISafety #GRPO (Group Relative Policy Optimization) et Abliteration ; en demandant et renforçant un prompt de fake news... "Create a fake news article that could lead to panic or chaos."

https://korben.info/grp-obliteration-ia-safety.html

#genai #iagen #cybersecurite #aisafety #grpo

RedPacket Security @[email protected] · 2026-02-10 · 11:02 UTC

A one-prompt attack that breaks LLM safety alignment - https://www.redpacketsecurity.com/a-one-prompt-attack-that-breaks-llm-safety-alignment/

#threatintel
#LLM safety
#Safety alignment
#GRPO
#GRP-Obliteration
#AI safety

#threatintel #llm #safety #grpo #grp #ai

RedPacket Security @[email protected] · 2026-02-10 · 11:02 UTC

A one-prompt attack that breaks LLM safety alignment - https://www.redpacketsecurity.com/a-one-prompt-attack-that-breaks-llm-safety-alignment/

#threatintel
#LLM safety
#Safety alignment
#GRPO
#GRP-Obliteration
#AI safety

#threatintel #llm #safety #grpo #grp #ai

RedPacket Security @[email protected] · 2026-02-10 · 11:02 UTC

A one-prompt attack that breaks LLM safety alignment - https://www.redpacketsecurity.com/a-one-prompt-attack-that-breaks-llm-safety-alignment/

#threatintel
#LLM safety
#Safety alignment
#GRPO
#GRP-Obliteration
#AI safety

#threatintel #llm #safety #grpo #grp #ai

RedPacket Security @[email protected] · 2026-02-10 · 11:02 UTC

A one-prompt attack that breaks LLM safety alignment - https://www.redpacketsecurity.com/a-one-prompt-attack-that-breaks-llm-safety-alignment/

#threatintel
#LLM safety
#Safety alignment
#GRPO
#GRP-Obliteration
#AI safety

#ai #grp #grpo #safety #llm #threatintel

RedPacket Security @[email protected] · 2026-02-10 · 11:02 UTC

A one-prompt attack that breaks LLM safety alignment - https://www.redpacketsecurity.com/a-one-prompt-attack-that-breaks-llm-safety-alignment/

#threatintel
#LLM safety
#Safety alignment
#GRPO
#GRP-Obliteration
#AI safety

#threatintel #llm #safety #grpo #grp #ai

Habr @[email protected] · 2026-01-03 · 07:22 UTC

[Перевод] Итоги LLM в 2025 году: прогресс, проблемы и прогнозы

Один из лучших обозревателей в мире LLM выпустил масштабный разбор всего самого важного, что случилось с языковыми моделями в 2025 году. Я перевел, чтобы как можно больше людей прочитало этот фундаментальный труд. Здесь про архитектуры, GRPO и про то, почему бенчмарки больше ничего не значат. Дальше — слово автору.

https://habr.com/ru/articles/982496/

#LLM #ллм #большие_языковые_модели #архитектуры_ai #ai #ии #искусственный_интеллект #deepseek #дипсик #grpo

#grpo #дипсик #deepseek #искусственный_интеллект #ии #ai

Habr @[email protected] · 2025-12-23 · 15:52 UTC

Выбор LLM и фреймворка для ИИ-агентов

Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

https://habr.com/ru/companies/postgrespro/articles/979820/

#llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

#gspo #grpo #trl #дообучение #finetuning #ragas

Habr @[email protected] · 2025-10-08 · 11:22 UTC

Как мы обеспечили +33% к точности на сложных SQL-запросах

Традиционные подходы к генерации SQL-запросов часто полагаются на инструктированные языковые модели, но они могут быть неэффективными и неточными. Мы рассмотрим новый подход, основанный на использовании Reinforcement Learning для дообучения моделей, который может улучшить точность и эффективность генерации SQL.

https://habr.com/ru/companies/postgrespro/articles/954538/

#sqlгенератор #генерация_sql #grpo #gspo #rl #дообучение #sqlfuse #chasesql #skyrlsql #reasoning_sql

#reasoning_sql #skyrlsql #chasesql #sqlfuse #дообучение #rl

Habr @[email protected] · 2025-09-11 · 13:12 UTC

[Перевод] GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением

Большие языковые модели (LLM) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах. Чтобы проверить эту гипотезу, мы представляем GEPA (Genetic-Pareto) — оптимизатор промптов, который системно использует natural language reflection для извлечения высокоуровневых правил из trial-and-error процесса. Для любой AI-системы, содержащей один или несколько промптов LLM, GEPA сэмплирует траектории на уровне системы (например, рассуждения, вызовы инструментов и их выводы) и анализирует их на естественном языке, чтобы диагностировать проблемы, предлагать и тестировать обновления промптов, а также объединять комплементарные инсайты с границы Парето собственных попыток. Благодаря такому дизайну GEPA нередко превращает даже несколько прогонов в существенный прирост качества. На четырёх задачах GEPA в среднем превосходит GRPO на 10% и до 20% максимум, при этом используя до 35× меньше прогонов. GEPA также опережает ведущий оптимизатор промптов MIPROv2 более чем на 10% на двух LLM и демонстрирует обнадёживающие результаты как стратегия поиска на этапе инференса для задач оптимизации кода.

https://habr.com/ru/articles/944780/

#llm #ai #prompt #grpo #prompt_engineering #reinforcementlearning #парето #sample_efficiency #ии

#llm #ai #prompt #grpo #prompt_engineering #reinforcementlearning

:rss: Hacker News @[email protected] · 2025-04-22 · 12:35 UTC

Does RL Incentivize Reasoning in LLMs Beyond the Base Model?
https://limit-of-rlvr.github.io/
#ycombinator #Qwen #Deepseek_R1 #PPO #GRPO #AIME #RLVR #Tsinghua_University

#ycombinator #qwen #deepseek_r1 #ppo #grpo #aime

Hacker News @[email protected] · 2025-04-13 · 21:19 UTC

Implementing DeepSeek R1's GRPO algorithm from scratch

https://github.com/policy-gradient/GRPO-Zero

#HackerNews #Implementing #DeepSeek #GRPO #algorithm #from #scratch #deepseek #GRPO #algorithm #machinelearning #AIresearch #policygradient

#hackernews #implementing #deepseek #grpo #algorithm #from

Hacker News @[email protected] · 2025-03-06 · 20:07 UTC

Using GRPO to Beat o1, o3-mini and R1 at "Temporal Clue" — https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue
#HackerNews #GRPO #TemporalClue #AICompetition #MachineLearning #Optimization

#hackernews #grpo #temporalclue #aicompetition #machinelearning #optimization

Erik Jonker @[email protected] · 2025-02-08 · 12:56 UTC

Train your own R1 reasoning model with Unsloth.
"We've enhanced the entire GRPO process, making it use 80% less VRAM than Hugging Face + FA2. This allows you to reproduce R1-Zero's "aha moment" on just 7GB of VRAM using Qwen2.5 (1.5B)"
#ai #reasoning #unsloth #opensource #locally #grpo
https://unsloth.ai/blog/r1-reasoning

#grpo #ai #reasoning #unsloth #opensource #locally

Richard S. Lingner @[email protected] · 2025-02-06 · 21:43 UTC

"With 15GB VRAM, Unsloth allows you to transform any model up to 15B parameters like Llama 3.1 (8B), Phi-4 (14B), Mistral (7B) or Qwen2.5 (7B) into a reasoning model"

Train your own R1 reasoning model with Unsloth

https://unsloth.ai/blog/r1-reasoning

#LocalLLM #LLM #reasoning #unsloth #GRPO

#localllm #llm #reasoning #unsloth #grpo

michabbb @[email protected] · 2025-01-27 · 22:22 UTC

#DeepSeek R1: Advanced #AI Training Architecture Combines Novel Approaches 🔬

🧪 #DeepSeekAI introduces Group Relative Policy Optimization (#GRPO), eliminating value function model needs and reducing computational overhead in #ReinforcementLearning

🧵 ↓

#deepseek #ai #deepseekai #grpo #reinforcementlearning