home.social

#rl — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #rl, aggregated by home.social.

  1. Come join the #Apertus LLM team as an AI research engineer!

    If you have experience with software, data, and ML engineering, a passion for #FOSS and interesting in post-training of large models (#SFT, #RL, rewards design, ...), you could be a great fit for the recently opened roles, all in Lausanne, Switzerland!

    careers.epfl.ch/job/Lausanne-A

    #Fedihire #Job #Swtizerland #FOSS #ML #AI

  2. Boston Dynamics’ Atlas uses AI-driven, whole-body reinforcement learning to lift a mini-fridge—combining proprioceptive perception, domain randomization and high-fidelity sim‑to‑real training to deliver strength, dexterity and reliability. Read more: bostondynamics.com/blog/traini 🤖📦 #Robotics #AI #RL

    The #robro in the vid, be like do you even #lift…? 🤔 🤣🤣🤣 #brainfart

  3. Boston Dynamics’ Atlas uses AI-driven, whole-body reinforcement learning to lift a mini-fridge—combining proprioceptive perception, domain randomization and high-fidelity sim‑to‑real training to deliver strength, dexterity and reliability. Read more: bostondynamics.com/blog/traini 🤖📦 #Robotics #AI #RL

    The #robro in the vid, be like do you even #lift…? 🤔 🤣🤣🤣 #brainfart

  4. Boston Dynamics’ Atlas uses AI-driven, whole-body reinforcement learning to lift a mini-fridge—combining proprioceptive perception, domain randomization and high-fidelity sim‑to‑real training to deliver strength, dexterity and reliability. Read more: bostondynamics.com/blog/traini 🤖📦 #Robotics #AI #RL

    The #robro in the vid, be like do you even #lift…? 🤔 🤣🤣🤣 #brainfart

  5. Boston Dynamics’ Atlas uses AI-driven, whole-body reinforcement learning to lift a mini-fridge—combining proprioceptive perception, domain randomization and high-fidelity sim‑to‑real training to deliver strength, dexterity and reliability. Read more: bostondynamics.com/blog/traini 🤖📦

    The in the vid, be like do you even …? 🤔 🤣🤣🤣

  6. Boston Dynamics’ Atlas uses AI-driven, whole-body reinforcement learning to lift a mini-fridge—combining proprioceptive perception, domain randomization and high-fidelity sim‑to‑real training to deliver strength, dexterity and reliability. Read more: bostondynamics.com/blog/traini 🤖📦 #Robotics #AI #RL

    The #robro in the vid, be like do you even #lift…? 🤔 🤣🤣🤣 #brainfart

  7. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  8. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  9. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  10. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  11. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  12. MemSkill reframes LLM-agent memory operations as a learnable skill bank: an RL controller selects Top-K skills per span, an LLM designer periodically rewrites them from hard cases. But "self-evolving" overstates the test-time story — both controller and bank are trained offline and frozen at deployment; only per-trace memory updates online.

    benjaminhan.net/posts/20260519

    #LLMs #AgenticSystems #RL #Metacognition #AI

  13. MemSkill reframes LLM-agent memory operations as a learnable skill bank: an RL controller selects Top-K skills per span, an LLM designer periodically rewrites them from hard cases. But "self-evolving" overstates the test-time story — both controller and bank are trained offline and frozen at deployment; only per-trace memory updates online.

    benjaminhan.net/posts/20260519

    #LLMs #AgenticSystems #RL #Metacognition #AI

  14. MemSkill reframes LLM-agent memory operations as a learnable skill bank: an RL controller selects Top-K skills per span, an LLM designer periodically rewrites them from hard cases. But "self-evolving" overstates the test-time story — both controller and bank are trained offline and frozen at deployment; only per-trace memory updates online.

    benjaminhan.net/posts/20260519

    #LLMs #AgenticSystems #RL #Metacognition #AI

  15. MemSkill reframes LLM-agent memory operations as a learnable skill bank: an RL controller selects Top-K skills per span, an LLM designer periodically rewrites them from hard cases. But "self-evolving" overstates the test-time story — both controller and bank are trained offline and frozen at deployment; only per-trace memory updates online.

    benjaminhan.net/posts/20260519

    #LLMs #AgenticSystems #RL #Metacognition #AI

  16. MemSkill reframes LLM-agent memory operations as a learnable skill bank: an RL controller selects Top-K skills per span, an LLM designer periodically rewrites them from hard cases. But "self-evolving" overstates the test-time story — both controller and bank are trained offline and frozen at deployment; only per-trace memory updates online.

    benjaminhan.net/posts/20260519

    #LLMs #AgenticSystems #RL #Metacognition #AI

  17. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  18. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  19. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  20. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  21. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  22. Hi :)
    auch wenn ich ein einsamer rufer zu dem thema bin, werde ich das immer wenn ich es sehe hier wieder bringen,

    ) wann hört es endlich auf, das die knappe TV nachrichten sendezeit im örr mit fussball verschwendet wird?
    die leute die es interessiert haben sich längst alle interessierenden infos anderweitig geholt.
    das ist doch ein relikt aus der anfangszeit, in der es noch keine kurzfristigen informationsquelllen gab.
    das ist heute mehr als flüssig :)
    #fussballmussweg
    vielleicht finden sich ja gleichgesinnte dann biitte
    nicht favorisieren sondern boosten, damit es eine wirkung bekommt. danke :)

    #nachrichten #TV #orr #fussball #tagesschau #tagesthemen #heute #heutjorunal #ard #zdf #rl #sat1 #pro7 #fussballmussweg

  23. Hi :)
    auch wenn ich ein einsamer rufer zu dem thema bin, werde ich das immer wenn ich es sehe hier wieder bringen,

    ) wann hört es endlich auf, das die knappe TV nachrichten sendezeit im örr mit fussball verschwendet wird?
    die leute die es interessiert haben sich längst alle interessierenden infos anderweitig geholt.
    das ist doch ein relikt aus der anfangszeit, in der es noch keine kurzfristigen informationsquelllen gab.
    das ist heute mehr als flüssig :)
    #fussballmussweg
    vielleicht finden sich ja gleichgesinnte dann biitte
    nicht favorisieren sondern boosten, damit es eine wirkung bekommt. danke :)

    #nachrichten #TV #orr #fussball #tagesschau #tagesthemen #heute #heutjorunal #ard #zdf #rl #sat1 #pro7 #fussballmussweg

  24. Hi :)
    auch wenn ich ein einsamer rufer zu dem thema bin, werde ich das immer wenn ich es sehe hier wieder bringen,

    ) wann hört es endlich auf, das die knappe TV nachrichten sendezeit im örr mit fussball verschwendet wird?
    die leute die es interessiert haben sich längst alle interessierenden infos anderweitig geholt.
    das ist doch ein relikt aus der anfangszeit, in der es noch keine kurzfristigen informationsquelllen gab.
    das ist heute mehr als flüssig :)
    #fussballmussweg
    vielleicht finden sich ja gleichgesinnte dann biitte
    nicht favorisieren sondern boosten, damit es eine wirkung bekommt. danke :)

    #nachrichten #TV #orr #fussball #tagesschau #tagesthemen #heute #heutjorunal #ard #zdf #rl #sat1 #pro7 #fussballmussweg

  25. Hi :)
    auch wenn ich ein einsamer rufer zu dem thema bin, werde ich das immer wenn ich es sehe hier wieder bringen,

    ) wann hört es endlich auf, das die knappe TV nachrichten sendezeit im örr mit fussball verschwendet wird?
    die leute die es interessiert haben sich längst alle interessierenden infos anderweitig geholt.
    das ist doch ein relikt aus der anfangszeit, in der es noch keine kurzfristigen informationsquelllen gab.
    das ist heute mehr als flüssig :)
    #fussballmussweg
    vielleicht finden sich ja gleichgesinnte dann biitte
    nicht favorisieren sondern boosten, damit es eine wirkung bekommt. danke :)

    #nachrichten #TV #orr #fussball #tagesschau #tagesthemen #heute #heutjorunal #ard #zdf #rl #sat1 #pro7 #fussballmussweg

  26. Hi :)
    auch wenn ich ein einsamer rufer zu dem thema bin, werde ich das immer wenn ich es sehe hier wieder bringen,

    ) wann hört es endlich auf, das die knappe TV nachrichten sendezeit im örr mit fussball verschwendet wird?
    die leute die es interessiert haben sich längst alle interessierenden infos anderweitig geholt.
    das ist doch ein relikt aus der anfangszeit, in der es noch keine kurzfristigen informationsquelllen gab.
    das ist heute mehr als flüssig :)
    #fussballmussweg
    vielleicht finden sich ja gleichgesinnte dann biitte
    nicht favorisieren sondern boosten, damit es eine wirkung bekommt. danke :)

    #nachrichten #TV #orr #fussball #tagesschau #tagesthemen #heute #heutjorunal #ard #zdf #rl #sat1 #pro7 #fussballmussweg

  27. Machine Unlearning. Как измерить и достичь «забывания»?

    Всем привет! Меня зовут Вадим, я — Data Scientist в компании Raft. Эта статья написана по мотивам моего выступления на конференции

    habr.com/ru/companies/oleg-bun

    #ai #ml #GenAI #perception #генерация #нейросеть #alighnment #RL #генерация_видео #распознавание_текста

  28. Machine Unlearning. Как измерить и достичь «забывания»?

    Всем привет! Меня зовут Вадим, я — Data Scientist в компании Raft. Эта статья написана по мотивам моего выступления на конференции

    habr.com/ru/companies/oleg-bun

    #ai #ml #GenAI #perception #генерация #нейросеть #alighnment #RL #генерация_видео #распознавание_текста

  29. Machine Unlearning. Как измерить и достичь «забывания»?

    Всем привет! Меня зовут Вадим, я — Data Scientist в компании Raft. Эта статья написана по мотивам моего выступления на конференции

    habr.com/ru/companies/oleg-bun

    #ai #ml #GenAI #perception #генерация #нейросеть #alighnment #RL #генерация_видео #распознавание_текста

  30. Machine Unlearning. Как измерить и достичь «забывания»?

    Всем привет! Меня зовут Вадим, я — Data Scientist в компании Raft. Эта статья написана по мотивам моего выступления на конференции

    habr.com/ru/companies/oleg-bun

    #ai #ml #GenAI #perception #генерация #нейросеть #alighnment #RL #генерация_видео #распознавание_текста

  31. GO LIVE MAINTENANT 💥

    GAME VIEWER: Viens chill avec nous ! !youtube !tiktok !discord sur Rocket League ⚽

    👉 twitch.tv/joy_jstv

    #stream #live #twitch #rocketleague #rl

  32. ÇA VA ÊTRE CHAOTIQUE 😳

    GAME VIEWER: Alors ce Easy Anti Cheat ? Tu viens ? sur Rocket League ⚽

    👉 twitch.tv/joy_jstv

    #stream #live #twitch #rocketleague #rl

  33. TU DOIS ÊTRE LÀ 👇

    GAME VIEWER: Bon ce soir, c'est LE soir sur Rocket League ! Tu viens ? sur Rocket League ⚽

    👉 twitch.tv/joy_jstv

    #stream #live #twitch #rocketleague #rl

  34. ☀️ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂 💚 Danke fürs Folgen (wollen), freut mich. 💚 Schaue mir alle an und folge gerne zurück, wenn es passt. Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt. Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. 1/...

  35. ☀️ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂 💚 Danke fürs Folgen (wollen), freut mich. 💚 Schaue mir alle an und folge gerne zurück, wenn es passt. Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt. Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. 1/...

  36. ☀️ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂 💚 Danke fürs Folgen (wollen), freut mich. 💚 Schaue mir alle an und folge gerne zurück, wenn es passt. Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt. Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. 1/...

  37. ☀️ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂 💚 Danke fürs Folgen (wollen), freut mich. 💚 Schaue mir alle an und folge gerne zurück, wenn es passt. Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt. Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. 1/...

  38. ☀️ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂 💚 Danke fürs Folgen (wollen), freut mich. 💚 Schaue mir alle an und folge gerne zurück, wenn es passt. Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt. Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. 1/...

  39. ☀️ ☕ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂

    💚 Danke fürs Folgen (wollen), freut mich. 💚
    Schaue mir alle an und folge gerne zurück, wenn es passt. 😉 😘

    Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt.
    Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. sind deaktiviert, bzw. gelöscht.
    Meine Accounts in sozialen Medien werden von Anzeigen (§188 StGB und so) gegen meine Person überflutet.

    Lieben Gruß.

  40. ☀️ ☕ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂

    💚 Danke fürs Folgen (wollen), freut mich. 💚
    Schaue mir alle an und folge gerne zurück, wenn es passt. 😉 😘

    Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt.
    Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. sind deaktiviert, bzw. gelöscht.
    Meine Accounts in sozialen Medien werden von Anzeigen (§188 StGB und so) gegen meine Person überflutet.

    Lieben Gruß.

  41. ☀️ ☕ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂

    💚 Danke fürs Folgen (wollen), freut mich. 💚
    Schaue mir alle an und folge gerne zurück, wenn es passt. 😉 😘

    Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt.
    Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. sind deaktiviert, bzw. gelöscht.
    Meine Accounts in sozialen Medien werden von Anzeigen (§188 StGB und so) gegen meine Person überflutet.

    Lieben Gruß.

  42. ☀️ ☕ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂

    💚 Danke fürs Folgen (wollen), freut mich. 💚
    Schaue mir alle an und folge gerne zurück, wenn es passt. 😉 😘

    Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt.
    Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. sind deaktiviert, bzw. gelöscht.
    Meine Accounts in sozialen Medien werden von Anzeigen (§188 StGB und so) gegen meine Person überflutet.

    Lieben Gruß.

  43. ☀️ ☕ Moin, hallo, liebe FollowerInnen (m/w/d); 🙂

    💚 Danke fürs Folgen (wollen), freut mich. 💚
    Schaue mir alle an und folge gerne zurück, wenn es passt. 😉 😘

    Bin zurzeit nicht so präsent, weil bei mir im #RL immer noch die Luft brennt.
    Meine meisten Accounts bei #Bsky #Facebook #TwitterNix / #X etc. sind deaktiviert, bzw. gelöscht.
    Meine Accounts in sozialen Medien werden von Anzeigen (§188 StGB und so) gegen meine Person überflutet.

    Lieben Gruß.