home.social

#iclr — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #iclr, aggregated by home.social.

  1. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  2. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  3. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  4. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  5. A multi-agent LLM where each agent learns when to defer to a human, trained with GRPO on a cost-aware reward. Each defer event becomes SFT data, so the model gradually absorbs the human's expertise. Tunable cost knob trades accuracy against human-call budget at deployment, no retraining.

    benjaminhan.net/posts/20260520

    #ICLR #HumanInTheLoop #AgenticSystems #Metacognition #RL #AI

  6. О чём говорили на ICLR 2026? Репортаж AIRI о поездке на конференцию в Рио

    Конференции в науке об ИИ очень любят и ждут. Подача работы на какое‑либо мероприятие из верхушки рейтинга CORE обычно престижнее, чем подача её же в журнал первого квартиля. В «большую тройку» главных конференций года принято включать NeurIPS, ICML и ICLR. Последняя обычно проходит раньше двух других — в этом году она прошла в конце апреля в Рио‑де‑Жанейро. Мы посетили ICLR 2026 вместе с коллегами из AIRI и рассказываем, чем запомнилась нашим исследователям эта командировка.

    habr.com/ru/companies/airi/art

    #iclr_2026 #iclr #искусственный_интеллект #машинное+обучение #конференция

  7. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  8. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  9. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  10. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  11. SCoRe is a two-stage on-policy RL recipe that teaches a language model to revise its own answers using only self-generated data. On Gemini 1.5 Flash and 1.0 Pro it gains 15.6 points on MATH and 9.1 on HumanEval over the base model. At matched inference budgets, sequential self-correction beats parallel sampling up to 32 samples.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #RL #Metacognition #Reasoning #ICLR #AI

  12. Let's Verify Step by Step compares process and outcome supervision on MATH. The process-reward model reaches 78.2% best-of-1860 vs 72.4% for outcome. But that gap narrows fast at small N, where most deployments actually live.

    benjaminhan.net/posts/20260512

    #Paper #LLMs #Reasoning #Mathematics #ICLR #OpenAI #AI

  13. Conformal Language Modeling (CLM) adapts conformal prediction to generative LMs: sample candidates, stop when a calibrated rule fires, return a set guaranteed to contain an acceptable answer. The more interesting half is the component-level filter — per-phrase coverage, not just set-level. That's the primitive for hallucination flagging: highlight the vetted phrases, leave the rest for review.

    benjaminhan.net/posts/20260505

    #ConformalPrediction #LLMs #Hallucination #ICLR #AI

  14. Conformal Language Modeling (CLM) adapts conformal prediction to generative LMs: sample candidates, stop when a calibrated rule fires, return a set guaranteed to contain an acceptable answer. The more interesting half is the component-level filter — per-phrase coverage, not just set-level. That's the primitive for hallucination flagging: highlight the vetted phrases, leave the rest for review.

    benjaminhan.net/posts/20260505

    #ConformalPrediction #LLMs #Hallucination #ICLR #AI

  15. Conformal Language Modeling (CLM) adapts conformal prediction to generative LMs: sample candidates, stop when a calibrated rule fires, return a set guaranteed to contain an acceptable answer. The more interesting half is the component-level filter — per-phrase coverage, not just set-level. That's the primitive for hallucination flagging: highlight the vetted phrases, leave the rest for review.

    benjaminhan.net/posts/20260505

    #ConformalPrediction #LLMs #Hallucination #ICLR #AI

  16. Conformal Language Modeling (CLM) adapts conformal prediction to generative LMs: sample candidates, stop when a calibrated rule fires, return a set guaranteed to contain an acceptable answer. The more interesting half is the component-level filter — per-phrase coverage, not just set-level. That's the primitive for hallucination flagging: highlight the vetted phrases, leave the rest for review.

    benjaminhan.net/posts/20260505

    #ConformalPrediction #LLMs #Hallucination #ICLR #AI

  17. Conformal Language Modeling (CLM) adapts conformal prediction to generative LMs: sample candidates, stop when a calibrated rule fires, return a set guaranteed to contain an acceptable answer. The more interesting half is the component-level filter — per-phrase coverage, not just set-level. That's the primitive for hallucination flagging: highlight the vetted phrases, leave the rest for review.

    benjaminhan.net/posts/20260505

    #ConformalPrediction #LLMs #Hallucination #ICLR #AI

  18. MASS optimizes multi-agent LLM systems by interleaving prompt and topology search: block-level prompts, topology rejection sampling, then workflow-level prompts.

    Topology gets quietly demoted. Ablation on Gemini 1.5 Pro: ~6% gain from block prompts, 3% from topology, 2% from workflow prompts. Prompt tuning dominates — contradicts the topology-first thesis of ADAS and AFlow.

    benjaminhan.net/posts/20260430

    #LLMs #AI #AgenticSystems #PromptEngineering #Google #ICLR

  19. MASS optimizes multi-agent LLM systems by interleaving prompt and topology search: block-level prompts, topology rejection sampling, then workflow-level prompts.

    Topology gets quietly demoted. Ablation on Gemini 1.5 Pro: ~6% gain from block prompts, 3% from topology, 2% from workflow prompts. Prompt tuning dominates — contradicts the topology-first thesis of ADAS and AFlow.

    benjaminhan.net/posts/20260430

    #LLMs #AI #AgenticSystems #PromptEngineering #Google #ICLR

  20. MASS optimizes multi-agent LLM systems by interleaving prompt and topology search: block-level prompts, topology rejection sampling, then workflow-level prompts.

    Topology gets quietly demoted. Ablation on Gemini 1.5 Pro: ~6% gain from block prompts, 3% from topology, 2% from workflow prompts. Prompt tuning dominates — contradicts the topology-first thesis of ADAS and AFlow.

    benjaminhan.net/posts/20260430

    #LLMs #AI #AgenticSystems #PromptEngineering #Google #ICLR

  21. MASS optimizes multi-agent LLM systems by interleaving prompt and topology search: block-level prompts, topology rejection sampling, then workflow-level prompts.

    Topology gets quietly demoted. Ablation on Gemini 1.5 Pro: ~6% gain from block prompts, 3% from topology, 2% from workflow prompts. Prompt tuning dominates — contradicts the topology-first thesis of ADAS and AFlow.

    benjaminhan.net/posts/20260430

    #LLMs #AI #AgenticSystems #PromptEngineering #Google #ICLR

  22. DSPy turns LM pipelines into typed-module graphs and compiles them end-to-end against a single metric, bootstrapping its own few-shot demonstrations.

    The programming-model layer is the real contribution, not any specific teleprompter. Once pipelines are typed graphs, pipeline-level search (MASS, MIPRO) becomes possible in a way it wasn't with string-template prompts.

    benjaminhan.net/posts/20260430

    #LLMs #AI #PromptEngineering #NLP #Stanford #ICLR

  23. EvoPrompt runs an evolutionary search over a population of prompts, with an LLM implementing crossover and mutation. Differential Evolution beats Genetic Algorithm on most BIG-Bench Hard tasks.

    One of the cleanest early examples of an LLM as *operator* in an optimization loop, not as the thing being optimized. That pattern then shows up across prompt-and-agent design: DSPy teleprompters, MASS, MetaSPO.

    benjaminhan.net/posts/20260430

    #LLMs #AI #PromptEngineering #NLP #Microsoft #ICLR

  24. SelfReflect measures whether an LLM's text summary of its uncertainty matches its actual answer distribution. Across 20 modern models: it doesn't, unless the model sees samples of its own answers first.

    The negative result does more work than the metric itself. Fits a growing line where LLM self-reports shouldn't be trusted as introspection. Practical workaround isn't cheap: N forward passes to sample, then a summarize pass.

    benjaminhan.net/posts/20260430

    #LLMs #AI #Evaluation #Apple #ICLR

  25. SelfReflect measures whether an LLM's text summary of its uncertainty matches its actual answer distribution. Across 20 modern models: it doesn't, unless the model sees samples of its own answers first.

    The negative result does more work than the metric itself. Fits a growing line where LLM self-reports shouldn't be trusted as introspection. Practical workaround isn't cheap: N forward passes to sample, then a summarize pass.

    benjaminhan.net/posts/20260430

    #LLMs #AI #Evaluation #Apple #ICLR

  26. Сейчас будет breaking news, срыв покровов.

    В связи с поездкой на #ICLR в Рио, вспомнил песню "На далекой Амазонке" из мультфильма «Ежик плюс черепаха» 1981 года.
    И понял, что нас десятилетиями обманывали!

    В переводе Маршака пароходы в Бразилию отправляются из Ливерпуля:

    "Из ливерпульской гавани
    Всегда по четвергам,
    Суда уходят в плаванье
    К далеким берегам.
    Плывут они в Бразилию,
    Бразилию, Бразилию.
    И я хочу в Бразилию —
    К далеким берегам!"

    Но в оригинале у Киплинга вовсе не Ливерпуль никакой, а Саутгемптон!

    "Yes, weekly from Southampton,
    Great steamers, white and gold,
    Go rolling down to Rio
    (Roll down—roll down to Rio!)
    And I'd like to roll to Rio
    Some day before I'm old!"

    А ведь #Ливерпуль и #Саутгемптон даже не близко, они вообще на разных сторонах Британии! Переводческие вольности в полный рост.

    #Бразилия #Киплинг #Маршак

  27. Сейчас будет breaking news, срыв покровов.

    В связи с поездкой на #ICLR в Рио, вспомнил песню "На далекой Амазонке" из мультфильма «Ежик плюс черепаха» 1981 года.
    И понял, что нас десятилетиями обманывали!

    В переводе Маршака пароходы в Бразилию отправляются из Ливерпуля:

    "Из ливерпульской гавани
    Всегда по четвергам,
    Суда уходят в плаванье
    К далеким берегам.
    Плывут они в Бразилию,
    Бразилию, Бразилию.
    И я хочу в Бразилию —
    К далеким берегам!"

    Но в оригинале у Киплинга вовсе не Ливерпуль никакой, а Саутгемптон!

    "Yes, weekly from Southampton,
    Great steamers, white and gold,
    Go rolling down to Rio
    (Roll down—roll down to Rio!)
    And I'd like to roll to Rio
    Some day before I'm old!"

    А ведь #Ливерпуль и #Саутгемптон даже не близко, они вообще на разных сторонах Британии! Переводческие вольности в полный рост.

    #Бразилия #Киплинг #Маршак

  28. Сейчас будет breaking news, срыв покровов.

    В связи с поездкой на #ICLR в Рио, вспомнил песню "На далекой Амазонке" из мультфильма «Ежик плюс черепаха» 1981 года.
    И понял, что нас десятилетиями обманывали!

    В переводе Маршака пароходы в Бразилию отправляются из Ливерпуля:

    "Из ливерпульской гавани
    Всегда по четвергам,
    Суда уходят в плаванье
    К далеким берегам.
    Плывут они в Бразилию,
    Бразилию, Бразилию.
    И я хочу в Бразилию —
    К далеким берегам!"

    Но в оригинале у Киплинга вовсе не Ливерпуль никакой, а Саутгемптон!

    "Yes, weekly from Southampton,
    Great steamers, white and gold,
    Go rolling down to Rio
    (Roll down—roll down to Rio!)
    And I'd like to roll to Rio
    Some day before I'm old!"

    А ведь #Ливерпуль и #Саутгемптон даже не близко, они вообще на разных сторонах Британии! Переводческие вольности в полный рост.

    #Бразилия #Киплинг #Маршак

  29. Сейчас будет breaking news, срыв покровов.

    В связи с поездкой на #ICLR в Рио, вспомнил песню "На далекой Амазонке" из мультфильма «Ежик плюс черепаха» 1981 года.
    И понял, что нас десятилетиями обманывали!

    В переводе Маршака пароходы в Бразилию отправляются из Ливерпуля:

    "Из ливерпульской гавани
    Всегда по четвергам,
    Суда уходят в плаванье
    К далеким берегам.
    Плывут они в Бразилию,
    Бразилию, Бразилию.
    И я хочу в Бразилию —
    К далеким берегам!"

    Но в оригинале у Киплинга вовсе не Ливерпуль никакой, а Саутгемптон!

    "Yes, weekly from Southampton,
    Great steamers, white and gold,
    Go rolling down to Rio
    (Roll down—roll down to Rio!)
    And I'd like to roll to Rio
    Some day before I'm old!"

    А ведь #Ливерпуль и #Саутгемптон даже не близко, они вообще на разных сторонах Британии! Переводческие вольности в полный рост.

    #Бразилия #Киплинг #Маршак

  30. Сейчас будет breaking news, срыв покровов.

    В связи с поездкой на #ICLR в Рио, вспомнил песню "На далекой Амазонке" из мультфильма «Ежик плюс черепаха» 1981 года.
    И понял, что нас десятилетиями обманывали!

    В переводе Маршака пароходы в Бразилию отправляются из Ливерпуля:

    "Из ливерпульской гавани
    Всегда по четвергам,
    Суда уходят в плаванье
    К далеким берегам.
    Плывут они в Бразилию,
    Бразилию, Бразилию.
    И я хочу в Бразилию —
    К далеким берегам!"

    Но в оригинале у Киплинга вовсе не Ливерпуль никакой, а Саутгемптон!

    "Yes, weekly from Southampton,
    Great steamers, white and gold,
    Go rolling down to Rio
    (Roll down—roll down to Rio!)
    And I'd like to roll to Rio
    Some day before I'm old!"

    А ведь #Ливерпуль и #Саутгемптон даже не близко, они вообще на разных сторонах Британии! Переводческие вольности в полный рост.

    #Бразилия #Киплинг #Маршак

  31. #ICLR 2026 in Rio! Meet our scientists. 7 workshop papers and 7 posters co-authored by BIFOLD researchers will be presented. All details (Date of presentation, venue, etc): t1p.de/pn00w @[email protected] @[email protected] @[email protected] @[email protected] #MLSky #AI

  32. A major #AIconference, the International Conference on Learning Representations (#ICLR), discovered that 21% of #peerreviews were fully #AIgenerated. #Researchers raised concerns about AI-generated #reviews, citing issues like #hallucinatedcitations and #vaguefeedback. Organisers will now use automated tools to assess submissions and reviews for AI use. nature.com/articles/d41586-025 #tech #media #news

  33. "What can researchers do if they suspect that their manuscripts have been peer reviewed using #AI? Dozens of academics have raised concerns on social media about manuscripts and #peerreview|s submitted to the organizers of next year’s International Conference on Learning Representations (#ICLR), an annual gathering of specialists in machine learning. Among other things, they flagged hallucinated citations and suspiciously long and vague feedback on their work."

    nature.com/articles/d41586-025

  34. A thought from 2016.

    It took us nine years and a bit. In retrospect, I think we held out pretty long.

    #iclr #openreview

  35. AI Scientist-v2 Passes ICLR Peer Review Workshop

    AI Scientist-v2 makes history as the first automated research system to pass ICLR peer review with above-average human scores.

    olamnews.com/technology/ai/187

  36. ICLR-2025: что нового в мультимодальном ранжировании

    Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования. С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности. В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции.

    habr.com/ru/companies/yandex/a

    #machinelearning #нейросети #машинное_обучение #мультимодальное_ранжирование #искусственный_интеллект #iclr #конференция #статьи

  37. What's going on with this #ICLR paper?

    The metareview says that the authors provided a sound rebuttal and update to the paper, but neither are available (rebuttals are shown on other papers).

    openreview.net/forum?id=2jf5x5

  38. 📬 Today in the WR: “#AI scientists” debut at the #ICLR conference, China launches fast EV charging and deepfake labeling, and robots go to war (not #LAWs, but close). Then, why a secretive ultramarathon made me optimistic about Bluesky’s future 🦋
    Link ⬇️

  39. 🎓Paper time!✨ #ICLR spotlight. Concluding of 5 years of research on missing values handling for prediction: Beware of diminishing returns in imputation for prediction. 1/8

  40. Go #sqIRL!.... we got two papers accepted at #ICLR 2025
    The first for our lab. Congrats to Benjamin and Thomas and all the amazing collaborators that contributed to these efforts. More details will follow soon. Too happy to type :D

  41. A major #AIconference, the International Conference on Learning Representations (#ICLR), discovered that 21% of #peerreviews were fully #AIgenerated. #Researchers raised concerns about AI-generated #reviews, citing issues like #hallucinatedcitations and #vaguefeedback. Organisers will now use automated tools to assess submissions and reviews for AI use. nature.com/articles/d41586-025 #tech #media #news