#visionlanguageaction — Public Fediverse posts on home.social

Habr @[email protected] · 2026-02-26 · 12:02 UTC

[Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам! Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека. Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

https://habr.com/ru/articles/1003998/

#rl #reinforcementlearning #VLA #Робототехника #VisionLanguageAction #Action_Chunking_Transformer #ACT

#act #action_chunking_transformer #visionlanguageaction #робототехника #vla #reinforcementlearning

Habr @[email protected] · 2026-02-26 · 12:02 UTC

[Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам! Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека. Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

https://habr.com/ru/articles/1003998/

#rl #reinforcementlearning #VLA #Робототехника #VisionLanguageAction #Action_Chunking_Transformer #ACT

#act #action_chunking_transformer #visionlanguageaction #робототехника #vla #reinforcementlearning

Habr @[email protected] · 2026-02-26 · 12:02 UTC

[Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам! Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека. Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

https://habr.com/ru/articles/1003998/

#rl #reinforcementlearning #VLA #Робототехника #VisionLanguageAction #Action_Chunking_Transformer #ACT

#act #action_chunking_transformer #visionlanguageaction #робототехника #vla #reinforcementlearning

Habr @[email protected] · 2026-02-26 · 12:02 UTC

[Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам! Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека. Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

https://habr.com/ru/articles/1003998/

#rl #reinforcementlearning #VLA #Робототехника #VisionLanguageAction #Action_Chunking_Transformer #ACT

#rl #reinforcementlearning #vla #робототехника #visionlanguageaction #action_chunking_transformer

tech news ᳇ eicker.news @[email protected] · 2025-12-20 · 14:38 UTC

#Emergentcapabilities in #largelanguagemodels, such as in-context learning, can also appear in #visionlanguageaction (#VLA) models. Scaling up #roboticfoundationmodels allows for emergent human-to-robot transfer, improving performance on tasks demonstrated in human videos by approximately 2x. https://www.physicalintelligence.company/research/human_to_robot?eicker.news #tech #media #news

#emergentcapabilities #largelanguagemodels #visionlanguageaction #vla #roboticfoundationmodels #tech

Neuronus Computing @[email protected] · 2025-07-29 · 15:00 UTC

Robots just got a brain upgrade!

Google DeepMind's Gemini Robotics can now see 👁️, understand 🧠, and act 🦿 — powered by Gemini 2.0 and designed for real-world tasks.

📡 Keep watching this space for the latest in embodied AI.

#GeminiRobotics #AIforRobots #DeepMind #EmbodiedAI #VisionLanguageAction #RoboticsInnovation #Neuronus

#geminirobotics #aiforrobots #deepmind #embodiedai #visionlanguageaction #roboticsinnovation

Neuronus Computing @[email protected] · 2025-07-29 · 15:00 UTC

Robots just got a brain upgrade!

Google DeepMind's Gemini Robotics can now see 👁️, understand 🧠, and act 🦿 — powered by Gemini 2.0 and designed for real-world tasks.

📡 Keep watching this space for the latest in embodied AI.

#GeminiRobotics #AIforRobots #DeepMind #EmbodiedAI #VisionLanguageAction #RoboticsInnovation #Neuronus

#geminirobotics #aiforrobots #deepmind #embodiedai #visionlanguageaction #roboticsinnovation

InfoQ @[email protected] · 2025-07-17 · 07:36 UTC

Google DeepMind's Gemini Robotics On-Device is here!

This #VisionLanguageAction (VLA) foundation model operates locally on robot hardware, enabling low-latency inference and can be fine-tuned for specific tasks with as few as 50 demonstrations.

Get the technical deep dive on #InfoQ!

👉 https://bit.ly/4nNZ80t

#Robotics #AI #GoogleDeepMind

#visionlanguageaction #infoq #robotics #ai #googledeepmind

InfoQ @[email protected] · 2023-10-20 · 08:31 UTC

Google DeepMind unveils #RoboticsTransformer2 - a #VisionLanguageAction AI model for controlling robots: https://bit.ly/4060IzB

It can perform tasks not explicitly included in its training data and outperforms baseline models by up to 3x in skill evaluations.

#InfoQ #Robotics #AI #LLM #Google