home.social

#visionlanguageaction — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #visionlanguageaction, aggregated by home.social.

  1. [Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

    Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам! Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека. Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

    habr.com/ru/articles/1003998/

    #rl #reinforcementlearning #VLA #Робототехника #VisionLanguageAction #Action_Chunking_Transformer #ACT

  2. [Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

    Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам! Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека. Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

    habr.com/ru/articles/1003998/

    #rl #reinforcementlearning #VLA #Робототехника #VisionLanguageAction #Action_Chunking_Transformer #ACT

  3. [Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

    Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам! Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека. Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

    habr.com/ru/articles/1003998/

    #rl #reinforcementlearning #VLA #Робототехника #VisionLanguageAction #Action_Chunking_Transformer #ACT

  4. [Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

    Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам! Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека. Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

    habr.com/ru/articles/1003998/

    #rl #reinforcementlearning #VLA #Робототехника #VisionLanguageAction #Action_Chunking_Transformer #ACT

  5. Robots just got a brain upgrade!

    Google DeepMind's Gemini Robotics can now see 👁️, understand 🧠, and act 🦿 — powered by Gemini 2.0 and designed for real-world tasks.

    📡 Keep watching this space for the latest in embodied AI.

    #GeminiRobotics #AIforRobots #DeepMind #EmbodiedAI #VisionLanguageAction #RoboticsInnovation #Neuronus

  6. Robots just got a brain upgrade!

    Google DeepMind's Gemini Robotics can now see 👁️, understand 🧠, and act 🦿 — powered by Gemini 2.0 and designed for real-world tasks.

    📡 Keep watching this space for the latest in embodied AI.

    #GeminiRobotics #AIforRobots #DeepMind #EmbodiedAI #VisionLanguageAction #RoboticsInnovation #Neuronus

  7. Google DeepMind's Gemini Robotics On-Device is here!

    This #VisionLanguageAction (VLA) foundation model operates locally on robot hardware, enabling low-latency inference and can be fine-tuned for specific tasks with as few as 50 demonstrations.

    Get the technical deep dive on #InfoQ!

    👉 bit.ly/4nNZ80t

    #Robotics #AI #GoogleDeepMind

  8. Google DeepMind unveils #RoboticsTransformer2 - a #VisionLanguageAction AI model for controlling robots: bit.ly/4060IzB

    It can perform tasks not explicitly included in its training data and outperforms baseline models by up to 3x in skill evaluations.

    #InfoQ #Robotics #AI #LLM #Google