Представьте себе производителя пиццы, работающего с шариком теста. Она может использовать лопаточку, чтобы поднять тесто на разделочную доску, а затем скалкой раскатать его в круг. Легко, верно? Нет, если этот производитель пиццы -робот.
Для робота работа с деформируемым объектом, таким как тесто, сложна, потому что форма теста может меняться разными способами, которые трудно представить с помощью уравнения. Кроме того, создание новой формы из этого теста требует нескольких шагов и использования различных инструментов. Роботу особенно сложно освоить манипуляционную задачу с длинной последовательностью шагов, где есть много возможных вариантов, поскольку обучение часто происходит методом проб и ошибок.
Исследователи из Массачусетского технологического института, Университета Карнеги-Меллона и Калифорнийского университета в Сан-Диего придумали лучший способ. Они создали основу для роботизированной системы манипулирования, которая использует двухэтапный процесс обучения, который может позволить роботу выполнять сложные задачи манипулирования тестом в течение длительного периода времени. Алгоритм «учитель» решает каждый шаг, который должен сделать робот для выполнения задачи. Затем он тренирует модель машинного обучения «ученик» , которая изучает абстрактные идеи о том, когда и как выполнять каждый навык, который ему нужен во время задачи, например, использование скалки. Обладая этим знанием, система рассуждает о том, как использовать навыки для выполнения всей задачи.
Исследователи показывают, что этот метод, который они назвали DiffSkill, может выполнять сложные манипуляционные задачи в симуляции, такие как резка и размазывание теста или сбор кусочков теста вокруг разделочной доски, превосходя при этом другие методы машинного обучения.
Помимо приготовления пиццы, этот метод можно применять и в других условиях, где роботу необходимо манипулировать деформируемыми объектами, например, роботу-уходу, который кормит, купает или одевает кого-то пожилого возраста или с двигательными нарушениями.
«Этот метод ближе к тому, как мы, люди, планируем свои действия. Когда человек выполняет долгосрочную задачу, мы не записываем все детали. промежуточных целей, которые нам нужно достичь на этом пути, а затем мы их реализуем», — говорит Юнжу Ли, аспирант Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и автор статьи, представляющей DiffSkill.
Студент и учитель
«Учитель» в структуре DiffSkill — это алгоритм оптимизации траектории, который может решать задачи с коротким горизонтом, когда начальное состояние объекта и целевое местоположение находятся близко друг к другу. Оптимизатор траектории работает в симуляторе, который моделирует физику реального мира (известный как симулятор дифференцируемой физики, который помещает «Diff» в «DiffSkill»). Алгоритм «учитель» использует информацию в симуляторе, чтобы узнать, как тесто должно двигаться на каждом этапе, по одному, а затем выводит эти траектории.
Затем нейронная сеть «ученик» учится имитировать действия учителя. В качестве входных данных он использует два изображения с камеры, одно из которых показывает тесто в его текущем состоянии, а другое показывает тесто в конце задачи. Нейронная сеть генерирует высокоуровневый план, чтобы определить, как связать различные навыки для достижения цели. Затем он генерирует конкретные краткосрочные траектории для каждого навыка и отправляет команды непосредственно инструментам.
Исследователи использовали эту технику для экспериментов с тремя различными смоделированными задачами манипулирования тестом. В одной задаче робот использует лопаточку, чтобы поднять тесто на разделочную доску, а затем скалкой расплющить его. В другом робот с помощью захвата собирает тесто со всего прилавка, кладет его на лопаточку и переносит на разделочную доску. В третьем задании робот разрезает кучу теста пополам с помощью ножа, а затем с помощью захвата перемещает каждую часть в разные места.
На голову выше остальных
DiffSkill удалось превзойти популярные методы, основанные на обучении с подкреплением, когда робот изучает задачу методом проб и ошибок. Фактически, DiffSkill был единственным методом, который смог успешно выполнить все три задачи по манипулированию тестом. Интересно, что исследователи обнаружили, что нейронная сеть «ученика» даже смогла превзойти алгоритм «учителя», говорит Лин.
«Наша структура предоставляет роботам новый способ приобретения новых навыков. Затем эти навыки можно объединить для решения более сложных задач, которые выходят за рамки возможностей предыдущих робототехнических систем», — говорит Лин.
Поскольку их метод сосредоточен на управлении инструментами (шпатель, нож, скалка и т. д.), его можно применять к различным роботам, но только в том случае, если они используют определенные инструменты, определенные исследователями. В будущем они планируют интегрировать форму инструмента в рассуждение «студенческой» сети, чтобы его можно было применять к другому оборудованию.
Исследователи намерены повысить производительность DiffSkill, используя в качестве входных данных 3D-данные вместо изображений, которые может быть сложно перенести из моделирования в реальный мир. Они также хотят сделать процесс планирования нейронной сети более эффективным и собирать более разнообразные обучающие данные, чтобы повысить способность DiffSkill обобщать новые ситуации. В долгосрочной перспективе они надеются применить DiffSkill к более разнообразным задачам, включая манипулирование тканью.

Теги: ИИ, робот











