Роботам порой сложно справляться с задачами, которые человеку кажутся простыми, такими как правильная привязка действий к объектам и местам в реальном пространстве. Microsoft совместно с университетскими исследователями разработала тест GroundedPlanBench, который позволяет проверять способность модели строить план действий и связывать каждый шаг с конкретным элементом на изображении.
Традиционно робот сначала получает инструкцию, а затем другая модель переводит её в физические действия. Это приводит к несоответствиям, так как ошибки на начальном этапе переходят в выполнение, где техника может неправильно выбрать объект или выполнить лишние шаги. Особенно это актуально в сложных, загроможденных условиях.
В новой методике не достаточно просто предоставить текстовый план; каждому действию необходимо четко соответствовать конкретному объекту. В набор тестов вошло свыше 1000 заданий, основывающихся на реальных взаимодействиях роботов и предметов. Некоторые задачи просты, вроде того, чтобы положить ложку на тарелку, а другие — более неопределенные, например, убирать на столе.
В ходе экспериментов система, получившая задание положить 4 салфетки на диван, повторяла одну и ту же, так как текстовая инструкция была слишком расплывчатой. Исследователи отметили, что неоднозначный язык приводит к сложностям при выполнении задач. Чтобы уменьшить количество ошибок, была предложена новая методика обучения V2GP, которая строит планы на основе видео с реальными действиями роботов.
В результате накоплено более 40 тысяч пространственно привязанных планов, что значительно улучшило способность моделей связывать действия с объектами. Несмотря на прогресс, проблема далеко не решена, особенно в случае сложных заданий, где инструкции нечеткие. Исследования показывают, что объединение различных этапов процесса решает проблему неоднозначности, и следующий шаг — использование предсказательных моделей для оценки вероятных ошибок до выполнения действий.