Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy

当前开发自主 Minecraft 代理的方法通常将任务规划器与目标条件策略集成在一起。
- 以目标为导向的策略无法对复杂关系建模
- 高质量数据稀缺
- 依赖冗长上下文
- 开放性任务
分层架构
- 规划器：MLLM 将复杂的指令分解为连续的子目标。
- GOAP：执行子目标：将专用行为编码器与 MLLM 主干集成，以根据当前目标、观察结果和历史背景预测适当的动作。
GOAP
- 对观察和动作之间的因果关系建模
  - 将动作嵌入集成到观察特征中，加强观察和动作之间的因果关系建模
  - 将当前观察动作信息与历史序列动态集成到固定长度的行为令牌中，从而捕获对复杂任务至关重要的长期依赖关系
- 利用 MLLM 对齐行为标记与语言指令（子目标），以自动回归预测动作
三类任务
- 砍树或采矿等原子任务
- 需要连续执行多个原子任务的复杂动作
- 开放式任务

Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy ​