Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy
当前开发自主 Minecraft 代理的方法通常将任务规划器与目标条件策略集成在一起。
- 以目标为导向的策略无法对复杂关系建模
- 高质量数据稀缺
- 依赖冗长上下文
- 开放性任务
分层架构
- 规划器:MLLM 将复杂的指令分解为连续的子目标。
- GOAP:执行子目标:将专用行为编码器与 MLLM 主干集成,以根据当前目标、观察结果和历史背景预测适当的动作。
GOAP
- 对观察和动作之间的因果关系建模
- 将动作嵌入集成到观察特征中,加强观察和动作之间的因果关系建模
- 将当前观察动作信息与历史序列动态集成到固定长度的行为令牌中,从而捕获对复杂任务至关重要的长期依赖关系
- 利用 MLLM 对齐行为标记与语言指令(子目标),以自动回归预测动作
- 对观察和动作之间的因果关系建模
三类任务
- 砍树或采矿等原子任务
- 需要连续执行多个原子任务的复杂动作
- 开放式任务