VLA建模归档 - 小码的CheatSheet

机器人革命再加速：解密DeepMind RT-2如何实现跨模态智能决策

Tim

2025-04-19

在机器人技术发展的关键转折点上，视觉-语言-动作（VLA）的统一建模始终是制约智能体泛化能力的核心瓶颈。传统方法通过独立模块处理感知、推理和执行任务，导致系统在开放场景中频繁出现语义断层和行为失准。近期某顶尖实验室发布的RT-2技术架构，通过构建跨模态动态表征空间，在真实世界任务泛化率上取得76.3