英伟达“网红研究员”:2024最大亮点是机器人,“具身智能”还有三年
2024,除了大模型继续狂飙外,机器人发展也将迎来高潮。
去年年底,英伟达“网红研究员”、OpenAI第一个实习生Jim Fan发推文称,除了大模型,2024年最重要的就是机器人,我们距离“具身智能”的ChatGPT时刻大约还有三年时间。
Jim指出,长期以来,人们深受“莫拉维克悖论”(Moravec's paradox)的困扰,这是一种和人们直觉相悖的现象,即“人类觉得容易的任务对人工智能来说却极其困难,反之亦然”。
但是Jim乐观地预测,2024年将成为人工智能界全面崛起反击这一悖论的元年,Jim表示“我们不会立即获胜,但我们将走上获胜之路”。
同时,Jim列举了2023年关于未来机器人的基础模型和平台的发展:
1、以机械臂作为物理输入/输出设备的多模态LLM:VIMA、PerAct、RvT(英伟达)、RT-1、RT-2、PaLM-E(谷歌)、RoboCat(DeepMind)、Octo(伯克利、斯坦福、CMU)等。
2、弥合 System 1(负责低级控制)和 System 2(负责高级推理)之间差距的算法(使得系统能够利用高级推理进行决策和理解,并将这些决策转化为实际的操作和控制):Eureka(英伟达)、Code as Policies(谷歌)等。
3、在强大硬件方面取得的惊人进展:特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree等。
4、数据一直是机器人技术的致命弱点,研究界正在共同策划下一个 ImageNet(人工智能深度学习取得突破的关键项目),如开放Open X-Embodiment (RT-X)数据集。虽然数据集还不够多样化,但迈出了重要的一步。
5、模拟和合成数据将在解决机器人灵巧性乃至整个计算机视觉问题上发挥关键作用。
- (1)NVIDIA Isaac可以以比实时快1000倍的速度模拟现实,传入的数据流随着计算规模的增加而扩展;
- (2)通过硬件加速的光线追踪可以实现逼真的效果。逼真的渲染还带有免费的地面真实注释,如分割、深度、3D姿势等;
- (3)模拟器甚至可以将真实世界的数据扩大,创造更大的数据集,从而大大减少昂贵的人工演示工作。MimicGen(英伟达)是一个典型的例子。