中信证券发布研究报告称,增量上看,传统机器人更多依赖于CPU擅长的标量计算,而AI机器人则更依赖于AI芯片擅长的矢量/矩阵/张量计算,边端算力有望同时受益于机器人出货量增长和技术架构变化,建议核心关注。参考智元机器人远征A1和FSD电脑的算力配置,英伟达Jetson系列和高通EB系列零售价,该行预计边端计算模组的价值量有望达到6000-12000元。同时,激光雷达、视觉算法均有望受益于机器人行业发展。另看好特斯拉世界模型和机器人融合及其量产进展。
中信证券主要观点如下:
算法架构:机器人大模型的能力圈目前更多在于泛化认知。
根据珞石机器人CTO韩峰涛介绍,可以将大模型机器人算法分为五个级别,即任务级、技能级、动作级、基元级、伺服级,而大模型的能力圈更多集中在上层两级,其底层控制能力仍依赖传统控制算法。该行认为,目前以RT-1、RT-2为例的机器人模型相比传统机器人算法的核心优势在于:一、能接受更长、更复杂的指令;二、更通用的认知。如RT-2的论文所介绍,其控制算法的能力受到训练数据集内技能分布的限制,机器人并不能执行完全没见过的动作。因此,该行认为机器人大模型可以对任务进行一定程度上的拆分、排列、组合,并在认知和任务层面出现了类似语言类大模型的涌现能力,但在动作与控制层面上暂时没有出现涌现,即完成没见过的技能,大模型对于机器人的赋能泛化更多的是认知而非执行。
模型进展:以RT-1/RT-2看机器人大模型的迭代。
谷歌通过RT-1/RT-2两代模型逐渐完善了上层的认知框架,RT-1的创新之处在于部署任务的通用性和训练数据的通用性,任务上,参考RT-1论文其在数据集不存在的任务中准确率达到约76%;在数据上,其通过异构的来自不同机器人平台的训练数据来辅助泛化,实现过半的能力提升,是机器人的能力从场景限定走向通用的曙光。RT-2的创新之处是将原有认知框架切换至大模型PaLM-E/PaLI-X,并通过改善训练数据和算力对模型能力的限制继续提升泛化性。视频语言大模型的加入赋予了机器人与GPT相似的认知、推理能力,并展现出更强的涌现能力(55B版本约是RT-1的3倍)和泛化能力(两个版本均约是RT-1的2倍)。展望来看,目前,机器人的上层认知框架已经较为完善,接下来就是通过大量的模仿学习、动作捕捉和仿真模拟、或端到端学习来教会机器人如何在任务到动作的规划中完成从语言指令到控制信号的映射,该行认为这一步是可以逐步分场景完成的,正如自动驾驶中的从高速NOA到城市NOA,该行正站在通用机器人算法的技术变革点。
行业机会:边端算力有望升级,中期看好激光雷达。
从算力上,机器人模型能力增强伴随着推理成本提升,参考人类平均反应时间(0.2-0.3s),该行认为端到端3-5HZ的推理频率是机器人达到实用标准的理想区间,考虑到通信时延(0.1-0.15s)等因素,该行预计机器人的AI处理器仍会搭载在边端,带动边端算力升级。考虑到模型参数、架构和其推理时间相比自动驾驶具备更高的宽容性,该行认为主要用于专用场景的单臂机器人(工业)将使用15-30TOPS的芯片,而结合大模型能力的AI机器人,其芯片算力则要达到200-400TOPS。
从感知上,特斯拉在AI
Day上表示其机器人预计将采用与FSD相同的占用网络,而目前机器人的算力在支撑大模型算法的前提下进一步支撑高清摄像头和高精度的Voxel有较大难度。同时,占用网络所需数据量较大,但机器人数据量远低于汽车。所以,该行认为通过激光雷达和深度相机等感知直接获取深度信息是中期维度较好的解决方案。
从催化上,特斯拉通过构建自监督学习的世界模型有望实现通用自动驾驶基础模型,世界模型通过生成未来视频片段,并与实际视频片段比对来学习驾驶片段中隐含的世界运行规律。而在学界与产业界的探索中,该行已经看到世界模型在机器人领域的优秀表现,该行认为特斯拉的自动驾驶世界模型技术也有望最终与其机器人技术结合,成为机器人认知世界和与世界互动的有效途径,期待今年特斯拉AI
Day公布的最新进展及其会带来的板块性机会。
风险因素:机器人算法落地进度不及预期风险;通用大模型技术发展不及预期风险;行业竞争加剧风险;颠覆性技术创新带来硬件需求变更风险;机器人量产进度不及预期风险。