导语:甚至自己做不了的,也得找人去合作。像是东风日产、红旗、长城这些,就宣布接入百度的 “ 文心一言 ”。
最近这段时间,车企们也开始学互联网企业,玩起大模型了。
比如理想的自研大模型 Mind GPT ,广汽的 AI 大模型平台,以及吉利的全栈自研全场景 AI 大模型等等。
甚至自己做不了的,也得找人去合作。像是东风日产、红旗、长城这些,就宣布接入百度的 “ 文心一言 ”。
不过,这些车企们到底是纯纯搞营销还是真的有东西,脖子哥还得仔细看看。
就目前而言,大多数车企还只规划了座舱的语音功能,说白了,就是做 ChatGPT 的语音版。
用上的话,语音助手确实会比以往更聪明一点。
比如百度的文心一言,据说搭载上车之后,可以一边在车上电话开会,一边自动记录会议纪要,并且完成简单的 PPT 制作。
那么。。。打工人就算开车也没理由不干活了,百度是懂加班的。
而吉利的这个全场景 AI 大模型就更有意思了,说是有主动搭讪、自动唱歌以及哄娃等能力。
但,用车机语音搭讪和自我营销,真的有人会用这个功能吗?他的精神状态真的还好吗。。。
相比他们,一些车企已经到了第二层,开始用大模型做智驾了。
这里面可就大有说法了。目前比较普遍的做法,是将大模型作为工具,辅助汽车的智驾训练,其中关键是训练智驾系统的应变能力。
目前智驾系统还不能保障 100% 的自动驾驶安全性,是因为存在 AI 还没见过的场景,一旦遇到这种情况, AI 就容易 “ 把 CPU 给干烧了 ” ,大多数自动驾驶的安全事故都是这样发生的,这个情况被称作 Coner case 。
为了解决一个 Coner case ,必须得经历数据预处理、数据标注、模型训练和模型仿真等过程,需要用上万的样本数据以及数周时间进行测试,费时费力。
过去用来训练 AI 的数据基本来自真实数据,但是由于 Coner case 发生的概率非常低,要找到世界各地出现的相同 Coner case 并不容易。
用上大模型之后,AI 就可以帮助构建虚拟空间,自动生成训练场景,可以大幅缩减成本。
比如华为的盘古大模型,会根据路采数据进行重建,生成可编辑的虚拟空间,将原来两周左右的 Coner case 处理过程缩减到两天内。
但这还不够,另一些车企选择了更为激进的做法,直接选择用大模型开干智驾。
这就不得不提到特斯拉的 FSD 。
早在 2021 年,特斯拉就采用了 BEV (鸟瞰图)+ Transformer 的智驾算法,可以说是在车企里用大模型做智驾最早的一批。
咱先不说这套智驾系统的原理是啥,先看这个 Transformer ,其实指的就是大模型架构, ChatGPT 就是基于这个架构生成的。
Transformer 模型架构和传统神经网络的区别在于,加入了 “ 注意力机制 ” ,举个例子,咱们在读一句话的时候,有些字很关键,有些字不关键,只要看这些关键字,就容易 get 到整个句子的含义,即使个别字写反,也不影响最终理解的结果。
因此 Transformer 就会对一句话中的每个字设置权重,最后对全文的理解根据每个字加权平均算得,准确性就相对更高了。
这套模型架构将主要用于 FSD 的纯视觉感知算法,帮助系统将 2D 的摄像头视频数据融合转化成 3D 的鸟瞰图,从而自行判断合理的行驶路线。
然而,就算这套大模型智驾方案拥有更高的泛化能力(举一反三的能力),特斯拉的 FSD 还是会遇到了各种 Coner case 。
比如在今年的 8 月 26 日,马斯克在直播测试自动驾驶时,AI 把左转车道的绿灯当成前进的绿灯,打算笔直穿过路口,此时的老马不得不主动介入刹停,才避免酿成事故。
要知道这可是当众直播啊!先不说观众对 FSD 系统的质疑,就算评论问起应如何解决故障时,老马也只能说 “ 将投喂更多样本数据 ” 。
因为压根没有什么直接了当的解决办法,毕竟模型是一个黑箱,没有人能在里面微操,除了继续训练还真没有什么别的办法了。
所以,大模型做智驾的主要问题,依然是处理不完的各种 Coner case ,未来的智驾大模型还得继续在泛化能力上进行升级。
不仅如此,大模型做智驾的另一个难处就是钱。
特斯拉之所以能用上 Transformer ,关键是有 72 TOPS 算力的 HW3.0 芯片作为支撑。而现在一些车企用的都是英伟达 orin 芯片,它的算力更是达到 254 TOPS,今后随着模型越来越大,对智驾芯片的算力要求也会越来越高,这意味着车主就要为智驾掏更多的钱。
在研发方面,之前一些企业训练大模型用的都是 GPU 芯片,但现在都开始用上 TPU 了,功能越强的大模型研发难度越大,普通车企恐怕很难保持长时间的自研过程,与互联网巨头合作说不定会更加现实。
不过特斯拉在这上面算是铁了心,最近, FSD 又进行了一次全面的算法更新,打造了一个 “ 端到端 ” 的智驾模型,把整个智驾过程融入到一个算法和模型里面,这可能是未来各大车企做智驾大模型的一个方向。
要知道,过去的智驾算法是分成三个部分的,感知、决策和执行各司其职,如果将其整合在一起,那么成本会更低,智驾反应也会更快。
随着技术一次次迭代,也真说不好,什么时候就能把智驾大模型最后的安全难关给攻破了。
但在此之前,一定是一段非常艰难且痛苦的过程。
要脖子哥说, “ 大模型上车 ” 这玩意儿确实有用,但能发挥出几分功力,还得看各家车企的实力了吧。
(文章为作者独立观点,不代表艾瑞网立场)