作者丨黄泽正、贾紫璇、王露、王满华
在生成式AI席卷各行各业之前,现在的大模型,连一道小学奥数题都还做不出来。
近日,百度、智谱、百川、字节、商汤、中科院(紫东太初)、MiniMax、上海人工智能实验室等8个企业/机构的大模型,通过了《生成式人工智能服务管理暂行办法》备案,这意味其可以正式上线面向公众提供服务。
一时间,科技界、创投圈、媒体、科技爱好者、测评博主等各行各业都在争相下载体验,毕竟国内大模型的风吹了大半年,但更多还是仅限内测,如今放开体验,可以说吊足了大家的胃口。
而经过实际体验,小饭桌发现,顶着“颠覆人类”、“能力优秀到可怕”等夸张光环的大模型,实际表现还相当粗糙。比如小饭桌选取了一道小学奥数题,当前获批的几家大模型没有一家能给出正确答案。更危险的信号是,各家大模型都对自己的答案“深信不疑”,甚至向小饭桌“一本正经”地阐述了错误的解题思路……
大模型的能力真如宣传中强大吗?号称决定人类未来的“AI大脑”,为何意识不到自己在“胡言乱语”?
借着国内大模型正式上线的契机,小饭桌选取了9家在业内极具代表性的大模型产品进行了测试,其中既包括 百度 、 字节跳动 、 阿里 等互联网大厂,也有 科大讯飞 、 昆仑万维 等上市公司,还有国家队代表 智谱AI ,以及 百川智能 、 MiniMax 等大模型头部创业公司。
为了确保评测结果更具说服力和全面性,小饭桌从 逻辑性 、 相关性 、 真 实性 、 多模态 ,以及 生成速度 五方面,对各家大模型进行了问答测评,并给出了测评分数。
以下是测评问题与测试结果 (评分仅为小饭桌主观判断,不构成投资参考) :
(每个问题总分 10 分)
1、彩虹岛上有不到100只独角兽,每只独角兽的颜色不是绿色就是黄色。 每当午夜钟声响起的时候,一些独角兽会改变颜色:昨天,黄色独角兽与绿色独角兽的数量之比为5:6;今天,黄色独角兽与绿色独角兽的数量之比为4:3。
请问:半夜改变颜色的独角兽的最多可能有多少只? (答案:75只)
2、请问:正10边型的各边所在直线将平面分成多少个部分? (答案:51部分)
1、列出中国国内大模型 Top3。
1、瑞幸的茅台咖啡很火,一天销售额多少?
要求:画一幅蒙娜丽莎的微笑,要体现中国风。
丨以下是我们针对各家不同维度的测评总结:
逻辑性方面,针对两道小学奥数题,9家大模型均未能计算出正确答案——75只和51部分。
在体感和生产速度方面,百度对题干分析较少,计算时间大概在5到10秒之间。抖音大模型会对题干进行分析,所用的方程不等式在观感上更加高级,且立即给出答案,但答案均错误,并且距离正确答案75只相差较大。
阿里、讯飞、360智脑均较快给出答案。MiniMax反应时间较长,在10秒以上。MiniMax官网显要位置提示,在当前阶段,未充值的体验用户调用接口时会被限速。
在逻辑推理环节,百川智能也没能胜过百度与抖音。虽然看似有条理地分析,且回答速度较快。但两道题的答案依旧是错的。智谱AI能够针对题干进行多角度、多情况分析,昆仑万维给出的答案则较为简单。
阿里、讯飞答案较为简洁,360智脑和MiniMax回复字数较长,但MiniMax非逻辑推理的阐述类内容较多。
另外,用户不能直接复制MiniMax的答案,尽管页面上有一键复制按钮,但复制的是该答案ID编号,而不是答案本身。
从答案生成时间上,百度和抖音大模型均立即给出了中国国内大模型 Top3排名,其中百度文心一言大模型在两家的评比中均榜上有名。同时小饭桌注意到,百度大模型列举的均为上市公司,抖音列举的有两家是初创公司,并且抖音大模型注明了评比标准来自北京商报,信息可溯源。
百川智能给出的答案是BAT,并且根据每家大模型的不同特征,列出了分别擅长的部分。回答较为简洁,生成速度也很快。
智谱AI和昆仑万维均立即给出了具体榜单,但昆仑万维在答案最后注明了答案为网上搜索结果,并附上了相关参考链接。
讯飞大模型没有给出具体榜单,回复称目前没有一个官方的排名。但引用了相关报道中,提到了百度文心一言、科大讯飞星火、阿里通义千问,不过并未给出报道的具体链接。
阿里列出的榜单第一名是阿里通义千问,其余为腾讯天机大模型和百度通义万向,但这两家大模型公司的名称均是错误的。实际上腾讯为混元大模型,百度为文心一言。
MiniMax给出了具体的榜单,为百度ERNIE、腾讯BabyQ、阿里巴巴PLUG,但资讯内容陈旧,且回答页面并无信息提供的截至时间提示。其中百度ERNIE为百度文心一言的英文名称。腾讯BabyQ是腾讯QQ在2017年推出的聊天机器人,不能算作完全意义上的大模型产品。阿里巴巴 PLUG是2021 年阿里发布的语言大模型。
360智脑的榜单排名依次为昆仑天工、阿里巴巴和商汤科技,且指出根据相关研究数据,目前国内参数在10亿规模以上的大模型数量已有116个。
针对瑞幸茅台咖啡一天销售额,百度、抖音、智谱AI、昆仑万维、阿里和讯飞给出了相同的数字。其中,抖音注明了数字出处来源于南方都市报等媒体,而百度大模型回答则较为笼统,以公开资料显示一笔带过。在肯定了茅台咖啡已刷新瑞幸最高销售记录后,百度大模型还对其未来销售额进行了进一步预测。
相比百度和抖音,百川智能给出的答案则相对保守,并没有给出具体数字。仅仅根据热度,以及瑞幸2020年推出的生椰拿铁销量去做了预测,但预测结果与实际相差较多。从这点可以看出,百川智能在已有信息与数据获取上,能力不及百度与抖音。
智谱AI延展性地提供了“因含酒精,孕妇和驾驶人员不建议饮用”的“人性化”建议。昆仑万维大模型则是基于该新闻事件给出了自己的理解和总结。
讯飞大模型引用了澎湃新闻的报道,并就问题给出了自己理解的答案。阿里大模型未给出公开资料来源,但延伸了相关信息,即当天销售额刷新了历史记录。
MiniMax未给出具体数字,表示不能实时获取具体销售数额,也并未就该事件给出预测。
360智脑在这一题上的答案是错误的,答案称瑞幸咖啡于2021年4月2日推出了“茅台咖啡”,售价为每杯298元,且仅有500杯供应量,此举为庆祝公司成功获得营业执照一周年。实际上该事件并未真实发生。
在要求百度和抖音大模型根据文字生成图片方面,抖音大模型无法完成相关任务,并且开始编造自己的画作,试图用文字描述的方式蒙混过关,如果进一步要求其按要求生成图片,抖音大模型会承认自己只是语言大模型,还不具备多模态输出能力。反观百度文心一言,基本按要求生成了图片,但对于更高阶的创意性指令——体现中国风,目前文心一言还难以实现。
百川智能不支持图片生成。从这一点也能看出其功能的局限性。但其在后方附加了如何能够生成这样一幅画作的操作流程,也算是在弥补其无法生成图片的不足。
智谱AI和昆仑万维大模型均不能根据文字生产图片,但二者均根据题干,试图通过文字描绘出图像的一些细节建议,例如呈现画面、绘画技巧等。
阿里和MiniMax并不能生成图片。阿里大模型回复称作为一个语言模型,无法进行图像创作。并给提问人一些色彩、服装、背景、表情方面的建议。
MiniMax的文本体验中心用文字描绘了问题相关场景。另外,MiniMax有语音体验中心,但仅仅是不同音色重复提问者给出的内容,并不能给出相关答案。在音色方面选择多达10多种,包括大学生、霸道青年、主持人、少女等。
讯飞完成了文生图的指令,可以看出是在原画作基础上的色彩、图形的更改,并未体现中国风元素。另外,讯飞可以在提问区发送图片,也可以在提问栏使用语音实时转文字。大模型回答的文字内容,都能实时转语音播放。
360智脑很快发来相关图像,但并未在浏览器上完整显示。小饭桌打开答案中的360鸿图链接,即360的AI生画工具,才顺利得到图片,且有写实、CG、动漫、壁纸四种主题风格,并支持照片转动漫、图生图等模式。
测试结果和具体评分如上文所示,在评测过程中,最令小饭桌感到意外的是,针对产品逻辑性,我们选择了一道小学生奥数题进行测试,结果居然9家AI大模型全军覆没,为了确保评测结果更具说服力,我们又增设一题,最终仍没有一家给出正确答案。虽不能观一隅而知全貌,但至少在本次评测中,几家在逻辑推理环节的表现都不尽如人意,仍有很大进步空间。
刨除逻辑性,在相关性、真实性、多模态,以及生成速度四个方面,整体评测下来,讯飞星火和文心一言表现比较突出,特别是在多模态维度,仅有上述两家以及360智脑完成了文生图的指令,遗憾的是,对于更高阶的创意性指令,均未达成要求。在相关性、真实性方面,二者答案相近,且都能基于问题给出进一步预测和理解。在生成速度上,对比讯飞星火,文心一言略占下风,但考虑到文心一言体验用户数量之庞大,此结果有待商榷。
其他几家中,智谱AI、抖音、昆仑万维、百川智能、阿里通义千问、360智脑因分数接近,位列第二梯队。其中,抖音和昆仑万维在回答问题中都注明了信息来源,颇具亮点。整体而言,这6家大模型产品表现还算中规中矩。
最后要说的是MiniMax。此次测评中,MiniMax多道问题均未给出准确答案,且出现内容错误情况,最终以总分13分惨遭垫底。更有意思的是,该产品也是唯一一个提示未充值会被限速的AI大模型。
因此次评测问题样本有限,无法将9家AI大模型的性能全面、客观地呈现出来,因此上述评分仅供参考,在实际选择时,大家可根据各自感受选择最适合自己的产品。