3月16日,百度的大语言模型“文心一言”发布。从ChatGPT横空出世以来,作为第一位推出中国版ChatGPT的玩家,百度的这场发布会在业界的无数期待中到来。而就在“文心一言”发布的前一天,ChatGPT的开发者OpenAI又扔下一枚重磅炸弹——升级了ChatGPT背后的大模型GPT-4,这无疑让百度“压力山大”。
顶着重重压力,百度终于迈出这一步,兑现了此前的承诺。发布会上,百度创始人、董事长兼首席执行官李彦宏通过5个Demo(视频短片),展示了“文心一言”在文学创作、商业文案创作、数理推算、中文理解和多模态生成这5个使用场景的表现。值得一提的是,在中文理解、多模态生成等场景上,“文心一言”做到了ChatGPT没做到的事情。
在发布会上,李彦宏提问“文心一言”“洛阳纸贵”是什么意思?“文心一言”正确解释了成语“洛阳纸贵”的含义,还按照李彦宏的要求在短时间内用“洛阳纸贵”作出了一首藏头诗。
中国版ChatGPT之所以备受期待,部分原因就是博大精深的中国文化和复杂的中文语义短期内只有掌握中国用户数据的中国公司才能具备。作为扎根于中国市场的大语言模型,百度“文心一言”具备中文领域最先进的自然语言处理能力。“洛阳纸贵”这个例子就比较清楚地展示了百度在中文上的天然优势。
但李彦宏也坦言,“文心一言”目前对英文语种、代码场景的训练还不够多,表现还不够好,这是百度接下来加紧训练、不断完善的方向之一。
在生成式AI大模型的演进中,多模态已经成为业界公认的发展趋势和竞争焦点。昨天OpenAI发布的GPT4也体现出这一能力——GPT4能够处理图片信息以及带有文本和照片的文档、图表或屏幕截图等图文交错的信息,并以文字的方式输出,但并没有体现出文字生成图片、语音甚至视频的能力。
百度的“文心一言”却具备这一能力。发布会上,“文心一言”应李彦宏的要求,为2023世界智能交通大会创作了一张海报,并用四川话讲述了“智能交通最适合哪个城市发展”,还将上述内容生成了一条视频。
此前,ChatGPT曾在回答中国经典数学题“鸡兔同笼”问题中翻车。发布会上,李彦宏向“文心一言”提出了“鸡兔同笼”的问题。“文心一言”经过演算,认为可能是题目出错了,于是李彦宏又重新问了一遍,“文心一言”不但给出了正确的答案,还详细给出了解题步骤。
“文心一言”发布会前夕,很多人都在质疑百度是否真的Ready了。对此李彦宏回应,从某种意义上说百度已经为此准备了多年,百度十几年前就开始投入AI研究,2019年就推出了文心大语言模型,今天的“文心一言”是过去多年努力的延续。“但也不能说我们完全Ready了,‘文心一言’对标ChatGPT,甚至是对标GPT-4,门槛是很高的,我自己测试感觉还是有很多不完美的地方。”李彦宏直言。
从发布会来看,“文心一言”似乎并不是人们预期中那样具有革命性的产品,而更像是对百度AI技术储备的一次中期考验,展现了百度也有追逐最先进人工智能产品的研发能力。
按照李彦宏的说法,百度是全球为数不多、在芯片-框架-模型-应用这四层进行全栈布局的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,到搜索、智能云、自动驾驶、小度等应用,各个层面都有领先业界的自研技术。AI全栈布局的优势在于,可以在技术栈的四层架构中实现端到端优化,大幅提升效率。尤其是框架层和模型层之间,有很强的协同作用,可以帮助构建更高效的模型,并显著降低成本。
除了讲产品、讲技术,李彦宏还用大量篇幅介绍了自己的生态——从百度承认“文心一言”的存在到现在,短短一个月的时间,已经有超过650家合作伙伴宣布加入“文心一言”生态。
这实则点明了AI得以形成良性循环的关键点——商业闭环。
上一波被誉为AI风潮的缔造者——Deepmind推出的阿尔法狗,就是因为缺乏泛化能力和应用场景而“昙花一现”。因此,这一波的生成式AI浪潮中,OpenAI也开始逐渐重视ChatGPT的大规模商用问题——开放API,并将使用这项技术的价格削减了90%。
虽然“文心一言”的内测体验不能称作完美,但为什么现在发布呢?李彦宏的回答是:“因为百度的各个产品现都在等着这样的产品,我们的客户和合作伙伴也在等着这样的技术。”
他断言,对于大部分创业者和企业来说,真正的机会并不是从头开始做ChatGPT和“文心一言”这样的基础大模型,这很不现实,也不经济。基于通用大语言模型抢先开发重要的应用服务,这可能才是真正的机会。目前,基于文本生成、图像生成、音频生成、视频生成、数字人、3D等场景,已经涌现出很多创业明星公司,可能就是未来的新巨头。
如果你也期待见到一个真正的“中国版ChatGPT”,不妨再给“文心一言”一些时间和耐心。“士别三日,当刮目相看”,对于AI模型更是如此。从目前的Demo来看,文心一言在基本功能上都能与ChatGPT打个平手,面向公众开放后,“文心一言”可以通过用户大量的搜索请求进行学习和改进,从而提升处理相应问题的准确性和速度。毕竟ChatGPT也是通过不断出错、反复标记训练才达到了今天的高度。