本次将针对2023年最热投资趋势,启动“XR&AIGC专场”。
2023年2月9日晚,由创业邦和XR产业投资联盟共同举办的“‘兔’飞猛进,未来可期——创业邦开年直播特辑”正式启动。
本次专场将针对2023年最热投资趋势,启动“XR&AIGC专场”。并邀请到高通创投中国区董事总经理、高通全球副总裁沈劲,启明创投合伙人周志峰,蓝驰创投合伙人曹巍现场连线,从创投角度深入探讨XR与AIGC的发展现状和投资思路。
启明创投合伙人周志峰在《AIGC向何处狂飙》的主题演讲中表示,GPT-3每做一次训练预估要460万美元。这几周爆火的ChatGPT,其一次训练的成本也是100多万美元。未来怎么解决算力成本问题?英伟达被美国政府限制向中国出口两代旗舰高算力芯片A100和H100。国产的高性能AI芯片能否在超大规模预训练模型的训练中发挥作用,什么时候能够发挥作用,是不是能够满足大规模集群的算力、互联带宽、算法适配和协同的需求,能不能降低成本?都是值得我们去观察的。
我是启明创投的周志峰,今天的分享主题是《2023年AIGC向何处狂飙》。大家一看这个名字也知道,《狂飙》是一个大热点,同时另外一个热点就是生成式人工智能的范例之一ChatGPT。
我希望从投资和创业的角度,跟大家分享生成式AI以及背后的技术和产业发展情况。
过去十年,启明创投一直是国内非常活跃地布局人工智能的投资机构,我们投资了很多AI公司,也已经在人工智能生成式技术和超大规模预训练模型技术上完成布局。其实过去一两个月里,媒体、投资机构、咨询公司都分享了很多对AI大模型的观点,启明创投认为,AIGC把人工智能技术带向了一个新的高度,是人工智能发展过程中一个非常重要的拐点。
这一波的AI或者AIGC的大众热潮是自2022年的夏天,从图文生成模型开始的。这是我用两个全球最流行的文字到图像生成模型-Midjourney和Stable Diffusion,生成我自己的各种各样风格的头像图。
近一两个月,生成式AI的主要热点,就是基于对话生成的ChatGPT大型语言模型。为了创业邦的这个开年直播,我向ChatGPT提问,让它帮我写了一段演讲开场白。这个过程中,我没有做任何的额外训练或微调,确实写得非常流畅,也非常符合直播的主题。
如果下一次还有这样的直播机会,我觉得我可以让AI学习一下我以前的讲演、发言等音频数据,融入创业邦直播的特点,用机器来合成出我的声音,用Stable Diffusion模型生成配合直播主题的我的虚拟容貌,用CLIP模型和StyleGAN模型把单帧图片扩展到完整的视频流,并且同步我的情绪、口型、手势、表情等等,然后用NeRF模型将我的虚拟人和空间背景合成。
制作出这样一整套AI生成视频流,我其实就不需要真正的出现在镜头前。近年加速发展的AI生成技术让我们真正感觉美好未来可期,这与10年前有着巨大的模式转变。
过去十年,AI企业主要集中判别式AI的领域。我们耳熟能详的AI企业和其核心技术,如图像识别、人脸识别或语音识别等,都是根据输入进行分析和判定。
但今天我们看到的这些则是生成式AI,根据输入能够生成全新的内容。从判别式AI到生成式AI,这是技术的一个很大的飞跃。
所以我们认为,2022年确实是AI技术发展过程中,星光璀璨的一年,它标志着AI技术发展到达了一个非常关键的拐点。
从产业界的角度看,我查询了GitHub开源社区的数据,在去年文字到图片生成模型Stable Diffusion模型发布后,短短90天内,其开发者的认可度超过了3万次,但比特币Bitcoin和以太坊Ethereum的底层开源技术,则是用了八年的时间,才达到3万次的认可,这说明Stable Diffusion的开发者采纳速度远超其他技术。
回望技术发展的历史,电话用了75年才达到1亿用户,手机用了16年,Facebook用了4.5年,2011年推出的微信用了14个月。ChatGPT仅仅用了两个月时间,就在全球达到了1亿用户数,用户增长速度非常惊人。
ChatGPT近期的火爆,不由得让我们想起两三年前一个同样很火的应用Clubhouse,它是一个音频社交APP。它在2020年的年中上线,迅速累积了几千万的用户数,成立半年多,估值就达到了几十亿美元。但是在过去两年中,Clubhouse的用户的使用率下降了80%-90%。ChatGPT会不会也面临同样的问题,值得我们观察。
看到这些爆炸式增长的产品,总让我不由得思考,在未来几年AI技术究竟是会继续“烈火烹油,鲜花着锦”,还是最终“落了片白茫茫大地真干净”?这是一个非常值得我们去持续探讨和关注的一个话题。
接下来,我重点跟大家讲讲启明创投对于生成式AI的理解。基于过去两年多的研究,我们画出了这样一张产业架构图。基于这张图我想跟大家分享一下怎么理解生成式AI以及它背后的大模型在技术世界中的位置。
在这个基础上,也聊聊生成式AI与过去十年上一代AI技术的区别。然后,从投资人的角度,讲讲哪些子领域是更值得关注的。也包括这些不同的子领域如何能够建立长期的竞争优势,以及生成式AI在我们国家有哪些挑战和机会。
我们把整个生成式AI分成了三层。最底层称之为生成式AI的基础设施层。
工具链指的就是能够帮助生成式AI以及它背后的大模型去做加速、压缩的软硬件技术,目的是在大模型进行训练的过程中,帮其提升效率,降低成本,以及大模型在真正应用过程中更好地进行管理。工具链领域,海外公司有AnyScale,中国有像潞晨科技、面壁智能等创业公司。
右边的智算平台,主要指的是为生成式AI技术提供基础算力的平台。这一领域的参与者主要是科技大厂巨头。比如为Open AI提供了几亿美元算力的微软Azure,还有中国的阿里云、华为、曙光、浪潮等,都在中国各地建设了智算中心,核心是为AI提供底层算力。所以工具链与智算平台组成了整个生成式AI的第一层。
中间则是最重要的一层,我称为模型层,其中模型层又有三种类型。
最左边是闭源模型,美国的人工智能研究机构Open AI从GPT3模型以后,不再公开源代码和模型权重,而是把它的技术封装成服务,即允许用户调用其API,享受其AI能力。Open AI自己负责所有大模型的训练、推理,不断迭代。Open AI对外提供已经封装好的AI能力,第三方公司甚至是个人都可以调用。此外还有Cohere、Anthropic,Anthropic刚刚成立两周,就拿到了谷歌4亿美元的投资。
国内的代表企业,包括启明创投投资的智谱AI。智谱AI是跟清华大学、北京智源人工智能研究院等一些第三方机构合作,训练了几个千亿或万亿级别参数的大模型。包括最新推出的GLM-130B,这是一个1300亿参数的超大规模预训练模型。是国内大模型领域中,发展比较快的一家公司。此外,百度推出了文心大模型,它对外也是提供API,供第三方去调用使用。
本图由智谱AI结合主题生成
中间这个叫做开源模型及Model Hub,可以理解为大模型的技术社区。它有数十万个开源预训练模型供第三方开发者使用,并且不仅开源代码和模型权重,还提供了很多辅助开发工具、数据集等,类似于一个开源社区的商业模式。
美国那边起步比较早是Hugging Face,阿里云近期也发布了Model Scope。
最右边的是从自建模型到开发应用的端到端模式,指的是科技公司或创业企业针对一些特定的领域,自行完成寄出模型的开发,再针对目标市场和应用,进行模型、知识、和数据的特定优化,并开发出直接交付给用户的应用产品。比如国外的Adept、Runway,国内的澜舟科技,聆心智能,还有启明创投投资的无限光年,针对医疗领域做自己的模型和应用。
第三层是应用层。这些应用,依赖于第二层底座模型进行开发,这些应用公司不需要构建AI模型的能力,只需要调用第二层底座模型的服务,专注于自己的用户和场景,把应用做好就行。
比如Jasper AI,它是一个利用Open AI的能力,给广告主提供营销文案生成的企业,在过去两年发展非常快。去年,Jasper有将近1亿美元的收入。但它的AI能力并不是自己开发的,而是由第二层底座模型提供的。
启明创投投资的Gemsouls是一个利用Open AI大模型能力,做聊天机器人的企业。
这是我们对生成式AI生态的理解。把这个生态理解清楚了,就很容易看到生成式AI的未来。我特别喜欢北京智源人工智能研究院理事长张宏江博士说过的一个比喻,他觉得,过去的AI更多的是“大练模型“,也就是说每家科技公司都是各自独立研发专用小模型。比如人工智能四小龙,基本上是从零开始自建模型,然后自建模型之上的特定应用。
今天这一代的AI技术,叫做“练大模型”,底座模型是由某些特定的机构研发出超大规模的通用模型。这个模型不再是针对某一个专门应用开发的,它的训练数据是互联网上能够看到的所有数据,数据也不需要做特别的标注,训练也不需要监督,做出来的是通用人工智能能力,然后第三方基于底座模型,针对千万个应用场景去开发软件。
这是一个从“大练模型”到“练大模型”的范式转变,我觉得,这个范式转变对AI未来十年、二十年的发展有重大意义。
我们认为,今天AI生成大模型是一个更先进的算法架构,集中了人类的全部数据,汇集大量算力,集约化训练,训练出来的AI能力供应所有用户使用,这其实才是十几年前AI业内专家所设想的那样,AI一定会成为类似“水电煤”一样的人类的公共资源。只有这样才能做到AI技术赋能万业。
哪些模块是启明创投认为更具有投资和创业价值的领域?智算平台更适合有规模效应,如已有的公有云平台,或者数据中心运营方介入,不是创业公司适合进入的领域。
工具链随着大模型持续发展迭代,用更好的工具去帮助大模型的训练和管理去降本增效,一定是有机会的,且会有一些顶级AI工程人才不断进入,我觉得这肯定是一个很标准的VC投资机会。
在闭源模型及API服务领域,未来肯定也会看到越来越多科技大厂进入,是不是还有创业公司进入的机会,我觉得值得观望,因为这对于人才密度的要求和资本的投入是巨大的。我前段时间跟几位中国AI行业顶级研究人才聊,他们认为,目前中国真正掌握大模型架构能力的人,可能也就100多人。
所以,如果有人出来创业,那肯定也就是100多人中的一部分,其背后可提供的顶级人才基数并不是很大。
另外,训练大模型需要很多的资本投入。跟大家举个例子,Open AI的GPT3模型是用了Nvidia的上千张旗舰级GPU芯片A100,用了大概120天的训练周期,2年前训练一次要460万美元。GPT3训练的共投入达到了数千万美元。
这是一个巨大的投入,每做一次训练,研发人员承担着几百万到上千万的成本,如果训练结果不能收敛,失败了,几百万就打水漂了。它意味着,只有顶级的人才,才拥有这种顶级资本的帮持,才能去做这件事。
利用第三方的底座模型构建应用的方式,我觉得是未来的主要趋势,相信会有成千上万家创业公司涌入这个市场。对于创业者而言,他们对某一个场景或者行业非常懂且有超出业界的认知,他们看到了生成式AI的能力,两者结合去颠覆这个场景或行业。不用从头构建AI能力,只需要直接利用这些底座模型。
某些特定的领域、行业、场景,可能会有一些创业者选择从头做,自建模型及应用,端到端进行特别优化,我觉得也是有机会的。因此,以上这几块是我们认为,生成式AI从创业投资角度来讲最有机会的领域。
公司怎样创造一个长期的、持久的竞争优势,建立护城河?
比如,利用第三方底座模型构建应用,那么你在AI层面是没有任何竞争优势的,因为你可以去调用Open AI,其他竞争对手也可以。那么,你长期存在的护城河到底是什么?我觉得这是非常值得去想清楚的,因为过去的三四个月中,我看到了中国有上百个团队进入这个领域,这也是每次跟他们探讨时会去问的问题,希望能够听到一些更深入的思考。
自建模型的应用,针对某一个场景应用优化自己的模型,然后把应用层也做起来。这个听起来非常有道理,但大模型机构用上亿元的代价去训练和迭代模型,他们的模型的先进性会不会比你要更强?有其他人利用先进模型构建与你同一领域的应用时,你的自建模型应用要如何走得更远?这些都是没有答案的问题,都是值得创业者去思考的问题。
最后,关于中国在生成式AI和底座大模型的一些挑战。
我觉得,首先是算力问题。我前面讲到,GPT-3每做一次新的训练要460万美元。
这几周最火的ChatGPT,其一次训练的成本也是100多万美元。我们投资的智谱AI已经把这个训练成本降低到几百万元人民币,但依然非常贵。未来怎么解决算力成本问题?尤其是这些大模型,过去都是用的Nvidia的旗舰芯片做训练和推理,但是自从去年十月以后,A100和H100等高性能芯片对中国有了出口限制。我们怎么用国产的AI芯片进行替代,并降低成本?国产的AI芯片是不是能够、什么时候能够满足大规模集群的算力、互联带宽、算法适配和协同的需求,都是值得我们去观察的。
第二个,过去一周很多人说国内的科技大厂和创业公司推出的大模型与ChatGPT是有代际差别的,我们落后了至少一代。在看Open AI的发展时会发现,ChatGPT也好、GPT-3也好,是需要很长时间研发积累的。
Open AI是2015年年底成立的,2018年推出了第一代GPT-1,当时包括中国在内的全球大部分企业和机构还在做Bert方向的尝试,是有一定区别的。2019年,它推出了GPT-2,有15亿参数,2020年推出了GPT-3,有了1750亿参数。Open AI已经积累了这么多年才达到今天的能力,中国企业要去追赶,肯定是需要时间的。GPT-4今年又要发布了,是否会把我们甩出两个代际的差距,这也是值得观察的。
中国在大模型的研发上,需要给自己更多的时间发展,才能够慢慢地达到全球领先水平。
第三点,更重要的是,因为GPT大模型发展的比较早,并且已经向世界展示出它的能力,所以它已经在慢慢形成自己的生态,有600多家创业公司在直接利用Open AI GPT-3模型来构建自己的应用。
包括一些比较有名的科技公司,比如微软上个月宣布,从搜索引擎到Office等所有产品,都会全面拥抱GPT-3的AI能力。在线文档Notion也已经在产品中植入了生成式AI的能力。
围绕着Open AI或者西方科技大厂的大模型已经构建出了一个初步的生态,国内科技大厂或者创业公司的大模型在技术和工程上,有很多的地方需要不断追赶,如果只是训练出大模型,没有人去用,缺少完整生态,也是没有任何意义的。
最后,我还是非常坚定地看好生成式AI和大模型,它的出现标志着一个巨大的AI开发范式的转换,将会真正的被利用到更多应用场景。但现在也处于科技的炒作周期,叠加了很多情绪和期待,一位美国AI研发人员说,ignore the hype cycle, build boring business,忽略这种短暂的炒作周期,而是去建立无聊生意。
真正的AI能力体现,并不仅仅局限于作画、对话聊天这些看起来很好玩的领域。AI对人类的意义,是走进各行各业,融入现有产业的工作流,并且提供更高的商业价值,它远比我们今天看到的一些示范性的To C应用更有价值。但要把AI这种能力应用到很多产业中去,其实是一件很“无聊”的事情,不仅需要AI大模型能力,也需要踏踏实实的长时间投入,去和产业做结合。
希望看到这个直播的创业者,能够对生成式AI有足够信心,同时还需要很多的耐心,利用技术踏踏实实构建To B的产业应用,这才是对我们人类社会最有价值的贡献。
所以,AI技术又上了一个台阶,这件事儿已经没有什么疑问了,特别期待能够看到中国有更多研究人员、产业界从业者,以及创业投资机构一起努力,利用AI技术的进步,真正带给人类更大的福祉。
以上就是我的分享,谢谢大家。