作者丨黄泽正
编辑丨张丽娟
“如果说面向新一代人工智能做投资布局,当前阶段有什么比较确定的投资机会,我会建议在AI基础设施这一层,不仅是AI芯片还有一系列面向大模型训练、推理的服务和工具。”凡卓资本合伙人王梦菲告诉小饭桌。
事实上,创投圈的一个明显体感是: 尽管AI大模型炒的很热,但真正值得投资的标的着实不多。
由于生成式AI尚处早期,大家对AI应用投资的看法也五花八门,激进派与保守派兼而有之,但唯有一个共识——投资AI基础设施绝对没错。
原因无他,英伟达最新的Q3财报显示,其在第三季度大约卖出了50万台H100和A100 GPU,在数据中心硬件上狂赚145亿美元,比去年同期翻了近两倍。而在第二季度,英伟达刚刚卖出了900吨GPU,在数据中心硬件上赚了103亿美元。
在生成式AI尚未创造巨额利润的当下,英伟达已经凭借其独一无二的AI基础设施赚了个盆满钵满。
一个尴尬的现实是,明明AI算力和基础服务供不应求,国内的AI基础却起步较晚、尚未形成成熟生态。
而在AI市场火热、英伟达显卡溢价、产能不足、芯片禁令等多重因素的作用下,国产AI基础设施建设和投资,似乎迎来了一个崭新的机会。
为了探讨大模型时代,国内AI基础设施企业如何把握机会,迎头赶上?以及AI时代的基础设施,有哪些潜在的投资机会?小饭桌特别举办了AI基础设施主题沙龙,由凡卓资本合伙人王梦菲对话天开智算董事魏昊旻,并与现场多位AI芯片上下游行业的从业者、投资人展开了对话,共同探讨了AI基础设施的现状与未来。
在生成式AI浪潮兴起后,一个行业共识是AI将颠覆千行百业, 但或许在AI颠覆千行百业之前,最先被颠覆的会是算力底座。
数据中心,一直承担着传递、加速、展示、计算、存储数据信息的职能。随着互联网的普及,数据中心早已和交通网络一样,成为了现代社会基础设施的一部分,也对诸多产业拥有深远影响。
凡卓资本合伙人王梦菲则认为: “在大模型时代,数据中心作为算力的集散地,依然会是基础设施的重要组成,但随着大模型训练对算力提出了更高要求,传统的数据中心即将面临大量改造。”
因为几乎所有数据中心的运营问题,都可以简化为用电和散热问题,而在大模型时代,这两个问题只会更加严峻。
以用电为例,根据参会嘉宾提供的数据, GPT4.0一次训练就需要耗费6200万度电,而在如此巨大的用电量下,不同地区的电费差异,等于直接造成了巨大的成本差异。
根据公开资料显示,我国电价最低的一档大约3毛2一度电,相比较而言,北京的电价可能要达到8毛,将近是最低档的2.5倍。
也就是说, 如果按6200万度电计算,企业每训练一次GPT4.0,就需要为同样的服务多支付约3000万元。 而对于广大创业公司来说,一年的纯利润或许都还远达不到3000万元。
甚至除了电费昂贵,更高用电带来的一系列连锁问题,也在对AI时代的数据中心,提出新的要求。
比如由于AI训练需要更高算力、更高用电,数据中心 发热问题 势必会更加严重。
届时数据中心是否需要增设空调;是否需要将传统的风冷系统,改造成液冷系统;甚至材料是否需要更换成更不导热的新材料……一位数据中心从业者表示:“这一系列问题不是‘可能’会发生,而是必然会遇到,目前各数据中心都在针对AI的新要求进行大量测试更新。”
凡卓资本合伙人王梦菲还提到,从更宏观层面, 在“双碳”的大背景下,数据中心的节能减排势在必行,因此未来投资数据中心及相关配套设施也必须将节能环保考虑在内。
2022年全年,根据国家电网公布的数据,全国数据中心耗电量达到2700亿千瓦时,占全社会用电量约3%。2021年,全国数据中心耗电量为2166亿千瓦时,是同期三峡电站累计发电量的两倍。
中国电子学会副秘书长洪京一也曾表示:“数据中心用电量大、用电负荷高,在‘双碳’大目标下,数据中心必然要进行绿色转型。”
面对数据中心带来的节能环保问题,现场有多位投资人表示了担忧:“会不会由于能耗过大,导致项目被关停?”
但王梦菲认为, AI时代数据中心的需求确定,不应该因噎废食,相反地要真正解决数据中心耗能过高问题,应该通过投资创新技术,从根源上实现提效降耗。
以华为建在乌兰察布的数据中心为例,通过采用间接蒸发冷却方案,以及基于AI的iCooling能效优化技术,华为数据中心实现了年均PUE低至1.15,相比传统冷冻水方案,每年可节省耗电量超过3000万度,每年减少二氧化碳排放量约1.4万吨。
可以预见的是,作为算力底座的数据中心,在未来的AI时代,还将面对用电和散热这样的老问题,同时,还要面临更高算力、节能环保等新挑战。
既然数据中心的变革即将来临,那大模型时代的数据中心,具体形态究竟如何?以及,对于资金实力较为薄弱的AI创业公司而言,数据中心是否将变得更加“平民化”?
多位参会嘉宾指出,虽然大模型时代的数据中心,其具体形态难以预测,但从需求侧出发,数据中心在未来有可能分成两类: 大模型训练型和场景训练型。
具体来说,自研大模型的企业对算力拥有极高需求,也更能承担高昂的造价成本。因此,这一类企业应该会选择类似乌兰察布市这样电价更低的地区,建造大型数据中心训练大模型,一是电力成本较低,二是温度常年较低,有利于数据中心散热。
而场景训练型企业,其模型往往聚焦于营销、文档、金融、图片、短视频等特定场景,因此对算力需求相对较小,可以选择靠近公司建造小型数据中心,节约管理成本。
天开智算董事魏昊旻还补充表示:“由于大模型研发所面临的算力资源短缺、成本高昂等问题已经引起了政府高度重视,未来大模型企业甚至可以考虑公共算力。”
比如北京已经在建设北京市人工智能公共算力平台,提供开放算力服务,支撑研发创新;同时支持企业整合算力资源,鼓励基于国产算力开展研发,对技术创新性强、应用生态丰富的大模型,会给予最高1000万元算力补贴。
简单来说, 就是大厂构建大型数据中心,创业公司寻找更经济实惠的解法。
而对于无论大厂,还是初创公司,都面临的“缺英伟达显卡”问题,魏昊旻则认为“应该从软件生态入手,把软硬件自研结合起来,一步步打破英伟达的垄断。”
魏昊旻特别提到,实际上,在硬件性能方面,国产第一梯队的AI芯片已经与英伟达相差不远。比如华为的AI芯片性能,已经可以对标英伟达的高端显卡A100,尤其在显卡的裸金属性方面。
但是在硬件性能上接近英伟达,并不意味着国产AI芯片可以取代英伟达。因为英伟达真正的壁垒,并不只有GPU硬件性能,还在于其庞大的AI软件生态CUDA。
简单来说,作为一家成立30年,并且早早确定专注生产GPU的公司,英伟达定义了GPU通用计算编程框架CUDA,开发者们早已习惯了用CUDA专有的编程语言,制作GPU驱动的应用程序。
如果开发者要迁移到谷歌、亚马逊、微软或国产的GPU芯片,他们甚至需要学习全新的软件语言,迁移成本显然很高。因此,行业抢货国外AI芯片而不用国产芯片,这一现象本质还是国产芯片生态仍有差距。
而魏昊旻提到,解决问题的一种思路或许就在帮助更多国产AI厂商定制芯片。
魏昊旻透露,天开智算正在与一些大模型厂商尝试合作专用芯片。“专用芯片意味着AI公司可以根据自身需求,对软件和硬件进行改造,确保芯片设计完全符合算法需求,提高运算效率和性能。与此同时,AI公司还可以围绕专用芯片,建立私有的生态系统,包括软件库、框架、工具和支持服务,满足定制化需求。”
也就是说, 虽然短期内国产AI芯片公司很难跟英伟达正面硬刚,但至少在定制化、私有化布局层面,能解决AI算力短缺的燃眉之急。
讨论到如何突破“算力瓶颈”的问题,现场也有多家创业公司的参与者从自身实践出发给予了一些观点和洞察,从算法和软件层面上做优化解决推理场景的问题也可能是另一个思路。
王梦菲代表现场讨论总结,“做AI基础设施的投资不能只看我们的瓶颈,也要关注到中国的产业优势和场景优势,大模型最终一定是面向落地解决实际问题,在推理侧,针对不同的任务需求和场景特征能做很多定向优化的解决方案,如果能形成标准产品或服务,每一类场景的想象空间都很大。”
而从更长远角度,小饭桌也认为,AI芯片快速迭代的特性,注定了这一赛道的格局不会永远固定。
比如即便是大厂,也苦英伟达久矣。据市场跟踪公司Omdia的统计分析,几乎所有大量采购H100的公司都在为人工智能、HPC和视频工作负载开发定制自己的芯片,希望减少对英伟达硬件的依赖。
而如果将目光放得更加长远,英伟达所代表的硅芯片已经被压榨到了算力极限,很难再有突破性提升。但诸如光计算、量子计算等新型计算方式,正在世界范围内蓬勃发展,其计算速度,以及相应的能耗比,相比于硅芯片的提升可能在百倍以上。
下一个AI时代的算力霸主,真不一定是英伟达。