我输入的关键词是:冬日海面,鲸鱼,甜甜圈,c4d渲染,装饰管线。
十分钟后,群里的机器人给我发过来一张色彩瑰丽且颇具想象力的图片:鲸鱼从冬日微微冒烟的海面浮出,棕褐色的甜甜圈似海里巨大的岩石。
作为一个带有猎奇心理的试用者,我很满意。
老实说,我发出的指令只是一些我喜欢的东西构成的词汇,我并没有想过这些组合在一起会是什么样子,但仅靠文字描述,AI就帮我具体地描绘了一个理想世界。
这是最近火爆的AIGC概念的一次生动应用。
所谓AIGC(AI-generated content),按照中金7月发布的研究,指的是一种通过AI技术来自动或辅助生成内容的生产方式。通过输入指令,人类让AI去完成冗杂的代码、绘图、建模等任务,从而生成内容。
红杉美国的两位合伙人最近也在一篇题为《Generative AI: A Creative New World》的文章里写道:机器开始尝试创造有意义和美丽的东西,这个新类别被称为“生成式AI(Generative AI)”,这意味着机器正在生成新的东西,而不是分析已经存在的东西。
“人人都能成为创作者”,过去我们一再使用类似的话语,表达技术演进给内容生产带来的变革。如果说短视频一类工具的出现降低了表达的门槛,那么AI工具的应用无疑让这句话更为贴近现实,其商业前景同样广阔。中关村大数据产业联盟发布的《中国AI数字商业展望2021-2025》报告预测,到2025年,中国AI数字商业核心支柱产业链规模将达到1853亿元,其中AI数字商业内容产业规模将达到495亿元。
海外,人工智能艺术家和艺术品迅速涌现。谷歌、微软、Meta等科技公司扎堆AI绘画,Disco Diffusion、DALL-E 2、Stable Diffusion、Midjourney、Make-A-Scene、NUWA等平台正在重新定义设计的想象力。
国内也已经暗流汹涌。在今年7月的百度世界大会上,AI用时1秒就复原了《富春山居图》残卷,应用的正是百度开发的飞桨和文心大模型技术。以TIAMAT为首的一些脱胎于中文环境的生成式AI生成内容平台也转入爆发式增长。
每一波小趋势的出现无一例外总能牵动投资人的情绪。“今年七八月份开始,这个赛道慢慢火起来了,从9月份到现在,铺天盖地到处都是AIGC。”有从业者向我透露。
海外的AIGC赛道已经跑出了独角兽。10月18日,Stable Diffusion背后的Stability AI宣布获得1.01亿美元来自Coatue和光速的投资,投后估值攀升至10亿美元。
我了解到的消息是:一个还在内测阶段的AI生成内容平台已经被十余家美元基金围猎;不少VC都在催FA给他们推类似的项目;一些原来业务更To B的公司也推出了面向C端的产品,比如,9月底,AI模特图片解决商ZMO推出用文字驱动Photoshop的新产品,这家公司已经拿到高瓴、金沙江和GGV的钱。
“AI在细分领域的应用一直是DCM关注的主题,在DCM的Portfolio里不仅有弘玑Cyclone这种RPA+AI公司,还有专注在AI药物研发的星药科技,AI工业视觉的阿丘科技等,快手中也大量应用了AI推荐机制。大概在去年年底,我们关注到国外的技术进展和代表性的内容生产公司,开始密切关注用户端的内容生成工具。”DCM投资人告诉我。上周,生成式AI平台TIAMAT宣布完成数百万美元天使轮融资,DCM也是本轮的投资方。
那么,还是要回到一个关键问题,AI生成绘画为什么在2022年火了?
一个随之而来的老生常谈的问题是,文字工作者之后,这回该轮到插画师失业了吗?
01
简单来说,这波AI绘画产品的流行背后是关键技术的突破,转折发生在去年年底到今年年初。
TIAMAT创始人青柑告诉我,团队从去年下半年开始一直在做CV和NLP相关的东西。过去业内已经开发了很多生成图像的技术模型,但当时在全球技术社区里,大家的统一认知是,接下来会是Diffusion模型的未来。
这个模型有何特别之处?
过去在AI领域,NLP涉及到的是自然语言处理,可能应用在自动续写小说、剧本等领域,而图形领域主要研究的是CV、CG、视觉识别或者自动驾驶。但图形是一种模态,文字是另一种模态,两个模态之间的互相理解和应用是难以跨越的技术难题。
此前应用较多的是由 Open AI提出的CLIP模型,这个模型使用已经标注好的"文字-图像"训练数据, 一方面对文字进行模型训练, 同时对图像进行另一个模型的训练, 不断调整两个模型内部参数, 使得文字特征值和图像特征值能让对应的"文字-图像"确认匹配。
但这个在2021年上半年提出的模型一直没有很好的落地应用场景,直到2021年下半年结合了Diffusion模型。事实上,学界早就提出了Diffusion模型,只是过去没有人把它应用在文本到图像之间的网络。
现在,这道技术上的门槛被迈了过去。CLIP + Diffusion 模型不仅可以支持从文字直接生成图像,而且图像的水准已经成熟到可以在商业场景落地,于是,正如我们看到的,大量AI绘图应用扎堆出现。
这是Diffusion模型主导的时代,它构成市面上所有AI生成图像的底层技术,但每一个公司可以在上面开发出自己的框架和模型,因此生成的图像质量也各不相同。这就好比Diffusion是若干砖头,大家都在拿它搭房子,但搭出的房子五花八门。今年初率先走红的AI绘画平台 Disco Diffusion是第一个基于CLIP + Diffusion 模型的产品,开源的Stable Diffusion则是很多人眼中目前市面最强产品。
“更好的模型,更多的数据,更多的算力”,在《Generative AI: A Creative New World》中,红杉的两位合伙人对生成式AI流行的原因进行了更全面地概括。
他们总结了这一领域经历的四波浪潮:
第一波浪潮:小模型(Small Models)占主导地位(2015年前)
第二波浪潮:规模竞赛(2015年-至今)
第三波浪潮:更好、更快和更便宜(2022+)
算力变得更便宜,新技术如扩散模型(Diffusion Models),降低了训练和运行所需的成本。
第四波浪潮:杀手级应用出现(现在)
“正如移动设备通过GPS、摄像头和网络连接等新功能释放了新类型的应用程序一样,我们预计这些大型模型将激发生成式AI应用程序的新浪潮。就像十年前移动互联网被一些杀手级应用打开了市场一样,我们预计生成式AI的杀手级应用程序也会出现,比赛开始了。”他们预判。
02
去年年底,TIAMAT开始在各社交平台发布图片,同时向粉丝征集名字。TIAMAT就是投票出来的结果。这个名字的含义是,古巴比伦神话中的创世神,“象征用自然语言驱动生成内容,并以此创造一个世界”TIAMAT创始人青柑说到。
竞争激烈,已经有人将AI绘图的涌现比作“众神之战”,那么,谁是这个行业里真正的“神”?
今年8月,国外博主Eliso比较了DALL-E 2 、Stable Diffusion和Midjourney 三个AI图像生成程序。他发现,DALL-E 2 生成的图像通常能最大限度地遵循提示;Stable Diffusion对某些提示效果更好,而对另一些提示效果更差,但可以通过修改更精确的描述以使其正常工作;Midjourney 风格非常独特,但有时与输入的关键词不符。他的结论是:如果你只想使用这些 AI 中的任何一个,最好的选择是Midjourney 。如果不想付费使用,最好的选择是Stable Diffusion,只需要申请就能免费使用。
这当然是一个主观的结论。从用户的角度,UI、易用性、使用成本以及对关键词的理解程度等都是可比较的维度,逐一审视,当下的软件在不同应用场景下都各有其优缺点。
从专业的层面,决定一个AI图像生成产品形态的有三个维度。
其一是模型,这需要应用大量数据训练,这是一个花费高昂的过程。
国外,谷歌、Meta、微软等大厂都是AI内容生成的积极探索者,国内的互联网公司中,百度已经上线了中文版的AI绘画工具“文心·一格”,拥有海量数据的大厂在这一赛道会有先发优势吗?
在青柑看来,国内大厂在模型上有一些进展,但在语义理解方面未必有海外成熟。这跟数据息息相关,用于训练的模型数据必须非常“干净”,必须是“有效的、匹配的、可增强的数据”。具体来说,光有图片不行,一张图片旁边必须配一句对图像精准的描述才算合格。从这个层面说,大厂如果没有提前收集、整理数据,那么跟创业公司几乎是在同一起跑线上。“可能会有一些数据积累的优势,但也需要花费时间和成本校对那些数据。”
每个公司都有自己数据接入的方式,但从结果上看就是,谁能更快速地获得更多有效数据,谁的壁垒就会越来越高。
其二是工具,这涉及到如何使用模型,比如在交互方式上,是用文本去调动图像生成还是图像加文本调动图像生成?
其三是社区,海外的平台一般都会配套创作者社区,因为谁在使用工具是一件很重要的事情。搭建在Discord上的Midjourney拥有超过百万人的社区,Midjourney创始人曾在采访中这样描述社区的重要性:“社区内有数百万人在制作图像,每个人都在互相模仿,产生新的美学。它们不是AI美学,而是新的有趣的人类美学。”
社区不仅是激发创作灵感的地方,在很大程度上也影响着AI生成图片的风格。“我们可以在社区里观察到,用户每天在发什么样的图,生成什么样的图,将图片用于什么样的场景中,再不断根据反馈来调整模型。”青柑告诉我。
和海外产品相比,TIAMAT目前的技术壁垒体现在对中文语义的理解上。生成图像的本质还是创造内容,内容就会有其生长和使用的文化土壤。如果你想用AI绘图复现心里的《桃花源记》,不管在积累的数据还是自然语言理解方面,海外的平台都并不能很好地达成这些目的。
比起英文,中文在自然语言理解的难度会陡然提高,如何消除歧义,更好地理解和表达中文语境,同时破解更复杂含蓄的“意境”,是TIAMAT团队最近想突破的难题。
03
像所有新技术一样,在令人惊叹的同时,AI绘画从诞生之初就伴随争议。其中一个争议,是版权及伦理问题。
为规避版权争议,TIAMAT和Midjourney都谨慎地在素材库中使用无版权的图片。但有熟悉这些工具的博主称,目前市面上所有AI工具生成的图片,即使付费,都只是“理论上可商用”,仍存在一定风险,风险主要来源于描述词会引来画风抄袭的争议。设计师努力创造一种特定的风格,但如果他们的作品被AI当做素材,会发生什么?
这种担忧并非多虑。《麻省理工技术评论》9月发布了一篇文章:数字艺术家 Greg Rutkowski 因为看到他的绘画风格被AI图像生成平台复制而不安,指向的正是刚发布不久的Stable Diffusion——生成式AI从网上抓取数据来训练自己的模型,有时会未经在世艺术家允许就收集他们的艺术作品。类似的声音已经在国内出现,画师九度乐最近在微博上抨击了这一现象,“难道以后发图要打上满屏的水印了吗……谁也不想自己辛苦半个月磨出来的图被AI拿去当素材库了”。
但从法律的层面,认定构成侵权行为并非易事。有熟悉相关法律的人士告诉我,所谓的“画风”更偏重主观感受上的归类,认定侵权先要明确权利,同时主张被侵权一方要承担主要的举证责任,和文字相比,构成更复杂的图片需要提供更充分翔实的证据支持。“AI的学习模式类似于一个‘运动员的集训’,配比数以百万计的‘如果’,才有可能出现期待的‘那么’或者‘结果’。不是因果论,是结果论。”
从伦理上讲,如果想将在世艺术家的作品用作素材,最好的做法是获取其授权,但因为AI绘画仍处于发展早期,这样的实践还不太多。
那个更具普世性的争议是,AI取代人工会不会构成对从业者的威胁?
8月,一幅由Midjourney自动生成的画作《太空歌剧院》在美国的一个美术竞赛中获得了一等奖,但因该作品由AI绘图工具完成,引发不少艺术家的指责。我无意围绕相关争议再展开讨论。AI生成图像之于构图创造力就像摄影之于绘画,把摄影作品和油画作品放在一起比较,这本身就不够合理。
但我们关心AI绘画的未来走向以及技术嬗变对人类带来的长期影响。这并非杞人忧天,已经有给AI打杂的精修插画师工种诞生了。就我个人的体验而言,AI绘画的质量、甚至其创造力和想象力都不一定比人类画师差,只是从工具的角度,现阶段AI对人类需求的理解还不够准确,生成的图像并不能完全匹配提示词。
这当然与技术的发展阶段有关。李彦宏曾判断AIGC将走过三个发展阶段:
第一个阶段是“助手阶段”,AIGC用来辅助人类进行内容生产;
第二个阶段是“协作阶段”,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;
第三个阶段是“原创阶段”,AIGC将独立完成内容创作。
“我的出发点肯定不是做一个东西把自己的兴趣爱好替代掉,对吧?”青柑毕业于中科院上海科技大学,学的是计算机专业,但她在中学时代是个美术生,差点就去参加艺考。
她更喜欢跟我谈论“人机比”的说法,会思考未来在不同的行业里,人和机器的比例会是什么样。以Excel表格为例,过去是人来绘制表格并计算,现在人只要输入数据,其他的工作Excel都能代劳。在她眼中,内容生产行业正在发生类似的事情,只是人机比例不同,Excel让人的比例降得很低,但在内容生产领域,人仍然占据更高的比例。
AI内容生成平台的目的,是将人从机械劳动中解脱出来,释放人的创作想象力。目前,TIAMAT排队内测的用户在2万左右,C端用户覆盖设计师群体、游戏和影视从业者以及部分技术从业者。在To B端,时下央视网、《时尚芭莎》、《嘉人》发布的一系列主视觉均出自TIAMAT,TIAMAT也已经和知名IP版权方、头部游戏厂商等深度合作,提供概念设计、场景设计等,也能提供更潮流的营销方案和广告图像,同时也可以接入电商行业的工作流,帮助其提高效率和质量。
另一个关键的问题是,毕加索之所以是毕加索,是因为绘画理念的革新,AI可以做到这一点吗?它能输出真正的艺术家作品,还是只能生产仿品?
“TIAMAT现在每天生成的图像大概有十几万张,和人类学习绘画的过程类似,我们观察到,当把很多流派融合起来的时候,AI会创造一个新的流派。”这是青柑给我的答案。大胆预测,一方面,未来的艺术史中可能会出现AI流派。另一方面,AI生成的图像也会反向影响人类的审美,当我们越来越多地在生活中看到由AI生成的诡谲繁复的图像,人对美的定义也会渐渐变化。
前两天她还被TIAMAT生成的图像惊艳到。当时她输入的关键词是,人工智能预言的未来,生成的图像里,一个人站在繁复的像代码块堆叠起的历史长河里,似在凝望着未来。
04
回到开头的那张图,我不会画画,但我给AI输入了指令,最终的作品算是我的创作吗?
我很心虚。
但青柑认为,答案是不容置疑的。“人的主观性一定是第一步,人先有一个想法,然后映射到真实世界里,AI只不过是中间的映射器。”
生成式AI经由数据集模仿人类的想象力,数亿张图片的容量比个体记忆的容量要大得多。它们是出色的数据挖掘者,但至少在现阶段,它们仍然缺乏意识。
在DCM投资人George眼中,人类拥有自由意志,并乐于借助工具来表达和诠释,AI生成内容平台就是人类发明的一种新的内容生产工具。“人类文明发展的轨迹就是不断通过技术的演变,发明新的工具,然后用新的工具去跟世界连接,人和人之间互相连接,所以我们认为,AI生成内容是一个结构性的变革,是一种科学和艺术、人和机器的耦合。”
如果去想象其未来,TIAMAT这样的平台有可能发展成综合的AI内容创作平台。大家一开始都是通过prompt(在机器中输入关键词)的方式,书写一种人机耦合的语言来生产内容,但将来可以用的内容媒介会越来越多,人们在生产内容之后还会存储并回来搜索,在这个过程中产生更多反馈机制。
“从百度的搜索机制,到头条的推荐机制,到现在更新方式的prompt,是不是能通过它去引领一个新的内容生产创作的范式呢?”George抛出了一个面向未来的问题。
图片界的“今日头条”——这是我看到的某AI绘图平台写在BP上的定位。
无论如何,技术还在不断迭代。Make-a-scene已经支持上传简单的草图来生成图像;Stable Diffusion 很可能在一年之内就能在智能手机上运行;一些模型已经开始着手动态视频生成,比如,YouTube 上的创作者DoodleChaos最近使用 Disco Diffusion V5.2 Turbo 制作了一段完整的音乐视频。在百度世界大会上,李彦宏预言,未来十年,AIGC将颠覆现有内容生产模式,可以实现以“十分之一的成本”,以百倍千倍的生产速度,去生成AI原创内容。
也许,“prompt一下”的时代离我们并不遥远。(文/刘燕秋,来源/投中网)