图片来源:图虫创意
去年8月,杨先生得知,多年在外打工的二舅,在工地上意外去世。这个消息要瞒住外婆——她90多岁了,身体不好。
杨先生三十多岁,在南京一家互联网公司做市场工作。他生活中另一次重要的人离世,是2020年NBA篮球明星科比的去世。杨先生是十几年的科比死忠球迷,那天凌晨3点多钟被国外的朋友电话惊醒,得知科比坠机,杨先生感觉“眼睛里有东西在打转”。杨先生性格内敛,言辞严谨,这是他在采访中少有的柔软表达。
后来,杨先生用人工智能文生图模型Midjourney生成了一张科比的图像——科比的脸庞坚毅柔和,四周围绕着梦幻般的多色油彩。他把这张图作为自己的微信头像。这很简单,也很便宜,跟画一张画的差别不大。
蓝鲸财经记者用讯飞星火生成的科比头像。图片来源:讯飞星火
但要为外婆瞒住二舅的去世,是另一回事。
因为工作关系,杨先生对人工智能的了解和跟进本来就比普通人更多一点。而所有人都已知道,在最近这短短两三年间,全球AI的发展就像脱缰的野马。于是,在二舅去世之后,杨先生又想到了人工智能能否做点什么。
他找到一个从事人工智能行业的朋友,基于人工智能的人体图像合成技术,花了一万元左右,做了一个数字人舅舅。然后,朋友通过AI扮成杨先生舅舅的形象,给他外婆打了一个视频电话。
杨先生的外婆,等待这个电话已经很久了。
See You Again
去年8月杨先生的二舅去世之后,接连就是中秋节、国庆节、春节。
外婆在电话里问:中秋节回不回来呀?国庆节回不回来呀?春节回不回来?
她不知道对面的儿子是AI,母子之间话也不多。AI二舅回答说:工地忙,工期赶,不能回来。
外婆就说:在外面工地工作,要注意身体啊。
视频电话的场合,杨先生的母亲都选择避开,怕绷不住情绪,都是杨先生在一旁撑着场面。杨先生事先嘱咐扮演二舅的朋友,话不要多,简单问候外婆就行,言多必失。
另一案例中,一老人的儿子去世,用AI视频电话骗老人说在外打工。图片来源:“超级头脑”视频号
用AI扮演二舅的这个朋友,是AI自媒体“超级头脑”的博主张泽伟,他最开始是做AI课程,后来开始做用AI“复活”亲人的业务。在张泽伟接收的客户群中,像杨先生的业务属于刚需类型,通常是客户家里有人去世、入狱之类,要瞒住家里的老人或小孩,电话那头的老人或小孩不知道对面是AI。
因为要瞒住,要“善意的谎言”,所以对话短平快,以免露出破绽。
“AI二舅”效果逼真吗?
杨先生说,效果很不错,能过关,至少外婆看不出来,母亲也觉得很逼真。“像我对人工智能行业有所了解,有一些方式去识破它。当你知道它是假的,你会千方百计去抓捕假的痕迹。但是如果普通人不知道这个技术的存在,你都不会朝这个方向怀疑,就以假乱真了。”
杨先生准备等到年后春天,天气暖和了,外婆身体好一点之后,再告诉外婆关于二舅去世的消息。但越是到心里预期的日子,杨先生心里就越没底。而外婆被母亲接到南京家中,母亲告诉她,二舅带着妻儿到外地过年,外婆也感觉到有什么事情瞒着她。
在二舅去世后,用AI来制作二舅的数字分身,是否符合伦理?
杨先生自己觉得,这事没办法说。“我们互联网从业者,相对容易接受这个技术。行外人或者老人,比较难接受。”
清华大学新闻传播学院研究AI与大数据的教授沈阳告诉蓝鲸财经,数字生命的陪伴能帮助在世者维持家庭结构的稳定性,“亲人过世后,如果有数字生命,他每次回家会想,家里还有个人等着我,还有亲人的一个影子可以陪伴自己。”
死者是否享有安息权?沈阳教授表示,“已逝亲人本身是否愿意把自己的数字生命长期存留于世上呢?我们能否默认为得到(已逝亲人的)允许?这确实是个问题。那死去的人是否拥有安息权呢?他应该在生前决定。未来我们可能需要在民事法律中,做一些界定。”
而杨先生为总计三次的AI舅舅视频通话付出的价格在一万元左右,大头都是前期训练和生成的9800元,每多一次视频通话加200元。不过,这是比较早的价格。此后由于张泽伟工作室接单变多、成本摊薄,而AI技术却在不断进步,同样的服务价格也正在下降。
一场心照不宣的心理咨询与角色扮演
除了杨先生这种需要瞒着亲人、互动方式短平快的AI视频电话业务,“超级头脑”博主张泽伟还有另一种业务:需要通过AI扮演去世的亲人,与客户进行深入的心理辅导——相比于技术服务,情感服务的成分更大。
有位女士在去年发私信给“超级头脑”,请求用AI技术“复活”在两年前意外去世的男友,与男友告别:“我男朋友两年前意外离世,特别突然,前天晚上我们还一起吃饭呢。已经两年了,我真的走不出来,接受过治疗,也做过偏激的事。原本计划好的生活一下全乱套了,我想制作一个和他的对话,正式告别,亲口听他说不要我了,也许我就可以重新开始了。”
张泽伟通过人体图像合成技术(与DeepFake深伪技术原理类似),把自己的脸换成这位女士的男友的脸,声音换成其男友的声音,而他自己控制面部表情和对话。
张泽伟用AI扮演成女子的已逝男友。图片来源:“超级头脑”视频号
视频电话开始了。女士看到男友的脸,便抑制不住地哭起来。
张泽伟扮演的“AI男友”说:“不哭了啊,不哭了,一切都会好起来的。要不你跟我说说,是什么事情惹你不开心了?我们一起来想办法。我知道,这两年你一定过得很辛苦,最苦最难熬的两年,咱们都坚持过来了,不是吗?”
女士哭道:“你怎么不打声招呼就走了,我想你啊。”
“AI男友”一直语气温柔和缓:“我一直都在啊,我心里一直都有你,我永远都会陪在你身边的。不哭了,你看你这么年轻漂亮,会有人替我来爱你的,我已经很知足了,因为在我心里面,我已经娶过你一次了。”
最后当女士哭得不能自已时,“AI男友”的语气变得硬起来:“你清醒一点,我今天就是想告诉你,我们已经分手了,我们结束了!”
像这类需要深度心理互动的业务,除了应用AI技术模仿人的外貌和声音,张泽伟还会请心理咨询师扮来扮演去世的亲人。心理咨询师的费用也是人力成本的一部分。
与杨先生的外婆不一样,这类客户也心知肚明,屏幕对面的亲人是虚拟的、AI制成的,这也是他们一开始向张泽伟提出的需求。
这是一场双方心照不宣的角色扮演,一场心理咨询。
张泽伟会提前跟客户签协议:一方面保护客户隐私,一方面约定好虚拟数字形象不能用于任何违法违规的途径。如果客户要“复活”去世的亲人,需要提供如户口本等关系证明,来证明两者之间的亲人关系。
张泽伟最开始接收这种业务时,内心会复杂。他说自己是生活乐观、性格简单的人,没有经历过太多痛苦,一下子要接触几百名客户的痛苦经历,“对人的冲击很大,最开始我晚上会梦到他们的事情。”但他后来逐渐适应,业务做多了之后,承受力更强,“就跟医生做手术一样,一开始见血会晕,但事情经历多了,人也麻了。”
清华大学沈阳教授向蓝鲸财经表示:“尽管目的是为了心理支持,但AI模拟的亲人不能完全代表真实的人。这种服务可能会让一些客户产生误解,以为他们真的能与已故亲人沟通,也有可能引发心理创伤和依赖,或干扰正常的哀悼过程。需要考虑这种服务在长期产生的影响,包括是否可能促成对已故亲人的不健康依恋。”
对于去世的人,不可能活体采样,所以客户在世时留下的数据量是关键。张泽伟介绍,要制作AI视频电话,去年需要的数据量,大概在20-30分钟的声音样本、1-2分钟的视频样本量。由于大模型技术的升级迭代,今年只需要15秒左右的声音样本和10秒左右的视频样本。当然,样本量越高,数字形象的拟真度越高。
样本量越少,所需的制作时间越长,人力与技术成本越高。张泽伟介绍,如果只有一张照片、几秒钟的语音,那么需要半个月才能达成将亲人“复活”成视频电话中的形象,技术+人力成本需要七八千元左右。
吃螃蟹的人:AI在中国To-C落地的生意
“超级头脑”博主张泽伟称,自己最开始收到客户的想要“复活”亲人的私信需求时,是免费为他们提供服务的,“一两个月时间里,世界上无数种人间疾苦的案例向你涌来,你没有办法开口跟他们收费。”另一方面,张泽伟也表示,起步阶段做些免费的公益案例,也是打开市场。
这样免费做了几十上百单,张泽伟后来开始收费,每单价格在几千到一万元之间。张泽伟称,每单毛利百分之五六十,净利百分之三四十。
张泽伟会对客户的咨询进行筛选,看客户的需求是否真实,接单的比例不到一半。截至3月中旬,张泽伟工作室的“复活”亲人业务开展接近一年,已经接收近一千单,包括正在进行的单子,营业收入达到几百万。
张泽伟知道自己的业务是猎奇的,吸引媒体蜂拥报道,法国的法新社、TF1电视台、新加坡的海峡时报也报道了。更多客户涌入,向张泽伟咨询。“初步估计咨询量有四五千,但没有那么多精力去统计这些,因为这段时间对我们的曝光量实在太强了。”张泽伟说。
张泽伟制作AI换脸视频电话的过程。图片来源:“超级头脑”视频号
张泽伟工作室目前有5个人。做一个数字分身,成本一般在四五千元左右,工作量需要7天左右,算力24小时全开,训练7天。如果样本量过少,制作耗时也更长,甚至到半个月。从活人身上采样越多,用更多样本去训练模型,优化数字人的情感和语气,数字人就越接近本人。需要几个月的样本量,才能全方位模仿本人的情感;而以年为单位采样,才能无限趋近本人。
目前,张泽伟工作室使用了国外的一些开源软件,来打包成自家核心软件。但国外的开源软件具体是什么,张泽伟表示不能透露,是商业秘密。
在数字人的对话训练方面,张泽伟工作室使用了百度的文心一言大模型4.0版本的接口,再用客户的个人数据,去训练生成专属的对话小模型。算力方面,本地使用英伟达RTX 4090显卡,线上使用阿里云。
商汤科技数字空间事业群首席架构师邢孝慈表示,目前生成一个数字人的成本不到万元,但生成数字人之后,用大模型进行对话训练还需要额外的计算成本。
获客方面,张泽伟工作室目前To-C端的主要获客方式是视频自媒体曝光,吸引客户前来咨询。目前全平台粉丝总量30多万。
不同社交媒体,视频号、抖音、小红书上推广的效果不同。最开始在小红书上流量非常好,但后来似乎被平台限流。张泽伟说,“小红书很奇怪,一开始在小红书数据非常好。一周不到的时间,每条视频四五十万播放量,粉丝1万7千左右。之后不知什么原因,限流了,我们去申诉,平台回应说你的账号运转正常。但其实我们知道仍然是限流的,因为不可能同样的内容,播放量原来有几十万,现在发出去只有一两百。”后来张泽伟用小红书的付费推广工具“薯条”去投流加热,结果提示发布内容不符合价值观,“我们也没搞明白为什么会限流。”
张泽伟推测,最开始在小红书上流量最好,是因为小红书女性用户比较多,共情能力比较强,而自己的视频大多关于人间疾苦,需要用户共情。
目前张泽伟认为微信视频号是窗口期,对创作者有流量扶持,还有一定的机会,但红利期也快关闭了。在他看来,以短视频平台的推荐逻辑,似乎不太容易将这些悲伤内容的视频推荐给用户,“如果是一个很悲伤的事情,首先用户很少会去收藏、点赞、转发。”
在用AI“复活”亲人这一块业务上,张泽伟的工作室是目前国内起步最早、规模做得最大的。淘宝、闲鱼上有一些零散的数字“复活”亲人的业务,但一般订单量显示在几十左右。
相比于To-C业务,最开始张泽伟其实是以To-B业务起步,为企业做AI课程培训。浙江卫视《王牌对王牌》关于反诈的一期,张泽伟工作室作为技术支持,给明星换脸。
在用AI“复活”亲人的热度火起来后,张泽伟的商单也变多。目前张国荣粉丝团、李玟粉丝团在与张泽伟商谈给偶像做数字人的业务,张泽伟正在与张国荣、李玟的直系亲属协商授权事宜。上海最大的殡葬服务公司福寿园,也在与张泽伟洽谈数字殡葬的合作,为逝者做数字永生人,双方已达成初步合作意向。
从人才成本到算力成本,训练AI大模型都极其烧钱。大厂可以自己烧钱做研发,创业公司则需要大笔融资。目前中国做大模型的公司,落地商业化主要在To-B端定制企业服务,像张泽伟这样能在To-C端的细分商业化场景,自我造血挣到钱的,并不太多。
投资人朱啸虎在接受腾讯新闻《潜望》采访时表示,to B马上能商业化,基本不用烧钱,AIGC方向的投资,最重要是PMF(Product/Market Fit,产品/市场匹配),“你(投)十个人找不到(能做到PMF的),投一百个人同样找不到。和人数、成本没关系的。不要去砸钱做AIGC,关键是找不找得到PMF。你如果找到PMF,不用砸几千万美金去砸个大模型,成本不高,拿LLaMA训练两三个月足够了。”
张泽伟向蓝鲸财经表示,他了解到很多大公司也想做AI“复活”亲人的业务,“但我们从商业上判断,大公司很难去直接做这一块东西,因为这里面的东西太复杂了。”
张泽伟所说的“复杂”,一方面牵涉到中国的传统文化,“比如清明作为一个节日,大家去墓地祭拜,更多是对自己的解脱。”
另一方面是客户个体的心理需求,就像之前张泽伟用AI扮演那位女士的已逝男友,让她放下过去。“要根据用户的需求来定制,短期内没法把流程标准化。”
Deepfake造“假”,数字人逼“真”
除了“复活”去世的亲人,张泽伟的另外一块业务是,为在世的人制作数字分身。通过在世的人留下的影像、音频、文字数据,来制作数字分身,有与本人相同的面貌、声音,甚至相似的思维与对话习惯。
商汤科技在2024年会上“复活”了其创始人汤晓鸥教授,是今年年初惊艳世人的一个数字人案例。喜欢在晚上睡前听相声的汤晓鸥以往每年都会上台说一段脱口秀,今年的“汤晓鸥”一如既往地幽默,有着脱口秀的说话节奏,左右走动的悠闲步伐,还会自然地停下来喝口水——只是,这是数字人汤晓鸥。
2024商汤年会上,数字人汤晓鸥在脱口秀中途喝了口水。图片来源:商汤科技视频号
很多人说,如果不是视频里汤晓鸥提到春节档电影《热辣滚烫》,都以为是真人汤晓鸥回来了。
汤晓鸥数字人背后的制作过程,是小样本训练和大模型的结合。
在3月14号腾讯研究院的对谈会上,商汤科技数字空间事业群首席架构师邢孝慈介绍,训练汤晓鸥数字人的数据来自汤晓鸥生前公开的视频资料。在语音训练上,挑选了四五段汤晓鸥生前的音频,每段3-4秒钟左右,每段风格不同,“有些是调侃幽默的,有些是深情款款的”,邢孝慈说。接着用这些不同风格的音频,使用小样本学习(Few-shot Learning),还原本人的形象和声音。在对话生成上,用汤晓鸥生前的文字对话数据去训练大模型,让生成的文案内容与让汤晓鸥的性格贴合,形成幽默的对话风格。
对于生前资料中缺失的部分,如说话时的笑声,没法从原有素材中找到一模一样的,就需要用到视频生成模型。“刚开始,汤老师家属也会发现,笑容不够自然,后来我们不断调试参数,用到目前商汤在研发中的视频生成技术,来抓取到他笑的神韵。”
“超级头脑”博主张泽伟说,数字人这块的业务目前还在教育市场的阶段,“其实数字分身跟以前我们拍照片留影像是同样的逻辑。拍照以后,不管活着还是死去,人们都会看照片留恋。从照片上升到数字分身,要培养用户的产品性习惯。”
这个时代的数字人变得不一样了。如果说大模型之前阶段的数字人,类似Deepfake这样将个人的声音、面部表情及身体动作拼接合成虚假内容,它有与当事人一样的皮囊,但并不拥有当事人的意识,而是被其他人假冒,操纵着对话。
而大模型发展之后的数字人,有可能成为未来的、各种科幻作品里描绘的“数字生命”。“数字生命”不仅仅有与当事人一样的皮囊,还能通过学习当事人留下的文字数据,模仿其对话习惯,甚至拥有一定程度的意识,以与当事人相似的思维去与真人产生新的交流。
到了那时,“数字生命”引领的整个商业模式将与现在拍照片、制作数字人的情况完全不同,AI将迎来一个全新的市场,甚至让人类进入一个全新的时代。