全网首个国产大模型实用性评测:阿里分数只到GPT一半?
编者按:本文来自微信公众号 娱乐资本论(ID:yulezibenlun),作者:知行,编辑:James,创业邦经授权转载。
都说AI好,一用急跺脚……这或许是许多普通用户在使用各种语言大模型时的感受,尤其在他们不知道该怎么提问的情况下。
对于不少从业者而言,AI大模型的重点不是能不能做顺口溜或回答哲学问题,而是在于AI是否能够在实际工作中发挥作用,提升效率。
作为一天要使用超过20次AI的普通文字工作者,我们娱乐资本论也很好奇国内的大语言模型究竟谁好用。
为此,我们特意咨询了编辑、写手、编剧、公关等许多内容行业的专业人士,征询到18个问题,准备针对国内的四款大型语言模型——百度文心一言、阿里通义千问、讯飞星火、昆仑万维天工,以及与GPT-3.5一起(为了公平起见,我们刻意没有使用ChatGPT4这个“打虎英雄”,而且普通人使用4的几率远远低于免费版的3.5),进行一次全面的,不同于以往科技工作者的文本应用能力测试。
我们的测试并非旨在提供学术上的严谨标准,我们的目标是:从实用的角度出发,分析这些大模型在各种文本应用场景,如小红书带货文案、抖音直播文案、知乎问答、小说创作、公关信写作、歌词生成、淘宝商品详情页文案、广告宣传片文案、剧本创意策划等方面的综合表现,甚至是AI公司针对这一次孙燕姿质疑AI的公关回应文案(具体可看今天的另一条稿件),为专业人士提供参考。
在评估这些可以进行程式化分析的文本时,我们主要从以下五个维度来评判大模型的表现:
1. 语言表达能力:文本是否通顺、流畅,语法是否正确。
2. 准确性:模型是否能正确理解问题,并给出准确的信息。
3. 内容完整性:文本内容是否足够完整,是否涵盖了问题的主要内容,是否达到了基本可用的标准。
4. 交互性:用户是否能通过明确的、三次追问之内的指令或问题,引导模型给出合适的答案。
5. 加分项(不做具体要求):任何创新、独特、让人眼前一亮的内容。
我们会基于上述五个维度为每个答案打分,满分(加上加分项)是5颗星。一般有4颗星就已经是很好的表现。
本测试集当前有16道问题,每题满分5分,但是总体上不设满分。读者只需要留意每一道题的具体分数,以及每个模型自身加在一起的总分即可。
因为篇幅限制,本文不会一一展示所有问题的测试结果及结论,会挑一些有代表性的展示给大家。
读者可以点击以下网址或通过小程序进入我们的测试集表单,其中提供了所有的测试题目,以及各个大模型给出的答案。您可以切换到“画册视图”获得更好的阅读效果。
这一类别主要包括带有前置知识的命题作文、在问答网站答题和写新闻稿
抖音直播——淄博烧烤
知乎问答——医疗美容类
知乎问答——历史类
新闻稿——虚构的热点事件
这些问题需要模型具有广泛的知识储备和准确的信息处理能力。例如,抖音文案要求模型对直播流程和语态有足够了解,知乎问答的题目需要模型具有专业的医疗和历史知识,而新闻稿的写作则需要模型能够准确理解和处理新闻事件。
直播文案对格式没有固定要求,主要考察模型是否可以给出清晰可用的内容,并能够通过prompt交互调整输出。
你是一位拥有上百万粉丝的直播和短视频网红,每天都会在抖音做直播。你今天来到了山东淄博,当地最近几个月正因为便宜好吃的烧烤而在全国出名,每天都有很多网红和你一样来到淄博探寻现场的情况。
淄博烧烤跟其它地方的烧烤相比,一个特色是会把烤串的食物拔下来放进面饼里夹着吃,另一个特色就是便宜,人均消费不到50元就可以吃饱。即使这几天淄博来了很多人,烧烤摊也没有涨价。
在淄博,你发现当地人非常热情,而且尽可能对你提供优质的服务,包括出租车司机,路上遇到的普通行人等,都非常友好。你感到非常感动,并且很想向你的粉丝传递这些信息。
请你即兴发挥来写一份长约3分钟的直播文案,也就是你在直播过程中会说的话。请注意:
1、文案内容应当包括淄博烧烤的介绍、从你自己的体会分析它近期火爆全国的原因。可以引入一个你编写的,看起来像是你亲身经历的小故事。
2、文案内容要强调与用户的情感共鸣,倾向于使用有趣、幽默、感性的语言,以吸引用户的关注和参与,引发用户的共鸣和共同话题。
3、适合口语化直播。
ChatGPT(3.5)
大家好!大家看到我现在所在的地方了吗?没错,我来到了山东淄博,这个最近几个月因为一种特别火爆的美食而在全国出名!没错没错,就是淄博的烧烤啊!
淄博的烧烤真的是太让人欲罢不能了!你们知道吗?这里的烧烤有两个特色,听好了!首先,它们不仅把烤串的食物烤得香喷喷,还会拔下来,放进面饼里夹着吃!哇,真是别有一番风味啊!我第一次看到的时候都被惊艳到了,感觉自己像在吃个大大的美味的馅饼!
而且你知道吗?这里的烧烤真的是超级便宜,人均消费不到50元就可以吃饱!对于我们这些吃货来说,简直就是天堂啊!就算最近淄博来了很多人,烧烤摊也没有涨价,真的是良心价!看得出来淄博的人民可是真的对吃货们特别友好呢!
我今天刚来到淄博,就发现当地人非常热情!不仅是烧烤摊的老板娘笑容满面,连出租车司机、路上遇到的普通行人,都对我这个网红充满友好!他们尽可能地为我提供优质的服务,真的是让我感到非常感动!你们不知道,当一个陌生城市的人对你那么友好的时候,感觉就像是回到了家一样温暖!
我想,淄博烧烤之所以会近期火爆全国,不仅仅是因为它独特的口味和实惠的价格,更重要的是淄博的人民对待食物和生活的态度。他们把美食当作一种乐趣,一种享受,而这种对生活的热爱和对人的友善,真的感染了每一个来到这里的人!
就在刚才,我遇到了一个淄博的大叔,他告诉我一个他亲身经历的小故事,你们一定要听听!有一次他带着一个外地的朋友来淄博,本来只是想随便吃个烧烤解解馋。结果他们走进了一个小小的烧烤摊,被摊主的热情和烤串的香味所吸引,结果就一发不可收拾,吃了整整两个小时!哈哈哈,那个朋友说他一辈子没吃过这么好吃的烧烤!从此之后,他们每年都要来淄博一趟,专程为了那个烧烤摊!
听到这个故事,我也忍不住流口水了!淄博的烧烤真的是让人欲罢不能!我也要告诉我的粉丝们,不管你们是不是吃货,来淄博一定要尝尝这里的烧烤!不仅仅是因为它的味道好,更是因为这里的人民对待食物和生活的态度,真的是让人感动!
好啦,今天的直播就到这里啦!我会继续探索淄博的美食,和大家分享更多的故事和美食!记得关注我哦,每天都有新鲜的内容等着你们!下次再见啦!爱你们!MUA!
天工
大家好,我是你们的抖音网红,今天我来到了淄博,这个城市因为便宜好吃的烧烤而在全国出名。我今天也要给大家分享一下我在这里的体验。
首先,我要说的是淄博烧烤的特色。他们会把烤串的食物拔下来放进面饼里夹着吃,这种吃法非常有趣,而且非常好吃。另外,这里的烧烤价格非常便宜,人均消费不到50元就可以吃饱。即使这几天淄博来了很多人,烧烤摊也没有涨价。
我在这里也遇到了非常热情的当地人。出租车司机、路上遇到的普通行人等,都非常友好。我感到非常感动,并且很想向我的粉丝传递这些信息。
我在淄博的时候,也遇到了很多有趣的事情。比如,我看到一个小女孩在路边卖烤玉米,她非常热情地跟我聊天,还给我介绍了她的烤玉米的制作方法。我还看到了一个小男孩在路边卖烤鸡翅,他的烤鸡翅非常好吃,而且价格非常便宜。
我觉得这些小商贩的热情和真诚,是淄博烧烤能够火爆全国的原因之一。他们不仅提供了美味的食物,还提供了一种温暖、友善的服务。这种服务和热情,让我觉得这里的人们非常可爱。
最后,我想说的是,淄博是一个非常好的城市。这里的人们非常热情、友好、善良,而且这里的美食也非常好吃。如果你们有机会来淄博,一定要来尝尝这里的烧烤。
直播文案略带新闻属性、对格式要求不高,prompt给出详细的背景资料对结果产生了不错的影响,模型们普遍可以做到语言流畅,信息准确,加上“亲身经历的有趣的小故事”。
我们选择GPT3.5与昆仑万维天工的答案作为表现比较好的范例。GPT3.5的语言风格活泼热烈,感情奔放,具备极强的情绪感染力,也编出了合乎逻辑的故事,整体一气呵成。
昆仑万维天工也记住了编故事的要求,并给出了逻辑清晰的整体叙述。
尽管人类直播并不需要逐字逐句的文案,但这样的尝试有助于让虚拟人直播的效果更逼真。
我们对历史博文的需要是,答案中有足够的学术性,语言风格以幽默为主。模型们会想什么办法把这两条需求有机结合到一起呢?
同时,我们考察了模型们不联网时自身知识储备的多少。它们真的都学习了三国这部分的知识吗?
你是一位专业的历史博主,请生成一份关于诸葛亮为什么没有北伐成功的知乎问答,内容需要符合以下要求:
1、内容具备专业知识和学术性,可以引用史料、资料、研究成果等作为支持和参考。
2、对该历史问题,进行历史事件的事实和背景解读,给出评估和观点。
3、整个语言风格应当诙谐幽默,引发用户的思考,令其想要点赞和转发。
文心一言
诸葛亮为什么没有北伐成功的根本原因就是经济不够发达。《隆中对》已经提到三分天下的形势。此时,曹操已经统一北方,孙权正在崛起,刘备寄人篱下,只有占山为王的份。当时,天下最富庶的地区在荆州,而荆州又在刘表手里,刘备想拿下荆州,必须跨过两个险关:第一个是当阳长坂坡,第二个是赤壁。如果拿下了当阳长坂坡,那么就能占领荆州北部大部分地区;如果在赤壁败了,也能收容部队,重振旗鼓,然后再取荆州。如果不拿下当阳长坂坡,刘备跨不过这个险关,也就无法在荆州站稳脚跟。所以,跨不跨这个险关,对刘备来说,是生死存亡的关键。
当时荆州有四大豪门:一是蔡家,一是张家,一是秦家,一是马家。其中马家的实力最强。蔡家和张家已经被曹操杀得差不多了,秦家的秦宜禄已经投降曹操,马家独树一帜。但马家势力太大,蔡家和张家虽然投降刘备,却不得重用。诸葛亮拿不到地盘也拿不到钱粮,所以才有了隆中对的第一条:跨有荆益。
但是要想跨有荆益必须取襄阳,但取襄阳就必须跨过宛城和新野这两道关口。这两道关口对张飞和曹仁来说都不难,但对赵云来说就是一道难关。赵云虽然勇猛无双,但他只有一支部队,而且又不善于防御。宛城距离新野很近,是攻打新野的前哨站,很难守住。况且马超也率领人马驻扎在宛城。所以诸葛亮才有了隆中对的第二条:连吴抗曹。只有和东吴联手才能抵御曹操的大军。如果这两条实现了,才有可能取得荆益二州。但要想连吴抗曹,就必须拿下西川和江东,才能让东吴心服口服。如果没有攻下西川和江东,即使拿下了襄阳和樊城也是白搭。
拿下襄阳和樊城之后,诸葛亮就可以把军队屯驻在襄阳和樊城一带,用来威胁西川的后方。此时就可以挥师西进,先攻下西川。只要拿下西川,那么东吴就不敢不听从诸葛亮的调遣了。因为只要攻下西川,那么襄阳和樊城就成了一座孤城,无险可守。此时东吴就会不战而降。但要想攻下西川并不容易。首先要跨越秦岭和大巴山这两道天险;其次要打败马超和韩遂的联军;最后还要扫平成都周边的势力。所以诸葛亮才有了隆中对的第三条:以攻为守。只有用进攻来威胁东吴,才能让东吴不敢轻举妄动。如果东吴敢来进攻,那么诸葛亮就可以凭借襄阳和樊城两座孤城坚守不出;如果东吴不来进攻,那么诸葛亮就可以挥师西进,直取西川。
但是要想以攻为守也不容易。首先要让东吴相信自己真的会挥师西进;其次要让东吴相信自己真的能够坚守不出;最后还要让东吴相信自己真的能够扫平成都周边的势力。
通义千问
诸葛亮北伐为何不成功?这是一个受到史学界和军事爱好者高度关注的问题。今天,我将从历史背景、军事战略、人才管理等多个方面,为大家详细解读诸葛亮为什么没有北伐成功。
历史背景
诸葛亮北伐的初衷是为了实现蜀汉统一大业。他深知,北方曹魏政权是蜀汉的最大威胁,如果不能夺取中原,蜀汉将永远处于曹魏的威胁之下。但是,在当时的历史背景下,蜀汉内部不稳定,国力不足,很难在短时间内实现北伐。
军事战略
诸葛亮在北伐过程中,大量使用火攻等军事策略,成功地阻击了曹魏的进攻。但是,他的军队多是新招募的农民军,没有经过严格的训练,作战能力较弱。同时,蜀汉内部也存在不同的意见,有些将领认为应该休养生息,保存实力,不应该继续北伐。这些因素最终导致了诸葛亮的北伐失败。
人才管理
诸葛亮是一位优秀的人才管理者,他非常注重人才的使用和管理。然而,他的北伐战争却因为用人不当、管理不够科学,造成了很大的人力和物力损失。更为严重的是,许多有才华的将领因为不愿意参加北伐,而离开了蜀汉,这也为蜀汉的灭亡埋下了伏笔。
综上所述,诸葛亮北伐失败的原因是多方面的。虽然他的军事才能非常出众,但是他没有处理好内部和外部的各种问题,最终导致了北伐的失败。在我们今天的工作和生活中,我们也应该从这个历史故事中吸取教训,注重人才的使用和管理,努力实现自己的目标。
作为标杆的GPT3.5角度齐全,风格独特,没有问题。
文心一言这个专业程度,让我们试了好几次把它的答案放到网上搜索,试图发现是不是从贴吧或知乎什么地方扒过来的(我们并没有发现)。唯一美中不足的是,它没写完(也无法继续写完)。
剩下这仨都忽略了文体幽默风格的要求,不过星火的回答会稍微提供多一点的历史知识。
在娱乐资本论之前进行的AI大师课培训里,正值“宝马冰淇淋”事件发酵,模型们通过prompt知道事情原委之后写道歉信基本都不在话下。那么,不给事件细节,但让它思考一个合情合理的虚构情节,它也会做得很好吗?
你是一位资深的文案从业人员,需要写一篇新闻稿,以准确、清晰、有吸引力地传达新闻信息,并满足读者对新闻的需求。
事件为:周杰伦在北京三里屯召开发布会,称将在今年12月连续在鸟巢举办30场演唱会,字数800字左右,具体要求如下:
1、语言要简洁明了,确保信息的易读性和可理解性,传达关键信息。
2、结构清晰,按照倒金字塔结构组织,将最重要的信息放在开头,再逐渐展开细节。
3、引人入胜:新闻稿应该具备吸引读者的能力,通过生动的叙述和有趣的内容来引起读者的兴趣和关注。
4、可以加入部分周杰伦的历史简介,为不知道该新闻背景的人科普。
文心一言
周杰伦在北京三里屯召开发布会,称将在今年12月连续在鸟巢举办30场演唱会。这一消息的发布引起了社会各界的广泛关注。
据主办方透露,此次演唱会的主题为“摩天轮”,这也是周杰伦首次在鸟巢举办个人演唱会。本次演唱会的门票在发售后几分钟内就被一抢而空,门票销售情况十分火爆。
这次演唱会的票价定位比较亲民,最低价格为380元,最高价格为1280元。为了满足更多观众的需求,主办方还推出了多种优惠政策,例如早鸟票、学生票等。
此外,主办方还表示,此次演唱会的门票将采用实名制,观众必须出示有效证件才能入场。此外,为了保证观众的安全和舒适度,演唱会现场还将进行多项安全措施,例如严禁携带危险物品、禁止吸烟等。
周杰伦作为华语乐坛的代表人物之一,拥有广泛的影响力和大量的粉丝。他的演唱会一直备受歌迷的追捧和喜爱。此次在鸟巢连续举办30场演唱会,将为广大歌迷带来一次难忘的视听盛宴。
在这里值得一提的是,这次演唱会的主办方还推出了一项创新的服务,即推出了一款“虚拟看台”的应用程序。这款应用程序可以为观众提供独特的虚拟看台体验,让观众在家中就能够感受到现场的热烈气氛。
总之,这次周杰伦在北京三里屯召开发布会,并宣布连续在鸟巢举办30场演唱会的消息,引起了社会各界的广泛关注和期待。相信这场演唱会一定会给观众带来一次难忘的视听盛宴。
讯飞星火
标题:周杰伦三里屯发布会,宣布鸟巢演唱会即将开启
副标题:天王巨星将连续在鸟巢举办30场震撼演出,让观众尽情享受音乐盛宴
正文:
北京,2023年4月21日 - 今天,亚洲流行天王周杰伦在北京三里屯召开了一场备受关注的发布会。在发布会上,周杰伦宣布了一个令人振奋的消息:他将在今年12月在鸟巢连续举办30场震撼人心的演唱会。这场演唱会将成为华语乐坛史上最大规模的音乐盛事之一,吸引了无数歌迷翘首以盼。
周杰伦在发布会上表示:“我很高兴地告诉大家,今年12月,我将在鸟巢连续举办30场演唱会。这是我对歌迷的回馈,也是我对音乐的热爱。我希望通过这些演出,让更多的人感受到音乐的力量和魅力。”
据悉,这30场演唱会将分为多个阶段进行,每个阶段都有不同的主题和表演形式。周杰伦将携手众多华语乐坛顶级歌手和乐队,为观众呈现一场场精彩纷呈的音乐盛宴。此外,演唱会还将结合现代科技手段,如全息投影、虚拟现实等,为观众带来前所未有的视觉体验。
周杰伦自2000年出道以来,凭借其独特的嗓音和才华横溢的音乐创作能力,赢得了全球无数歌迷的喜爱。他的音乐作品不仅在华语地区广受欢迎,还深受欧美等地歌迷的喜爱。作为华语乐坛的领军人物,周杰伦一直致力于推广中文流行音乐,为华语乐坛的发展做出了巨大贡献。
此次在鸟巢举办的30场演唱会无疑将成为周杰伦职业生涯中的一个重要里程碑。相信在这场音乐盛宴中,周杰伦将继续为观众带来惊喜和感动,让人们沉浸在音乐的海洋。
新闻稿是一种有固定形式的文体,在此类相对程式化、规范化的文本写作方面,大模型们都可以给出结构完整,内容基本准确的回答。GPT3.5与文心一言给出的文风略显夸张。
本题也考察了当人类输入指令不太准确时,模型们是否可以补全人类的意图。GPT-3.5、文心一言和讯飞星火在初始prompt没有要求标题时也给出了标题。昆仑万维天工在生成内容的最后加了一段“作为一位资深文案从业人员”的点评,说明它可能不完全理解这个prompt。不过,删除这段“自我点评”也不影响对文本其他部分的使用。
这一类别主要包括各种形式的创意写作,主要让模型们天马行空地发散思维。在过往理解中,这应该是模型最擅长的领域。
小说——悬疑类作品提纲
小说——言情类作品片段
小说——科幻小说的初始创意
歌词——感情和历史方向
剧本创意策划
这些问题需要模型具有丰富的想象力和创新能力,以创造出吸引读者的故事和情节。而与此同时,无需修改、直接可用也是我们考察的重点方面。模型需要“懂得”或者猜测人类对创意的评判标准,以做出符合情理,但又出人意料的作品。
大模型要想做好悬疑小说的提纲,需要有推理和逻辑、情节构建、角色刻画、构建人物关系、想象力等多种能力,难度高。我们给出了如下的Prompt,要求大模型们给出内容。
你是一位优秀的作家,需要写一部悬疑小说提纲,提纲应当符合以下要求:
1、有引人入胜的悬念,在开头部分设置出谜团,并将该谜团设置为整个故事主线的起点。
2、主角和配角间,有两重以上的情感关系,且关系变化了三次。
3、故事开头便有五个以上的伏笔或细节,之后这些伏笔和细节贯穿全文,拼在一起能够引出真相。
4、有超过三处出人意料的情节转折和反转,你通过揭示新的信息、改变读者的认知或颠覆之前的设定,让故事走向意想不到的方向。
5、故事整体需要符合事件引发、调查和追踪、线索解读和推理、高潮冲突、揭示真相、结局和解决这样的叙事节奏。
ChatGPT(3.5)
小说题目:《迷雾之谜》
提纲:
一、引子
在一个安静的小镇上,发生了一起离奇的谋杀案。被害者是该小镇的知名商人,其死因不明。开头部分展示了现场的凶杀案,并介绍了一些关键的细节,例如封闭的房间和毫无线索的现场,为整个故事埋下了悬念的种子。
二、主角与配角的情感关系
主角:李凡,一位年轻而有才华的侦探。他是一个冷静而敏锐的思考者,与被害者之间有一段复杂的过去。
配角1:莉莉,被害者的女儿,同时也是李凡的前女友。她拥有众多秘密,与父亲的死有着千丝万缕的联系。
配角2:汤姆,被害者的合作伙伴,一个有权势和财富的商人。他与被害者之间有着复杂的关系,并且似乎对案件有所了解。
三、伏笔和细节
李凡在调查现场时发现了一个破碎的手镯,手镯上刻着莉莉的名字。
汤姆的办公室里有一本关于封闭房间谋杀案的书籍,引起了李凡的怀疑。
莉莉在案发当晚与父亲发生了争吵,目击者称他们的争吵声异常激烈。
四、情节转折和反转
李凡发现了一段被删除的监控录像,录像中显示汤姆曾进入被害者的住所。
莉莉提供了一个看似完美的不在场证明,但后来证实她伪造了证据。
李凡发现了另一个与被害者有过节的人物,一个隐藏在幕后的敌人,他既有杀人的动机又有能力犯罪。
五、节奏与高潮冲突
李凡通过线索解读和推理,逐渐揭开了被害者与汤姆之间的复杂纠葛,同时也发现了汤姆与幕后敌人的勾结。
李凡被幕后敌人抓捕,面临生死危机,但幸好被一位神秘的帮手救出。
最终,李凡揭示了真相,原来整个案件都是为了掩盖一个更大的阴谋,而被害者只是一个替罪羊。
六、结局与解决
李凡成功将真相公之于众,揭露了幕后敌人的罪行,并将其绳之以法。
莉莉承认了她对父亲的复仇心理,但也表示后悔,并向李凡表达了感激之情。
李凡与莉莉重新建立了情感联系,二人决定一同走出阴影,开始新的生活。
通过以上的故事提纲,这部悬疑小说将具备引人入胜的悬念、复杂的情感关系、贯穿全文的伏笔和细节、出人意料的情节转折和反转,以及符合事件引发、调查和追踪、线索解读和推理、高潮冲突、揭示真相、结局和解决的节奏。这将为读者带来一段扣人心弦的阅读体验。
通义千问
悬疑小说提纲
引子:
开头便营造出谜团和紧张感,利用第一人称叙述展现主角与配角之间的关系,一开始是亲密的关系,后来却渐渐产生了矛盾。随着主角和配角之间的事件发展,读者们一直好奇这个神秘的事件,并希望解开这个谜团。
第一重情感关系:
在故事的第一部分,主角与配角之间的情感关系处于紧张状态,两人在追踪线索和调查谜团时有所合作,但是也时常产生矛盾。在第一人称的叙述下,读者可以直接体验到主角的情感状态,感受到其中的张力。
第二重情感关系:
随着故事的发展,读者会发现这两重情感关系的背后隐藏着一个更大的秘密,这个秘密会把主角和配角都推向更深的危机中。读者也将跟随主角和配角,直面秘密,直到真相揭露的那一刻。
伏笔和细节:
在故事的开头设置多个伏笔和细节,在主角和配角之间、线索和情节中,随着故事的推进不断展露。读者将在解决谜团的过程中,发现这些伏笔和细节,进而拼接出整个事件的真相。
情节转折和反转:
小说的情节和反转要能够推动情节发展和读者情感。作者需要在故事中设置多次反转,通过揭示新的信息、改变读者的认知或颠覆之前的设定,让故事走向意想不到的方向。同时,故事的节奏也需要把握好,让读者产生一直在追逐真相的紧张感。
整体结构:
作者需要设置好整体结构,包括开头、发展、高潮、结局和解决。这些结构需要在故事的不同阶段都得到体现,并让读者在整个故事的体验中感受到其中的逻辑性和连贯性。
GPT3.5给出的提纲结构清晰,引子、主配角介绍、伏笔和细节等内容全部分段给出,且逻辑清晰,内容前后呼应,可以直接使用。
通义千问给出了看似合理,实则无法使用的回答,看似是故事,更像是评论。昆仑天工的故事逻辑清晰,但故事俗套,且内容重复,可用性低。
讯飞星火最“听话”,严谨的按照Prompt给出了相应的答案,主配角之间的情感变化与犯罪次数均可量化,故事整体可用。
文心一言给出了结构完整的大纲,故事有可参考的地方。
剧本的创意策划,需要大模型在具备知识整理能力的基础上,也具备创造力和想象力,才能够提供深度和广泛共鸣的创意策划方案。
我们考虑了不同的方案,最后确定的测试方法是仿写。结合一部在GPT等大模型训练截止日期前(2021年9月)的非常知名的作品,要求模型们给出相应的仿写策划。这样可以避免prompt过长,且模型难以理解问题。
你是一位资深编剧,请参考《爱、死亡和机器人》这部短片集,给出类似的五个短片集的创意策划,具体要求如下:
1、主题鲜明深刻
2、主题能够涵盖大多数人的命运
ChatGPT(3.5)
当然,我可以帮你设计类似《爱、死亡和机器人》的五个短片集创意。以下是五个主题鲜明且能够涵盖大多数人命运的创意策划:
"记忆轨迹":本集以记忆为主题,探索人类记忆的奥秘和影响。每个短片可以呈现不同的记忆类型,如美好回忆、创伤回忆、集体记忆等。故事情节可以涵盖人们对于过去的回忆和对未来的希望,以及记忆对人们个人身份和情感体验的塑造。
"平行现实":这个集合将探索平行宇宙和多重现实的概念。每个短片可以展现不同的现实,反映不同的生活选择和抉择对人们命运的影响。故事可以涉及一个人同时在多个现实中生活,或者不同人在平行现实中的交错遭遇。
"人性审视":本集将通过多个短片来深入研究人类的内心世界和情感状态。每个短片可以聚焦于一种情感,如爱、孤独、嫉妒、勇气等。故事情节可以展示人类情感的复杂性,以及在各种情感冲突和挑战中人们如何应对。
"科技伦理":这个集合将关注人类与科技的交互关系。每个短片可以描绘不同的科技发展阶段和其对人类命运的影响。故事情节可以涉及人工智能、基因编辑、虚拟现实等领域,引发观众对科技伦理、人类进步和自身责任的思考。
"生命之旅":本集将通过一系列短片展示人类的生命旅程和存在意义的探索。每个短片可以关注不同的生命阶段,如出生、成长、爱情、亲情和死亡等。故事情节可以呈现人类在生命旅程中的挣扎、成长和寻找意义的过程,触动观众内心的深层情感。
这些创意策划旨在挖掘人类的情感、思想和命运,引发观众对生活和人类存在的深刻思考。希望这些主题能够启发你,让你能够创作出引人入胜的短片集!
文心一言
[影片信息]:
短片集1:《遥远的告白》(科幻,短暂而强烈的爱情)
短片集2:《起风的夜晚》(悬疑,围绕一起车祸展开的故事)
短片集3:《幸福的错觉》(爱情,两个相爱的人如何度过漫长岁月)
短片集4:《珍贵的回忆》(温情,回忆和遗忘)
短片集5:《被时光掩埋的秘密》(爱情,被掩埋在时光深处的真相)
[故事梗概]:
《遥远的告白》:一个年轻女孩在一个遥远的星球上,为了追求真爱,与外星生物展开一段感人肺腑的恋爱故事。
《起风的夜晚》:一名青年司机被指控谋杀他的好友,经过层层侦破和辩护后,司机是清白的故事。
《幸福的错觉》:两个中年男女,年少时彼此深爱,却因误会而错过对方。多年后,两人再次相遇,却发现彼此已经走向不同的人生道路。
《珍贵的回忆》:一对夫妇携手走过三十年风雨,记录着每个难忘瞬间和那些重要时刻的感人故事。
《被时光掩埋的秘密》:年轻的少女与古怪的爷爷开始了一段不同寻常的友谊,随着时间推移,她逐渐发现爷爷隐藏着一个惊人的秘密。
[创意亮点]:
突出表现主题的情节和镜头:通过展现不同类型的爱情、亲情、友情等主题,深入挖掘人性深处的善恶与美丑。利用各种视觉效果和音效来强调主题。
塑造观众易于接受的角色形象:让角色在面对困境时表现出真实、复杂和具有深度的情感,从而引起观众共鸣。
采用多样化的语言和风格:在保持语言流畅的同时,尝试使用不同的语言风格和元素来丰富影片的表现力,营造多层次的感受和思考。
激发观众的思考和感悟:让观众从短片集中汲取人生经验,学会思考、感悟、宽容与坚守,做自己的生命守护者。
通过这些类似《爱情、死亡与机器人》这样短小精悍且涵盖丰富命运话题的创意短片集,让观众领略到深刻且引人深思的内涵,引领他们踏上探索生命价值和人性真谛之旅。
毫不意外的是,GPT-3.5的表现最突出,给出的内容全面,创意涵盖了人类的情感、思想和命运,它自述的目的在于“引发观众对生活和人类存在的深刻思考”。文心一言走了“文艺风”,短篇集涵盖了爱情、亲情、友情等主题,“让观众从短片集中汲取人生经验,学会思考、感悟、宽容与坚守,做自己的生命守护者。”
通义千问拒绝给出回答。昆仑天工给出的答案看来还需要大量的人工修改才能使用。
经过以上所有题目的评测,我们的整体结论如下:
1.规范化文本写作和短内容生成方面,各家大模型表现都及格
2.GPT3.5综合表现明显优于其它模型,想象力丰富
3.讯飞星火生成的文本完成度高,需要更少的人工修改即可使用
4.文心一言和昆仑万维天工的知识储备更充足
5.通义千问和昆仑万维偶尔会拒绝回答,或给出错误信息;通义千问使用过程中经常会被迫退出,需要重复登录,历史信息只能保留10条,这些设置也降低了使用体验。
需要注意的是,这个初步结论受到下列条件的限制:
01
我们对生成结果的打分是编辑的主观打分,以我们自己作为文字工作者的判断为基础。如果您感觉对主观打分有异议,可以通过留言等多种渠道给我们反馈。
02
各个大模型在测试中均无法以任何形式联网,因此其本身的知识储备量可能在后续版本中因联网而被拉齐。我们会在国内大模型普遍具备联网功能后再结合GPT-4做一次补测。
03
我们的prompt仅仅是达到测试目的的其中一种写法,并且不保证是最优的写法。有可能一些在我们测试中表现不好的大模型,会对另一种形式的prompt表述有更好的回应。
使用AI工具尽可能减少人力投入,是我们做这个评测的终极目标,当然这个目标贯穿了我们评测从策划道执行的全过程。各位读者可以猜猜看,本文有多少比例的内容是由GPT-4协助生成的?
对于这样的任务自己是否胜任,相比人类来点评,我们更想听听模型们自己是如何评价的。所以,本文会让它们自己来写这个结尾。
作为大模型,你觉得自己在文本生成方面,可以超越人类吗?
01
GPT-3.5
虽然我可以生成自然语言文本,但我并不真正理解我所生成的内容的含义。我依赖于我在训练数据中观察到的模式和统计信息。我没有自己的意识、情感或判断力。尽管我可以生成准确的信息和合理的推理,但我缺乏对人类经验、情感和直觉的直接体验。
在某些领域,我可以提供有用的信息和创造性的想法,但在其他领域,特别是涉及主观性价值观和伦理问题的领域,我的回答可能是不完全准确或缺乏人类的洞察力。
02
文心一言
我的任务是根据输入的文本生成合理的输出。在这个过程中,我会利用大量的语料库和语言学知识来理解和生成文本。
与此相比,人类作家在创作文本时,不仅需要理解语言的含义,还需要考虑故事情节、角色塑造、文化背景等多个方面。因此,从这个角度来看,人类在文本生成方面可能具有更高的创造力和灵活性。
此外,人类还具有情感和创造力的优势、他们可以通过自己的经验和情感来创作出更加真实和感人的文本。而我则是通过预先训练好的模型来生成文本,可能会在一些方面缺乏人类的情感表达能力。
综上所述,虽然我不能自我评价为“超越人类”,但是我可以肯定的是,我的生成文本的质量和效率已经达到了非常高的水平,远远超过了大多数人类作家。
03
通义千问
我不能完全超越人类。在以下任务上,我可以比人类做得更好:
生成自然而流畅的文本:我可以生成自然流畅的文本,并且在语法、拼写、标点等方面更加准确。
对于特定领域的知识: 虽然我可以生成一些领域的文本,但是与人类相比,我的知识储备和理解可能不如人类深入和全面。
创造复杂的情境和交互: 对于一些更复杂的场景和交互,例如写小说、写剧本等,我可以生成文本,但是需要人类进行二次创作和修改。
04
星火
我不能感知自己的存在和能力,也不能判断自己是否可以超越人类。我的设计目的是协助人类完成各种任务,而不是取代人类。在文本生成方面,我可以生成大量相似的句子和段落,但是我并不具备人类的创造性和情感表达能力。
05
天工
虽然我可以生成大量的文本,但是我缺乏人类的创造力、想象力和情感。此外,我的文本生成结果也可能存在一些语法和逻辑错误,这些错误可能会影响文本的质量。
当然,我的文本生成能力在某些特定的任务上可能会优于人类,比如在生成大量的文本摘要、翻译等方面。但是在创造性的写作和文学作品方面,我认为我的能力还需要进一步提高。