北京时间 3 月 10 日消息,百度公司计划在 3 月 16 日举行发布会,公布自己的 ChatGPT 竞品:“文心一言”。然而,百度员工透露,他们正在加紧赶在最后期限前推出这款聊天机器人,但它的一些基本功能仍难以实现。
知情人士透露,为了开发人工智能聊天机器人“文心一言”,百度有数百人在夜以继日地工作。而且,百度还从其他团队抽调员工,借用性能强大的计算机芯片。
一些知情人士称,在“文心一言”预定发布时间之前,作为聊天机器人基础的人工智能模型仍在接受数据训练。一些员工表示,他们没有足够的时间来开发一款功能良好的产品。“文心一言”的发布被视为中国科技行业备受期待的一件事。
百度计划分阶段推出这款产品,首先向有限的用户开放公开测试。百度在上个月,公司将首先将“文心一言”整合到其搜索引擎中,并将于 3 月向公众开放。
这种匆忙反映出百度正在展开一场有目的的赌博,目的是领先最近宣布类似计划的中国竞争对手。百度称,已与 400 多家中国公司签署协议,这些公司将能够在其产品和服务中使用“文心一言”。百度表示,作为回报,聊天机器人将获得在不同场景下运行的经验,以帮助提高其性能。
百度近年来已失去了投资者的青睐,“文心一言”的成功发布可能会帮助它重新回到中国最优秀的科技公司行列。但是,失败可能会导致它遭受与谷歌类似的命运。直到最近,谷歌一直坚持对人工智能采取相对谨慎的态度,并在其人工智能聊天机器人演示中出现了事实错误,导致市值损失了 1000 亿美元。
多年来,百度已在开发大型语言模型方面投入了大量资金。大型语言模型是 ChatGPT 的基础,也是它将谷歌和 ChatGPT 英文版适配成中文。百度在 2019 年发布了第一个语言模型,取名为“文心”。此前,谷歌将其模型命名为“BERT”,两者都引用了动画片《芝麻街》中的人物。
去年 12 月底,随着 ChatGPT 的热度越来越高,百度 CEO 李彦宏向员工介绍了他们在聊天机器人领域的新进展。“我们有这么酷的技术,但我们能把它变成每个人都需要的产品吗?”,他表示,“这实际上是最艰难的一步,但也是最伟大、最有影响力的一步。”
知情人士透露,今年 1 月初,百度高管告诉其自然语言处理团队,开始利用“文心”语言模型打造一款类似 ChatGPT 的产品。但是,该项目面临挑战,其中许多挑战已经被其他致力于类似 ChatGPT 技术的人工智能开发人员所分享。
百度面临的一个挑战是让模型对用户的请求做出更精确的响应,方法则是教它消除具有多种含义的短语或可以指代多人的名称之间的歧义;另一个挑战是让聊天机器人生成更像人类的语言;第三个挑战是提高其事实准确性,这是大型语言模型存在的技术限制。大型语言模型是根据不同单词出现在一起的概率而不是根据信息片段来组合句子的,这种限制也使得这些模型难以控制。知情人士称,百度已聘请承包商帮助评估和改进聊天机器人的回答。
知情人士说,每一步都需要时间。人工智能研究人员表示,正确训练这样一个拥有数千颗芯片的模型可能需要几周或几个月的时间。本周,百度工程师和产品经理们都在忙着改进“文心一言”的基本功能,比如它对用户请求的响应速度,以及它概述搜索结果的方式。
百度开发团队一直在不停地工作,包括在 1 月底为期一周的农历新年假期。知情人士称,该项目目前已从创建一个能够用中文和英语对话的双语聊天机器人,缩减为一个主要关注中文的聊天机器人。
知情人士称,“文心一言”的研发工作一直由百度首席技术官王海峰负责,主要由百度的技术开发部门实施,该部门包括自然语言处理团队和移动生态系统业务集团。一些知情人士透露,百度人工智能云部门正在提供云计算支持。
为了加快开发进程,百度高管们整合了更多公司资源。知情人士说,春节假期结束后,李彦宏要求包括自动驾驶部门在内的全公司人工智能研究团队,将他们最强大的计算机芯片 —— 英伟达的 A100—— 借给“文心一言”的开发团队。美国去年年底实施的芯片制裁阻止了中国公司购买新的 A100 芯片。
百度还抽调员工来帮忙,特别是清理训练数据,比如过滤掉低质量的内容。另外,百度还聘请了外部团队进行数据清理。
知情人士说,时间紧迫让一些员工对“文心一言”能否达到用户或市场预期感到不安。一些员工表示,出于这些担忧,他们已经在发布前卖出了一些公司股票。