国产大模型困境有解了？开放算料联盟成立围绕高质量中文数据开展合作

创业

2023

07/26

18:53

亚设网

面对中文语料数据不足的困境，国内多方主体决定抱团聚力。

7月25日，深圳数交所联合近50家单位成立“开放算料联盟” 。参与公司不仅有联通、电信两大运营商以及腾讯云，还有多家A股公司，包括云天励飞、奥比中光、优必选、华大基因、海天瑞声等。

其中，海天瑞声是数据资源服务商，云天励飞是视觉智能芯片研发商，华大基因是基因测序龙头之一。奥比中光、优必选为机器人产业相关公司，前者深耕机器视觉，后者是机器人制造商。

联合发起单位华傲数据董事长贾西贝认为，目前芯片行业已经被证实了要走“三分协作”的模式，即分段创新、分域竞争、分工协作，未来AI领域也将走向这样的模式。

据介绍，该联盟将围绕高质量中文训练数据和多模态训练数据，协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定，协助数据交易所增加大模型相关的新品类和新专区。

各成员将共同贡献、整理、倡导贡献自然语言、图像视频、语音音乐、程序代码、生物信息、合成数据等多模态训练数据，为解决人工智能和数字经济的数据荒问题，特别是解决多模态数据荒、中文数据荒、中国文化、中国价值观数据荒等问题提供强有力支撑。

▌数据是AI胜负手丰富中文数据库迫在眉睫

大模型、算力、数据是生成式人工智能发展的三大支柱。数据是关键生产要素和生产资料，也可以说是AI的算料。

马斯克在现身xAI团队首秀时就提及其重要性，在他看来，随着产品更好地理解问题，所需的算力将减少几个数量级，而“数据荒”更难解决，“在某个时候，AI训练会耗尽人类数据，最终人工智能将不得不自己生成数据。”

虽然现在未到人类数据用无可用的时刻，但数据资源高昂的费用往往让人工智能企业望而止步。消息称，由于Reddit、推特等公司的数据采集要价太高，微软、OpenAI和Cohere等公司，已使用合成数据来训练AI模型。

对于国内企业而言，更是存在有钱也买不到、买不合适的情况。原因无他，中文语料库中的内容依然匮乏。此前中国工程院院士高文在演讲中提到，全球通用的50亿大模型数据训练集里，中文语料的占比仅为1.3%。

正因为如此，解决数据瓶颈问题被提上日程的同时，丰富高质量中文训练数据迫在眉睫。

天风证券分析师缪欣君认为，AI三要素（算法、算力、数据）中数据是直接影响AI大模型在垂直行业落地效果的关键。垂类数据通常由政府和行业机构掌握，相比于模型和算力，数据稀缺性明显。

东吴证券分析师王紫敬也表示，数据是AI的胜负手。该分析师还点出了数据更深层次的含义——语言包含价值取向，未来想要不被强势文化压缩生存空间，中国必须发展自己的大模型。展望未来，算法和算力都可以通过挖掘优质人才、引进优秀工程实践，或者直接购买海外优质资产追赶，而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀。

从投资角度看，公共和垂直行业数据敏感性高，需要具备央国企背景的厂商参与。该机构看好以下三个环节：

1）数据运营：预计医保数据将有望成为公共数据放开的第一站，相关公司包括久远银海、山大地纬、中科江南等。

2）数据基础设施：有望成为最先放量兑现的环节。相关公司包括深桑达A、易华录、云赛智联、中国电信等。

3）数据安全：看好具备央国企背景和数据安全业务积累的相关厂商。相关公司包括启明星辰、奇安信、安恒信息、电科网安等。

THE END

合作国产开展成立数据

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表亚设网的观点和立场。