紫金财经8月31日消息 数据时代,数据比人类更了解人类,而信息数据又反过来影响我们人类,因为传播中的信息影响着人类对事物的认知和决策。大量的传播数据通过重新聚类关联,再经过一些分析方法,就可以得出很多未知或者已知而过去无法验证的结果。
比如,早在2008年的时候,Google推出一款预测流感的产品,他们认为,某些搜索词有助于了解流感的情况,而这些搜索数据可以近乎实地的对流感情况做出预测。
而这样的产品,正是应用了关键词之间的传播关联关系。其实除了搜索词,同样在网络中传播的信息也一样可以通过信息颗粒化,做更多的研判预测以及洞察到更多未知信息。
最近整理了一些科技网站上的新闻信息,通过技术切词和我们的研判模型做了个小实验。
实验要解决的问题是,究竟哪家公司更能成为人工智能的公司。在数据分析结果出来之前,以我个人浅薄的互联网认知,预感Google未来会是一家人工智能的公司。然而结果却出乎我的意料,甚至是与预料大相径庭,我们一起来看下这个实验过程:
【数据治理方法】
我们将整理的所有新闻信息中含有人工智能相关词的信息标注出“人工智能”标签,同时将每条信息中包含的科技公司主体提取出来。当然这中间要涉及外文词汇的翻译和整理,同时提取与专利、新品、机器人等相关的信息,做另一个结论分析用。最后几组数据交叉比对。可以得出很多结果。
【分析过程及结果】
1,提出问题,在众多的科技公司中,谁会成为人工智能的公司?将所有信息中含有人工智能标签的数据做提取并统计。
2,得出上述问题的结论需要两个条件,新闻报道中含有人工智能及这家公司。当然人工智能判定词与主体的距离也要计算,以便确保数据的精准。
3,开始数据可视化,我们将统计的数据结果,按照信息量做排序。则所有含有人工智能标签的信息中,人工智能判定词与主体词(科技公司主体)同时出现的数据做排序。
4,得出结果:我们按照这两组数据同时出现的信息量做主体量的排序。得出结论如下:
下表中,与含有人工智能同频出现最多的科技公司有:华为、微软、腾讯、苹果、小米、特斯拉、谷歌……这个结果跟我起初预判的结果还是相差很远。(图1 )
【可以延伸的问题】
用同样的方法,我们又做了与专利相关的信息数据排行,这个数据可以表明,谁是拥有专利最多,或者更在意专利,或者说与专利更有关系的科技公司。如图2所示,在专利相关信息中,最多的交叉信息是院校合作相关的信息,另外就是芯片(这里可以更深度的分析芯片与专利之间的细化数据,此处不做赘述)
而同时提及的科技主体有:苹果、华为、特斯拉、微软、腾讯、阿里、京东、小米、谷歌……
同理,所有提及机器人的信息中,则微软、华为、特斯拉、苹果、小米、腾讯、京东的信息数据会更多。
以上是我们的实验室团队前不久做的一个小课题,跟同行交流的时候提起,就想把研究方法跟大家分享一下,希望致力于此的同行朋友可以有所启发。
所有数据样本均为近一年来的新闻报道数据,数据总量大概几十万条,覆盖海内外科技媒体30多家。
鉴于数据样本本身不够还不够全面,以及翻译水平、数据颗粒细化算法的粗糙等问题,本文中的结论数据仅供参考。我们主要是想将研究方法与大家共享,为未来科技信息深度洞察提供一些参考。(公子段 胜泰信息合伙人,熵音科技传播数据实验室首席研究员)