张能斌总经理(数据挖掘就是从数据中发现知识的过程)
传统企业亟待借力“大数据”转型升级
什么是数据?
数据的是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材,而张能斌总经理认为数据是可定量分析的记录。几百年前,从地理开始记录星象才有了开普勒三大定律、牛顿万有引力,那时我们就有很多数据。一两百年前豌豆的杂交记录实际上就是生物学的数据记录。所以数据很早,远远早于计算机之前。现在我们放在计算机时代,可以通过数据挖掘的方法获得一些知识,其中一部分知识又能够转化成价值。
张总经理不太认同因为IBM提出4V:Volume(大量)+Velocity(高速)+Variety(多样)+Value(低价值密度)。”我们现在几乎所有的互联网数据,包括未来、包括车联网,很多数据都会通过传感器、互联网分析被记录下来。现在全球存储的数据总量16ZB,再过8年,这个数据量会翻十倍,到达163ZB,这是第一个大的趋势,数据总量的爆炸性增长,它让我们普通人很难在十多亿淘宝单品、数万亿网页做出选择,这就是信息过载(Information overload,可获取数据的爆炸增长和普通人分辨甄别数据之间的矛盾。
以前绝大部分数据都是表格里的数据:我们用一些简单的商务智能的方法就能进行统计分析,比如回归分析、决策树、支持向量机,贝叶斯分析、神经网络等等,都可以得到各个项与最终结果之间的关联。但是现在绝大部分数据,去年新增数据的89%都是非结构化的数据,它主要包括文本、图像、视频、语音、社交网络等等,这里面有大量重要有价值的数据,但是难以用一些简单的方法去挖掘,所以这是第二个大趋势,怎么样去分析非结构化数据,并且在某些特定情况把它变成结构化数据
数据的组织形态发生了变化:以前绝大部分数据我们认为它都是一个一个孤立的项,比如说淘宝知道我买了什么东西,新浪微博知道我有什么朋友,线下的医院知道我们得了什么病,公安知道我们犯了什么罪,但我们不知道这其中的关联,买了这个东西的人得了什么病、犯了什么罪。现在我们可以逐步的通过一些商业方式、政策打通在很多个局委办和数据集中同一个人、同一家企业、同一个终端在不同地方的数据,所以这属于第三个大变化。