企业一手数据是什么?
我们一般将数据按其生命周期分为三类,即原始数据(primary data)、处理后的数据(manipulated data)和统计数据(statistical data). 不同行业对这三类数据的划分可能不一样,例如金融行业的信贷领域可能会把数据分为交易数据(trading data)、财务和数据(finance and accounting data)以及交易后数据和风险数据等;交通行业可能会把地理信息纳入到基础数据中作为一类进行区分等等。我们这里讨论的数据是一般意义上的大数据,因此未考虑因行业特点而形成的细分。 从定义上看,直接来源于测量或事务处理系统的第一手资料,且未经任何加工处理的最初形式的数据是原始数据。在大数据时代,原始数据通常以电子表格、数据库或者互联网网页的形式存在。尽管这些数据是以数字化方式存在,我们仍然将其称之为“数据”而不是“信息”,是因为这些信息尚未经过提炼和深化,不具备知识的表现形式。
从定义可以看出,原始数据只要通过一定手段处理后都可以转化为可用作决策支持的知识。但是,如果未经任何处理就把这些原始数据抛给决策者,就像在没有导航的情况下行驶在高速公路上一样,是不负责任且不可行的。
除了需要具备正确处理海量数据的技术能力之外,对于大数据的分析还应该着重关注以下几个方面: (1)细化的统计分析。传统统计多关注于总体参数估计和数据概括性描述,而在大数据分析中,常常需要针对特定问题寻找特定的解答。需要进一步细化统计分析的能力来应对这类问题的解决。
(2)探索性数据分析。在很多情况下,我们所面临的问题是没有先例可以借鉴的。在这种情况下,需要我们运用探索性数据分析的方法找到问题的本质特征和内在规律。
(3)机器学习与模式识别。很多时候,我们遇到的问题并没有现成正确的答案,而是需要构建一个模型并不断训练它才能得到一个有预测价值的方案。这个时候就需要人工智能中的机器学习和模式识别的相关方法来解决这类问题。