原始数据迎来指数级大爆炸

    《成为数据分析师：6步练就数据思维》章节:原始数据迎来指数级大爆炸,宠文网网友提供全文无弹窗免费在线阅读。!

如果你不能像开普勒或者Recorded  Future公司那样幸运地继承如此重要的二手数据或与你要解决的问题直接相关的数据，那么研究人员就必须测量变量，即收集原始数据。测量的类型有许多种：一个包含设计与执行访问或问卷的调查；涉及某人进行观察的直接或者不显眼的观察技巧；能用于解决特定问题的精心设计并受控的疯狂科学家实验。在研究中使用哪种方法，取决于识别的问题和选择的变量这两者的特征。

结构化和非结构化数据。几个世纪以来，几乎所有的定量分析师都是在结构化数据上进行分析，也就是说，数据呈现为能被轻松地置于行列内的数值形式。无论分析是以一张电子表、一个强有力的统计软件，还是手持式计算器的形式完成，行和列（行通常代表情况或者观测，而每个变量被展示在列中）是数据被结构化的方式。你必须弄清楚的问题是可以获得多大的数字以及必须展示多少位小数点。

在20世纪的最后几年，随着文本分析的出现，情况开始变得不同。正如我们在马克·吐温的信件这个案例中所描述的一样，研究人员开始同时在文本中寻找数字和模式。一个典型的问题就是特定的词语出现的频率是多少。文本是一个非结构化数据的例子，因为它通常是连续的，所以很难被放入齐整的行和列中。

然而，2000年后，非结构化数据才真正开始在数量上和种类上实现爆炸式增长。这一年是互联网开始流行的一年，这为像Recorded  Future这样的企业带来了用于分析的巨量的文本、图片和点击率数据。远程通信和社交媒体催生了大量的面向社交网络的数据。与此同时，企业想要分析的音频和视频的数据量同样经历了几何式的增长。基因革命则引发了基因和蛋白质组学数据的大量增长。

在大数据时代，企业通常会处理多拍字节（1  000兆兆字节，或者1015字节——也就是1  000  000  000  000  000个信息片段）的数据。例如，eBay有一个由超过40PB的数据组成的数据仓库。你每一次点击，就会为这个总数的增长贡献一份力量。

在初始阶段，非结构化数据的分析常常与结构化数据的分析大不相同。许多情况下，在我们能够对数据进行统计前，我们必须做大量的数据过滤、分类以及其他的准备工作。数据科学家是一个不但能分析数据，而且能把数据调整到可以进行分析的专家。许多处理大数据的企业都已经用像Hadoop和MapReduce这样的工具过滤和分类数据，以便能对这些数据进行定量分析。在能被使用定量分析法进行分析之前，视频和声音数据也需要进行大量的准备工作。在很多情况下，在完成这个准备工作之后，企业将使用传统的统计软件来分析数据。正如天睿资讯（Teradata）的比尔·弗兰克斯（Bill  Franks）在发表的一篇关于国际数据分析研究所（International  Institute  for  Analytics）的博文中所指出的：

当如此众多的大数据资源被非结构化之后不久，非结构化数据已经成了非常流行的话题。然而，一个重要的差别正日渐被忽视了：事实上，没有分析师直接分析非结构化数据。非结构化数据可能会被放入一个分析过程，但是当它被用于任何实际分析时，非机构化数据本身却没有得到使用。“这怎么可能？”你一定会问。那么，让我来解释一下。

让我们从指纹匹配的案例开始。如果你看过类似CSI破案的案例，那么你会看到警察一直在进行指纹匹配。指纹图像是完全非结构化的，并且如果是高质量图像的话，那么它的尺寸会相当大。所以，电视上或现实生活中的警察进行指纹匹配时，他们并不是采用真实的图像来进行匹配的。他们所做的第一步是识别每个指纹上的一系列重要的点。然后，基于这些点创建一张映射图或一个多边形。因此，警察真正用于匹配的是基于指纹创建的映射图或多边形。更重要的是，映射图或多边形实际上是被充分结构化的，而且尺寸很小，即便原始指纹并非如此。当非结构化指纹被输入流程中，进行指纹匹配的实际分析使用的就不是非结构化图像，而是从它们中提取出来的结构化信息。

每一个人都会认可的案例是文本分析。我们不妨考虑一下当下非常流行的社交媒体情绪分析方法。人们发表在Twitter上的推文、Facebook上的帖子和其他社交网站上的评论是直接被分析以判断人们的情绪吗？事实并非如此。这些文本首先会被解析成词语或词组。然后，这些词语或词组被标记为“好”或“坏”。举一个简单的例子，一个“好”词语可以获得1分，一个“坏”词语可以获得–1分，一个“中性”词语可以获得0分。帖子中表现出的使用者的情绪由单个词语或词组的得分的总和来决定。因此，情绪得分本身就是从充分结构化的数据中创建的，而充分结构化的数据来源于最初的非结构化数据。在情绪中进行更进一步的趋势或模式分析是充分基于对文本的结构化和数值求和，而非文本本身。

与上面提到的弗兰克斯的案例相似，许多大数据应用最初关注的是非结构化数据，但是当非结构化数据被如Hadoop和MapReduce这样的工具处理后，它们就能够被当作结构化数据，并使用标准的视觉分析或统计软件来进行分析。