MongoDB读书笔记-大数据

大数据

大数据是用于描述海量的,具有各种结构并且高速生成的数据的一个术语.这类数据对用于存储和处理数据传统RDBMS(即关系数据库管理系统)提出了挑战.大数据为处理和存储数据的新途径铺平了道路.
在本章节中,我们将探讨大数据基础、来源以及挑战,将介绍大数据的三个V—数量(volume)、速率(velocity)和多样性(variety).

入门指南

供应给大众使用的互联网和电子设备,其数量每天都在增长.尤其是,智能手机、社交网络站点以及像平板电脑和传感器这样的其他数据生成设备都在导致数据爆炸性增长.
智能手机、社交网络站点以及其他媒体都在创造数据洪流以便这些公司能够处理和存储.当数据的大小对典型软件工具捕获、处理、存储和管理数据的能力提出挑战时,我们就面临大数据的处理.

大数据

大数据是具有高容量的、高速生成的并且具有多种样式的数据.
IDC的分析表明,一年中所产生的数字数据量要比整个世界用于存储它的总体容量还大,这意味着没有办法存储所产生的所有数据.
大数据的商业和经济潜力以及其广阔的影响是很重要的问题,商业领袖和政策制定者必须应对该问题.

大数据的大小因行业而异

有些行业展现出了远高于其他行业的数据强度水平;在这里,数据强度指的是该行业中跨公司/企业所累积的数据的平均量,这表明这些公司/企业拥有更多的从大数据中获得价值的潜力.
金融服务行业,其中包括银行、投资以及安全服务,都是高度交易导向的;根据法规,它们也被要求存储数据.
通信和媒体公司、公用事业以及政府,这些领域中的每家企业或组织同样存储了大量的数字数据.
离散型和流程式制造业具有以字节方式存储的最高水平的聚合数据,不过,这些行业在强度排名要远低得多.

大数据的类型因行业而异

数据存储的类型也会因行业而异.例如,
零售业和批发业、政府的行政管理部门以及金融服务都会产生大量的文本和数值数据,其中包括客户数据、交易信息以及数学建模和模拟.
制造、医疗卫生、媒体和通信这样的行业都要负责处理和存储较高比例的多媒体数据.
在大数据的地理性传播方面,目前北美和欧洲占据了全球总量的70%.幸亏有云计算,一个地区产生的数据才能被存储到另一个国家的数据中心.因此拥有大量云和主机服务提供商产品的国家往往具有大量的数据存储.

大数据源

正如MGI报告中所强调的,这些数据的主要来源是:

  1. 企业,如今它们正在收集更多粒度的数据,其中包含每笔交易的更多详细信息,,以便理解消费者的行为.

  2. 跨行多媒体使用的增长,例如医疗卫生、商品量产公司等.

  3. 日益流行的社交媒体站点,例如facebook、Twitter等.

  4. 智能手机的迅速普及,它们使得用户积极地使用社交媒体站点以及其他互联网应用.

  5. 日常生活中传感器和设备使用的增加,网络将它们与计算机资源连接在一起.

数据的增长速度正在提高,并且其多样性也是如此.另外,数据产生的模型已经从一种模式(一些公司产生数据,而其他公司消费这些数据)转变为另一种模式(每个人都产生数据,而每个人也都消费这些数据).这是由于消费者信息技术和互联网技术伴随着像社交媒体这样的潮流而渗透到人们的生活中所造成的.

大数据的三个V

我们已经用三个V定义了大数据:数量、速率以及多样性.”大”并不仅仅指数量

数量

大数据中的数量意味着数据的大小.正如上述所讨论过的,各种因素都会导致数据大小的增加.
这样大量的数据对于大数据技术来说是最大的挑战.用及时有效且低成本的方式来存储、处理和访问数据,其所需的存储和处理能力是巨大的.

多样性

从各种设备和来源产生的数据并不遵循固定的格式或结构.如今无法对数据的结构进行控制.新的数据来源和结构正在被飞速创建.因此技术上的责任在于找到一个解决方案来分析和可视化所存在的大量各式各样的数据.

速率

大数据中的速率是指数据被创造的速度以及处理这些数据所需要的速度.如果无法按照所需的速度处理数据,它就失去了其意义.在处理数据的速率方面,能够足够快速地做出反应并且进行处理是大数据技术的另一个挑战.
在讨论大数据时都会谈及第4个V.这第4个V就是真实性(veracity),它意味着并非所有的数据都是重要的,因此识别出哪些数据能够提供有意义的见解,哪些应该被忽略是至关重要的.

传统系统和大数据

大数据的结构

传统系统旨在处理结构化的数据,其中带有列的表都是定义好的.保存在列中的数据格式也是预先就知道的.
由于大数据可以是非结构化的,因此被创建以执行快速查询和分析的传统系统就无法被用于保存或处理大数据.

数据存储

传统系统使用了大型服务器以及NAS和SAN系统来存储数据.随着数据的增长,就必须增加服务器的大小以及后端存储大小.
传统的旧式系统通常运行于可纵向拓展的模型中,需要为一台服务器添加越来越多的计算资源、内存和存储来满足日益增长的数据需求.

数据处理

传统系统中的算法旨在处理结构化数据,比如字符串和整数.它们也受到数据大小的限制.
因此传统系统无法应对非结构化数据和大量此类数据的处理,以及需要执行的处理所需达到的速度.

大数据技术

以下是让组织能够最大限度地利用其大数据的最新技术进步:

  1. 特别为大型非结构化数据设计的新的存储和处理技术

  2. 并行处理

  3. 群集

  4. 大型网格环境

  5. 高连通性和高吞吐量

  6. 云计算和横向拓展结构

    原文作者:唐僧洗头爱飘柔
    原文地址: https://segmentfault.com/a/1190000010234370
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞