大数据工具Hadoop快速入门1大数据简介

简介

为了理解“大数据”,我们首先需要知道’数据’是什么。 牛津词典将“数据”定义为:

The quantities, characters, or symbols on which operations are performed by a computer, which may be stored and transmitted in the form of electrical signals and recorded on magnetic, optical, or mechanical recording media.

“大数据”也是数据,但规模巨大 。 “大数据”用于描述数据集合,这些数据规模巨大,但随着时间呈指数级增长。简而言之,数据是如此庞大和复杂,以至于传统的数据管理工具都无法存储它或有效地处理它。

《大数据工具Hadoop快速入门1大数据简介》 图片.png

实例

纽约证券交易所每天产生大约1TB的新交易数据。

《大数据工具Hadoop快速入门1大数据简介》 图片.png

每天有500多TB的新数据新增到社交媒体网站Facebook的数据库中。 这些数据主要照片和视频,消息,评论等。

《大数据工具Hadoop快速入门1大数据简介》 图片.png

单架喷气式飞机可在30分钟的飞行时间生成10 + TB的数据。 每天有数千个航班,数据生成量可达数PB** 。

参考资料

大数据分类

  • 结构化的

任何可以固定格式存储,访问和处理的数据都被称为“结构化”数据。 在过去的一段时间里,计算机科学方面的人才在开发处理这类数据的技术方面取得了更大的成功并且也从中获得了价值。

员工ID员工姓名性别部门Salary_In_lacs
2365Rajesh Kulkarni金融650000
3398Pratibha Joshi管理员650000
7465Shushil Roy管理员500000
7500Shubhojit Das金融500000
7699Priya Sane金融550000
  • 非结构化

任何具有未知形式或结构的数据都被归类为非结构化数据。典型示例是包含简单文本文件,图像,视频等组合的异构数据源。

非结构化数据的示例

“Google搜索”返回的输出

《大数据工具Hadoop快速入门1大数据简介》 图片.png

半结构化

半结构化数据包含两种形式的数据。 我们可以看到半结构化数据在形式上受限制的,但实际上并没有用例如关系型DBMS中的表定义来定义。 半结构化数据的示例是以XML文件表示的数据。

半结构化数据的例子

存储在XML文件中的个人数据 –

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

《大数据工具Hadoop快速入门1大数据简介》 图片.png

请注意,非结构化的Web应用程序数据由日志文件,事务历史记录文件等组成.OLTP系统用于处理结构化数据,其中数据存储在关系(表)中。

大数据的特征

(i)体积 – “大数据”这个名称本身与巨大的规模有关。 数据大小在确定数据价值方面起着非常关键的作用。

(ii)多样性 – “大数据”的下一个方面是它的多样性

多样性是指异构来源和数据的本质,包括结构化和非结构化。 在早期,电子表格和数据库是大多数应用程序考虑的唯一数据源。 现在,在分析应用程序中也考虑了电子邮件,照片,视频,监控设备,PDF,音频等形式的数据。 这种各种非结构化数据对存储,挖掘和分析数据提出了一些问题。

(iii)速度 –术语“速度”是指数据生成的速度。 生成和处理数据以满足需求的速度有多快,这决定了数据的真正潜力。

大数据速度处理数据从业务流程,应用程序日志,网络和社交媒体站点,传感器, 移动设备等来源。数据流量巨大且持续。

(iv)可变性 –这是指有时可能由数据显示的不一致性,从而妨碍了能够有效处理和管理数据的过程。

大数据处理的好处

•做出决策时利用外部情报

从搜索引擎和Facebook,Twitter等网站访问社交数据使组织能够微调其业务战略。

•改善客户服务

传统的客户反馈系统正在被采用“大数据”技术设计的新系统所取代。 在这些新系统中,大数据和自然语言处理技术正被用于阅读和评估消费者的反应。

•及早识别产品/服务的风险(如果有)

•更高的运营效率

在确定应将哪些数据移动到数据仓库之前,“大数据”技术可用于为新数据创建区域。 此外,“大数据”技术和数据仓库的这种集成有助于组织卸载不常访问的数据。

    原文作者:python人工智能命理
    原文地址: https://www.jianshu.com/p/cc024031dfc3
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞