随着硬件水平的不断提高,需要处理数据的大小也越来越大。大家都知道,现在大数据有多火爆,都认为21世纪是大数据的世纪。当然我也想打上时代的便车。所以今天来学习一下大数据存储和处理。 随着数据的不断变大,数据的处理就出现了瓶…
分类:Hadoop
hadoop单机,伪分布搭建运行总结
1. hadoop的搭建 hadoop的搭建可参考文章 http://www.powerxing.com/install-hadoop/,文章比较完整且详细的介绍了单机和伪分布的搭建。 2. mapreduce的学习 m…
Hadoop--HDFS 搭建
1. 环境 1.0 准备 配置详情如下: 主机名 IP 安装组件 ceph-1 192.168.16.4 master(NameNode, SecondaryNameNode) & slave(DataNode)…
hadoop伪分布式安装
在虚拟机已安装ubuntu,由于系统的更新源存在问题需要进行更改。 (1)更新更新源 sudo gedit /etc/apt/sources.list,打开sources.list,跟换为如下源: deb https:/…
HDFS简介
HDFS是传统的Master-Slave架构:一个集群由一个Master节点和若干个Slave节点组成。在HDFS中,Master节点称为Namenode,Slave节点称为Datanode。下面我们详细说明。 Bloc…
大数据入门与实战-Hadoop核心HDFS
课程链接:https://www.imooc.com/video/16287 Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充…
HDFS 1. 读写流程剖析
HDFS读写流程剖析 本文为 《Hadoop The Definitive Guide 4th Edition》的读书笔记(或者叫翻译),仅限交流使用, 转载请注明出处。 剖析读流程 下面这个图片 3-2 总结性的描述了…
Hadoop 源码学习笔记(3)--Hdfs的RPC通信框架
前言 单个 Hdfs 集群中可能存在成百上千个 DataNode ,但默认情况下 NameNode 只有一个 , 各个节点不断的进行内部通信,如果不能快速的处理掉通信消息,可能会导致掉节点,或者数据传输缓慢等问题。因此H…
漫谈并发编程:用MPI进行分布式内存编程(入门篇)
0x00 前言 本篇是MPI的入门教程,主要是为了简单地了解MPI的设计和基本用法,方便和现在的Hadoop、Spark做对比,并尝试理解它们之间在设计上有什么区别。 身处Hadoop、Spark这些优秀的分布式开发框架…
Hadoop入门学习之(四)windows下缺少windutils.exe和hadoop.dll的解决方法
1、到githup找到相应版本的文件,如本文使用的是2.8.1 下载winutils:https://github.com/steveloughran/winutils 2、解压下载的文件,放到$HADOOP_HOME\…
Hadoop大数据入门到实战(第四节) - HDFS文件系统(使用)
这一小节我们来学习:1.HDFS的设计,2.HDFS常用命令。 HDFS的设计 分布式文件系统 客户:帮我保存一下这几天的数据。 程序猿:好嘞,有多大呢? 客户:1T。 程序猿:好没问题,买个硬盘就搞定了。 一个月后…
Windows中安装hadoop2.7.3
最近频繁写MapReduce,测试代码需要打jar包上传到服务器上在进行测试,每次调试的时候很是费时费力,故写下该篇文章,对初学hadoop的人来说应该还有用 需要的物件 1.win7系统 2.Hadoop2.7.3对应…