分类：MapReduce

Hadoop2.6.0 HDFS HA+YARN 部署

0.环境搭建准备实体机Win7 64位 SSH Secure Shell Client Centos 6.5 版本 Hadoop 2.6.0 版本（编译后64位） OpenJdk1.7.0 注：jdk的安装方法有三种，…

天气数据通过ftp从ftp.ncdc.noaa.gov地址获取/pub/data/noaa/目录下的天气数据，我写了个ftp抓取程序去抓取，如1950的天气数据摘录如下： 01719999999399319500101…

Docker创建的集群下使用ansible部署hadoop 基础环境 MBP, Palallels Desktop, Centos7 关键词 docker, ansible, hadoop 集群架构集群包含4台“虚拟主…

美图收集的日志需要通过 ETL 程序清洗、规整，并持久化地落地于 HDFS / Hive，便于后续的统一分析处理。什么是 ETL？ ETL 即 Extract-Transform-Load，用来描述将数据从来源端经过抽…

整理自《架构解密从分布式到微服务》第七章——聊聊分布式计算.做了相应补充和修改。 [TOC] 前言不管是网络、内存、还是存储的分布式，它们最终目的都是为了实现计算的分布式：数据在各个计算机节点上流动，同时各个计算机节点…

Hadoop可以说是一个大型的操作系统，HDFS就是其文件系统，那么YARN就是其计算系统。 YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管…

HBase 深入浅出 HBase 在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是 Hadoop 和 Hadoop 中的 HDFS 模块。大家熟知的 Spark、以及 Hadoop 的 MapReduce…

实体类:java.lang.Comparable(接口) + comareTo(重写方法)，业务排序类 java.util.Comparator(接口) + compare(重写方法). 这两个接口我们非常的熟悉，但是 …

Spark入门前言本人并未从事Spark相关的工作，但由于项目需要使用了Spark将算法实现并行化，所以本篇博客更多的是一些简单、直白的Spark用法与优化。适合看本篇博客的人应该是与我一样由于课题需要临时使用Spa…

1.将hadoop包解压放到/opt/hadoop下 2.配置 2.1.进入hadoop目录2.2.编辑hadoop.env.sh文件配置jdk环境变量 #vi etc/hadoop/hadoop-env.sh 内容修…

引言接着上一篇来说执行入口的分析，CliDriver最终将用户指令command提交给了Driver的run方法（针对常用查询语句而言），在这里用户的command将会被编译，优化并生成MapReduce任务进行执行。…

$ ./nutch inject urls InjectorJob: starting at 2016-11-08 11:20:12 InjectorJob: Injecting urlDir: urls Injecto…