0.环境搭建准备 实体机Win7 64位 SSH Secure Shell Client Centos 6.5 版本 Hadoop 2.6.0 版本(编译后64位) OpenJdk1.7.0 注:jdk的安装方法有三种,…
分类:MapReduce
2018年第25周-Hadoop的MR程序-天气数据分析
天气数据 通过ftp从ftp.ncdc.noaa.gov地址获取/pub/data/noaa/目录下的天气数据,我写了个ftp抓取程序去抓取,如1950的天气数据摘录如下: 01719999999399319500101…
Docker创建的集群下使用ansible部署hadoop
Docker创建的集群下使用ansible部署hadoop 基础环境 MBP, Palallels Desktop, Centos7 关键词 docker, ansible, hadoop 集群架构 集群包含4台“虚拟主…
美图离线ETL实践
美图收集的日志需要通过 ETL 程序清洗、规整,并持久化地落地于 HDFS / Hive,便于后续的统一分析处理。 什么是 ETL? ETL 即 Extract-Transform-Load,用来描述将数据从来源端经过抽…
关于分布式计算的一些概念
整理自《架构解密从分布式到微服务》第七章——聊聊分布式计算.做了相应补充和修改。 [TOC] 前言 不管是网络、内存、还是存储的分布式,它们最终目的都是为了实现计算的分布式:数据在各个计算机节点上流动,同时各个计算机节点…
2018年第24周-大数据的YARN
Hadoop可以说是一个大型的操作系统,HDFS就是其文件系统,那么YARN就是其计算系统。 YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管…
HBase 深入浅出
HBase 深入浅出 HBase 在大数据生态圈中的位置 提到大数据的存储,大多数人首先联想到的是 Hadoop 和 Hadoop 中的 HDFS 模块。大家熟知的 Spark、以及 Hadoop 的 MapReduce…
如何实现Comparable,Comparator接口,重写compareTo,compare方法 实现排序
实体类:java.lang.Comparable(接口) + comareTo(重写方法),业务排序类 java.util.Comparator(接口) + compare(重写方法). 这两个接口我们非常的熟悉,但是 …
Spark入门
Spark入门 前言 本人并未从事Spark相关的工作,但由于项目需要使用了Spark将算法实现并行化,所以本篇博客更多的是一些简单、直白的Spark用法与优化。适合看本篇博客的人应该是与我一样由于课题需要临时使用Spa…
2.Hadoop HDFS 安装配置
1.将hadoop包解压放到/opt/hadoop下 2.配置 2.1.进入hadoop目录2.2.编辑hadoop.env.sh文件 配置jdk环境变量 #vi etc/hadoop/hadoop-env.sh 内容修…
Hive Driver源码执行流程分析
引言 接着上一篇来说执行入口的分析,CliDriver最终将用户指令command提交给了Driver的run方法(针对常用查询语句而言),在这里用户的command将会被编译,优化并生成MapReduce任务进行执行。…
记录使用nutch执行inject的时候遇到的第一个坑 java.lang.NullPointerException
$ ./nutch inject urls InjectorJob: starting at 2016-11-08 11:20:12 InjectorJob: Injecting urlDir: urls Injecto…