…
分类:Hadoop
Flume 入门
一: Flume是什么: 1. 有Cloudera公司开源 2. 分布式,可靠,高可用的海量日志采集系统; 3. 数据源可定制,可扩展; 4. 数据存储系统可定制,可扩展; 5. 中间件,屏蔽了数据源和数据存储之间的耦合…
Ubuntu搭建Hadoop
环境 服务器(虚拟机): vm-master 10.211.55.23 vm-slave1 10.211.55.25 vm-slave2 10.211.55.24 软件环境: Hadoop 2.7 JDK 1.8 Ubu…
大数据工具使用sqoop 1.99.7入门安装配置
科多大数据带你来看,大数据工具使用sqoop 1.99.7入门安装配置 1、Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Post…
Hadoop入门—基本原理简介
现在打算学习一些关于分布式,大数据,和hadoop的知识,创建一个笔记本,作为入门的笔记。 1. 安装hadoop http://www.jianshu.com/p/da650254762c 2. 配置hadoop(伪分…
Hadoop 基础搭建教程
1. 相关依赖与版本说明 JDK8 SSH Hadoop版本为2.8.5 官方建议为hadoop新建用户组与用户,方便后续权限控制。 个人学习可以忽略。 2. Hadoop服务安装 从官网下载压缩包,进行解压,根据需要配…
HBase入坑须知(一)
使用HBase时间也不短了,看到周围也有很多人逐步在应用HBase,于是打算总结一下HBase常见的坑,给新入坑的小伙伴的一些参考。 本篇为入门篇,以HBase的基础概念为主,后期可能会引入项目中的实际应用。 入坑前请细…
时序图解析Hadoop HDFS 文件读取访问流程(未完待续)
最近有一个优化HDFS读取访问的需求,需要根据访问者的位置计算得到最佳的datanode返回给client,工作中,搜索了各种文章和材料,但是几乎没有太深入的,对我这个初学者来说,信息量不大够,所以就自己动手深入的看…
0基础搭建Hadoop大数据处理-编程
Hadoop的编程可以是在Linux环境或Winows环境中,在此以Windows环境为示例,以Eclipse工具为主(也可以用IDEA)。网上也有很多开发的文章,在此也参考他们的内容只作简单的介绍和要点总结。 Hado…
JAVA API连接HA(High Available) Hadoop集群
使用JAVA API连接HDFS时我们需要使用NameNode的地址,开启HA后,两个NameNode可能会主备切换,如果连接的那台主机NameNode挂掉了,连接就会失败. HDFS提供了nameservices的方式…
hadoop wordcount的实现
目标:统计文件中指定字符串出现的次数,如计算f1.txt中“voidxin”出现了几次。 1、maper类如下: public class VXWordCountMapper extends Mapper<Long…
windos 安装jdk+hadoop +spark+pyspark
1.下载jdk1.8 jdk1.8地址 安装java环境变量 因为我的javajdk在本地 C:\Java\jdk1.8.0_151 故此: 看清楚是环境变量还是系统变量 path jav…