现在有很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书?今天做了一些整理作为参考,希望可以帮助到那些对大数据感兴趣的同学。 1. 大数据工程师 在互联网公司广泛招聘,偏平台业…
分类:Hadoop
Hadoop 系列(二)—— 集群资源管理器 YARN
一、hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,…
Hadoop集群安装部署详解
本文主要介绍Hadoop的一些基本信息及完全分布式安装,每一步都是笔者亲自操作所记录下来的,现分享出来希望能帮助到正准备研究Hadoop的朋友 Hadoop介绍 Hadoop由HDFS、MapReduce、Hbase、H…
通过Docker快速搭建Hadoop测试环境
搭过Hadoop的人都知道,Hadoop的搭建过程非常的繁琐,需要配置大量的环境,修改大量的配置文件,因此搭建一个可用的测试环境非常浪费时间。好在Docker的出现,就是帮助我们解决这类问题,有了Docker我们可以快速…
Kettle 7.1 链接Hadoop集群配置
背景 公司想把已有的老数据,放入数据仓库,进行数据分析,需要对数据进行抽取,转换处理,正好接触到了Kettle(ETL),正好记录一下Hadoop如何配置。 Kettle下载地址: 社区版下载地址 下拉到download…
【Hadoop】基于QJM的HDFS高可用系列二 - 部署
官方文档翻译,官方链接。 翻译水平有限,且以学习为主,请谅解和提意见。 转载请注明出处!!! 接着上一篇发布的文章继续翻译。这次从部署章节开始。 部署 配置概述 类似联邦的配置,HA的配置向后兼容,且允许不改变现有的单N…
Hadoop性能调优
在这篇文章中,我们将会分享一些对Hadoop进行性能调优的方法,技巧。 这篇文章由我在阅读《Optimizing Hadoop for MapReduce》时,做的笔记,整理而成。 强烈建议读者去读一下上面重点标注的那本…
【Hadoop】Ambari架构详解(转)
Ambari介绍 Ambari是Hadoop分布式集群配置管理工具,是由hortonworks主导的开源项目,它已经成为了apache基金会的开源项目,已经成为Hadoop运维系统中的得力助手。 Ambari充分利用了一…
【Hadoop】一:MapReduce初探
基本概念 在python和swift中,map,reduce都是一种高阶函数(还有filter),那么什么是高阶函数呢?这里引用一下廖雪峰大神的总结,高阶函数就是指函数参数可以接收其他函数,还有一种函数叫作偏函数,就是指…
大数据Hadoop之HDFS认识
源自Google的GFS(Google分布式文件系统)论文,分布式文件系统(HDFS)是GFS的克隆版。HDFS负责数据文件的存储,可让多机器上分享存储空间,让实际上通过网络来访问文件的动作,用户就像是访问本地磁盘一样便…
第六课 Hadoop windows intelij 跑 MR WordCount
一、软件环境 我使用的软件版本如下: Intellij Idea 2017.1 Maven 3.3.9 Hadoop分布式环境 二、创建maven工程 打开Idea,file->new->Project,左侧…
Hadoop-2.6.4 完全分布式搭建
资源准备 准备4台 Linux 服务器要求:glibc 版本 >= 2.14 192.168.9.1 192.168.9.2 192.168.9.3 192.168.9.4 安装配置 JDK1.7+(详细操作) 下…
【零基础】HBase从学习入门开始
基本了解: HBase:是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(…
Hadoop 入门(四)
目录 Hadoop 安装 单点启动&集群启动 访问 HDFS 常用配置 常用命令 常用配置 core-site.xml hdfs-site.xml 备份份数 <property> <name&g…
hadoop mapreduce 分桶
image.png 老大之前在百度,由于shell 和awk 写的溜,所以他总是推荐 使用shell 和awk 来跑 hadoop streaming 【hs】,hs还真是一个好东西,不需要编译,想怎么执行就怎么整,还不…