大数据具体是什么意思?虽然都知道高薪,但 如何学大数据呢?有哪些学习路径和方法?今天我们就来具体看一下 大数据是什么? 来看看维基百科的定义 大数据(英语:Big data或Megadata),或称 巨量数据、海量数据、…
分类:Hadoop
Hadoop 系列(二)—— 集群资源管理器 YARN
一、hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,…
腾讯SNG后台技术总监:千锤百炼造就亿万级后台架构
5月7日,「腾讯SNG & msup技术开放日」在深圳召开。壹佰案例采访了一些与会讲师,谈谈他们在会上分享的内容。本期我们采访的讲师是来自腾讯的专家工程师、SNG后台技术总监廖念波。 壹佰案例:请简单介绍下您和目…
Hadoop集群安装部署详解
本文主要介绍Hadoop的一些基本信息及完全分布式安装,每一步都是笔者亲自操作所记录下来的,现分享出来希望能帮助到正准备研究Hadoop的朋友 Hadoop介绍 Hadoop由HDFS、MapReduce、Hbase、H…
通过Docker快速搭建Hadoop测试环境
搭过Hadoop的人都知道,Hadoop的搭建过程非常的繁琐,需要配置大量的环境,修改大量的配置文件,因此搭建一个可用的测试环境非常浪费时间。好在Docker的出现,就是帮助我们解决这类问题,有了Docker我们可以快速…
Kettle 7.1 链接Hadoop集群配置
背景 公司想把已有的老数据,放入数据仓库,进行数据分析,需要对数据进行抽取,转换处理,正好接触到了Kettle(ETL),正好记录一下Hadoop如何配置。 Kettle下载地址: 社区版下载地址 下拉到download…
【Hadoop】基于QJM的HDFS高可用系列二 - 部署
官方文档翻译,官方链接。 翻译水平有限,且以学习为主,请谅解和提意见。 转载请注明出处!!! 接着上一篇发布的文章继续翻译。这次从部署章节开始。 部署 配置概述 类似联邦的配置,HA的配置向后兼容,且允许不改变现有的单N…
Hadoop性能调优
在这篇文章中,我们将会分享一些对Hadoop进行性能调优的方法,技巧。 这篇文章由我在阅读《Optimizing Hadoop for MapReduce》时,做的笔记,整理而成。 强烈建议读者去读一下上面重点标注的那本…
【Hadoop】Ambari架构详解(转)
Ambari介绍 Ambari是Hadoop分布式集群配置管理工具,是由hortonworks主导的开源项目,它已经成为了apache基金会的开源项目,已经成为Hadoop运维系统中的得力助手。 Ambari充分利用了一…
【Hadoop】一:MapReduce初探
基本概念 在python和swift中,map,reduce都是一种高阶函数(还有filter),那么什么是高阶函数呢?这里引用一下廖雪峰大神的总结,高阶函数就是指函数参数可以接收其他函数,还有一种函数叫作偏函数,就是指…
大数据Hadoop之HDFS认识
源自Google的GFS(Google分布式文件系统)论文,分布式文件系统(HDFS)是GFS的克隆版。HDFS负责数据文件的存储,可让多机器上分享存储空间,让实际上通过网络来访问文件的动作,用户就像是访问本地磁盘一样便…
第六课 Hadoop windows intelij 跑 MR WordCount
一、软件环境 我使用的软件版本如下: Intellij Idea 2017.1 Maven 3.3.9 Hadoop分布式环境 二、创建maven工程 打开Idea,file->new->Project,左侧…