《Hadoop权威指南(第三版)》全书示例代码可以在这里找到,参考readme中的步骤进行编译。 MaxTemperatureMapper代码如下: package com.nasuf.maxtemperature; i…
标签:MapReduce
Hadoop on Docker
docker安装 安装 yum install -y epel-releas yum install docker-io 加入开机启动 chkconfig docker on 启动docker service docke…
使用MongoDB的MapReduce进行查询和数据组织
Date: 2016-03-09 Summary: 在实际应用中,用MongoDB做了数据库查询之后返回的数据量很大,想要做一些比较复杂的统计和聚合操作做花费的时间超过了数据库操作耗时,尝试用MongoDB中的MapRe…
Hadoop大数据处理平台的搭建
由于最近在做一个小比赛,,需要搭建数据处理平台,,由于数据量比较大,因此选择了Hadoop,本人并不是很熟悉这个平台,,因此搭建过程中遇到了许多问题,,所以想记录一下,以后可能会用到。搭建过程并不困难,由于手…
mapreduce中控制mapper的数量
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每…
mapreduce多目录输出笔记
title: mapreduce多目录输出笔记 date: 2016/11/26 22:23:21 tags: MapReduce categories: 大数据 使用MultipleOutputs实现多目录/文件输出 …
hadoop概念
大数据生态圈的概念 参考如何用形象的比喻描述大数据的技术生态? 为了用大量的机器(成千上百台)存下数据,设计出了HDFS(Hadoop Distributed FileSystem)。 存下数据以后为了能更好的处理(索引…
零基础入门学习大数据可以从事哪些工作?
2018年随着当代信息技术的迅猛发展,大数据在人们的工作、生产、生活、学习、娱乐等方面,人们想开始学习大数据的时候,最常问我的问题是,“我应该学Hadoop(hadoop是一款开源软件,主要用于分布式存储和计算,他由HD…
HADOOP与HDFS数据压缩格式
HADOOP与HDFS数据压缩格式 1、cloudera 数据压缩的一般准则 一般准则 是否压缩数据以及使用何种压缩格式对性能具有重要的影响。在数据压缩上,需要考虑的最重要的两个方面是 MapReduce 作业和存储在 …
Hadoop学习资源集合
Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在…
hive在E-MapReduce集群的实践(一)hive异常排查入门
hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍…
哈希分治法 - 统计海量数据中出现次数最多的前10个IP
场景 这是一个 ip 地址 127.0.0.1 假设有100亿个这样的 ip 地址存在文件中 这个文件大小大约是 100GB 问题:要统计出100亿个 ip 中,重复出现次数最多的前10个 分析 100GB 几乎不可能一…