HADOOP与HDFS数据压缩格式 1、cloudera 数据压缩的一般准则 一般准则 是否压缩数据以及使用何种压缩格式对性能具有重要的影响。在数据压缩上,需要考虑的最重要的两个方面是 MapReduce 作业和存储在 …
分类:MapReduce
Hadoop学习资源集合
Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在…
hive在E-MapReduce集群的实践(一)hive异常排查入门
hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍…
哈希分治法 - 统计海量数据中出现次数最多的前10个IP
场景 这是一个 ip 地址 127.0.0.1 假设有100亿个这样的 ip 地址存在文件中 这个文件大小大约是 100GB 问题:要统计出100亿个 ip 中,重复出现次数最多的前10个 分析 100GB 几乎不可能一…
Hadoop MapReduce概念学习系列之MPI和MapReduce(十三)
在当前最流行的高性能并行体系结构中比较常用的并行编程环境分为两类:消息传递和共享存储。MPI是基于消息传递的经典代表,是消息传递井行程序设计的标准,用于构建高可靠的、可伸缩的、灵活的分布式应用程消息传递井行处理开销比较…
mapreduce调优
title: mapreduce调优 date: 2016/12/2 9:16:39 tags: MapReduce categories: 大数据 对应用程序进行调优 避免输入大量小文件。大量的小文件(不足一个bloc…
Hadoop--MapReduce阶段的Split阶段
一、介绍 在MapReduce处理过程中主要分为四个阶段:Split(分片)阶段、Map阶段、Shuffle(混排、重拍)阶段、Reduce阶段。接下来笔者将会分别详细介绍着四个阶段,也会加上Hadoop2.6.0的源码…
MapReduce论文解析
背景 为了解MapReduce的原理,回头读了一遍了google的论文《MapReduce: Simplied Data Processing on Large Clusters》 <strong >问题&l…
记录使用nutch执行inject的时候遇到的第一个坑 java.lang.NullPointerException
$ ./nutch inject urls InjectorJob: starting at 2016-11-08 11:20:12 InjectorJob: Injecting urlDir: urls Injecto…
ubuntu16.04下安装hadoop+spark单机版
说明 本文为自己配置单机版hadoop和spark的过程记录,仅供参考,因环境和版本问题,方法可能会有不同。如有错误,欢迎批评指正。 下载 hadoop: http://hadoop.apache.org/release…
E-MapReduce集群中HDFS服务集成Kerberos
本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。 前置: 创建E-MapReduce集群,本文以非HA集群的HDFS为例 HDFS服务在hdfs账号下启动 HDFS软件包路径/usr/lib/ha…
在 Oracle 数据库中实现 MapReduce
在程序员开发并行程序时,Map-Reduce模式正变得流行起来。这些map-reduce程序通常来并行处理大量数据。本文来演示如何在Oracle数据库上,通过使用Parallel Pipelined Table函数及并行…