分类：MapReduce

hadoop mapreduce开发实践之HDFS压缩文件（-cacheArchive）

1、分发HDFS压缩文件（-cacheArchive）需求：wordcount（只统计指定的单词【the,and,had…】），但是该文件存储在HDFS上的压缩文件,压缩文件内可能有多个文件，通过-cach…

（适用于hadoop 2.7及以上版本）涉及到RESTful API ResourceManager REST API’s：https://hadoop.apache.org/docs/stable/hadoop-ya…

一、概念介绍在java8 JDK包含许多聚合操作（如平均值，总和，最小，最大，和计数），返回一个计算流stream的聚合结果。这些聚合操作被称为聚合操作。JDK除返回单个值的聚合操…

一.基本信息 1. 服务器基本信息主机名 ip地址安装服务 spark-master 172.16.200.81 jdk、hadoop、spark、scala spark-slave01 172.16.200.82 …

最近研读了 Boyd 2011 年那篇关于 ADMM 的综述。我从这篇综述里整理出了一个条思路，顺着这个思路看下去，就能对 ADMM 原理和应用有个大概的了解。因此，此文可以当做 ADMM 的快速入门。交替方向乘子法（…

log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4…

mapper.py #!/usr/bin/env python """A more advanced Mapper, using Python iterators and generators.""" import sy…

原博客：写给那些傻傻的，想做服务器开发的应届生 1 还有一些同学想做大数据分析，如果你写过 MapReduce 程序就不会这么想了。现在的 MapReduce 程序写起来太 easy 了，很多时候简单到你就只需要写一条类…

Hadoop 的用户日志有很多的用途, 首先最重要的是, 它们能用来调试 MapReduce 应用(application)的问题, 可能是应用本身的问题, 或者在极少数的情况下, 当在集群中执行应用时, 日志可以用来调…

之前的文章大量的内容在和大家探讨分布式存储，接下来的章节进入了分布式计算领域。坦白说，个人之前专业的重心侧重于存储，对许多计算的内容理解可能不是和确切，如果文章中的理解有所不妥，愿虚心赐教。本篇将和大家聊一聊分布式计算的…

开门见山，20%是我造的，哈哈，为的就是让各位mongoer能够对db.system.js collection 引起注意。这个也是在我最近浏览InfoQ 的时候，看到一篇关于MongoDB 文章1的时候意识到的问题，…

selfMapper extends Mapper< LongWritable, Text, Text, IntWritable> 其中LongWritable是某一行起始位置相对于文件起始位置的…