1、分发HDFS压缩文件(-cacheArchive) 需求:wordcount(只统计指定的单词【the,and,had…】),但是该文件存储在HDFS上的压缩文件,压缩文件内可能有多个文件,通过-cach…
分类:MapReduce
使用hadoop restful api实现对集群信息的统计
(适用于hadoop 2.7及以上版本) 涉及到RESTful API ResourceManager REST API’s:https://hadoop.apache.org/docs/stable/hadoop-ya…
java8 如何进行stream reduce,collection操作
一、概念介绍 在java8 JDK包含许多聚合操作(如平均值,总和,最小,最大,和计数),返回一个计算流stream的聚合结果。这些聚合操作被称为聚合操作。JDK除返回单个值的聚合操…
【Spark】大数据平台搭建(Hadoop+Spark)
一.基本信息 1. 服务器基本信息 主机名 ip地址 安装服务 spark-master 172.16.200.81 jdk、hadoop、spark、scala spark-slave01 172.16.200.82 …
用ADMM实现统计学习问题的分布式计算
最近研读了 Boyd 2011 年那篇关于 ADMM 的综述。我从这篇综述里整理出了一个条思路,顺着这个思路看下去,就能对 ADMM 原理和应用有个大概的了解。因此,此文可以当做 ADMM 的快速入门。 交替方向乘子法(…
Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the co
log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4…
[转]Writing an Hadoop MapReduce Program in Python
mapper.py #!/usr/bin/env python """A more advanced Mapper, using Python iterators and generators.""" import sy…
“给服务器开发的应届生泼冷水”之我见
原博客:写给那些傻傻的,想做服务器开发的应届生 1 还有一些同学想做大数据分析,如果你写过 MapReduce 程序就不会这么想了。现在的 MapReduce 程序写起来太 easy 了,很多时候简单到你就只需要写一条类…
在 YARN 中简化用户日志的管理和使用
Hadoop 的用户日志有很多的用途, 首先最重要的是, 它们能用来调试 MapReduce 应用(application)的问题, 可能是应用本身的问题, 或者在极少数的情况下, 当在集群中执行应用时, 日志可以用来调…
MapReduce与批处理------《Designing Data-Intensive Applications》读书笔记14
之前的文章大量的内容在和大家探讨分布式存储,接下来的章节进入了分布式计算领域。坦白说,个人之前专业的重心侧重于存储,对许多计算的内容理解可能不是和确切,如果文章中的理解有所不妥,愿虚心赐教。本篇将和大家聊一聊分布式计算的…
巧用 db.system.js 提升20% 开发效率
开门见山,20%是我造的,哈哈,为的就是让各位mongoer能够对db.system.js collection 引起注意。 这个也是在我最近浏览InfoQ 的时候,看到一篇关于MongoDB 文章1的时候意识到的问题,…
mapreduce知识点记录
selfMapper extends Mapper< LongWritable, Text, Text, IntWritable> 其中LongWritable是某一行起始位置相对于文件起始位置的…