分类：MapReduce

hadoop的mapReduce历史服务配置及查看

查看MapReduce历史执行情况报错查看已经运行完成的MapReduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。 image.png 默认情况下，历史服…

本节书摘来自华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.6节，作者张良均樊哲位文超刘名军许国杰周龙焦正升，更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.6　TF-IDF算法原理…

一、调整参数入门级的调优可以从调整参数开始。投入小，回报快。 1. Write Buffer Size 快速配置设置buffer的容量，例子中设置了6MB的buffer容量。必须禁止auto flush。 6MB是…

partitioner在处理输入数据集时就像条件表达式(condition)一样工作。分区阶段发生在Map阶段之后，Reduce阶段之前。partitioner的个数等于reducer的个数(The number of …

一、Yarn简介 Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构，我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。在介绍Yarn之前，我们先回…

#为了方便后续管理，添加hadoop用户,并设置密码 adduser hadoop passwd hadoop #hadoop用户赋权(加sudo可以执行root的操作) #给sudoers文件读写权 chmod u+w…

用户在DataWorks上执行MapReduce作业的时候，文件大于10M的JAR和资源文件不能上传到Dataworks，导致无法使用调度去定期执行MapReduce作业。解决方案：第一步：大于10M的resourc…

HBase集群间数据迁移 0. 前置 HBase集群 HDFS Cluster-A hdfs:/A Cluster-B hdfs:/B Cluster-A集群数据迁移到Cluster-B 1. Export/Import…

一、概念介绍在java8 JDK包含许多聚合操作（如平均值，总和，最小，最大，和计数），返回一个计算流stream的聚合结果。这些聚合操作被称为聚合操作。JDK除返回单个值的聚合操…

最近做了个web系统访问hive数据库，类似于官方自带的hwi、安居客的hwi改进版和大众点评的polestar(github地址)系统，但是和他们的实现不一样，查询Hive语句走的不是cli而是通过jdbc连接hive…

YARN on Single Node 修改yarn环境配置文件yarn-env.sh image.png 修改yarn配置文件yarn-site.xml image.png 配置yarn服务地址及HDFS地址 imag…

MongoDB也简单的实现了MapReduce的功能来提供分布式的数据查询服务,MapReduce的分布是功能主要用在Shard上 db.runCommand( { mapreduce : <…