标签：MapReduce

【华为网络技术大赛】FusionInsight HD

产品定位华为FusionInsight HD是一个分布式数据处理系统，对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。安全架构安全、认证安全、文件系统层加密可靠所有管理节点组件均实现HA（High…

在之前几篇文章中介绍了Hadoop生态圈中的HDFS基础，HDFS集群搭建，JAVA的基本API等操作，此文介绍一下，分布式调度系统的重要组成部分Yarn的安装与使用。 1.配置计算调度系统Yarn和计算引擎Map/Re…

环境：阿里云服务器 CentOS 7 x86_64 安装介质：jdk-7u75-linux-i586.tar.gz，hadoop-2.4.1.tar.gz 安装jdk tar -zxvf jdk-7u75-linux-i…

* 以下命令均是在centos7使用root用户操作在centos7中安装docker ： yum install -y docker 启动docker服务： service docker start 从阿里云的仓库拉…

翻译： https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_yarn_cluster_deploy.html#topic_11_4…

1 配置 1.1 开发环境： HBase：hbase-1.0.0-cdh5.4.5.tar.gz Hadoop：hadoop-2.6.0-cdh5.4.5.tar.gz ZooKeeper：zookeeper-3.4.5…

目前常用的传统RDBMS到HDFS的数据同步工具有三种：Sqoop（Apache），DataX（阿里云开源的离线同步工具），Kettle（pentaho）。数据同步过程中，需要关注以下规则及技术点[1]： 1. 无论运…

需求分析一个电商网站后台数据存在两个表（可以看为两个文件）：用户表信息：用户ID、用户名、电话订单表信息：用户ID、订单ID、商品价格、订单日期如果想把两张表关联成：用户ID、用户名、电话、订单ID，价格，日期，…

随着存储数据信息量的飞速增长，越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。重复数据删除往往是指消除冗余子文件。不同于压缩，重复数据删除对于数据本身并没有改…

那些年，追过的开源软件和技术 – SDK.CN – 中国领先的开发者服务平台 https://www.sdk.cn/news/2842 Hadoop生态系统这一块关注过很久了，目前很多很成熟的组…

多个MapReduce之间的嵌套在很多实际工作中，单个MR不能满足逻辑需求，而是需要多个MR之间的相互嵌套。很多场景下，一个MR的输入依赖于另一个MR的输出。结合案例实现一下两个MR的嵌套。 ** Tip：如果只关心多…

实验环境 Ubuntu 16.04 Hadoop-2.7.3 Java 7 SSH 在本篇教程中，我总共使用了两台装有Ubuntu 16.04虚拟机，分别称为master和slave。 IP 主机名 (hostname)…