产品定位 华为FusionInsight HD是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。 安全 架构安全、认证安全、文件系统层加密 可靠 所有管理节点组件均实现HA(High…
标签:MapReduce
Hadoop之YARN的安装与测试
在之前几篇文章中介绍了Hadoop生态圈中的HDFS基础,HDFS集群搭建,JAVA的基本API等操作,此文介绍一下,分布式调度系统的重要组成部分Yarn的安装与使用。 1.配置计算调度系统Yarn和计算引擎Map/Re…
Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境
环境:阿里云服务器 CentOS 7 x86_64 安装介质:jdk-7u75-linux-i586.tar.gz,hadoop-2.4.1.tar.gz 安装jdk tar -zxvf jdk-7u75-linux-i…
从0开始用docker搭建 hadoop分布式环境
* 以下命令均是在centos7使用root用户操作 在centos7中安装docker : yum install -y docker 启动docker服务: service docker start 从阿里云的仓库拉…
集群部署YARN
翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_yarn_cluster_deploy.html#topic_11_4…
【Spark实战】Spark之读写HBase
1 配置 1.1 开发环境: HBase:hbase-1.0.0-cdh5.4.5.tar.gz Hadoop:hadoop-2.6.0-cdh5.4.5.tar.gz ZooKeeper:zookeeper-3.4.5…
传统数据库RDBMS到大数据平台HDFS的数据同步方法
目前常用的传统RDBMS到HDFS的数据同步工具有三种:Sqoop(Apache),DataX(阿里云开源的离线同步工具),Kettle(pentaho)。 数据同步过程中,需要关注以下规则及技术点[1]: 1. 无论运…
MapReduce实现join
需求分析 一个电商网站后台数据存在两个表(可以看为两个文件): 用户表信息:用户ID、用户名、电话 订单表信息:用户ID、订单ID、商品价格、订单日期 如果想把两张表关联成:用户ID、用户名、电话、订单ID,价格,日期,…
巧用MapReduce+HDFS,海量数据去重的五种方法
随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。 重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除对于数据本身并没有改…
Hadoop生态系统
那些年,追过的开源软件和技术 – SDK.CN – 中国领先的开发者服务平台 https://www.sdk.cn/news/2842 Hadoop生态系统 这一块关注过很久了,目前很多很成熟的组…
多个MapReduce之间的嵌套
多个MapReduce之间的嵌套 在很多实际工作中,单个MR不能满足逻辑需求,而是需要多个MR之间的相互嵌套。很多场景下,一个MR的输入依赖于另一个MR的输出。结合案例实现一下两个MR的嵌套。 ** Tip:如果只关心多…
在Ubuntu 16.04上构建多节点的(分布式)Hadoop-2.7.3集群
实验环境 Ubuntu 16.04 Hadoop-2.7.3 Java 7 SSH 在本篇教程中,我总共使用了两台装有Ubuntu 16.04虚拟机,分别称为master和slave。 IP 主机名 (hostname)…