一。数据湖 由数据驱动的决策非常流行。从数据科学,机器学习和高级分析到实时仪表板,决策者都需要数据来帮助做出决策。 该数据需要一个家,而数据湖是创建该家的首选解决方案。该术语由Pentaho的CTO James Dixo…
分类:Hadoop
hadoop高可用集群搭建
主机配置环境如下表 主机名 IP 系统 软件版本 安装目录 数据目录 hadoop-01 192.168.10.51 Centos 7.6 hadoop-2.7.7、jdk1.8、zookeeper-3.4.6 /usr…
Hadoop安装部署的三种模式总结
目前来说,Hadoop的安装部署的模式一共有三种,就是如下三种: 本地模式 伪分布模式 全分布模式 1、独立模式(本地模式) standalone 默认的模式,无需运行任何守护进程(daemon),所有程序都在单个JVM…
什么是雪花模型
1.什么是雪花模型 Snowflake schema 雪花模型是多维数据库中的表的逻辑排列方式,使得实体关系图类似于雪花形状。雪花模型由连接到多个维度的集中式事实表组成。“Snowflaking”是一种在星型模型中规范化…
使用Ambari搭建Hadoop集群
Hadoop 介绍 Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:Map…
查看大数据组件日志方法
hadoop组件 01.首先需要进入自己hadoop安装目录。 以我的为例,如图: 02.进入到hadoop目录后,有logs目录,进入。 03.可以看到本台所有的hadoop日志,我们查看 .l…
Hadoop三种部署模式及区别
Hadoop三种部署模式及区别 standalone mode,独立模式 Pseudo-Distributed mode,伪分布模式 cluster mode,集群模式 区别 集群模式不做介绍,用于实际生产环境 独立模式…
向hive表中添加数据
1、首先准备数据源: 学生成绩txt文件,共七个字段(ID,name,Chinese,English,math,school,class) [root@xxx tmp]# hdfs dfs -cat &nbs…
yarn资源调度的几种方式与生产使用
文章目录 1.yarn的资源调度方式及生产配置 1.1 FIFO Scheduler 先进先出 1.2 Capacity Scheduler 计算 1.3 FairScheduler 公平 生产 1.4 三种调度器的区别…
资源控制平台介绍与YARN的优缺点
Yarn脱胎于MRv1,并克服了MRv1的种种不足。先来看看MRv1让人诟病的地方,主要是可靠性差、扩展性差、资源利用率低、无法支持异构的计算框架: 1.可靠性差: MRv1是主从架构,主节点的JobTracker一旦出…
原理解析:如何让 Join 跑得更快?
JOIN 一直是数据库性能优化的老大难问题,本来挺快的查询,一旦涉及了几个 JOIN,性能就会陡降。而且,参与 JOIN 的表越大越多,性能就越难提上来。 其实,让 JOIN 跑得快的关键是要对 JOIN 分类,分类之后…
大数据学习:零基础大数据入门该看哪些书?
现在有很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书?今天做了一些整理作为参考,希望可以帮助到那些对大数据感兴趣的同学。 1. 大数据工程师 在互联网公司广泛招聘,偏平台业…