大数据技术原理——Hive

2019年6月7日 242次阅读来源: 是蓝先生

**
**

《大数据技术原理——Hive》 1.png

Hive不支持数据的更新，，也不支持事务和索引，只能只读
不能秒级响应，只能分钟级响应；

《大数据技术原理——Hive》 2.png

Hive一般用于报表中心；
Mahout是基于hadoop的开源插件，已经实现了各种机器学习、数据挖掘算法，所以能够帮助企业快速建立业务模型支持BI（商务智能）。

《大数据技术原理——Hive》 3.png

hive数据与关系型数据库之间的传输用sqoop开源工具。
hadoop start-dfs.sh的作用在于启动主节点的namenode，启动secondnamenode，以及各从节点的datanode进程。
man 5 passwd 表示显示passwd文件的结构，这是LINUX操作系统语言
select–from–where–group by–having–order by其中select和from是必须的，其他关键词是可选的，这六个关键词的执行顺序与sql语句的书写顺序并不是一样的，而是按照下面的顺序来执行：
from–where–group by–having–select–order by,
在写SQL文的时候，尽量把数据量大的表放在最右边来进行关联。
hadoop集群的几种运行模式：单机（本地）模式；伪分布式模式；全分布式模式（中心版）。
mysql中如何整理表数据文件的碎片：OPTIMIZE TABLE table_name。

在HDFS中,所有的文件都是以block块的概念而存在的,那么在这样海量的文件数据的情况下,难免会发生一些文件块损坏的现象,可以使用HDFS的fsck相关的命令去发现。
hive上查看hive执行计划的命令：explain

    原文作者：是蓝先生
    原文地址: https://www.jianshu.com/p/a2be5c9796b0
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。