hive 是Hadoop上的组件,是一种数据仓库,是在HDFS和mapreduce 两个引擎上的。
数据仓库
数据仓库,我的理解就是数据库的集合,注意是集合,不是集群,数据有关系型数据库和非关系型数据库,而数据仓库可以即可以放置关系型数据也可以放置非关系型数据,是集成的,面向主题的。数据是冗余的。比如hive 这个数据仓库就是放置数据的元数据的。就比如数据库的路径,大小各种参数。数据仓库中的数据是不可更新的,所涉及的操作主要是查询,而查询类似之前的mysql oracle 数据库的查询语句。 可以把hive 理解为sql 语句和mapreduce 的映射器 hive 并不存储数据,只是管理HDFS上的数据。
访问hive
1.client shell 访问
2.jdbc,odbc 的接口访问,thrift hive –service hiveserver
3,web hive –service hwi
hive的三种表
数据库创建:
数据库创建
修改,删除数据库:
修改删除数据库
内部表:
内部表操作
外部表:
外部表 删除外部表时候,只删除元数据
分区表:
分区表建立
修改表结构:
增加表的列