HIVE直接读入json的函数有两个: (1)get_json_object(string json_string, string path) 返回值: string 说明:解析json的字符串json_string,返…
分类:Hive
阿里数据分析师面试
阿里数据分析师面试 一面 帮助了解简历,基本是自己在说,学校,专业,实习经历,收获及感悟。最后可以问两个问题:1.阿里数据分析师的主要职责及所需的工作技能?2.入职后有没有相关的培训? 二面 二面问的比较详细。 最能体现…
结合Hive、Sqoop统计日志pv和uv
分析 数据源格式 121508281810000000 http://www.yhd.com/?union_ref=7&cp=0 3 PR4E9HWE38DMN4Z6HUG667SCJNZXMHSPJRER VF…
Hive性能优化
Hive性能优化 1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍 首先,我们…
Hive中常用的一些配置操作(日志,显示等操作)
1.修改默认的数据仓库位置,在hive-site.xml文件中配置如下参数: <property> <name>hive.metastore.warehou…
Hive的安装之远程模式
#cd training #tar -zxvf apache-hive-2.1.1-bin.tar.gz # rm -rf apache-hive-2.1.1-bin.tar.gz # mv apache-hive-2.…
Hive解析json
需要解析的json为: { “_id”:{ “$oid”:”580db8…
数据仓库之ETL实战
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。 一般随着业务的发展扩张,产线也越来越多,产生的数据也越来越多,这些数据的收集方式、原始数据格式、数据量、…
什么是数据仓库?
什么时候需要用到数据仓库? 一个公司里面不同项目可能用到不同的数据源,有的存在MySQL里面,又的存在MongoDB里面,甚至还有些要做第三方数据。 但是现在又想把数据整合起来,进行数据分析。此时数据仓库(Data Wa…
玩转Spark on Yarn with Hive实战案例
1 场景 在实际过程中,遇到这样的场景: 日志数据打到HDFS中,运维人员将HDFS的数据做ETL之后加载到hive中,之后需要使用Spark来对日志做分析处理,Spark的部署方式是Spark on Yarn的方式。 …
hive相关基础
hive相关基础 1、进入到hive命令下;(linux下直接输入hive即可) hive 2、查看工作分区下的hive表都有哪些? show tables; 3、查看hive中某个具体表,例如要查看’abc…
hive中删除cascade
hive在删除一个数据库前,需要将数据库中的所有数据表全部删除,才能删除database; 强制性删除数据库需要使用cascade关键字; DROP DATABASE IF EXISTS mydb CASCADE; DR…