耳熟能详的C/C++/Java/web/PHP/Python等,非常好找教程,一搜网上到处都是资料,但是如果你学的不是那么大众化的语言,那么教程可就不那么好找了。 不过,不要担心啊,实验楼上有很多教程,你想要的都有。 所…
分类:Hive
Hive on Spark
版本: 2.3.3 版本兼容性 spark安装 配置YARN 配置Hive 配置属性细节 配置Spark 调整细节 常见问题(绿色已解决,将从此列表中删除) 推荐配置 设计文档 Hive on Spark为Hive提供了…
Hive Join详解
Join原理 Hive执行引擎会将HQL“翻译”成为MapReduce任务,如果多张表使用同一列做Join,将被“翻译”成一个MapReduce任务,否则会被“翻译”成多个MapReduce任务 例如:以下将被“翻译”成…
Hive(二) 分区表、桶
分区表 Hive中没有复杂的分区类型(List,Range,Hash)、各种复合分区,分区列不是表中的实际字段而是一个伪列,创建表时可以指定PARTITION BY 子句创建一个或多个分区,每个分区在HDFS中会自动创建…
网络日志的Hive简单查询
测试数据 [root@master hive]# cat ./tmp_data/weblog.data 1c13c719fbfd87f49522f189413c6ba /gybfokxyojgtwrq.html 2012…
[ES]轻量级OLAP--Elasticsearch+Hive
打造轻量级OLAP(二):Hive + Elasticsearch – Treant – 博客园 http://www.cnblogs.com/en-heng/p/5943703.html 引言 …
手把手教你搭建hadoop+hive测试环境(新手向)
本文由网易云 发布。 作者:唐雕龙 本篇文章仅限内部分享,如需转载,请联系网易获取授权。 面向新手的hadoop+hive学习环境搭建,加对我走过的坑总结,避免大家踩坑。 对于hive相关docker,并没有官…
Apache Ranger安装配置以及和LDAP集成
导语 Ranger是Hadoop平台的集中式安全管理框架,能够为hadoop平台组件提供细粒度的访问控制。通过Ranger, Hadoop管理员能够轻松地管理各种安全策略,包括:访问文件/文件夹,数据库,Hive表,列,…
换行符导致hive读取HDFS多行记录
通过hive建表格时,一般通过以下方式作为记录分隔符 row format delimited fields terminated by ‘\001’ 这是因为在hdfs中存储的方式为文件,hiv…
Hive 查询数据导出到本地目录或 hdfs 的方法
说明 在最近的项目中,需要将最终生成的 Hive 表数据导出到文件中,具体实现请参见下方 SQL。 查询结果导入到 hdfs 文件 一般方式: insert overwrite directory '/hive/test…
使用crontab调度hadoop任务和机器学习任务的正确姿势
标签: crontab 调度 虽然现在越来越多的开源机器学习工具支持分布式训练,但分布式机器学习平台的搭建和运维的门槛通常是比较高的。另外一方面,有一些业务场景的训练数据其实并不是很大,在一台普通的开发机上训练个把小时足…
sparkSQL-dataframe 单列拆分成多行
需求: 将数据表格中的单列拆分成多行 解决方法: 在dataframe使用explode,explode可将array类型的列拆分成行,udf可将自定义行数定制数据的处理逻辑,最后生成array类型。 代码示例: imp…