本文为官方文档译文。仅限交流使用。 系列目录 概述 使用 Presto 查询Hive中的数据恐怕是最常用的了。Hive 连接器就允许查询在 Hive 数据仓库中的数据。Hive 由下面三个组件组成: 存储在 HDFS 或…
分类:Hive
记录完整spark.hive.sql处理过程
需求: 从App启动日志中读取所需数据,用来得到用户的常用启动时间点,常活动的地理位置,并更新到用户画像表中。 背景: device_id 设备id start_time App启动时间 latitude 上传纬度 lo…
hive sql数据分析面试整理
1.写作目的说明 hive sql是从事数据分析的同学的基本功。无论是秋招、春招或者是实习,sql都是面试官考察的重点,拿刚刚过去的19秋招来说,搜狐、网易、京东等在数据分析师岗位面试时都考了sql,而拼多多在数据分析笔…
Spark SQL DataFrame和DataSet
翻译自Spark官网。 一、Spark Sql 历史 大数据主要包括三类操作: 1、 长时间运行的批量数据处理。 2、 交互式运行的数据查询。 3、 实时数据流处理。 Spark Sql 的前身是shark,最初是用在查…
Hive 的几个练习题
题目1 需求: 每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数 三个字段的意思: 用户名,月份,访问次数 数据: A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-…
hive获取字符串指定位置之前的字符串
在数据表中有一个字段 PROC_DEF_ID_ 数据如下: AfterSaleWorkSheetProgress:1:3 ReturnToPSPProgress:17:965022 pspOrderCancelWork:…
Spark与HBase的整合
前言 之前因为仅仅是把HBase当成一个可横向扩展并且具有持久化能力的KV数据库,所以只用在了指标存储上,参看很早之前的一篇文章基于HBase做Storm 实时计算指标存储。这次将HBase用在了用户行为存储上,因为Ro…
Hive 安装及配置
https://cwiki.apache.org/confluence/display/Hive/GettingStarted 安装和配置 您可以通过下载tarball来安装Hive的稳定版本,或者下载源代码来构建Hiv…
Excel数据导入hive步骤
1. Excel导出逗号文件.csv 2. 将CSV文件导入到hive服务器制定目录 3. 转换编码格式 转换编码格式,在指定目录下执行如下命令:piconv -f gb2312 -t UTF-8 CompanyCode…
hadoop性能测试TestDFSIO
1.测试工具 hadoop自带的TestDFSIO 2.命令 (1)写 sudo -u hdfs hadoop jar hadoop-test-2.6.0-mr1-cdh5.14.0.jar TestDFSIO -wri…
flume与kafka集成遇到的问题与解决思路
0x00 背景知识 基本上想去用flume的同学都知道点flume的用途了。flume是一个分布式,可靠的,易用的,可以将不同源的日志进行,收集,汇总,或者存储的中间件。 0x01 使用场景 数据来源:系统现有日志,有p…
9. Hive使用
1.Hive数据导入的六种类型: 以下面两个表来实验: create table emp( empno int, ename string, job string, mgr int, hiredate string, s…