Spark经常会读写一些外部数据源,常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作,做一个简单的Demo总结,方便后续开发查阅。 1.1 maven依赖 需要引入Hadoo…
标签:hbase
spark读取hbase为DataFrame后利用SQL进行计算
最近在做spark和hbase的相关项目。暂且将其分为两部分:一是利用spark streaming消费前台推到kafka中的消息,进行简单处理后写入到hbase;然后就是利用spark读取hbase,将结果组装成jso…
spark 资源大小分配与并行处理
起因 写这篇博客的起因我在跑一个spark job时,有时能跑通,有时跑不通。程序的需求是对比两个hbase表。程序逻辑很简单,分别从两个hbase表读取全量数据,然后以cogroup二者,对比同一个rowkey下每个列…
HBase/Spark Guava依赖冲突解决方案
前言 版本 guava 版本 Spark 2.2.0 12.0.1 HBase 1.0.0-cdh5.6.0 20.0 由于guava的版本在16.0以后,不向后兼容,所以Spark程序中集成HBase是会报找不到依赖的…
spark-shell读写HBase,RDD方法,HFile写入
亲测有效 spark-shell --jars /home/wsy/jars/hbase-spark-1.2.0-cdh5.7.1.jar def readHbase(sc:org.apache.spark.SparkC…
Spark 操作hbase(构建一个支持更新和快速检索的数据库)
一、背景 在用户画像的系统中,需要将用户ID的拉通结果表和用户标签的结果表存入Hbase中。 组件如下: 1. Spark 2.0 2. hbase 1.2 3. hadoop 2.6 因而提出以下几个问题: 1. 如何…
spark读写HBase之使用hortonworks的开源框架shc(二):入门案例
shc测试环境的搭建参考: spark读写HBase之使用hortonworks的开源框架shc(一):源码编译以及测试工程创建 读写HBase需要两个核心的元素: 用户描述数据结构的schema字符串 与schema字…
Hadoop、Spark、HBase与Redis的适用性讨论
最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方…
Spark读写HBase之使用Spark自带的API以及使用Bulk Load将大量数据导入HBase
1. 需要的jar包依赖 <properties> <spark.version>2.3.0</spark.version> <hbase.version>1.2.6<…
使用 Spark 读写 HBase 数据
Use Spark to read and write HBase data 启动 hbase start-hbase.sh 在 HBase 中准备 sample 数据 1、运行 HBase shell hbase sh…
Hive - 外部表创建失败解决方案
在hdp平台上,使用hive控制台创建一个hbase的外部表,出现ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql…
【hive-整合】hbase添加phoenix jar导致hive启动异常分析
软件环境:hbase 1.1.1 hive2.2.3 hadoop2.7.2 硬件环境:centos 7 问题描述: HBASE添加phoenix支持需要在hbase的lib目录添加phoenix的jar。重启hive服…