本文旨在介绍 Spark 读取tinyInt字段时,如何处理精度损失的情况 MySQLDialect spark中,mysql的方言主要约定了数据库中varbinary、bit和tinyint类型的特殊映射,其他类型使用…
分类:Spark
22list『_海纳百川』Spark Streaming源码解析list
Spark Streaming源码解析 – 简书 http://www.jianshu.com/p/16d284385690 Spark Streaming 透彻理解之一 通过案例对SparkStreamin…
Spark RDD数据关联过滤案例
前言 最近在专注Spark开发,记录下自己的工作和学习路程,希望能跟大家互相交流成长 QQ:86608625 微信:guofei1990123 背景 detail.txt为用户注册信息全表,filter.txt为需要过滤…
Spark.GBDT学习-GBTClassifier
用于分类的GBT(Gradient-Boosted Trees)算法,基于J.H. Friedman. “Stochastic Gradient Boosting”实现,目前不支持多分类任务。Gr…
Spark RPC通信
Spark RPC通信,参考文章: 深入解析Spark中的RPC spark 分布式的基础-通信系统 rpc Spark RPC通信层设计原理分析 Spark RPC通讯机制
kafka stream入门1
kafka stream入门1 最近本人在单位经常有对于大量心跳数据进行汇总计算,然后更加计算汇总出不同种类的中间数据集合,来提供后期的处理的需求。 原先的方案是自己写了不少的job,然后利用zookeeper等进行jo…
Spark:DataFrame写HFile (Hbase)一个列族、一个列扩展一个列族、多个列
扩展:Spark:DataFrame生成HFile 批量导入Hbase 在上一篇博文中遗留了一个问题,就是只能处理DataFrame 的一行一列,虽然给出一个折中的办法处理多个列,但是对于字段多的DataFrame却略显…
Kafka+Spark Streaming进行网站黑名单实时过滤
开发环境: spark 2.3 kafka 1.1.1 黑名单数据是从mysql中获取的。源数据是从kafka中获取的,数据格式就是简单的姓名,为了与黑名单数据做join,源数据和黑名单数据都需要转换成键值对的形式。 J…
Spark on Yarn 查看日志
一直以来都是在UI界面上查看Spark日志的,但有时想在终端里面查看某个job的日志该怎么看呢?今天特地查了下资料,找到如下命令: 1…
3.2 Spark Streaming 性能调优(二): 解决task倾斜
目录 1.系统架构 2.环境搭建 2.1本地环境下kafka批量导入数据 2.2 kafka-manager的安装与配置 3.1 Spark Streaming 性能调优(一): 解决并行度 3.2 Spark Stre…
Spark2.0与HDP2.4集成
导语 HDP2.4的Hadoop版本为2.7.1,Spark版本为Spark1.6。很多感兴趣的朋友想要在HDP2.4的环境上尝鲜Spark2.0,笔者自己也尝试着在HDP2.4的环境下运行了spark2.0 on YA…
Janusgraph Spark yarn-client模式批量导入配置
Janusgraph是一个分布式图数据库,继承自titan。Janusgraph的批量导入(bulkload)默认使用spark的local模式运行,不支持yarn-cluster模式。虽然支持yarn-client模式…