分类：Spark

Spark JDBC系列--Mysql tinyInt字段特殊处理

本文旨在介绍 Spark 读取tinyInt字段时，如何处理精度损失的情况 MySQLDialect spark中，mysql的方言主要约定了数据库中varbinary、bit和tinyint类型的特殊映射，其他类型使用…

Spark Streaming源码解析 – 简书 http://www.jianshu.com/p/16d284385690 Spark Streaming 透彻理解之一通过案例对SparkStreamin…

前言最近在专注Spark开发，记录下自己的工作和学习路程，希望能跟大家互相交流成长 QQ:86608625 微信:guofei1990123 背景 detail.txt为用户注册信息全表，filter.txt为需要过滤…

用于分类的GBT(Gradient-Boosted Trees)算法，基于J.H. Friedman. “Stochastic Gradient Boosting”实现，目前不支持多分类任务。Gr…

Spark RPC通信，参考文章：深入解析Spark中的RPC spark 分布式的基础-通信系统 rpc Spark RPC通信层设计原理分析 Spark RPC通讯机制

kafka stream入门1 最近本人在单位经常有对于大量心跳数据进行汇总计算，然后更加计算汇总出不同种类的中间数据集合，来提供后期的处理的需求。原先的方案是自己写了不少的job，然后利用zookeeper等进行jo…

扩展:Spark:DataFrame生成HFile 批量导入Hbase 在上一篇博文中遗留了一个问题，就是只能处理DataFrame 的一行一列,虽然给出一个折中的办法处理多个列，但是对于字段多的DataFrame却略显…

开发环境： spark 2.3 kafka 1.1.1 黑名单数据是从mysql中获取的。源数据是从kafka中获取的，数据格式就是简单的姓名，为了与黑名单数据做join，源数据和黑名单数据都需要转换成键值对的形式。 J…

一直以来都是在UI界面上查看Spark日志的，但有时想在终端里面查看某个job的日志该怎么看呢？今天特地查了下资料，找到如下命令： 1…

目录 1.系统架构 2.环境搭建 2.1本地环境下kafka批量导入数据 2.2 kafka-manager的安装与配置 3.1 Spark Streaming 性能调优(一): 解决并行度 3.2 Spark Stre…

导语 HDP2.4的Hadoop版本为2.7.1，Spark版本为Spark1.6。很多感兴趣的朋友想要在HDP2.4的环境上尝鲜Spark2.0，笔者自己也尝试着在HDP2.4的环境下运行了spark2.0 on YA…

Janusgraph是一个分布式图数据库，继承自titan。Janusgraph的批量导入（bulkload）默认使用spark的local模式运行，不支持yarn-cluster模式。虽然支持yarn-client模式…