spark sql 调试技巧–内置udf查看 Spark SQL内置了许多常用的udf,我们该如何拿到用户的udf和内置的udf呢? DataFrame级别 对于DataFrame级别的udf,我们可以访问f…
标签:spark
Spark-Streaming: 分析tomcat的日志
Spark-Streaming: 分析tomcat的日志 要求统计TOP 100的 IP 通过spark streaming得到(ip, ip_count),按照ip_count倒序100 程序: package io.…
spark入门程序 word count
本文总结了spark中的hello world—word count的开发流程。 spark 支持的开发语言有scala,java, python,下面用java语言进行word count程序开发。java在1.8版本…
关于spark-hbase在pyspark上的那些破事
背景: 项目需要读取Hbase并把计算结果保存在Hbase里供其他接口获取。 算法由pyspark实现。 原先Hbase的Thrift接口三天两头宕,而且性能低下。 充满糟点的background结束 结论: 先说结论,…
Spark 共享变量
通常,当把一个函数传递给Spark的操作时(例如map或reduce操作),函数可以使用在驱动程序中定义的变量,但是函数在不同的节点上执行,每个节点都需要对函数(闭包)内的每个变量进行拷贝发送,而在远程机器上变量的更新不…
Apache 流框架 Flink,Spark Streaming,Storm对比分析(1)
此文已由作者岳猛授权网易云社区发布。 欢迎访问网易云社区,了解更多网易技术产品运营经验。 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提…
Spark JDBC系列--Mysql tinyInt字段特殊处理
本文旨在介绍 Spark 读取tinyInt字段时,如何处理精度损失的情况 MySQLDialect spark中,mysql的方言主要约定了数据库中varbinary、bit和tinyint类型的特殊映射,其他类型使用…
22list『_海纳百川』Spark Streaming源码解析list
Spark Streaming源码解析 – 简书 http://www.jianshu.com/p/16d284385690 Spark Streaming 透彻理解之一 通过案例对SparkStreamin…
Spark RPC通信
Spark RPC通信,参考文章: 深入解析Spark中的RPC spark 分布式的基础-通信系统 rpc Spark RPC通信层设计原理分析 Spark RPC通讯机制
Kafka+Spark Streaming进行网站黑名单实时过滤
开发环境: spark 2.3 kafka 1.1.1 黑名单数据是从mysql中获取的。源数据是从kafka中获取的,数据格式就是简单的姓名,为了与黑名单数据做join,源数据和黑名单数据都需要转换成键值对的形式。 J…
3.2 Spark Streaming 性能调优(二): 解决task倾斜
目录 1.系统架构 2.环境搭建 2.1本地环境下kafka批量导入数据 2.2 kafka-manager的安装与配置 3.1 Spark Streaming 性能调优(一): 解决并行度 3.2 Spark Stre…
Spark2.0与HDP2.4集成
导语 HDP2.4的Hadoop版本为2.7.1,Spark版本为Spark1.6。很多感兴趣的朋友想要在HDP2.4的环境上尝鲜Spark2.0,笔者自己也尝试着在HDP2.4的环境下运行了spark2.0 on YA…