标签：spark

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable

函数代码： class MySparkJob{ def entry(spark:SparkSession):Unit={ def getInnerRsrp(outer_rsrp: Double, wear_loss: D…

Spark 1.x 爆内存相关问题汇总及解决 OOM # 包括GC Overhead limitjava.lang.OutOfMemoryError # on yarn org.apache.hadoop.…

写这篇文章的原因是前两天星球球友去面试，面试管问了一下，Spark 分析ES的数据，生成的RDD分区数跟什么有关系呢？稍微猜测一下就能想到跟分片数有关，但是具体是什么关系呢？可想的具体关系可能是以下两种： 1).就像…

在开始正式数据处理之前，我觉得有必要去学习理解下UDF。 UDF UDF全称User-Defined Functions，用户自定义函数，是Spark SQL的一项功能，用于定义新的基于列的函数，这些函数扩展了Spark…

spark standalone spark-1.5.0-bin-hadoop2.6 spark-env.sh配置 export SPARK_MASTER_IP=172.16.31.11 export SPARK_MAS…

[; \g \G] 都表示语句结束, ;和\g效果一样, \G可以使结果显示更美观 delimiter 结束符号更改结束符 SET NAMES GBK; show database…

在使用Spark时经常需要把数据落入HBase中，如果使用普通的Java API，写入会速度很慢。还好Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢？ BulkLoad不会写WAL，也…

昨天有人问我spark是什么，和mapreduce，yarn，hadoop有什么区别和联系。今天饭毕就来絮叨絮叨这些东西。第一个问题hadoop是什么？一句话，hadoop是大数据处理全家桶。其包括了hdfs（hado…

公司组会上分享的笔记，做个备份，以后有了新的内容，也会添加到其中。 scala就是操作spark的语言，利用spark以及sparkSQL提供的api来操作HDFS中保存的各种数据。之前的各种操作都是先通过spark.…

Tomcat启动失败,失败全部信息：五月 11, 2016 10:21:04 下午 org.apache.tomcat.util.digester.SetPropertiesRule begin 警告: [SetPro…

collect_set去除重复元素；collect_list不去除重复元素select gender, concat_ws(‘,R…

目录原数据字符大小写转换字符串拼接字符填充/插入/扩展字符串内容判断查找统计转码删减/截取分割/替换原数据 import pandas as pd a = pd.Series(['aSd', 'as…