函数代码: class MySparkJob{ def entry(spark:SparkSession):Unit={ def getInnerRsrp(outer_rsrp: Double, wear_loss: D…
标签:spark
Spark 1.x 爆内存相关问题汇总及解
Spark 1.x 爆内存相关问题汇总及解决 OOM # 包括GC Overhead limitjava.lang.OutOfMemoryError # on yarn org.apache.hadoop.…
Spark Core读取ES的分区问题分析
写这篇文章的原因是前两天星球球友去面试,面试管问了一下,Spark 分析ES的数据,生成的RDD分区数跟什么有关系呢? 稍微猜测一下就能想到跟分片数有关,但是具体是什么关系呢? 可想的具体关系可能是以下两种: 1).就像…
Spark实战(二)学习UDF
在开始正式数据处理之前,我觉得有必要去学习理解下UDF。 UDF UDF全称User-Defined Functions,用户自定义函数,是Spark SQL的一项功能,用于定义新的基于列的函数,这些函数扩展了Spark…
spark sql with hive
spark standalone spark-1.5.0-bin-hadoop2.6 spark-env.sh配置 export SPARK_MASTER_IP=172.16.31.11 export SPARK_MAS…
MySQL
[; \g \G] 都表示语句结束, ;和\g效果一样, \G可以使结果显示更美观 delimiter 结束符号 更改结束符 SET NAMES GBK; show database…
Spark写入HBase(Bulk方式)
在使用Spark时经常需要把数据落入HBase中,如果使用普通的Java API,写入会速度很慢。还好Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢? BulkLoad不会写WAL,也…
spark 与hadoop介绍
昨天有人问我spark是什么,和mapreduce,yarn,hadoop有什么区别和联系。今天饭毕就来絮叨絮叨这些东西。 第一个问题hadoop是什么?一句话,hadoop是大数据处理全家桶。其包括了hdfs(hado…
Spark 实践总结
公司组会上分享的笔记,做个备份,以后有了新的内容,也会添加到其中。 scala就是操作spark的语言,利用spark以及sparkSQL提供的api来操作HDFS中保存的各种数据。 之前的各种操作都是先通过spark.…
Java tomcat启动失败(Servlet3.0 Web Project):A child container failed during start
Tomcat启动失败,失败全部信息: 五月 11, 2016 10:21:04 下午 org.apache.tomcat.util.digester.SetPropertiesRule begin 警告: [SetPro…
Spark2 Dataset之collect_set与collect_list
collect_set去除重复元素;collect_list不去除重复元素select gender, concat_ws(‘,R…
python库--pandas--Series.str--字符串处理
目录 原数据 字符大小写转换 字符串拼接 字符填充/插入/扩展 字符串内容判断 查找 统计 转码 删减/截取 分割/替换 原数据 import pandas as pd a = pd.Series(['aSd', 'as…