https://github.com/JerryLead/SparkInternals Spark Internals Spark Version: 1.0.2 Doc Version: 1.0.2.0 Authors …
分类:Spark
Spark 性能优化方案
Spark 性能优化方案(转自李智慧的Spark性能优化方案): Spark性能测试工具 •Spark性能测试基准程序Benchmark –https://github.com/intel-hadoop/HiBench …
Spark入门网络课程推荐
现在大数据处理领域最火爆的非Spark莫属,今年夏天Berkeley大学开放了两门Spark入门网络课程。跟着学习了一下,感觉非常适合入门,课程同时会涉及到数据分析方法、ML的一些基础算法。 两门课程如下: 第一门 CS…
Spark实例-DataFrame加载和保存数据
Spark加载不同格式文件时,调用sqlContext.read.format(“”).load方法 val peopleDF=sqlContext.read.format("json").loa…
Spark读写HBase之使用Spark自带的API以及使用Bulk Load将大量数据导入HBase
1. 需要的jar包依赖 <properties> <spark.version>2.3.0</spark.version> <hbase.version>1.2.6<…
初识Apache Spark
第一次接触Spark,自己整理了(从网络,书籍,同事那里)一些Spark的相关内容当做笔记。路过的朋友仅供参考,不能保证说得都对。 什么是 Spark 简单来说,Spark是一种面向对象、函数式编程语言。Spark能够像…
Spark 中的 --files 参数与 ConfigFactory 工厂方法
Spark 中的 –files 参数与 ConfigFactory 工厂方法 scala 对象 以前有个大数据项目做小程序统计,读取 HDFS 上的 Parquet 文件,统计完毕后,将结果写入到 MySQL…
Spark-on-yarn遇到的Java crash问题
问题描述 配置好Hadoop集群(包括hdfs和yarn),配置好spark-on-yarn,提交任务后发现container异常退出,有core dump产生;修改yarn的资源配置,依然crash。 containe…
spark题05
1.scala中private 与 private[this] 修饰符的区别? private[包名],private[this] 可以放在字段,方法和类上,用来限制访问权限; private[包名] 包名可以是父包名或…
数据算法 Hadoop/Spark大数据处理---第十章
本章为推荐引擎 本章为基于电影内容的推荐,假设输入为<用户,电影,评分>,输入为<电影1,电影2><三种算法的相似度>。 本章实现方式 基于传统spark来实现 基于传统Scala来实…
【Spark Java API】Transformation(9)—sortByKey、repartitionAndSortWithinPartitions
sortByKey 官方文档描述: Sort the RDD by key, so that each partition contains a sorted range of the elements in ascen…
Spark入门——Python
一.安装spark 安装可参照厦门大学数据实验室出的安装教程–Spark快速入门指南 – Spark安装与基础使用 二.Spark Python 参照官方文档–Spark Progra…