第一次接触Spark,自己整理了(从网络,书籍,同事那里)一些Spark的相关内容当做笔记。路过的朋友仅供参考,不能保证说得都对。 什么是 Spark 简单来说,Spark是一种面向对象、函数式编程语言。Spark能够像…
标签:spark
Spark 中的 --files 参数与 ConfigFactory 工厂方法
Spark 中的 –files 参数与 ConfigFactory 工厂方法 scala 对象 以前有个大数据项目做小程序统计,读取 HDFS 上的 Parquet 文件,统计完毕后,将结果写入到 MySQL…
StreamingPro使用教程
准备工作 下载Spark 1.6.2 下载StreamingPro 我们假设你下载的StreamingPro包在/tmp目录下。 复制如下模板 { "esToCsv": { "desc": "测试", "strategy…
Spark-1.6.1 SQL与Apache Hive SQL的兼容性
与Apache Hive的兼容性# Spark SQL 被设计成与Hive Metastore(元数据), SerDes 和UDFs兼容. 目前Spark SQL里的 Hive SerDes 和 UDFs 是基于Hive…
数据算法 Hadoop/Spark大数据处理---第十章
本章为推荐引擎 本章为基于电影内容的推荐,假设输入为<用户,电影,评分>,输入为<电影1,电影2><三种算法的相似度>。 本章实现方式 基于传统spark来实现 基于传统Scala来实…
Spark入门——Python
一.安装spark 安装可参照厦门大学数据实验室出的安装教程–Spark快速入门指南 – Spark安装与基础使用 二.Spark Python 参照官方文档–Spark Progra…
Spark 3. RDD 操作一 基础 ,放入方法,闭包,输出元素, 使用 K-V 工作
RDD 操作一 基础 ,放入方法,闭包,输出元素,使用 Key-Value 工作 原文地址: http://spark.apache.org/docs/latest/programming-guide.html 仅限交流…
Spark - 直接操作数据源 MySQL
> 如果我们的Mysql服务器性能不咋滴,但是硬盘很够,如何才能做各种复杂的聚合操作?答案就是使用spark的计算能力的,我们可以将mysql数据源接入到spark中。 ## 读取 “` val mys…
PySpark运行原理
背景:spark的代码很多是由Java写成的,自从spark为Python开放了借口之后,Python使用者也可以轻松利用spark进行分布式存储和运算,其中的原理是什么?写一点个人理解,可能不够严谨。 py4j-百度百…
Spark 之 Spark-SQL-HBASE Error java.lang.IllegalStateException: unread block data
最近遇到这样一个业务场景: 业务数据存储于 Hbase 中,并在 Hive 表中建立了 HBASE 映射表,已实现在 Hive 及 Impala 中可查,现想通过 Spark-SQL 进行查询,其中 Spark 集群基于…
Spark操作多HDFS集群
由于特殊需求,需要在一次Spark任务中切换HDFS集群。 本文我将介绍如何在一次的spark任务中操作不同的HDFS集群 我们以wordcount为例,分析如何配置。我们的输入数据源来自cluster1的HDFS,需要…
关于spark实时计算的checkpoint
怪就怪之前之前对spark streaming和structed streaming不熟悉,因为之前的实时计算都在用storm。 这两天遇到一个问题,我在公司平台上提交spark streaming任务,测试的时候感觉没…