标签：spark

初识Apache Spark

第一次接触Spark，自己整理了（从网络，书籍，同事那里）一些Spark的相关内容当做笔记。路过的朋友仅供参考，不能保证说得都对。什么是 Spark 简单来说，Spark是一种面向对象、函数式编程语言。Spark能够像…

Spark 中的 –files 参数与 ConfigFactory 工厂方法 scala 对象以前有个大数据项目做小程序统计，读取 HDFS 上的 Parquet 文件，统计完毕后，将结果写入到 MySQL…

准备工作下载Spark 1.6.2 下载StreamingPro 我们假设你下载的StreamingPro包在/tmp目录下。复制如下模板 { "esToCsv": { "desc": "测试", "strategy…

与Apache Hive的兼容性# Spark SQL 被设计成与Hive Metastore(元数据), SerDes 和UDFs兼容. 目前Spark SQL里的 Hive SerDes 和 UDFs 是基于Hive…

本章为推荐引擎本章为基于电影内容的推荐，假设输入为<用户，电影，评分>，输入为<电影1，电影2><三种算法的相似度>。本章实现方式基于传统spark来实现基于传统Scala来实…

一.安装spark 安装可参照厦门大学数据实验室出的安装教程–Spark快速入门指南 – Spark安装与基础使用二.Spark Python 参照官方文档–Spark Progra…

RDD 操作一基础，放入方法，闭包，输出元素,使用 Key-Value 工作原文地址： http://spark.apache.org/docs/latest/programming-guide.html 仅限交流…

> 如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。 ## 读取 “` val mys…

背景：spark的代码很多是由Java写成的，自从spark为Python开放了借口之后，Python使用者也可以轻松利用spark进行分布式存储和运算，其中的原理是什么？写一点个人理解，可能不够严谨。 py4j-百度百…

最近遇到这样一个业务场景：业务数据存储于 Hbase 中，并在 Hive 表中建立了 HBASE 映射表，已实现在 Hive 及 Impala 中可查，现想通过 Spark-SQL 进行查询，其中 Spark 集群基于…

由于特殊需求，需要在一次Spark任务中切换HDFS集群。本文我将介绍如何在一次的spark任务中操作不同的HDFS集群我们以wordcount为例，分析如何配置。我们的输入数据源来自cluster1的HDFS，需要…

怪就怪之前之前对spark streaming和structed streaming不熟悉，因为之前的实时计算都在用storm。这两天遇到一个问题，我在公司平台上提交spark streaming任务，测试的时候感觉没…