Welcome to Spark Python API Docs! — PySpark 2.0.1 documentation http://spark.apache.org/docs/latest/api/python…
标签:api
==[DataFrame]进化的Spark, 从DataFrame说起
Spark新年福音:一个用于大规模数据科学的API——DataFrame-CSDN.NET http://www.csdn.net/article/2015-02-17/2823997 Spark DataFrame小试…
利用web管理spark任务
由于最近学习了Play Framework这个web开发框架,接口的设计和api非常炫酷。由于是scala写的,所以这个框架对于和大数据框架结合来说个人觉得最非常适合。 每次写的saprk 程序都要先上传在登录到Linu…
Flink官方入门项目简介
本文作者:林伟兵,叩丁狼高级讲师。原创文章,转载请注明出处。 1. Flink简介 Flink 提供了三个核心的用户API: Batch Streaming Talbe & SQL 本文不介绍Flink是什么…
Spark REST API深入分析
曲速区表示:这是首次在真实攻击中发现使用“暗网”来传播恶意后门的样本,预计未来这一趋势会逐步扩大。目前全网约5000台 Spark服务器受此漏洞影响。还被监控到该类型的攻击还处于小范围尝试阶段,需要谨防后续的规模性爆发。…
Flink 原理与实现:深入理解Flink核心技术
Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有…
【Spark】DataSource API
什么是Spark Datasource API Spark Datasource API 是一套连接外部数据源和Spark引擎的框架 它主要是给Spark框架提供一种快速读取外界数据的能力,它可以方便地把不同的数据格式通…
Spark MLlib学习——综述和Pipeline
MLlib是Spark的机器学习lib,目的是让机器学习的实践变得更加简单,总的来说它提供了以下几种工具: ML算法:分类、回归、聚类和协同过滤等常用学习算法 特征工程:特征提取、转换、降维和选择 Pipelines:创…
【spark】sortByKey实现二次排序
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果。由于之前对spark的API使用过,知道API中的sortByKey()可以自定义排序规则,通过实现…
Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)
目前Spark的最新版本是2.3.0,更新了Spark streaming对接Kafka的API,但是最新的API仍属于实验阶段,正式版本可能会有变化,本文主要介绍2.3.0的API如何使用。 This version …
Spark-GraphX
概要 GraphX是Spark的一个新模块,该模块用于图和图并行计算。在更高的层面上,GraphX通过引入一种新的图抽象—一个顶点和边均附有属性的有向多图—对Spark RDD进行了扩展。为支持图计算,GraphX提供了…
Spark Streaming读取Kafka数据
Kafka为一个分布式的消息队列,spark流操作kafka有两种方式: 一种是利用接收器(receiver)和kafaka的高层API实现。 一种是不利用接收器,直接用kafka底层的API来实现(spark1.3以后…