标签：api

Spark Python API函数学习：pyspark API

Welcome to Spark Python API Docs! — PySpark 2.0.1 documentation http://spark.apache.org/docs/latest/api/python…

Spark新年福音：一个用于大规模数据科学的API——DataFrame-CSDN.NET http://www.csdn.net/article/2015-02-17/2823997 Spark DataFrame小试…

由于最近学习了Play Framework这个web开发框架，接口的设计和api非常炫酷。由于是scala写的，所以这个框架对于和大数据框架结合来说个人觉得最非常适合。每次写的saprk 程序都要先上传在登录到Linu…

本文作者：林伟兵，叩丁狼高级讲师。原创文章，转载请注明出处。 1. Flink简介 Flink 提供了三个核心的用户API： Batch Streaming Talbe & SQL 本文不介绍Flink是什么…

曲速区表示：这是首次在真实攻击中发现使用“暗网”来传播恶意后门的样本，预计未来这一趋势会逐步扩大。目前全网约5000台 Spark服务器受此漏洞影响。还被监控到该类型的攻击还处于小范围尝试阶段，需要谨防后续的规模性爆发。…

Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性，希望能够帮助读者对Flink有…

什么是Spark Datasource API Spark Datasource API 是一套连接外部数据源和Spark引擎的框架它主要是给Spark框架提供一种快速读取外界数据的能力，它可以方便地把不同的数据格式通…

MLlib是Spark的机器学习lib，目的是让机器学习的实践变得更加简单，总的来说它提供了以下几种工具： ML算法：分类、回归、聚类和协同过滤等常用学习算法特征工程：特征提取、转换、降维和选择 Pipelines：创…

最近在项目中遇到二次排序的需求，和平常开发spark的application一样，开始查看API，编码，调试，验证结果。由于之前对spark的API使用过，知道API中的sortByKey()可以自定义排序规则，通过实现…

目前Spark的最新版本是2.3.0，更新了Spark streaming对接Kafka的API，但是最新的API仍属于实验阶段，正式版本可能会有变化，本文主要介绍2.3.0的API如何使用。 This version …

概要 GraphX是Spark的一个新模块，该模块用于图和图并行计算。在更高的层面上，GraphX通过引入一种新的图抽象—一个顶点和边均附有属性的有向多图—对Spark RDD进行了扩展。为支持图计算，GraphX提供了…

Kafka为一个分布式的消息队列，spark流操作kafka有两种方式：一种是利用接收器（receiver）和kafaka的高层API实现。一种是不利用接收器，直接用kafka底层的API来实现（spark1.3以后…