分类：Spark

Spark Streaming与kafka整合实践之WordCount

本次实践使用kafka console作为消息的生产者，Spark Streaming作为消息的消费者，具体实践代码如下首先启动kafka server .\bin\windows\kafka-server-start…

Spark 下操作 HBase（1.0.0 新 API） HBase经过七年发展，终于在今年2月底，发布了 1.0.0 版本。这个版本提供了一些让人激动的功能，并且，在不牺牲稳定性的前提下，引入了新的API。虽然 1.0…

参考自：https://spark.apache.org/docs/latest/submitting-applications.html 常见的语法： ./bin/spark-submit \ &…

1.keys 功能：　　返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) va…

在创建好一个分区表后，执行动态分区插入数据，抛出了错误： Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: …

sortBy函数源码：接收三个参数，第一个参数必须，第二个和第三个参数非必要 def sortBy[K]( f: (…

Spark MLlib里面提供了几种基本的数据类型，虽然大部分在调包的时候用不到，但是在自己写算法的时候，还是很需要了解的。MLlib支持单机版本的local vectors向量和martix矩阵,也支持集群版本的mat…

如果你的Hadoop项目将有新的突破，那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会做别人正在做的事情。如比较火爆的…

https://cloud.tencent.com/developer/article/1042387 转载自该文章，加上了自己的一些删减和补充。 Hadoop Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单…

导入包 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Dataset import org.apache.spark.sql.R…

下载全部视频和PPT，请关注公众号(bigdata_summit)，并点击“视频下载”菜单 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Dataset…

spark.dynamicAllocation.enabled：Whether to use dynamic resource allocation, which scales the number of executo…