本次实践使用kafka console作为消息的生产者,Spark Streaming作为消息的消费者,具体实践代码如下 首先启动kafka server .\bin\windows\kafka-server-start…
分类:Spark
Spark操作Hbase
Spark 下操作 HBase(1.0.0 新 API) HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本。这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0…
spark提交应用的方法(spark-submit)
参考自:https://spark.apache.org/docs/latest/submitting-applications.html 常见的语法: ./bin/spark-submit \ &…
【spark】常用转换操作:keys 、values和mapValues
1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) va…
hive:默认允许动态分区个数为100,超出抛出异常:
在创建好一个分区表后,执行动态分区插入数据,抛出了错误: Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: …
Spark排序之SortBy
sortBy函数源码:接收三个参数,第一个参数必须,第二个和第三个参数非必要 def sortBy[K]( f: (…
Spark MLlib 之 Vector向量深入浅出
Spark MLlib里面提供了几种基本的数据类型,虽然大部分在调包的时候用不到,但是在自己写算法的时候,还是很需要了解的。MLlib支持单机版本的local vectors向量和martix矩阵,也支持集群版本的mat…
常见的七种Hadoop和Spark项目案例
如果你的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。 有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的…
Hadoop,HDFS,Map Reduce,Spark,Hive,Yarn的关系
https://cloud.tencent.com/developer/article/1042387 转载自该文章,加上了自己的一些删减和补充。 Hadoop Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单…
Spark LogisticRegression 逻辑回归之建模
导入包 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Dataset import org.apache.spark.sql.R…
Spark 2017欧洲技术峰会摘要(开发人员分类)
下载全部视频和PPT,请关注公众号(bigdata_summit),并点击“视频下载”菜单 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Dataset…
Spark的动态资源分配机制
spark.dynamicAllocation.enabled:Whether to use dynamic resource allocation, which scales the number of executo…