分类：Spark

数据分析中的Excel、R、Python、SPSS、SAS和SQL

数据分析中的Excel、R、Python、SPSS、SAS和SQL 作为一直想入门数据分析的童鞋们来说，如何选定一门面向数据分析的编程语言或工具呢？注意是数据分析，而不是大数据哦，数据分析是基础了。数据分析的工具千万种…

在Spark开发中，有时为了更好的效率，特别是涉及到关联操作的时候，对数据进行重新分区操作可以提高程序运行效率（很多时候效率的提升远远高于重新分区的消耗，所以进行重新分区还是很有价值的）。在SparkSQL中，对数据重新…

欢迎转载，转载请注明出处，徽沪一郎。概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的，另外试图讲清楚运行着的task其输入的数据从哪获取，处理的结果返回到哪里，如何返回。准备 spa…

1.前言 Hive算是大数据数据仓库的事实标准吧。Hive可以方法HDFS和Hbase上的数据，impala、spark sql、Presto完全能读取hive建立的数据仓库了的数据。一般情况在批处理任务中还在使用Hiv…

假设我们有一组个人信息，我们针对人的性别进行分组统计，并进行统计每个分组中的记录数。 scala> val people = List(("male", "Mobin"), ("male", "Kpop"), ("…

常量学习： <?php # function demo function sum($x,$y){ $z=$x+$y; return $z; } echo sum(1,2); #define demo echo '&…

随着企业内部业务系统越来越多，基于JVM的服务，通常情况线上环境可能会有多套JDK跑不同的服务。大家都知道基于高版本的Java规范编写的服务跑在低版本的JVM上会出现：java.lang.UnsupportedClass…

数据接收并行度调优（一）通过网络接收数据时（比如Kafka、Flume），会将数据反序列化，并存储在Spark的内存中。如果数据接收称为系统的瓶颈，那么可以考虑并行化数据接收。每一个输入DStream都会在某个Wor…

spark中，不论spark-shell还是spark-submit，都可以设置memory大小，但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。从名字…

datatime.date类构造器返回值类型说明 (year, month, day) date 类方法/属性 .max date datetime.date…

最近在学习中，需要用spark读取mysql数据，查阅了很多资料大多是java版本的，自己琢磨了半天，研究出python版本的，本人菜鸟，本博客只会记录学习过程，如有不妥请见谅。所用spark版本为1.4.1. 先上自己…

和一般RDD最大的不同就是有两个泛型参数, [K, V]表示pair的概念关键的function是, combineByKey, 所有pair相关操作的抽象 combine是这样的操作, Turns an RDD[(K…