标签：spark

IE10,IE11下cookie无法写入问题

asp.net 4.0的程序，发布后，测试在ie6,ie7,ie8,ie9下均可以正常登录，但是在ie10,ie11下就是无法保存cookie，排查了一下是否ie10,ie11是否存在设置问题发下并不是。从别人的解决方…

本文转载至Spark踩坑记–Spark Streaming+Kafka 前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当…

统计基础 1. 简单统计 2. 随机数 3. 四舍五入 4. 抽样 5. 描述性统计 6. 最大值最小值 7. 均值方差 8. 协方差与相关系数 9. 交叉表(列联表) 10. 频繁项目元素 11. 其他数学函数 11.…

数据分析中的Excel、R、Python、SPSS、SAS和SQL 作为一直想入门数据分析的童鞋们来说，如何选定一门面向数据分析的编程语言或工具呢？注意是数据分析，而不是大数据哦，数据分析是基础了。数据分析的工具千万种…

在Spark开发中，有时为了更好的效率，特别是涉及到关联操作的时候，对数据进行重新分区操作可以提高程序运行效率（很多时候效率的提升远远高于重新分区的消耗，所以进行重新分区还是很有价值的）。在SparkSQL中，对数据重新…

欢迎转载，转载请注明出处，徽沪一郎。概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的，另外试图讲清楚运行着的task其输入的数据从哪获取，处理的结果返回到哪里，如何返回。准备 spa…

1.前言 Hive算是大数据数据仓库的事实标准吧。Hive可以方法HDFS和Hbase上的数据，impala、spark sql、Presto完全能读取hive建立的数据仓库了的数据。一般情况在批处理任务中还在使用Hiv…

假设我们有一组个人信息，我们针对人的性别进行分组统计，并进行统计每个分组中的记录数。 scala> val people = List(("male", "Mobin"), ("male", "Kpop"), ("…

常量学习： <?php # function demo function sum($x,$y){ $z=$x+$y; return $z; } echo sum(1,2); #define demo echo '&…

随着企业内部业务系统越来越多，基于JVM的服务，通常情况线上环境可能会有多套JDK跑不同的服务。大家都知道基于高版本的Java规范编写的服务跑在低版本的JVM上会出现：java.lang.UnsupportedClass…

数据接收并行度调优（一）通过网络接收数据时（比如Kafka、Flume），会将数据反序列化，并存储在Spark的内存中。如果数据接收称为系统的瓶颈，那么可以考虑并行化数据接收。每一个输入DStream都会在某个Wor…

spark中，不论spark-shell还是spark-submit，都可以设置memory大小，但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。从名字…