大部分程序员在自学的道路上不知道走了多少坑,这个视频那个网站搞得自己晕头转向。对我个人来说我平常在学习的过程中喜欢看一些教程式的博客。这些博客的特点: 1、总结知识点相对比较全面 2、一般来说讲解知识点通俗易懂 3、路线…
分类:Spark
Spark的Dataset操作-多表操作 join
scala> val df1 = spark.createDataset(Seq(("aaa", 1, 2), ("bbb", 3, 4), ("ccc", 3, 5), ("bbb", 4, 6)) ).toDF…
Spark Streaming场景应用-Kafka数据读取方式
Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业…
Process启动.exe,当.exe内部抛出异常时,总会弹出一个错误提示框,阻止Process进入结束
1 public class TaskProcess 2 { 3 [DllImport("kernel32.dll", SetLastError = true)] 4 public static extern int S…
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
今天看到一篇讲得比较清晰的框架对比,这几个框架的选择对于初学分布式运算的人来说确实有点迷茫,相信看完这篇文章之后应该能有所收获。 简介 大数据是收集、整理、处理大容量数据集,并从…
python库--pandas--Series
方法 返回数据类型 参数 说明 Series(一维) .Series() Series 实例s 创建一维数据类型Series data=None 要转化为Series的数据(也可…
Spark安装
参考http://www.powerxing.com/spark-quick-start-guide/#more-291 和 http://www.thebigdata.cn/Hadoop/29516.html &nbs…
Spark、Python、Golang、C++生成TFrecord格式数据
引言 上一篇文章TensorFlow Estimator 模型从训练到部署,介绍了使用了Estimator API模型的训练和部署流程,并通过Python客户端请求TensorFlow serving服务。 这篇文章算是…
Spark踩坑记
Spark踩坑记 https://zhuanlan.zhihu.com/p/60657101 【1号坑】spark-submit提交 jar 失败 提示:spark-submit /bin/spark-class: No…
【原】Spark Standalone模式
Spark Standalone模式 安装Spark Standalone集群 手动启动集群 集群创建脚本 提交应用到集群 创建Spark应用 资源调度及分配 监控与日志 与Hadoop共存 配置网络…
spark(二)优化思路
优化思路 内存优化 内存优化大概分为三个方向 1.所有对象的总内存(包括数据和java对象) 2.访问这些对象的开销 3.垃圾回收的开销 其中Java的原生对象往往都能被很快的访问,但是会多占据2-5倍或更多的内存,有下…
Apache Spark源码走读之9 -- Spark源码编译
欢迎转载,转载请注明出处,徽沪一郎。 概要 本来源码编译没有什么可说的,对于java项目来说,只要会点maven或ant的简单命令,依葫芦画瓢,一下子就ok了。但到了Spark上面,事情似乎不这么简单,按照spark o…