分类：Spark

有哪些值得关注的技术博客（Java篇）

大部分程序员在自学的道路上不知道走了多少坑，这个视频那个网站搞得自己晕头转向。对我个人来说我平常在学习的过程中喜欢看一些教程式的博客。这些博客的特点： 1、总结知识点相对比较全面 2、一般来说讲解知识点通俗易懂 3、路线…

scala> val df1 = spark.createDataset(Seq(("aaa", 1, 2), ("bbb", 3, 4), ("ccc", 3, 5), ("bbb", 4, 6)) ).toDF…

Spark Streaming 支持多种实时输入源数据的读取，其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源，由于我们的业务场景没有涉及，在此将不会讨论。本篇文章主要着眼于我们目前的业…

1 public class TaskProcess 2 { 3 [DllImport("kernel32.dll", SetLastError = true)] 4 public static extern int S…

今天看到一篇讲得比较清晰的框架对比，这几个框架的选择对于初学分布式运算的人来说确实有点迷茫，相信看完这篇文章之后应该能有所收获。简介大数据是收集、整理、处理大容量数据集，并从…

方法返回数据类型参数说明 Series(一维) .Series() Series 实例s 创建一维数据类型Series data=None 要转化为Series的数据(也可…

参考http://www.powerxing.com/spark-quick-start-guide/#more-291 和 http://www.thebigdata.cn/Hadoop/29516.html &nbs…

引言上一篇文章TensorFlow Estimator 模型从训练到部署，介绍了使用了Estimator API模型的训练和部署流程，并通过Python客户端请求TensorFlow serving服务。这篇文章算是…

Spark踩坑记 https://zhuanlan.zhihu.com/p/60657101 【1号坑】spark-submit提交 jar 失败提示：spark-submit /bin/spark-class: No…

Spark Standalone模式安装Spark Standalone集群手动启动集群集群创建脚本提交应用到集群创建Spark应用资源调度及分配监控与日志与Hadoop共存配置网络…

优化思路内存优化内存优化大概分为三个方向 1.所有对象的总内存（包括数据和java对象） 2.访问这些对象的开销 3.垃圾回收的开销其中Java的原生对象往往都能被很快的访问，但是会多占据2-5倍或更多的内存，有下…

欢迎转载，转载请注明出处，徽沪一郎。概要本来源码编译没有什么可说的，对于java项目来说，只要会点maven或ant的简单命令，依葫芦画瓢，一下子就ok了。但到了Spark上面，事情似乎不这么简单，按照spark o…