标签：spark

Spark之thriftserver/beeline的使用

启动thriftserver: 默认端口是10000 ，可以修改启动beeline beeline -u jdbc:hive2://localhost:10000 -n hadoop 修改thriftserver启动占…

在写spark代码的时候，经常会遇到文件夹路径存在的情况，一般有以下的解决方式 1.在shell脚本中直接调用hadoop fs -rm path 2.通过设置可直接覆盖文件路径，此方法我没有测试 yourSparkC…

本文git地址，转载请注明，感谢 1.Overview spark streaming是spark的一个拓展应用，对实时数据流进行：可拓展、高吞吐、可容错的流处理。数据可以从多个来源得到，比如：Kafka，Flume…

Welcome to Spark Python API Docs! — PySpark 2.0.1 documentation http://spark.apache.org/docs/latest/api/python…

我们以数据源自kafka为例，进行spark作业调优的分析 1 资源评估网络能力：评估下使用的节点数、网络带宽，与所要处理的数据量，在网络能力上是否匹配。节点直接的网络是否符合预期。计算能力：估算下所拥有的节点的…

spark大数据计算框架的原理就是以scala的内存计算为基础,然后将一个大计算量的计算,在spark中叫job,根据宽窄依赖划分成多个stage,每个stage包含多个task,然后把task发送给work上的exec…

本文旨在简析 Spark 读取数据库的一些关键源码 Spark如何读取数据库数据像其他的数据映射框架一样（如hibernate，mybatis等），spark如果想读取数据库数据，也绕不开JDBC链接，毕竟这是代码与数…

DataFrame的概念来自R/Pandas语言，不过R/Pandas只是runs on One Machine，DataFrame是分布式的，接口简单易用。 Threshold: Spark RDD API VS Ma…

最近在项目中遇到二次排序的需求，和平常开发spark的application一样，开始查看API，编码，调试，验证结果。由于之前对spark的API使用过，知道API中的sortByKey()可以自定义排序规则，通过实现…

搭建好HADOOP高可用后发现HADOOP2.7.x版本并不能支持SPARK1.6.x因此重新搭建了HADOOP2.6.5高可用集群节点配置如下 hadoop1 192.168.1.111 hadoop2 192.16…

hadoop和spark高可用集群搭建参考链接： http://www.jianshu.com/writer#/notebooks/6146839/notes/6304146 方案 192.168.211.129 ela…

遇到的问题：在配置spark的时候，启动spark-shell正常启动和使用，但是使用脚本start-all.sh 启动所有的服务时遇到问题，抛出Java异常： Unsupported major.minor vers…