启动thriftserver: 默认端口是10000 ,可以修改 启动beeline beeline -u jdbc:hive2://localhost:10000 -n hadoop 修改thriftserver启动占…
标签:spark
spark中删除文件夹
在写spark代码的时候,经常会遇到文件夹路径存在的情况,一般有以下的解决方式 1.在shell脚本中 直接调用hadoop fs -rm path 2.通过设置可直接覆盖文件路径,此方法我没有测试 yourSparkC…
Spark Streaming快速入坑指南
本文git地址,转载请注明,感谢 1.Overview spark streaming是spark的一个拓展应用,对实时数据流进行:可拓展、高吞吐、 可容错的流处理。 数据可以从多个来源得到,比如:Kafka,Flume…
Spark Python API函数学习:pyspark API
Welcome to Spark Python API Docs! — PySpark 2.0.1 documentation http://spark.apache.org/docs/latest/api/python…
spark 作业调优指南
我们以数据源自kafka为例,进行spark作业调优的分析 1 资源评估 网络能力: 评估下使用的节点数、网络带宽,与所要处理的数据量,在网络能力上是否匹配。节点直接的网络是否符合预期。 计算能力: 估算下所拥有的节点的…
spark 任务分发
spark大数据计算框架的原理就是以scala的内存计算为基础,然后将一个大计算量的计算,在spark中叫job,根据宽窄依赖划分成多个stage,每个stage包含多个task,然后把task发送给work上的exec…
Spark JDBC系列--源码简析
本文旨在简析 Spark 读取数据库的一些关键源码 Spark如何读取数据库数据 像其他的数据映射框架一样(如hibernate,mybatis等),spark如果想读取数据库数据,也绕不开JDBC链接,毕竟这是代码与数…
Spark DataFrame基本操作
DataFrame的概念来自R/Pandas语言,不过R/Pandas只是runs on One Machine,DataFrame是分布式的,接口简单易用。 Threshold: Spark RDD API VS Ma…
【spark】sortByKey实现二次排序
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果。由于之前对spark的API使用过,知道API中的sortByKey()可以自定义排序规则,通过实现…
SPARK集群配置
搭建好HADOOP高可用后 发现HADOOP2.7.x版本并不能支持SPARK1.6.x因此重新搭建了HADOOP2.6.5高可用集群节点配置如下 hadoop1 192.168.1.111 hadoop2 192.16…
Hbase高可用集群搭建
hadoop和spark高可用集群搭建参考链接: http://www.jianshu.com/writer#/notebooks/6146839/notes/6304146 方案 192.168.211.129 ela…
大数据工具:Spark配置遇到的坑
遇到的问题: 在配置spark的时候,启动spark-shell正常启动和使用,但是使用脚本start-all.sh 启动所有的服务时遇到问题,抛出Java异常: Unsupported major.minor vers…