友情序言 获悉Spark最近要出书了,突然有很多感慨,心想不如写点东西出来,算是友情支持,也算是个人总结。观点尽量中立,内容尽量煽情。 本着牛哥“站在巨人的肩膀上”的理论,在捧Spark之前,要先捧一下她的…
分类:Spark
进行Spark,Kafka针对Kerberos相关配置
1. 提交任务的命令 spark-submit \--class <classname> \--master yarn \--deploy-mode client \--executor-memory 2g …
大数据之Hadoop------>Spark
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭…
Spark之spark shell,MapPartition和Map的区别
前言:要学习spark程序开发,建议先学习spark-shell交互式学习,加深对spark程序开发的理解。spark-shell提供了一种学习API的简单方式,以及一个能够进行交互式分析数据的强大工具,可以使用scal…
spark sql读hbase
项目背景 spark sql读hbase据说官网如今在写,但还没稳定,所以我基于hbase-rdd这个项目进行了一个封装,当中会区分是否为2进制,假设是就在配置文件里指定为#b,如long#b,还实用了个公司封装的Byt…
【学途无忧网】大数据推荐系统算法代码全接触(机器学习算法+Spark实现)
【学途无忧网】大数据推荐系统算法代码全接触(机器学习算法+Spark实现) 课程下载地址:https://pan.baidu.com/s/1piCNIxC2Sv0zMY0yWxY9Ug 提取码:b10v 一、课程简介: …
One-vs-Rest算法介绍及Spark MLlib调用(Scala/Java/Python)
One-vs-Rest 算法介绍: OneVsRest将一个给定的二分类算法有效地扩展到多分类问题应用中,也叫做“One-vs-All.”算法。OneVsRest是一个Estimator。它采用一个基础的Classifi…
spark在windows下的安装
Windows下最简的开发环境搭建 这里的spark开发环境, 不是为apache spark开源项目贡献代码, 而是指基于spark的大数据项目开发. Spark提供了2个交互式shell, 一个是pys…
pyspark系列--日期函数
日期函数 1. 获取当前日期 2. 获取当前日期和时间 3. 日期格式转换 4. 字符转日期 5. 获取日期中的年月日 6. 获取时分秒 7. 获取日期对应的季度 8. 日期加减 9. 月份加减 10. 日期差,月份差 …
hive 实现将多行记录合并成一行:concat_ws,collect_set,collect_list
数据表的记录如下 5112 960024 5112 960025 5112 960026 5112 960027 5112 960028 5113 960043 5113 960044 5113 960045 5113 …
JAVA:通过poi读取excel
POI是一个apache开源的jar包,可以通过搜索 java POI找到官网,并下载开发包. 包含的功能: 可以读取excel2003,2007,2010等。 读取excel2007/2010的代码: public s…
通过Spark Rest 服务监控Spark任务执行情况
1、Rest服务 Spark源为了方便用户对任务做监控,从1.4版本启用Rest服务,用户可以通过访问地址,得到application的运行状态。 Spark的REST API返回的信息是JSON格式的,开发者们…