注意:将mysql的驱动包拷贝到spark/lib下,将hive-site.xml拷贝到项目resources下,远程调试不要使用主机名import org.apache.spark._ import org.apach…
分类:Spark
spark企业经典案例之手机app流量统计
spark企业经典案例之手机app流量统计,本课程是基于企业真实项目案例中的一个模块为背景讲解,此业务涉及spark统计,然后通过phpweb进行读取数据,最终通过手机端展示,根据公司案例抽取出来的模板,通过此案例把整个…
谈一本书《Spark快速大数据分析》
团队的负责大数据这块的同事有事出差了,所以他的工作各种原因最后落在了我的手中。 虽然说it技术更新迭代速度很快,但是本人在各种学习渠道中喜欢的还是读书的方式。Big Data这部分涉及的技术对于我来说比较新(之前只是在网…
hadoop_2_spark安装
本文是基于网络大数据助教的spark安装指南,我作为作业整理一下这个过程,仅限于有线网络,请先参考hadoop_1_hadoop安装后在看此文。 将百度网盘下载的2个tgz文件放入上文的vmshare文件夹中 在mast…
scala、spark学习资料整理
github地址 后面继续更新在github utils4s scala语法学习 common库 BigData库 Spark Spark core Spark Streaming Spark SQL Spark 机器学…
pyspark系列--dataframe基础
dataframe基础 1. 连接本地spark 2. 创建dataframe 3. 查看字段类型 4. 查看列名 5. 查看行数 6. 重命名列名 7. 选择和切片筛选 8. 删除一列 增加一列 9. 转json 10…
hadoop、storm和spark的区别、比较
一、hadoop、Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop、Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什么场景,什么情况下使…
绝对干货:Spark核心技术系列课程和实践学习
云栖社区围绕大数据技术——Spark整理了一份详尽的学习、实践课程,整个课程分为三大部分: 一、基础打磨:《Scala入门到精通》《Linux&Akka基础》的系列学习课程; 二、深入理解:本部分主要包含《源码走…
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十二)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。,Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》
Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台Ce…
elasticsearch+spark+hbase 整合
1.用到的maven依赖 <dependency> <groupId>org.apache.spark</groupId> &l…
es查询--请求body
目录 body query match 模糊搜索 match_phrase 短文本搜索 match_phrase_prefix 短文本搜索, 支持前缀匹配 multi_match 同时匹配多字段 查询的JSON结构 普通…
ETL实践--Spark做数据清洗
ETL实践–Spark做数据清洗 上篇博客,说的是用hive代替kettle的表关联。是为了提高效率。 本文要说的spark就不光是为了效率的问题。 1…