使用java API操作HDFS,老师说只要掌握了FileSystem这个类就OK(的确,翻了源码,这个类里面的内容还真不少)。 下面写上JAVA操作的代码: “`java package HDFS; imp…
标签:import
Sqoop导入HBase,并借助Coprocessor协处理器同步索引到ES
1.环境 Mysql 5.6 Sqoop 1.4.6 Hadoop 2.5.2 HBase 0.98 Elasticsearch 2.3.5 2.安装(略过) 3.HBase Coprocessor实现 HBase Ob…
hadoop-java客户端搭建&WordCount
java客户端&开发环境搭建 win7下开发环境配置 1 先官网下hadop,然后配置HADOOP_HOME. 2 用csdn下的包替换HADOOP_HOME里的bin目录 此文件已经存于网盘 要注意版本对应. …
Spark:读取mysql数据作为DataFrame
读取mysql数据作为DataFrame import java.text.SimpleDateFormat import java.util.{Calendar, Date} import com.iptv.domai…
spark-streaming-kafka之createDirectStream模式
完整工程用例 最近一直在用directstream方式消费kafka中的数据,特此总结,整个代码工程分为三个部分 一. 完整工程代码如下(某些地方特意做了说明, 这个代码的部分函数直接用的是spark-streaming…
Spark的广播变量机制
Spark广播变量 什么是广播变量? 在同一个Execute共享同一份计算逻辑的变量 广播变量使用场景 我现在要在在这些内容中过滤java和object-c 过滤内容 使用广播变量过滤代码逻辑: package com.…
spark广播变量
package com.everdata.spark; import java.io.IOException; import java.sql.Array; import java.sql.Connection; imp…
Spark-MLlib-特征抽取
参考资料:spark MLlib 官方文档 package lean_mllib //import breeze.linalg.PCA import org.apache.spark.ml.feature._ impor…
spark PairRDD 键值对操作
CombineByKey 基于键聚合 这是最基本的聚合操作, 很多封装的函数都是基于它, 但能用更方便的函数就不要使用它. package cn.zb; import lombok.extern.slf4j.Slf4j;…
Spark:将DataFrame 写入mysql
DataFrame 写入mysql import java.io.FileInputStream import java.sql.{Connection, DriverManager} import java.util.…
neo4j与spark 的结合
image.png image.png 正常来说 neo4j是用来图存储的,neo4j企业版 的性能远远高于 社区版,毕竟是收费的,不过 只要下载到就可以使用了,我已经用上了,非常棒。 spark 是用来 做 图计算的,…
Kafka+Spark Streaming进行网站黑名单实时过滤
开发环境: spark 2.3 kafka 1.1.1 黑名单数据是从mysql中获取的。源数据是从kafka中获取的,数据格式就是简单的姓名,为了与黑名单数据做join,源数据和黑名单数据都需要转换成键值对的形式。 J…