标签：import

hadoop学习遇到的错误4 JAVA操作HDFS下载文件

使用java API操作HDFS，老师说只要掌握了FileSystem这个类就OK（的确，翻了源码，这个类里面的内容还真不少）。下面写上JAVA操作的代码： “`java package HDFS; imp…

1.环境 Mysql 5.6 Sqoop 1.4.6 Hadoop 2.5.2 HBase 0.98 Elasticsearch 2.3.5 2.安装（略过） 3.HBase Coprocessor实现 HBase Ob…

java客户端&开发环境搭建 win7下开发环境配置 1 先官网下hadop,然后配置HADOOP_HOME. 2 用csdn下的包替换HADOOP_HOME里的bin目录此文件已经存于网盘要注意版本对应. …

读取mysql数据作为DataFrame import java.text.SimpleDateFormat import java.util.{Calendar, Date} import com.iptv.domai…

完整工程用例最近一直在用directstream方式消费kafka中的数据，特此总结，整个代码工程分为三个部分一. 完整工程代码如下(某些地方特意做了说明, 这个代码的部分函数直接用的是spark-streaming…

Spark广播变量什么是广播变量？在同一个Execute共享同一份计算逻辑的变量广播变量使用场景我现在要在在这些内容中过滤java和object-c 过滤内容使用广播变量过滤代码逻辑： package com.…

package com.everdata.spark; import java.io.IOException; import java.sql.Array; import java.sql.Connection; imp…

参考资料：spark MLlib 官方文档 package lean_mllib //import breeze.linalg.PCA import org.apache.spark.ml.feature._ impor…

CombineByKey 基于键聚合这是最基本的聚合操作, 很多封装的函数都是基于它, 但能用更方便的函数就不要使用它. package cn.zb; import lombok.extern.slf4j.Slf4j;…

DataFrame 写入mysql import java.io.FileInputStream import java.sql.{Connection, DriverManager} import java.util.…

image.png image.png 正常来说 neo4j是用来图存储的，neo4j企业版的性能远远高于社区版，毕竟是收费的，不过只要下载到就可以使用了，我已经用上了，非常棒。 spark 是用来做图计算的，…

开发环境： spark 2.3 kafka 1.1.1 黑名单数据是从mysql中获取的。源数据是从kafka中获取的，数据格式就是简单的姓名，为了与黑名单数据做join，源数据和黑名单数据都需要转换成键值对的形式。 J…