最近自己搭建了一个小群集整理了下hadoop的开发环境 构建项目 构建的时候选择maven项目 maven的配置 https://github.com/yishenggudou/examplehadoop/blob/ma…
标签:hadoop
Hadoop中查看HDFS中的一个文件的位置信息
指令 hadoop fsck /user/hadoop/filename -files -blocks -locations -racks -files 文件分块信息…
以智能数据架构,挖掘增长金矿
对很多技术团队来说,在搭建智能数据架构的过程中,或多或少会遇到一些疑惑和挑战,经过多次实践后,有些团队已经破除疑惑,成功探索出一条搭建智能数据架构之路,那么他们是如何实现这一技术的呢?在近日的个推技术沙龙成都站,几位架构…
spark集群部署-硬件配置官方建议
1、存储系统 因为spark job需要从外部的存储系统(或文件系统)读取数据(例如:hbase、hdfs等),所有让spark任务尽可能的接近数据本地,让spark和hadoop部署到相同的节点上;数据本地性:将计算任…
hadoop 实现序列化
前言 序列化想必大家都很熟悉了,对象在进行网络传输过程中,需要序列化之后才能传输到客户端,或者客户端的数据序列化之后送达到服务端 序列化的标准解释如下: 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便…
《Hadoop》"呶呶不休"(三)HDFS的存储原理
一、数据块的冗余 为了保证系统的容错性和可用性,hdfs采用了多副本方式对数据块进行冗余存储,也就是一个数据块的多个副本会被分布到不同的Datanode上,存储在Datanode的本地文件系统中。 这种多副本的存储方式有…
4、配置虚拟机IP地址
1、三个需要配置的地方 虚拟机 VMware 本机电脑 2、VMware配置 VMware【编辑】菜单中的虚拟网络编辑器 点击VMnet8, 点击右下角的【更改设置】 点击VMnet8 【NAT模式】将最下面的子网IP改…
Windows安装Hadoop
1.下载解压安装配置Hadoop https://www.jianshu.com/p/1e7… 2.Hadoop Error: JAVA_HOME is incorrectly set. 问题 https:/…
向hive表中添加数据
1、首先准备数据源: 学生成绩txt文件,共七个字段(ID,name,Chinese,English,math,school,class) [root@xxx tmp]# hdfs dfs -cat &nbs…
HDFS存储的优缺点
@Author : Spinach | GHB @Link : http://blog.csdn.net/bocai8058 HDFS存储的优缺点 HDFS优点 HDFS缺点 HDFS优点 高容错性:数据自动保存多个副本…
Spring For Hadoop--Working With HBase(一)
最近在做web项目使用到了Hadoop,HBase,在这里对Spring For Hadoop(SHDP)的使用做个总结,主要使用了SHDP中提供的一些封装好的HBase模块。本博客将分两部分写: 对Spring For…
如何查看mapreduce日志
hadoop代码,由main开始呼出map和reduce的, 在main里面写system.out是可以得到输出内容的, 但是在map和reduce中就没那么简单了。 执行中的log能看到,但是执行完了,就没有了! 参照…