hadoop默认把文件放在/tmp中,而该目录是一个临时目录用于传放临时文件,所有如果hadoop把文件放在这里会被不定时的删除。 修改配置文件: # cd /usr/local/hadoop/etc/hadoop # …
标签:hdfs
hdfs集成Kerberos
隶属于文章系列:大数据安全实战 https://www.jianshu.com/p/76627fd8399c 步骤 创建principle 修改core-site.xml 修改hdfs-site.xml 配置HTTPS …
Hadoop 源码学习笔记(1)--前言和目录
Hadoop 前言 说到分布式软件,就一定绕不过Hadoop。 Hadoop 是 Google 著名的 MapReduce 和 GFS 论文的开源实现,它为我们提供了一个分布式的数据存储和计算框架,能够让我们在低成本的P…
Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)
上一小节我们学习了FileSystem类的基本使用,本小节我们首先来学习使用API来完成文件的上传,要使用javaAPI来上传文件至集群我们需要使用到FSDataInputStream对象。 FSDataInputStr…
Hadoop面试复习系列——HDFS(一)
转载自: https://cloud.tencent.com/developer/article/1031641 https://my.oschina.net/freelili/blog/1853668 HDFS优缺点 …
【Hadoop】基于QJM的HDFS高可用系列四 - 自动failover
官方文档翻译,官方链接。 翻译水平有限,且以学习为主,请谅解和提意见。 转载请注明出处!!! 自动failover 介绍 前面详细说明了如何配置手工failover。在那种模式下,系统不能自动地触发将NameNode从a…
hive 导出数据
1. 导出到hdfs insert overwrite directory ‘$hdfs_dir’ select distinct concat(query,’\t’,qu…
利用Sqoop实现HDFS的数据与MySQL数据的互导
利用Sqoop实现HDFS的数据与MySQL数据的互导 1. 查看帮助 [root@repo bin]# ./sqoop help Available commands: codegen Generate code to…
spark on yarn 搭建
原理 Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on yarn了,…
Spark操作多HDFS集群
由于特殊需求,需要在一次Spark任务中切换HDFS集群。 本文我将介绍如何在一次的spark任务中操作不同的HDFS集群 我们以wordcount为例,分析如何配置。我们的输入数据源来自cluster1的HDFS,需要…
HDFS:Spark删除hdfs文件
1. 查看hdfs文件中前几行 随机返回指定行数的样本数据 hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5 返回前几行的样本数据…
spark程序优化总结
转行写spark程序快一年时间了,我最深刻的体会是实现功能容易,但如何提高程序的执行效率却是个难题。我们用的spark主要是spark sql框架,使用spark sql实现数据的清洗、抽取以及计算。期间,我们用了大部分…