HDFS 是基于 流数据 访问模式的 分布式 文件系统(HDFS放宽了一部分 POSIX约束 ,来实现 流式读取 文件系统数据的目的),支持存储 海量 的数据,可以运行在 低成本 的硬件上。其提供 高吞吐量 、高容错性 …
分类:Hadoop
VMware虚拟机与主机之间建立共享文件夹
** VMware虚拟机与主机之间建立共享文件夹 文章目录 VMware虚拟机与主机之间建立共享文件夹 实验目的及其实验环境 一、新建虚拟机 1.虚拟机的建立 2.打开虚拟机设置界面,选择Linux.iso镜像文件,镜像…
大数据建立模型过程
最近没有更新博客,是因为一直在思考自己的职业方向,作为一个工作已经快三年的java开发工程师来说,java的技术应该是非常优秀的。而我则不然,因为我在此期间做了大概有一年的数据处理。 根据这一年所做的事情想要做个小总结,…
Hadoop:数据压缩、Yarn、企业优化
文章目录 一、Hadoop数据压缩 1.1 概述 1.2 压缩策略和原则 1.3 MR支持的压缩编码 1.4 压缩方式选择 1.5 压缩位置选择 1.6 压缩参数配置 1.7 压缩实操案例 二、Yarn资源调度 2.1 …
Hadoop三种部署模式及区别
Hadoop三种部署模式及区别 standalone mode,独立模式 Pseudo-Distributed mode,伪分布模式 cluster mode,集群模式 区别 集群模式不做介绍,用于实际生产环境 独立模式…
Hadoop安装部署的三种模式总结
目前来说,Hadoop的安装部署的模式一共有三种,就是如下三种: 本地模式 伪分布模式 全分布模式 1、独立模式(本地模式) standalone 默认的模式,无需运行任何守护进程(daemon),所有程序都在单个JVM…
一、初始Hadoop之一Hadoop三大组件
一、Hadoop的组件: 1、HDFS 一个高可靠、高吞吐量的分布式文件系统 存储海量数据 分布式 安全性 副本数据 数据是以block的方式进行存储的,128M 比如:200M—128M 72M 2、MapReduce…
hadoop三大组件的简单图解
如有不对,欢迎大家指正
Hadoop学习之SSH免密登录配置(以三台虚拟机为例,完全分布式)
目录 1.更改主机名(便于进行操作) 方法一 编辑  …
hadoop集群中的三台主机两两之间配置免密登录
hadoop集群中的三台主机两两之间配置免密登录 一、环境 二、准备工作 三、开始配置免密登录 一、环境 VMware+centos7 二、准备工作 三台虚拟机:ethan001 ethan002 ethan003 在三…
Hadoop实战——MapReduce实现主播的播放量等数据的统计及TopN排序(第一篇)
本次实战项目一共分三篇教学(二三篇后续更新) 第一篇:对主播文本数据的清洗,从大量数据中获取我们所需要的数据(如播放量,时长等) 第二篇:对清洗后的数据进行统计求和处理操作,按照主播id号依次整齐显示 第三篇:对统计好的…
Hadoop副本选择机制
原文链接:https://weixiaodyanlei.xyz/archives/hdfs-fu-ben-ji-zhi HDFS 上的文件对应的 Block 保存多个副本,且提供容错机制,副本丢失或者宕机自动恢复,默认是…