MapReduce 数据本地化 数据本地化是指把计算移动到数据所在节点上进行执行的过程,也就是通常所说的 “移动计算而不是移动数据”。移动计算比移动数据具有更大的优势,它可以降低网络开销,增加系统的整体吞吐量。 数据本地…
标签:hadoop
Hadoop部署
1 Linux系统安装 1.1 VM安装 官方下载 1.2 CentOS安装 安装步骤 1.3 修改虚拟机网络 1)查看虚拟网络编辑器 2)修改ip地址和子网掩码 3)查看网关 4)DHCP设置 1.4 Linux主机名…
MapReduce之日志清洗与分析
MapReduce之日志清洗与分析 本文运用的日志文件如下:需要可以留言 分别为:访问者主机名、访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量等等 根据要求,我们要将访问资源号以及访问流量统计出…
个人信息安全管理条例解释
一、前言 近年来,随着信息技术的快速发展和互联网应用的普及,越来越多的组织大量收集、使用个人信息。给人们生活带来便利的同时,也出现了对个人信息的 非法收集、滥用、泄露 等问题,个人信息安全面临严重威胁。 为了保护公民个人…
Hadoop 2.x常用端口及查看方法
一、常用端口 组件 节点 默认端口 配置 用途说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode 50075 dfs…
先按月份进行排序,如果月相同按照业绩排序
profit3.txt 2 tom 345 1 rose 235 1 tom 234 2 jim 572 3 rose 123 1 jim 321 2 tom 573 3 jim 876 3 tom 648 1.Prof…
查看parquet文件格式内容
1. 下载对应的parquet-tools jar:http://logservice-resource.oss-cn-shanghai.aliyuncs.com/tools/parquet-tools-1.6.0rc3…
HDFS常用文件操作命令汇总
前言 掌握常用的hdfs文件操作命令是考验对hadoop集群运维的基本功,可以说是必须掌握的基础技能,本篇将常用的hdfs文件操作命令做一些汇总,方便日后快速查询备用 下面以具体的命令操作演示下常用HDFS文件操作命令的…
MapReduce 编程 系列七 MapReduce程序日志查看
首先,如果需要打印日志,不需要用log4j这些东西,直接用System.out.println即可,这些输出到stdout的日志信息可以在jobtracker站点最终找到。 其次,如果在main函数启动的时候用Syste…
windows部署hadoop环境
windows部署hadoop环境 a、安装jdk b、hadoop 解压 c、环境变量设置 右键计算机属性,从高级系统设置一栏中找到环境变量,如下图所示,在新的面板中进行以下操作,. 在用户变量中,添加 JAVA_HO…
实验七:掌握基本的MapReduce编程方法 (JAVA+Python实现)(编程实现文件合并和去重操作,编写程序实现对输入文件的排序,对给定的表格进行信息挖掘)
一、实验目的: 1. 理解MapReduce的工作机制; 2. 掌握基本的MapReduce编程方法 3. 重点理解map过程,shuffle过程和reduce过程 二、实验环境: Hadoop+Eclipse+JDK …
云服务器部署hadoop集群
0、准备 #1、服务器必须都在同一个vpc下 ping内网ip能直接ping通 #2、添加腾讯云的防火墙规则 (同一个vpc下内网之间所有端口互通) #3、hadoop版本3.1.3 jdk 1.8 #4、一定不要开启云…