tar -c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件 这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩…
标签:大数据
大数据处理应遵循的四大原则
信息革命将人类带入一个革命性的“大数据时代”,人们通过电脑网络,利用数据分析、数据集成、数据设计、数据模型、数据决策和数据虚拟化等手段,针对具体的认知对象,对反映其数量、性质、结构、功能、价值、前景等方面的数据,进行全面…
大数据的三大理念解析
维克托·迈尔·舍恩伯格同学曾在他的作品《大数据时代》中总结了相对于传统的思维模式,大数据时代需要做出的三个转变,也可以说是大数据思维模式的三个理念。这里也不准备标新立异了,还是沿着这个思路。不过,对于这种观点,我们还是需…
presto时间转换、时间加减、时间差
Hive中对应的日期操作见: https://blog.csdn.net/qq_21997625/article/details/111473520 问题1:时间格式转换 例子: 当前时间20200110 转化…
如何利用数据分析提升用户留存率?
一、留存的概念和重要性 1、什么是留存? 在互联网行业当中,因为拉新或推广的活动把客户引过来,用户开始访问公司的网站,但是经过一段时间可能就会有一部分客户逐渐流失了。那些留下来的人或者是经常回访我们公司网站的人就称为留存…
云计算的优缺点–云计算的优缺点
介绍 云计算是指对驻留在远程计算机上并作为服务通过网络交付给最终用户的计算资源的使用,这些资源是硬件和/或软件,最普遍的示例是互联网。 根据定义,用户将其数据委托给远程服务,远程服务对此没有任何影响。 当它最初作为术语和…
Elasticsearch7.1中文文档-第一章-入门
入门 引言 Elasticsearch是一个高度可扩展开源的全文搜索引擎.它搜索几乎是实时的,用ES作为搜索引擎,为复杂搜索功能的需求提供解决方案. ES的使用场景: 网上商场,搜索商品. ES配合logstash,ki…
结构化数据、半结构化数据和非结构化数据
一、结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子: id name age gender …
python将gif图片转换成png图片
转自:https://blog.csdn.net/huxiangen/article/details/80825181 #将gif图片转成PNG图片 im = Image.open('image.gif') …
结构化、非结构化和半结构化数据 数据清洗
结构化数据 ** 结构化数据可以使用关系型数据库来表示和存储,如MySQL、Oracle、SQL Server等,表现二维形式的数据。可以通过固有键值获取相应信息。一般特点是:数据以行为单位,一行数据表示一个…
大数据面试总结
1、给出一个超过100G的log file,log中存着ip地址,设计算法找到出现次数最多的ip地址? 采用哈希切割将IP相同的文件都映射到同一个文件中,在一次统计每个文件ip的个数,求出最多的,如果一个ip出现的次数特…
查看mapreduce log日志(自用)
查看任务报告:命令:yarn application -status application_1539198654522_1073695 |more查看mapreduce log日志:命令:yarn logs -appl…