中位数、众数和均值都是描述数据集中趋势的统计量,他们各有特点。例如,对于某种商品的各种售价,中位数处在中间的价格,大于和小于中位数的价格各为一半;众数为众多价格中出现频数最多的那个价格;而均值在大部分情况下,数值上不会等…
标签:大数据
数据治理学习笔记(一):数据治理是什么,要做什么
前言: 经常在各种数据工作的文章中看到这个词,看词语意思就是要把数据管理好。作为数据基础支撑工作,其重要性也是可以想象的,平时工作中,有数据问题,一圈查下来就是一条记录的质量问题,更坑的是可能会多次都是因为同一种问题。这…
Hive实验5:查看Hql执行计划及关键步骤说明
1、查看执行计划方法 语法:explain [extended] Hiveql; /*例子:*/ explain select count(distinct mobilename) from testtab_small;…
【好东西传送门日报】2017-12-08 星期五
【好东西传送门日报】2017-12-08 星期五 【机器学习】 1) 语义分割中的弱监督学习 http://t.cn/RYBWyIZ 2) +NIPS 2017亮点摘要 http://t.cn/RYd7eyL 3) 解密…
spark streaming测试之三有状态的接收数据
测试思路: 首先,使用上篇文章的程序一发送网络数据; 其次,运行spark程序,观察效果。 说明: …
centos7下kafka集群搭建
前置条件:zookeeper搭建完成,三台虚拟机,kafka安装包 1. 解压kafka安装包 1.进入要安装的目录,我的安装包直接放在了安装的目录,并解压 cd /opt/soft tar -zxvf kafka_2.…
数据不平衡问题的处理
引言 在分类问题中正负样本比例不平衡是很常见的问题,例如在预测CVR的时候,会有大量的负例,但是正例的数目缺不多,正负样本比例严重失衡。这是一个值得思考的问题。 解决思路 首先我们需要思考的是我们可否通过扩大数据集,得到…
java连接impala查询大数据
这里先简单介绍下hive,Impala、HBase: hive: hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduc…
gdpr通用数据保护条例_关于通用数据保护法规(GDPR),您需要了解的15件事
gdpr通用数据保护条例 The General Data Protection Regulation (GDPR) comes into force on 25th May 2018. Designed to stre…
txt文件转json格式 java
package cn.evun.gehr.bees.blue.controller; import java.io.*; import java.util.ArrayList; import java.util.List…
恶梦护士 asa_Java编程噩梦初学者指南
恶梦护士 asa 在日常工作中,我们处理大量问题和挑战,例如“如何保护数据?”,“这是哪种类型?”。 改为“这些概念应该是什么?” 本文并不针对特定的编程问题,例如加密的工作方式或避免SQL注入。 我将不再关注一个主题或…
Spark读文本将多行合并为一行
Spark读文本并将多行合并为一行 数据格式 六月 15, 2015 4:28:02 下午 INFO: 六月 15, 2015 4:28:03 下午 INFO: 六月 15, 2015 4:28:04 下午…