大数据分析-Excel导入及筛选数据

1.导入数据

1.1 导入外部网页上的数据

通常导入外部网站的数据时,可以先将数据下载到本地,然后在用excel打开该文件。下面介绍一种新的方法,直接将外部数导入到excel文件中。假如我们要导入如下网页中的数据:http://www.chooseauto.com.cn/xlph/car/295015.shtml,步骤如下:

(1). 打开excel文件,选择【数据】-【获取外部数据】-【自网站】

《大数据分析-Excel导入及筛选数据》

(2). 在打开的对话框中输入网址,点击【转到】之后会在会话框中打开对应的网页。具体如下:

《大数据分析-Excel导入及筛选数据》

点击【导入】之后将无用信息删除,即可得到我们想要的数据。

《大数据分析-Excel导入及筛选数据》

但是我觉得这种导入方式可能存在如下几个缺陷:

1. 首先,以“国家统计局” 网站的统计数据为例,这个网站中的数据通过这个方法是无法获取的,你会发现点击【转到】之后,对话框在不停提示报错信息,可能是因为这个网站中用了大量的JS等技术,无法正确解析页面。

2. 以刚才实验的网页为例,该数据导入方法理论上提供了的一种方法可以对数据进行选择,就是查询对话框中黄底黑色箭头,具体如何使用可以参考以网址中的案例,https://jingyan.baidu.com/article/f0e83a254f961722e59101c9.html,但是这种方法在我们演示中提到的网页中无法使用。

综合以上两点,个人认为这个方法可以作为一个补充吧。

2. 拆分数据(把一列数据拆分成多列)

《大数据分析-Excel导入及筛选数据》

对于上述类型的数据,需要将这1列数据拆分成5列,则选中该部分数据然后点击【数据】-【分列】,将分隔符设置为逗号即可。(在从外部文本导入数据时,默认就会让进行这些分隔操作)

《大数据分析-Excel导入及筛选数据》

还有一种方法拆分方法是使用函数TextSplit,使用这个函数需要先下载Excel函数扩展包(搜索“方方格子”,下载Excel扩展包。安装过程很简单,要主要的是安装之前把Excel先关闭)。下面先来看看这个函数的基本介绍及参数说明:

《大数据分析-Excel导入及筛选数据》

我认为这个方法的优势在于:这个方法可以规定三个分隔符,这对有些不太规范的数据比较有用。具体地,处理上述数据时的函数写法如下。

《大数据分析-Excel导入及筛选数据》

关于上述函数写法,需要注意以下几点(PS:这种方式是为了将B1单元格中用到的函数自动扩展到其他行、其他列,而无需更改函数)

(1). 首先,Excel中有三种引用方式:”A1”->行列都是相对引用,“$A$1”->行列都是绝对引用,“$A1″->混合引用(具体为列绝对引用行相对应用)。在这里使用”$A1″这种引用方式,可以保证向左、向下扩展时,字符串的位置能相应的变动。

(2). 其次,column()-1,因为不同列获得分割后的字符串的部分不同,如果写成1的话,再使用自动向右扩展时,并不会自动改变,所以采用这种写法。

还可以使用LEFT、RIGHT函数进行拆分,详细可以参考:https://jingyan.baidu.com/article/9f7e7ec09e86956f281554f7.html。但是这种方法有一个限制,即待分割的数据必须是规范化的数据,这样才能利用自动填充技术。

最后使用自动填充技术拆分数据。

3.行列转置

行列转置就是将原本按列保存的数据转化成按行保存的数据,或者相反。这个操作很简单。具体操作流程如下:

先选中要进行行列转置的数据,右击【复制】,然后在空白单元格处右击【粘贴选项】,选择转置即可。(将鼠标放到具体的粘贴选项上时,会有信息提示。因为记得我的Exce上原本的粘贴选项上并没有”转置“这个选项,我一次使用转置功能之后,它就出现了。)

还有一点要注意,数据一定要先【复制】,【剪切】是无法进行转置的。

《大数据分析-Excel导入及筛选数据》

4.对数据进行筛选

假设原始数据如下:

《大数据分析-Excel导入及筛选数据》

4.1 数值\文本筛选

假设对“语文”进行数值筛选。右击“语文”旁边的向下的箭头。如果该字段数值型的则出现的是“数字筛选”,如果对应的字段是文本类型,则出现的是“文本筛选”

《大数据分析-Excel导入及筛选数据》

随意选中任意一个便可以设置筛选条件。如下图:

《大数据分析-Excel导入及筛选数据》

这里要说的是?和*的问题。从网上搜到一个答案,具体如下:

  1. ?的作用是单个字符,比如你要搜索 姓王的输入王? 便只能筛着王芳 王兰 王牛两个字的。
  2. *的作用是1个或1个以上,上述条件输入王*,就可以筛着王芳 王兰 王牛 王大伟 王熙凤 王牛比 王察基尔 等。 

但是这里有一点要注意,?和*都是英文字符,如果输入中文的?,是没有任何作用的。 另外还有一点要注意的是,无论是数字筛选还是文本筛选,一次都只能针对一个字段进行最多两个条件的筛选。如果需要同时对两个字段进行筛选,这种筛选方式是做不到。

4.2 高级筛选

简单点说,高级筛选可以同时对两个或两个以上字段进行筛选。数据如下:

《大数据分析-Excel导入及筛选数据》

至于如何使用操作高级筛选功能可以参考:https://jingyan.baidu.com/article/358570f6819206ce4724fc90.html

上述筛选结果如下:

《大数据分析-Excel导入及筛选数据》

对这个实验结果进行分析会发现,高级筛选实现了同时对多个条件进行筛选,各个条件之间是“与”的关系。如果改成如下筛选条件:

《大数据分析-Excel导入及筛选数据》

 则其筛选结果如下:

《大数据分析-Excel导入及筛选数据》

如果换成如下筛选条件:

《大数据分析-Excel导入及筛选数据》

则其筛选结果如下:

《大数据分析-Excel导入及筛选数据》

从这个实验结果可以发现:对于条件筛选域,列与列之间是“且”的关系,而行与行之间则是“或”的关系。

另外,高级筛选还可以实现删除重复项的功能。将高级筛选框中条件筛选区域设为空,并勾选“选择不重复记录”,就可以轻松实现删除重复项。

5.表格

Excel中的表和表格是两个不同的概念,将excel中的表转化对应的表格之后能够方便快速地对数据进行处理。选择数据区域内的任意活动单元格,点击【插入】->【插入表格】,之后点击确定就可以将表转化表格。转后之后的数据如下图所示:

《大数据分析-Excel导入及筛选数据》

 这里只简单介绍表格的汇总功能。点击表格中的任意单元格,选择【单元格工具】中的汇总。具体如下:

《大数据分析-Excel导入及筛选数据》

6.数据验证

数据验证主要是为了控制用户的输入,使用户的输入尽量规范。这里主要介绍如何制作下拉列表。

《大数据分析-Excel导入及筛选数据》

具体制作流程如下,设定的下拉列表之后,在对应的单元格区域就不能输入其他内容了。

《大数据分析-Excel导入及筛选数据》

注意,上述第4步中,还可以从特定的表格中进行选择,这样可以保证能随意更加或删除填写的选项。

    原文作者:Sun_Sherry
    原文地址: https://blog.csdn.net/yeshang_lady/article/details/95106454
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞