一、单选题
1.下列选项中,作业的基本构成部分是()。
A、转换项
B、数据行
C、作业项
D、作业行
2.下列工具中,主要应用于爬虫和数据清洗等领域的是()。
A、Pentaho Kettle
B、Informatica PowerCenter
C、DataStage
D、Hawk
3.下列控件中,作业执行开始的控件是()。
A、Start
B、Dummy
C、成功
D、转换
4.下列说法中,关于全量加载说法正确的是)。
A、全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作
B、全量加载是指目标表只加载源数据表中变化的数据
C、全量加载比增量加载的操作要复杂很多
D、以上说法均错误
5.下列说法中,关于触发器方式抽取增量数据说法正确的是()。
A、ETL的增量抽取则是从增量日志中抽取,而不是直接在源表中抽取数据
B、ETL的增量抽取则是从源表中抽取,而不是直接在增量日志中抽取数据
C、ETL的增量抽取可以从增量日志中抽取数据,也可以直接从源表中抽取数据
D、ETL的增量抽取既不可以从增量日志中抽取数据,也不可以直接从源表中抽取数据
6.下列控件中,根据设定的查询条件,对目标表进行查询,返回需要的结果字段的控件是()。
A、流查询
B、HTTP client
C、数据库查询
D、过滤记录
7.下列说法,关于增量加载说法正确的是()。
A、ETL的增量加载和增量抽取一致
B、增量加载是指目标表仅更新源数据表中变化的数据
C、增量加载是指全表删除后再进行全部(全量)数据加载
D、从技术角度来说,全量加载和增量加载相比较,增量加载更为的简单
8.下列选项中,关于数据质量的评价指标中完整性的说法正确的是()。
A、数据缺失的情况是整条数据记录缺失
B、数据缺失可能是数据中某个字段信息的记录缺失
C、数据完整性是评价数据质量的核心
D、数据质量的完整性是很难去评估的
9.下列方法中,不属于填充缺失值的方法是( )。
A、均值填充
B、热卡填充
C、3σ准则
D、回归填充
10.下列选项中,不属于数据增量抽取的方式有()。
A、触发器方式
B、时间戳方式
C、全表比对方式
D、全量方式
二、判断题
11.一般来说,可以通过编写SQL语句和利用加载工具将数据加载到数据仓库中。(√)
12.全量加载的关键在于如何正确的设计相应的方法,用于从源数据表中抽取增量的数据,以及变化“牵连”数据(虽没有变化,但受到变化数据影响的数据)。(×)
13.搜寻并确定错误实例步骤包括自动检测属性错误和检测重复记录的算法。(√)
14.一个数据抽取过程主要包括创建一个作业,并且每个作业只可以包括一个转换操作。(×)
15.独立型脏数据可通过记录或本身属性检验出是否包含脏数据,不需要依赖其他记录或属性来检测(√)
16.填充缺失值数据方法可以使用任何值来替代缺失的值。(×)
17.当数据迁移量过于庞大时,需要针对数据采取批量加载操作。(√)
18.“去除重复记录”控件从输入流中去除重复的数据,不需要对输入流中的数据进行排序。(×)
19.增量抽取时,通过读源表数据决定加载哪些数据及如何加载。(×)
20.Informatica PowerCenter只提供了一个组件,用于进行数据清洗和匹配。(×)
三、填空题
21.【数据加载】是ETL的最后一个阶段。
22.无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能,它们都绕不开【数据】这个主题。
23.JSON常用的类型是对象和【数组】。
24.【发送邮件】控件是发送作业执行成功或失败邮件。
25.多数据源中存在的与模式相关的质量问题主要是名字冲突和【结构冲突】。
四、简答题
26.简述批量加载。
通常情况下,对于几十万条记录的数据迁移而言,采取DML(即数据操纵语言)的insert、update、delete等语句能够较好地将数据迁移到目标数据库中,然而,当数据迁移量过大时,DML语句执行时所生成的事物日志(事务日志是一个与数据库文件分开的文件,用于存储对数据库进行的所有更改,并全部记录插入、更新、删除、提交、回退和数据库模式变化)和约束条件将大大影响加载性能,故需要针对数据采取批量加载处理。
27.简述Kettle工具中的注释。
注释是一个特殊的存在,不参与程序的处理,它以文本描述的方式呈现在作业中,只为增强流程的可读性,可放在流程图中的任何一个位置。注释的重要性是毋庸置疑的,必要的注释可大大减少维护成本。
28.简述不宜删除异常值的情况。
(1)通常情况下,数据中出现的异常值较少。如果采集的数据中有超过30%的异常值数据,那么意味着需要进一步研究数据。
(2)如果异常值存在且代表了一种真实存在的现象,那就不可随意删除。例如,调查100个村的胃癌发病率,可能确实有个别村庄的发病率远远高于其它村,这时就不能随意删除,而是要把这些异常点纳入,重新拟合模型,研究其规律。
(3)分析数据的结果至关重要,因此即使很小的变化也会很重要。例如,可以更好地放弃关于人们最喜欢电视节目的异常值,而不是放弃关于飞机封条失效的温度。
29.简述HTML网页抽取技术研究经历的三个阶段。
人工方法,通过程序员人工分析出网页的模板,借助一定的编程语言,针对具体的问题生成具体的包装器。
半自动化方法,应用网页模板抽取数据,从而生成具体包装器的部分被计算机接管,而网页模板的分析仍然需要人工参与。
自动化方法中,网页模板的分析部分也交给了计算机进行,仅仅需要很少的人工参与或完全不需要人工参与,因而更加适合大规模、系统化、持续性的Web数据抽取。
30.简述重复值的清洗。
目前清洗重复值的基本思想是“排序和合并”。清洗重复值的方法主要有相似度计算和基于基本近邻排序算法等方法。
(1)相似度计算是通过计算记录的个别属性的相似度,然后考虑每个属性的不同权重值,进行加权平均后得到记录的相似度,若两个记录相似度超过某一个阈值,则认为两条记录匹配,否则认为这两条记录指向不同的实体。
(2)基于基本近邻排序算法的核心思想是为了减少记录的比较次数,再按关键字排序后的数据集上移动一个大小固定的窗口,通过检测窗口内的记录来判定它们是否相似,从而确定并处理重复记录。