ETL测试工具和面试常见的问题及答案_开源优测的博客-程序员宅基地

技术标签: python  java  机器学习  人工智能  大数据  

点击上方蓝字“开源优测”一起玩耍

概述

        商业信息和数据对于任何一个企业而言都是至关重要的。现在很多公司都投入了大量的人力、资金和时间对这些信息、数据进行分析和整理。

数据的分析和整理已经获得了巨大的潜在市场,因此为了使得这个过程更为简单,越来越多的软件供应商引入了ETL测试工具。

目前,有需要开源的ETL工具,供应商允许用户直接从他们的官方网站免费下载,但有可能升级到新版或企业版需要订阅付费。

所以我们需要根据企业的不同业务结构和模型,在选择ETL工具之前,对其进行分析。在这些开源的ETL工具的帮助下,我们将有机会尝试在不付需要投入巨额资金的情况下对我们的数据进行分析和整理。

而当前几乎所有的巨头软件供应商都推出了自己的BI或ETL工具。


一些常用的ETL工具

  • Talend Open Stduio

  • Clover ETL

  • Elixir

  • Pentaho

  • Informatica

  • IBM - Cognos Data Manager

  • Oracle - Data Integrator

  • SAS - Data Integration Studio

  • AB Inito, SAP - BUsiness Objects Data Integrator

一旦选择了ETL工具,下一阶段就是对该工具进行测试调研,以进一步了解该工具的特性。

这类工具有助于处理海量的数据和历史数据,同时必须能执行ETL测试,以确保数据的准确性,因此ETL测试是非常的重要的。


ETL有效的两种测试类型

  • 应用测试

  • 数据测试

ETL测试过程

虽然现在有很多的ETL工具用于数据处理,但对于实际业务而言,ETL测试是同样的重要。

一个良好的ETL测试策略定义可以使得测试过程变得更容易,因此在选择ETL工具前应该遵循这个基本的测试过程。

ETL测试过程:

  • 分析需求:理解业务结构极其特殊要求

  • 验证和测试评估:对进行过程所需的时间和专业知识进行评估

  • 测试计划和设计测试环境:基于输入进行估算,计划并制定ETL环境

  • 测试数据的准备和执行:根据实际要求准备和执行测试数据

  • 报告:出具实际的报告

其他信息请参见《ETL测试或数据仓库测试入门


常见面试题

未来随着大数据和人工智能的进一步发展,ETL测试在国内的需要必然会从0到有的突破,下面我们就未来国内求职ETL测试岗位可能碰到的面试题进行说明。

问:什么是ETL?

答:ETL是Extracting-Transfroming-Loading的缩写,指从任何外部系统提取、转换、载入数据到目标地。这是数据集成过程的三大基本步骤。 Extracting:从源数据中提取目标数据集 Transfroming:将目标数据集进行业务逻辑转换 Loading:以合适的格式将经过业务逻辑转换的数据集载入到目标地

问:为什么ETL测试是必须的?

答:

  • 为了对从源到目的转换过程中的数据进行检查

  • 跟踪整个ETL过程的效率和速度

  • 熟悉ETL过程,才能更好的服务于我们的企业实践

问:ETL测试工程师的主要职责是什么?

答:

  • 深入理解ETL工具和过程

  • 为ETL测试各阶段设计测试场景

  • 针对各阶段的测试场景实施不同类型的测试

  • 对数据质量进行检查

问:在ETL过程中,维度指什么?

答:维度指汇总数据时进行的排序的组或类别

问:在ETL过程中,什么是Staging Area?

答:Staging Area至在ETL过程中临时存储的地方,在这里,我们通常会进行数据清理和重复检查等处理

问:请解释下ETL Mapping Sheets(ETL映射表)

答:ETL映射表包含了从源中提取的行和列的所有的信息。该表能帮助我们更好的完成整个ETL过程和ETL测试。

问:请列举几个ETL测试常见的用例并解释说明

答:

  • ETL映射表验证:验证映射表中的各项信息是否正确

  • 数据检查:验证数据的准确性、数值、null检查等等

  • 正确性问题: 验证数据的拼写是否有错、数据是否有错和是否存在空数据等问题

问:请列举你所知道的ETL bug类型

答:计算错误、用户界面bug、源数据错误、边界错误等


小结

当然本文所列举的工具并未深入进行说明,而所列的几个面试题也只是一些基本的概念,后续会进一步介绍这类的知识,以从0到有的增强个人的能力,扩展知识面。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lyy51/article/details/122002353

智能推荐

蓝桥杯 算法提高 拿糖果_蓝桥杯火星旅行-程序员宅基地

题意:问题描述  妈妈给小B买了N块糖!但是她不允许小B直接吃掉。  假设当前有M块糖,小B每次可以拿P块糖,其中P是M的一个不大于根号下M的质因数。这时,妈妈就会在小B拿了P块糖以后再从糖堆里拿走P块糖。然后小B就可以接着拿糖。  现在小B希望知道最多可以拿多少糖。 N <= 100000首先可以想到的是拿走P块糖之后,问题转化为当前有M-2P块糖,小B最多还能拿多少糖?..._蓝桥杯火星旅行

[Watermelon_book] Chapter 5 Neural Network_watermelon autoencoder-程序员宅基地

PerceptronPerceptron的理论知识Perceptron 的实际编码PerceptronPerceptron的理论知识Perceptron 的实际编码_watermelon autoencoder

异常(详细 )_异常 详情-程序员宅基地

认识异常1. 异常的背景初识异常除以 0System.out.println(10 / 0);// 执行结果//Exception in thread "main" //java.lang.ArithmeticException: / by zero数组下标越界int[] arr = {1, 2, 3};System.out.println(arr[100]);// 执行结果//Exception in thread "main" java.lang.ArrayIndexOutOfB_异常 详情

Retrieving currently active access point(转)-程序员宅基地

IDTSS000467Creation dateNovember 22, 2006PlatformS60 2nd Edition, S60 2nd Edition FP1, FP2, and FP3S60 3rd Edition, S60 3rd Edition FP1DevicesCategorySymbian C++SubcategoryKeywords (APIs, classes...

day 85 Vue学习七之vue-cookie-程序员宅基地

Vue学习七之vue-cookie通过vue如何操作cookie呢参考链接:https://www.jianshu.com/p/535b53989b39第一步:安装vue-cookiesnpm install vue-cookies --save(或者-S)第二步:引入和通过 Vue.use() 明确地安装..._day85 vue

MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系_hdfs、yarn、mapreduce三者关系-程序员宅基地

参考文档一 Mapreduce Yarn Hdfs三者联系(比喻有不恰当的地方,但更容易理解三者之间的关系)Mapreduce,Yarn,Hdfs三者之间的关系,可以用电脑来进行解释。大体可以理解为:windows系统电脑上的一个视频播放软件(mapreduce),通过windows操作系统(yarn)找到存在电脑硬盘(hdfs)上的电影,然后视频播放器播放电影Yarn 相当于电脑的操作..._hdfs、yarn、mapreduce三者关系

随便推点

python数据分析-相关分析_相关性热图负相关-程序员宅基地

python数据分析-相关分析概念在现实中,事物与事物之间或多或少存在一定的关系,数据之间也不例外,数据与数据之间关系往往提醒安于互相依存的关系,而相关分析主要就是分析两个变量之间的相互影响程度,在数据分析中,相关分析就是度量的是两个连续型变量之间的相关型。常见的的度量指标如下:皮尔森相关系数Pearson斯皮尔曼相关系数Spearman相关型越强,说明两个变量之间的影响程度越..._相关性热图负相关

荧光素PEG荧光素,FITC-PEG-FITC_cyhyd-程序员宅基地

荧光素PEG荧光素,FITC-PEG-FITC基本信息:产品名称:荧光素聚乙二醇荧光素,双荧光素聚乙二醇(FITC-PEG-FITC)中文别名:荧光素PEG荧光素,双荧光素聚乙二醇英文名称:FITC-PEG-FITCCAS:-分子量:400、500、600、800、1K、2K、3.4K、4K、5K、6K、8K、10K、20K纯度:95%以上应用简介:双荧光素聚乙二醇(FITC-PEG-FITC)可以用来修饰蛋白质、多肽和其他带有活性基团的材料。聚乙二醇可以增加溶解度和稳定性,减少多肽和蛋白质的免疫原性,它也_cyhyd

STM32CubeMX 读取DS18B20温度传感器数据串口打印显示_stm32串口两根线接收ds18b20的数据-程序员宅基地

stm32cubemx ds18b20温度读取串口打印输出_stm32串口两根线接收ds18b20的数据

Gym 100801C_取一个字符串 的非空前缀 ,一个字符串 的非空后缀 ,gym-程序员宅基地

Gym 100801C(思想)Problem C. ConcatenationInput file: concatenation.inOutput file: concatenation.outTime limit: 2 secondsMemory limit: 256 megabytesFamous programmer Gennady likes to create new words. One way to do it is to concatenate existingwords. T_取一个字符串 的非空前缀 ,一个字符串 的非空后缀 ,gym

R语言开发之MySQL数据处理操作-程序员宅基地

关系数据库系统中的数据是以规范化格式存储的,所以,为了进行统计计算,我们需要非常高级和复杂的SQL查询。但是R可以很容易地连接到许多关系数据库,如:MySQL,Oracle,Sql Server等,并将它们作为数据帧提取。 当从数据库中读取数据到R环境中可用以后,它就成为一个正常的R数据集,可以使用所有强大的软件包和函数进行操作或分析。在R中有一个名为RMySQL的内置包,它提供与MySql数...