一、 实验背景
ABC是一家销售公司,其客户可以通过网站下单订购该公司经营范围内的商品,并使用信用卡、银行卡、转账等方式付费。付费成功后,ABC公司会根据客户地址依据就近原则选择自己的货仓,指派合适的快递人员配送商品。
经过几年的经营,该公司积累了一批经营数据,他们依托于阿里云大数据计算服务、大数据开发套件等搭建了一个企业级的数据平台,将历史数据以及每天产生的数据都同步到该平台上去。由于种种遗留问题,造成这些数据中存在一定的数据质量问题,为了能得到更准确的数据分析结果,数据分析师希望你这个刚入职的助理大数据工程师能合理的使用你掌握的MaxCompute的技术,去帮他们发现数据中的质量问题。
二、 实验目标
根据具体的场景需要,实现如下的数据监控场景,并最终输出数据质量监控报告。
1、错误值
某些时间格式存在问题,导致数据库人员将部分时间字段设置成了字符串型。
监控场景:订单表内订单时间格式出错。
2、重复值
订单系统中部分记录关键信息重复(同样的人在同样的时间下了不同的订单),导致客户投诉。
监控场景:订单表同一客户同一时间下了多次订单。
3、数据不一致
地市信息名称未标准化,导致在数据分析时,未能把相同地域的数值汇总在一起。
监控场景:客户信息表省份信息异常。
4、数据完整性
配送的订单在订单表中不存在,导致物流人员空跑,效率下降。
监控场景:配送的订单在订单表中不存在。
5、缺失值
部分客户性别信息缺失,影响后续使用。
监控场景:客户信息表性别信息缺失。
6、异常值
单月购买次数异常(当月购买次数大于10次)。
监控场景:同客户单月购买次数异常(当月购买次数大于10次)。