实验内容
对MaxCompute数仓公共数据(2020年春节档电影票房)进行预处理,主要对maxcompute_public_data.dwd_product_movie_basic_info(电影基本信息,包含影片名、导演、编剧、主演、影片类型等基础信息)表和maxcompute_public_data.ods_product_movie_box(电影票房基本信息,包含影片名、当日票房、累计票房等信息)进行操作,为后期数据分析做准备工作。
实现思路如下:
登录DataWorks选择公共数据集
对票房数据进行数据清洗
对票房数据进行数据转换
保存查询后的结果数据
实验目的
掌握DataWorks的查询编辑功能使用
掌握通过SQL语句清洗数据的方法
实验环境
硬件:PC微型计算机(WINDOWS7以上版本)
软件:基于Chromium内核的浏览器,开通阿里云MaxCompute和DataWorks
实验数据
阿里云MaxCompute公共数据
数据表maxcompute_public_data.dwd_product_movie_basic_info

电影基本信息,包含影片名、导演、编剧、主演、影片类型等基础信息
数据表maxcompute_public_data.ods_product_movie_box

电影票房基本信息,包含影片名、当日票房、累计票房等信息