实验详情

公共电影票房数据预处理实践(DataWorks+MaxCompute)

本次实验对春节档每日票房的数据进行预处理,主要是数据清洗(例如空值过滤,条件筛选),数据转换(例如含有相同属性的两条数据合并为一条数据)。通过本次实验让大家掌握阿里云大数据产品DataWorks及MaxCompute的基本使...

提示: 实验资源会在固定时间后释放,请创建资源后尽快操作。

实验评分

平均时长

1 小时

难易程度

简单

实验编号

S30001

学习人次

2321

实验内容

对MaxCompute数仓公共数据(2020年春节档电影票房)进行预处理,主要对maxcompute_public_data.dwd_product_movie_basic_info(电影基本信息,包含影片名、导演、编剧、主演、影片类型等基础信息)表和maxcompute_public_data.ods_product_movie_box(电影票房基本信息,包含影片名、当日票房、累计票房等信息)进行操作,为后期数据分析做准备工作。

实现思路如下:

登录DataWorks选择公共数据集

对票房数据进行数据清洗

对票房数据进行数据转换

保存查询后的结果数据

实验目的

掌握DataWorks的查询编辑功能使用

掌握通过SQL语句清洗数据的方法

实验环境

硬件:PC微型计算机(WINDOWS7以上版本)

软件:基于Chromium内核的浏览器,开通阿里云MaxCompute和DataWorks

实验数据

阿里云MaxCompute公共数据

数据表maxcompute_public_data.dwd_product_movie_basic_info

电影基本信息,包含影片名、导演、编剧、主演、影片类型等基础信息

数据表maxcompute_public_data.ods_product_movie_box

电影票房基本信息,包含影片名、当日票房、累计票房等信息

开始学习后可阅读实验手册内容