
客户流失:由于企业各种营销手段的实施而导致客户和企业中止合作的现象
经验模型:按业务规则定义
机器学习:从数据中提取、对某类任务和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。
常见类型:
按照学习方式不同进行分类:根据学习样本的不同,对问题有不同的建模方式。
1.监督学习:学习样本中有结果标记
2.无监督学习:学习样本中无结果标记
分类模型:决策树
是一种归纳分类算法,结果为一个树结构。每个非叶节点均为对一个属性的测试,输出结果为离散值,每个分支对应一个不同的离散值。决策树就像是在回答一系列的问题,不同答案将导向不同的分支,最终得到一个分类结果。
分析流程:
1.数据获取整合
多数据源整合
数据清理筛选
数据加工处理
2.数据分析与建模
数据特征工程
训练流失模型
验证流失模型
特征工程:
数据预处理(标准化、缺失值、变换)、特征产生(衍生)、特征选择(模型评估:解释和泛化,筛选)、降维(PCA、LDA)。
CRISP-DM流程:

课程目的:
1什么是客户流失及其常见分析方法
2. 了解客户流失分析中的常用方法
3.掌握机器学习PAI的使用
4.能自主进行分析
客户流失的定义:
1.有明确合同约定,合同到期和不续约
2.合作的客户在一段时间内不再合作了。
特征工程
列
数据预处理:标准化,缩放,缺失值,变换,编码
特征产生:结合业务数据,派生新的特征
特征选择:通过各种统计量,模型评分等,筛选合适的特征
降维:PCA ,LDA等减少特征。
决策树总结
ID3 迭代树3代
核心是信息熵
存在的问题
信息度量不合理:倾向于选择取值多的字段
输入类型单一:离散型
不做剪枝,容易过拟合
C4.5和ID3的相比
用信息增益率代替信息增益
能对连续属性进行离散化,对不完整数据进行处理
C50:c4.5
使用了Boosting
前修剪和后修剪
CART(Classification and Regression Tree)
核心是基尼系数
分类是二叉树
支持连续值和离散值
后剪枝进行修建
支持回归,可以预测连续值
准备工作,明确自变量和因变量,确定信息度量的方式,确定终止条件
明确信息度量方式:信息增益
熵
·信息熵
描述混乱度
取值0~1
计算公式 -pi *logPi
基尼系数
明确分支种植条件
纯度
记录条数
循环次数
客户流失
客户流失分析方法
按业务规则定义,经验模型
从数据中提取,机器学习
数据获取整理
数据分析与建模
制定挽留策略
实施挽留策略
应用
通信,商业,金融,服务
机器学习
监督学习
学习样本中有结果标记
无监督学习
学习样本中无结果标记
分类模型
决策树,有监督的学习
决策树就像是在回答一系列的问题,不同答案导向不同的分支,最终得到一个分类结果。