在众多数据分析模型中,决策树是最为简单直观的一种算法。它就像我们平常做决定时的过程,逐步排除可能的选项,最终得出结论。
决策树是一种监督学习方法,广泛应用于分类和回归任务。它以树状结构模拟决策过程,通过一系列如果-那么的规则进行推理。今天和大家一起来学习分享下这种分析方法。
一、决策树分析是什么?
决策树模型名称的由来就是因为其和一颗树一样,从底部的根向上生长,每个分支代表一个规则,每片叶子表示一个最终结果。
去医院看病,医生会问你:发烧吗?咳嗽吗?痰什么颜色?——每个问题都在缩小范围,几个问题下来诊断就出来了。
决策树做的就是这件事:用一连串判断把样本分到正确的类别。决策树画的是一个个框框——框框里的样本属于同一类,框框和框框之间就是决策边界。
决策树的核心价值,一句话概括:把复杂决策,变成一道可计算的数学题。
决策树的构成包括:
根节点:是树的起点,代表整个数据集;
决策节点/内部节点:每个节点代表一条决策规则
叶节点:代表决策结果
用树状结构直观展示:
决策节点(□方框):你能控制的选择,比如"投A还是投B"
机会节点(○圆圈):你无法控制的不确定性,比如"市场好概率70%,差概率30%"
结果节点(△三角):每个路径的最终收益或损失
具体而言,决策树分析能够将复杂业务逻辑可视化,帮助管理者在不确定环境下做出理性决策。国内某大型消费品企业采用决策树与集成学习结合后,销售预测准确率提升至92%,库存周转率同比增长18%。
二、决策树分析基本步骤
决策树的使用步骤如下:
1. 识别需要做出决策的问题,并将其作为树的根节点。
2. 为每个可能的决策或事件的结果创建一个分支。
3. 对于每个分支,如果它导致一个需要进一步决策的情况,就创建一个新的决策节点,并为该节点的每个可能决策创建新的分支;如果它导致一个最终结果,就创建一个叶子节点。
4. 一直这样做,直到所有的分支都结束于一个叶子节点。
5. 根据每个叶子节点的结果和相应路径的概率,分析和比较不同的决策路径,以确定最佳决策。决策树可以用于各种决策问题,包括商业决策、医疗决策、工程决策等。
1.第一步:明确决策问题
关键问题:你要解决什么?有哪些可选方案?
以经典的企业扩产案例为例:某电池企业准备扩大二轮锂电池生产。
市场预测:销路好的概率0.7,销路差的概率0.3。
方案一:建大工厂,投资1000万,使用10年。销路好年盈利280万,销路差年亏损60万。
方案二:建小工厂,投资500万。销路好年盈利150万,销路差年盈利50万。
方案三:先建小工厂,3年后若销路好再扩建(投资500万,使用7年,扩建后年盈利300万)。
三个方案,怎么选?这就是决策树要解决的问题。
2.第二步:绘制决策结构
从左到右,按时间顺序展开:
3.第三步:计算期望值
这是决策树的灵魂:
期望值 = 各结果值 × 对应概率,再求和。
(1)方案一期望值:
销路好:0.7 × 280 × 10 = 1960万
销路差:0.3 × (-60) × 10 = -180万
总期望收益:1960 - 180 - 1000(投资)= 780万
(2)方案二期望值:
0.7 × 150 × 10 + 0.3 × 50 × 10 - 500 = 850万
(3)方案三期望值(关键在3年后的决策):
3年后若销路好,扩建 vs 不扩建:
扩建:7×300 - 500 = 1600万
不扩建:7×150 = 1050万
选择扩建:(1600万>1050万)前3年150×3 = 450万
总期望:0.7×(450 + 1600) +0.3×50×10-500 =1585万
3.第四步:剪枝决策
从上面的期望净收益可以快速得出:方案三最优!
因此,可以先建小工厂试水,3年后根据市场反馈决定是否扩建——这就是决策树的"柔性策略"魅力。
3.第五步:敏感性检验
假设市场好的概率从0.7降到0.5,结果会变吗?
重新计算方案三:
0.5 × (450 + 1600) + 0.5 × 50 × 10 - 500 = 1025万
仍然是三个方案中最高的。
方案一:0.5×280×10 + 0.5×(-60)×10 -1000 = 200万;
方案二:0.5×150×10 + 0.5×50×10 -500 = 500万)。
这说明:即使市场环境变差,方案三依然稳健。
三、决策树分析适用场景
决策树分析的核心思想把数据集看作一个整体,然后根据一系列"是/否"类型的问题(基于特征),反复地将数据划分成更小的、更"纯粹"的子集。
最终,每个最末端的子集(称为"叶子节点")里的数据,它们的平均值就是该区域的预测值。
决策树分析有2个常见的适用场景:
(一)场景一:风险策略客户分群(核心应用)
这是决策树最经典的应用场景,在贷前审批环节,风控团队需要根据申请人的多维特征,快速判断其风险等级,并匹配差异化的审批策略。
具体做法:以历史客户的违约标签(好坏样本)为目标变量,以年龄、收入、负债比、征信记录等为特征变量,训练一棵分类决策树,树的每一个叶子节点对应一个客群,每个客群内部的违约率相对一致。
策略落地:
叶子节点违约率<2% → 自动审批通过,授予高额度;
叶子节点违约率在2%~8% → 标准审批流程,可能要求补充材料;
叶子节点违约率>8% → 人工复核或直接拒绝
优势:相比一刀切的策略,决策树分群能大幅提升审批通过率的同时控制整体坏账率。
(二)场景二:策略规则生成与策略调优
在风控策略体系中,规则是最基础的决策单元,传统的规则生成依赖业务专家经验(如“年龄<22岁且无房且收入<5000 → 拒绝”),效率低且容易遗漏有效规则。
决策树能够自动化地从海量数据中挖掘出高区分度的规则。
具体做法:训练一棵决策树(可适度剪枝以避免过拟合),然后提取从根节点到每个叶子节点的完整路径,每条路径就是一条规则。例如:
规则1:近3个月征信查询次数≥5 且 月收入<3000 → 高风险
规则2:近3个月征信查询次数<5 且 历史最大逾期天数≥30 → 中高风险
规则3:近3个月征信查询次数<5 且 历史最大逾期天数=0 且年龄≥35 → 低风险
策略调优:
新规则上线前,可在历史数据上回测其命中率和坏账率;
决策树规则可以自动计算每条规则的提升度(Lift),帮助策略人员优先部署高价值规则;
对于已有规则集,决策树可以发现规则之间的交互效应(如“规则A只在客群B中有效”),从而优化规则的执行顺序。
对企业经营和决策而言,决策树不仅是一个实用工具,更是一种思维训练,它教会我们如何将复杂的风控问题拆解为一系列简单的判断,如何在“分而治之”的思路下设计精细化的策略体系。
CDA数据分析师认证贴合当下职场需求,搭建系统化数据能力体系,覆盖全行业数据分析技能,是政企、大厂认可的权威资质。零基础也能进阶,适配运营、产品、职场新人等各类人群。不用盲目自学,考取CDA,既能吃透AI工具落地逻辑,又能掌握核心业务分析能力,轻松摆脱工具内卷,解锁升职加薪、转行进阶的硬核竞争力!