ML | 决策树模型概述
决策树模型
决策树模型(Decision Tree model)是一个模拟人类决策过程思想得模型。
以找对象为例,一个女孩的母亲要给她的女儿介绍一个男朋友,于是有了下面得对话:
女儿:多大年纪了?(年龄)
母亲:26
女儿:长的帅不帅?(长相)
母亲:挺帅的
女儿:收入高不?(收入情况)
母亲:不算很高,中等情况
女儿:是公务员不?(是否公务员)
母亲:是,在税务局上班
女儿:那好,我去见见**(结果)**
决策过程
决策树基于“树”结构进行决策、判断
- 每个“内部结点”对应于某个属性上的测试
- 每个分支对应于该测试的一种可能结果(即该属性的某个取指)
- 每个“叶结点”对应一个“预测结果”
学习过程
通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性)
预测过程
将测试示例从根节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点
决策树简史
第一个决策树算法:CLS(Concept Learning System)
[E. B. Hunt, J. Marin, and P.T.Stone’s book “Experiments in Induction” published by Academic Press in 1966]
使决策树受到关注、成为机器学习主流技术的算法:ID3(Iterative Dichotomiser 迭代二分器的简称)
[J. R. Quinlan’s paper in a book “Expert Systems in the Micro Electronic Age” edited by D. Michie, published by Edinburgh University Press in 1979]
最常用的决策树算法: C4.5
[J. R. Quinlan’s book “C4.5:Programs for Machine Learning” published by Morgan Kaufmann in 1993]
可以用于回归任务的决策树算法:CART (Classification and Regression Tree)
L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone’s book “Classification and Regression Trees” published by Wadsworth in 1984 ]
基于决策树的最强大算法:RF (Random Forest)
[L. Breiman’s MLJ’ 01 paper "Random Forest "]
总结
决策树模型
基于树的结构进行决策
- 属性、测试、预测结构
训练过程
- 分析训练样本,确定划分属性
预测过程
- 沿着树结构根据属性进行下行判定
决策树简史
- CLS
- J. R. Quinlan 1979 ID3
- J. R. Quinlan 1993 C4.5
- L. Breiman 1984 CART
- L. Breiman 2001 Random Forest