㈠ 决策树法(一)
姓名:王映中 学号:20181214025 学院:广研院
转自 https://blog.csdn.net/weixin_42327752/article/details/117806076
【嵌牛导读】决策树(decision tree)是一种基本的分类与回归方法。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。些决策树学习的思想主要来源于由Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,以及由Breiman等人在1984年提出的CART算法。
【嵌牛鼻子】决策树模型与学习
【嵌牛提问】如何建立决策树模型?
【嵌牛正文】
1 决策树模型与学习
决策树解决分类问题的一般方法
1.1 决策树模型
定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。
1.2 决策树与if-then规则
可以将决策树看成一个if-then规则的集合。将决策树转换成if-then规则的过程是这样的:由决策树的根结点到叶结点的每一条路径构建一条规则;路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。
决策树的路径或其对应的if-then规则集合具有一个重要的性质:互斥并且完备。这就是说,每一个实例都被一条路径或一条规则所覆盖,而且只被一条路径或一条规则所覆盖。这里所谓覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。
1.3 决策树与条件概率分布
1.4 决策树学习
决策树学习本质上是从训练数据集中归纳出一组分类规则,与训练数据集不相矛盾的决策树(即能对训练数据进行正确分类的决策树)可能有多个,也可能一个也没有。从另一个角度看,决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个。我们选择的条件概率模型应该不仅对训练数据有很好的拟合,而且对未知数据有很好的预测。
决策树的损失函数是正则化的极大似然函数。当损失函数确定以后,学习问题就变为在损失函数意义下选择最优决策树的问题。因为从所有可能的决策树中选取最优决策树是NP完全问题,所以现实中决策树学习算法通常采用启发式方法,近似求解这一最优化问题。这样得到的决策树是次最优(sub-optimal)的。
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。开始,构建根结点,将所有训练数据都放在根结点。选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去;如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点。如此递归地进行下去,直至所有训练数据子集被基本正确分类,或者没有合适的特征为止。最后每个子集都被分到叶结点上,即都有了明确的类。这就生成了一棵决策树。
以上方法生成的决策树可能对训练数据有很好的分类能力,但对未知的测试数据却未必有很好的分类能力,即可能发生过拟合现象。我们需要对已生成的树自下而上进行剪枝,将树变得更简单,从而使它具有更好的泛化能力。具体地,就是去掉过于细分的叶结点,使其回退到父结点,甚至更高的结点,然后将父结点或更高的结点改为新的叶结点。
决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。
决策树学习常用的算法有ID3、C4.5与CART,下面结合这些算法分别叙述决策树学习的特征选择、决策树的生成和剪枝过程。
㈡ 决策树决策表如何绘制
根据题目,先将收件距离分为大于1000和小于或等于1000两种,这就是决策树的第一层的两个分支。如收费标准——L≤1000 ——L>1000; 然后,题目告知,在1000公里以内,普通邮件2元/公斤;挂号3元/公斤,这就是第一个分支上的两个更细的分支;也就是说L≤1000里面又可以有两个分支,一个是挂号,一个是普通(暂时先不分,大家看明白,下面我会把整个图画出来的); 第三,可以看到大于1000公里的,普通邮件2.5元/公斤;挂号3.5元/公斤。这是大于1000公里的两个分支。 第四,到这里,还没有完,因为可以看到题目的最后一句,就是在超过1000公里以外的邮件,还有一个分支,就是重量部分的,超过30公斤,要加收0.5元,当然,另一个条件就是不超过的不加,这就需要在大于1000公里的分出的两个分支里面又要分出两个分支。 题目分析完了之后,我们开始绘图。(因为我对WORD文档的很多使用还不是特别熟练,呵呵,只能是粗略的绘一张草图,大家克服一下,看明白就可以了)。第一层两个分支收费标准——L≤1000 ——L>1000 第二层分支L≤1000——挂号 3W ——普通 2W L>1000 ——挂号 ——普通 由于在大于1000里面还分超过30公斤和不超过30公斤的,所以,暂时我们还不给它定价,等到第三层的分支里再定价; 第三层分支L>1000——挂号——W >30 3.5×30+4(W-30) ——W≤30 3.5W ——普通——W >30 2.5×30+4(W-30) ——W≤30 2.5W 再把整个图复合一下,就成为下面这样的一个完整的:收费标准——L≤1000——挂号 3W ——普通 2W ——L> 1000——挂号 ——W >30 3.5×30+4(W-30) ——W≤30 3.5W ——普通 ——W >30 2.5×30+3(W-30) ——W≤30 2.5W 然后,大家自己再用大括号连一下就可以了,应该能看明白了。 下面是决策表;决策表基本是根据决策树来画的,现在我们可以看出,我们总共有6个组合,条件有3个,行动的结果有6个,这就确定了决策表的列与行,6个组合构成了决策表的列,3个条件和6个行动结果构成了决策表的9个行,于是,一个决策表的大致轮廓就出来了: 条件和行动 组合 1 2 3 4 5 6 距离是否大于1000 Y Y Y Y N N 是否挂号 Y Y N N Y N 重量是否大于30 Y N Y N F=2W √ F=3W √ F=2.5W √ F=3.5W √ F=2.5×30+3(W-30) √ F= 3.5×30+4(W-30) √ 我想要说明的是,其中的W代表的是你包裹的重量,在决策表中上面三行是条件,下面六行是结果,这个是根据决策表的条件一个一个对照来了,Y代表是,N代表否,不要想当然的往里添,在条件都符合的情况下画勾,这样,一个决策表就做出来了.
㈢ 如何画决策树
画决策树的步骤如下:
A、先画一个方框作为出发点,又称决策节点;
B、从出发点向右引出若干条直线,这些直线叫做方案枝;
C、在每个方案枝的末端画一个圆圈,这个圆圈称为概率分叉点,或自然状态点;
D、从自然状态点引出代表各自然状态的分枝,称为概率分枝;
E、如果问题只需要一级决策,则概率分枝末端画三角形,表示终点。
例题)
假设有一项工程,施工管理人员需要决定下月是否开工。如果开工后天气好,则可为国家创收4万元,若开工后天气坏,将给国家造成损失1万元,不开工则损失1000元。根据过去的统计资料,下月天气好的概率是0.3,天气坏的概率是0.7。请做出决策。现采用决策树方法进行决策
【解】第一步:将题意表格化
㈣ 决策树的画法
机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。
从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。
一个决策树包含三种类型的节点: 决策节点:通常用矩形框来表示 机会节点:通常用圆圈来表示 终结点:通常用三角形来表示
决策树学习也是资料探勘中一个普通的方法。在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。 当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。
决策树同时也可以依靠计算条件概率来构造。
决策树如果依靠数学的计算方法可以取得更加理想的效果。 数据库已如下所示:
(x, y) = (x1, x2, x3…, xk, y)
相关的变量 Y 表示我们尝试去理解,分类或者更一般化的结果。 其他的变量x1, x2, x3 等则是帮助我们达到目的的变量。
㈤ 怎么用决策树进行做题啊
(二)决策树法
决策树法是把方案的一系列因素按它们的相互关系用树状结构表示出来,再按一定程序进行优选和决策的方法。
优点是:
(1)便于有次序、有步骤、直观而又周密地考虑问题;
(2)便于集体讨论和决策;
(3)便于处理复杂问题的决策。
运用决策树决策的步骤:
(1)绘制决策树图;
(2)预计可能事件(可能出现的自然状态)及其发生的概率;
(3)计算各策略方案的损益期望值;
(4)比较各策略方案的损益期望值,进行择优决策。若决策目标是效益,应取期望值大的方案;若决策目标是费用或损失,应取期望值小的方案。
用决策树法决策时,决策问题应具备四个条件:
(1) 存在明确的目标;
(2) 有两个或两个以上的可供选择的方案;
(3) 每种方案存在着决策者不可控制的两种或两种以上的自然状态;
(3) 不同方案在不同自然状态下的期望值可以计算出来。
㈥ 决策树法的步骤
(1)绘制决策树图。从左到右的顺序画决策树,此过程本身就是对决策问题的再分析过程。
(2)按从右到左的顺序计算各方案的期望
值,并将结果写在相应方案节点上方。期望值的计算是从右到左沿着决策树的反方向进行计算的。
(3)对比各方案的期望值的大小,进行剪枝优选。在舍去备选方案枝上,用“=”记号隔断。
㈦ 管理学决策树怎么画
管理学决策树画法如下:
第一步:点击下载“亿图图示”软件,也可以访问亿图图示在线网页版。然后启动软件,开作图。
第二步:新建一个“决策树”。依次点击“管理-咨询”-“项目管理”-“决策树”。这样我们需要的决策树模板就会在下方,然后选择一个模板,点击使用。
第三步:首先打开画布左侧的符号库,可以看到很多专业的决策树符号,然后对想用的符号进行拖拽和使用,也可以修改模板的绘图形状打造个性化的决策树。
2、计算机算法决策树可以说时计算机的比较基础的算法了。决策树既可以做分类算法也可以做回归算法,适合程序员学习联系计算机的代码书写。
㈧ 决策树分析方法的基本步骤 快速找到最佳方案
基本步骤:从左到右顺序画一个决策树,这是一个决策问题的重新分析过程。从右到左计算每个方案的期望值,并将结果写在对应的方案节点上方。的期望值是沿着决策树的相反方向从右到左计算的。比较各方案的期望值,砍掉期望值低的方案(即次优方案),留下最后一个方案作为最佳方案。
特征选择:特征选择决定了使用哪些特征进行判断。在训练数据集中,每个样本可能有很多属性,不同的属性有不同的作用。因此,特征选择的作用就是筛选出与分类结果相关性高的特征,即分类能力强的特征。特征选择常用的准则是:信息增益。
决策树的生成:选择一个特征后,从根节点触发,为每个节点计算所有特征的信息增益,选择信息增益最大的特征作为节点特征,根据该特征的不同值建立子节点;对每个子节点使用相同的方法来生成新的子节点,直到信息增益很小或者没有特征可供选择。
决策树的剪枝:剪枝的主要目的是通过主动去除部分分支来对抗“过拟合”,降低过拟合的风险。
决策树方法的优点:
1.决策树列出了决策问题的所有可行解和各种可能的自然状态,以及各种状态下每个可行方法的期望值。
2.可以直观地展示整个决策问题在不同阶段的时间和决策顺序的决策过程。
3.应用于复杂的多阶段决策时,阶段明显,层次清晰,便于决策主体集体研究,能够慎重考虑各种因素,有利于做出正确决策。
㈨ 决策树分析方法的基本步骤
决策树分析方法的基本步骤
1.绘制决策树图。从左到右的顺序画决策树,此过程本身就是对决策问题的再分析过程。
2.按从右到左的顺序计算各方案的期望值,并将结果写在相应方案节点上方。期望值的计算是从右到左沿着决策树的反方向进行计算的。
3.对比各方案的期望值的大小,将期望值小的方案(即劣等方案)剪掉,所剩的最后方案为最佳方案。
决策树(简称DT)利用概率论的原理,并且利用一种树形图作为分析工具。其基本原理是用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。
缺点:
1) 对连续性的字段比较难预测;
2) 对有时间顺序的数据,需要很多预处理的工作;
3) 当类别太多时,错误可能就会增加的比较快;
4) 一般的算法分类的时候,只是根据一个字段来分类。
㈩ 决策树怎么画
决策树是一种帮助企业管理者更有效地进行分析的决策工具。一些简单的情况,用Word或者简单的工具就可以完成,Word操作有点困难;用亿图图示软件工具对相对复杂的情况都能轻松画出,会让你更好的分析和判断,希望对你有帮助!