提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
原创|行业资讯|编辑:陈俊吉|2016-07-22 10:46:44.000|阅读 5200 次
概述:SPSS Modeler包含了多种决策树算法,包括C5.0、CHAIN、QUEST、C&R和决策列表,他们都可以通过构建树来生成分类规则。那么他们在使用过程中到底有些什么样的区别呢?
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
决策树分类算法虽然看上去是一种简单的分类技术,但是其在机器学习的领域当中却是使用得非常的广泛。决策树的原理非常简单,正如名字所描述的,决策树最后的得出结果就是一棵树,如下图所示:
包含了多种决策树算法,包括C5.0、CHAIN、QUEST、C&R和决策列表,他们都可以通过构建树来生成分类规则。那么他们在使用过程中到底有些什么样的区别呢?我们从以下几点开始比较:
1.在做分类模型的时候,我们需要告诉它,我的输出目标(分类目标)是什么,比如在客户流失分析中,目标就是客户是流失还是不流失,那么是否流失这个指标就是我的目标,我要通过给它输入的影响因素,让它去学习,到底什么样的条件下,客户是流失的,什么样的条件下,客户是不流失的,因此,首先我们看下,这些算法中,在输出目标类型的选择是否有所区分?
输出目标类型一般分为两种,一种是字符型的,一种是连续数值型的。C5.0、QUEST和决策列表只支持目标类型是字符型的,而C&R和CHAIN既支持字符型,也支持数值型。因此,所有这五类算法都可以用来创建信用卡风险模型,因为它的输出目标就是有风险或者是无风险,但是只有C&R和CHAIN可以用来创建模型预测下一年客户花费的金额会是多少。
2.前面讲的是输出目标的类型,而第二点要比较的,是输出目标的拆分类型,拆分类型有两种,一种是二元(就是只分为两类),另一种相对应来说就是多元(三类及以上),那在这5个算法中,C&R和QUEST中支持二元分类,而CHAIN、C5.0和决策列表不管输出目标拆分为多少组,都支持。
3.在构建决策树的过程中,最核心的内容就是如何对树进行分支,这涉及到一个问题,就是决定它分支节点选择的标准是什么,那么以上五种算法各自标准都不一样。C5.0使用的标准是信息度量(Information gain ratio);C&R使用的是离差度量(Dispersion measure);CHAIN使用的是卡方检验(Chi-square test);QUEST针对输入指标是分类型的,使用卡方检验(Chi-square test),对输入指标是数值型的,使用方差分析(Analysis of variance,简称ANOVA); 决策列表使用统计置信度(Statistical confidence)。那么这里每个标准都有自己的计算公式,这在基本的统计方面的书或者百度上都有很详细的介绍,大家有兴趣可以找相关的资料看看,这里就不具体介绍。由于各个算法使用的标准不同,因此生成的模型及其预测结果也会有所差异。
4.在做数据挖掘分析的时候,很多时候是需要结合业务经验来更好地构建数据挖掘模型,在应用决策树的时候,有些算法是可以跟分析人员互动,而不是完全依赖自身标准来生长树的,比如说CHAIN、QUEST和C&R这三类决策树,在SPSS Modeler节点上,可以选择直接生成模型,或者是启动交互对话的,如果是启动交互对话,那么你就可以选择你从业务经验上认为是重要因素的指标作为生长节点,默认会自动计算分割条件,或者你也可以自定义分割条件;决策列表也可以启动交互对话,来自定义规则;而C5.0则没有交互模式。
5. 在使用这些算法时,你可能会注意到,上,CHAIN、QUEST、C&R的设置面板上都有选项让你选择是否需要Bagging选项,使用Bagging技术,那么每轮的训练集由从初始的训练集中随机取出的n个训练倒组成,初始训练例在某轮训练集中可以出现多次或根本不出现训练之后可得到一个预测函数序列, 最终的预测函数对分类问题采用投票方式得到最终结果 。这样可以很好地提高学习算法准确度,C5.0和决策列表则没有Bagging选项。
6.与Bagging技术类似,还有另外一种技术是Boosting, 在上,C5.0、CHAIN、QUEST、C&R这些算法的设置面板上都有选项让你选择是否需要Boosting(即提升技术),Boosting技术就是通过不断迭代来产生分类器组合的算法,在每次迭代的过程中,Boosting在训练样本总集进行放回抽样构建一个新的训练集,并且每一次迭代都会自适应地改变训练样本的分布,以此使得接下来新产生的基分类器把“重点”放在那些错分的样本上,就这样通过多次迭代,就能够产生多个基分类器,最后通过对每个分类器的预测结果进行加权预测,以此得到组合分类器的目的,这一技术可以很好地增加模型准确度,当然,它的计算量也会是原来的n倍(n就是Boosting的成分模型数量),时间也会更长些。C5.0和决策列表就没有Boosting这个选项了。
介绍了这么多差别,给大家总结一下,如下表:
以上就是这5种算法的区别,别看简单,其实很有用,如果您没能记住,或者是对这些算法都不是太了解,那么……也没有关系,因为在平台上,还有自动建模器,包括自动分类、自动聚类以及自动数值,这些节点可以帮助您自动选择最优的三个算法供您参考,有兴趣的可以自己试试,当然,要得到更加优化的模型,对算法还是需要有一些了解的,以后,我们也会多发布一些算法方面的文章供大家参考。
试用版下载地址:
详情请咨询!
客服热线:023-66090381
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn
通过提供强大的3D CAD数据访问工具并适用于桌面、移动和Web的高级环境3D可视化发动机,HOOPS在提升造船设计和制造流程的效率方面发挥了重要作用。
HOOPS Luminate在汽车行业中的应用具有广泛的潜力和深远的影响。它通过提供高效的3D可视化、虚拟装配与拆解、性能分析、客户定制等功能,帮助汽车制造商在设计、生产和销售过程中提升效率、降低成本并提高产品质量。
在不断发展的软件开发世界中,使工具和框架与最新的平台版本保持同步至关重要,欢迎查阅~
全球航运业对国际贸易至关重要,全球 90% 以上的商品通过海运运输。准确监控和控制这些集装箱的移动对于维持高效的供应链至关重要。手动输入集装箱号码是这一程序的关键部分,它带来了相当大的挑战,例如人为错误和效率低下。
工业4.0优选产品 | 商业智能和绩效管理软件领导者,帮助企业成为业绩最佳的分析驱动型企业
SPSS Modeler工业4.0优选产品 | 在历史数据中发现规律以预测未来事件,做出更好的决策,实现更好的成效
IBM InfoSphere Streams高效捕获和分析动态数据的软件平台
Watson Analytics具备理解,学习和推理能力,实现更智能的人机互动,帮助人们做出更好的决策
InfoSphere Change Data Capture在跨平台和异构数据库环境中实现变化数据的实时复制
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@cahobeh.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢