提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
原创|行业资讯|编辑:陈俊吉|2016-10-27 14:54:21.000|阅读 1993 次
概述:在IBM SPSS Modeler中,每个算法都会有相应的默认参数设置,对初学者来说,即使不是很懂算法,也可以生成模型结果,但在实际项目中,我们为了使得模型更加的优化,提升模型的准确率,经常会对算法的参数做一些相应的调整,那么今天,我们给大家介绍两个参数,分别是Bagging和Boosting,让大家了解下它们是怎么用的,能带来什么样的模型优化结果。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
在IBM SPSS Modeler中,每个算法都会有相应的默认参数设置,对初学者来说,即使不是很懂算法,也可以生成模型结果,但在实际项目中,我们为了使得模型更加的优化,提升模型的准确率,经常会对算法的参数做一些相应的调整,那么今天,我们给大家介绍两个参数,分别是Bagging和Boosting,让大家了解下它们是怎么用的,能带来什么样的模型优化结果。
用途:
Bagging和Boosting都是用来提高模型准确率的方法。
计算逻辑:
Bagging是Bootstrap Aggregating的一种方式,是一种根据均匀概率分布从数据集中重复抽样(有放回的)的技术。每个自助样本集都和原数据集一样大。由于抽样过程是有放回的,因此一些样本可能在同个训练数据集中出现多次,而其它一些却可能被忽略。假设我设置了Bagging的次数是10,也就是说我会根据上面的重复抽样方式,抽取10份数据,分别构建10个模型,得到10个预测结果,对最后的判定,如果是分类问题采用投票方式,对回归问题采用简单平均方法。
Boosting主要是AdaBoost (Adaptive Boosting),初始化时对每一个训练集赋相等的权重1/n,然后用该学算法对训练集训练t轮,每次训练后,对训练失败的训练例赋以较大的权重,也就是让学习算法在后续的学习中集中对比较难的训练例进行学习,从而得到一个预测函数序列h_1,⋯, h_m , 其中h_i也有一定的权重,预测效果好的预测函数权重较大,反之较小。最终的预测函数H对分类问题采用有权重的投票方式,对回归问题采用加权平均的方法对新示例进行判别。
Bagging与Boosting的区别:
二者的主要区别是取样方式不同。Bagging采用均匀取样,而Boosting根据错误率来取样,因此Boosting的分类精度要优于Bagging。Bagging的训练集的选择是随机的,各轮训练集之间相互独立,而Boosting的各轮训练集的选择与前面各轮的学习结果有关;Bagging的各个预测函数没有权重,而Boosting是有权重的;Bagging的各个预测函数可以并行生成,而Boosting的各个预测函数只能顺序生成。对于像神经网络这样极为耗时的学习方法,Bagging可通过并行训练节省大量时间开销。
Bagging和Boosting都可以有效地提高分类的准确性。在大多数数据中,Boosting的准确性比Bagging高;在有些数据集中,Boosting会引起退化------过度拟合。
IBM SPSS Modeler中的应用:
在IBM SPSS Modeler中,可以设置Bagging或Boosting功能的在算法包括:
Neural
Network
CHAID
QUEST
C&RT
Linear
以CHAID决策树为例:
接下来我们通过电信流失客户分析模型的创建来体验下这两个参数的设置对预测结果的影响。
首先,我们创建一数据流文件 ,如下图:
Step1:连接数据源Excel文件,文件内容如下:
Step2:类型节点设置影响因素及目标:
Step3:选择CHAID决策树算法,并使用默认参数设置生成模型:
Step4:生成的模型结果,可以在摘要面板查看默认的参数设置内容:
Step5:通过评估节点查看模型准确率为84.49%:
接下来,我们第一次更改算法的设置内容,在构建选项的目标面板中,选中“增强模型稳定性”,在整体面板中,设置模型数量为“10”。
重新运行模型后,可以看到,得到10个模型结果及各自的准确率:
也可以看到该算法中参数设置的内容:
再用评估节点,看到新模型准确率与之前的准确率相比,增加到88.16%:
同样的道理,如果我们设置为Boosting选项,生成的模型可以看到它的准确度缓慢提升:
同样的,用评估节点,可以看到模型的准确率会增加到92.03%:
总结:
通过上面的例子,我们可以看到使用Bagging和Boosting对模型带来的影响,可以在实际项目中尝试着使用,当然啦,因为使用这两个选项后,它的计算量会大大增加,比如原来要构建一个决策树模型,现在要构建N个(取决于你设置的模型个数),因此计算量是原来的N倍,所以,请耐心等待……
详情请咨询!
客服热线:023-66090381
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn
通过提供强大的3D CAD数据访问工具并适用于桌面、移动和Web的高级环境3D可视化发动机,HOOPS在提升造船设计和制造流程的效率方面发挥了重要作用。
HOOPS Luminate在汽车行业中的应用具有广泛的潜力和深远的影响。它通过提供高效的3D可视化、虚拟装配与拆解、性能分析、客户定制等功能,帮助汽车制造商在设计、生产和销售过程中提升效率、降低成本并提高产品质量。
在不断发展的软件开发世界中,使工具和框架与最新的平台版本保持同步至关重要,欢迎查阅~
全球航运业对国际贸易至关重要,全球 90% 以上的商品通过海运运输。准确监控和控制这些集装箱的移动对于维持高效的供应链至关重要。手动输入集装箱号码是这一程序的关键部分,它带来了相当大的挑战,例如人为错误和效率低下。
工业4.0优选产品 | 商业智能和绩效管理软件领导者,帮助企业成为业绩最佳的分析驱动型企业
SPSS Modeler工业4.0优选产品 | 在历史数据中发现规律以预测未来事件,做出更好的决策,实现更好的成效
IBM BigInsights for Apache Hadoop经济高效地存储、管理和分析大数据
IBM InfoSphere Streams高效捕获和分析动态数据的软件平台
InfoSphere DataStage助您发现、充实、集成和管理数据的整个生命周期
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@cahobeh.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢