提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
翻译|使用教程|编辑:况鱼杰|2020-06-10 11:54:34.703|阅读 824 次
概述:过度拟合模型是执行回归分析时需要注意的一个实际问题。 过拟合模型会导致误导回归系数,p值和R平方统计量。 没有人希望如此。本文将会研究一下什么是过拟合模型,以及如何避免掉入过拟合陷阱。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
Minitab Statistical Software是一款无与伦比的可视化统计分析软件,它会审视当前及过往的数据,以找出趋势并预测规律、发现变量之间隐藏的关系、可视化数据交互作用并识别重要因素,从而解答最棘手的问题、应对最严峻的难题。
过度拟合模型是执行回归分析时需要注意的一个实际问题。 过拟合模型会导致误导回归系数,p值和R平方统计量。 没有人希望如此。本文将会研究一下什么是过拟合模型,以及如何避免掉入过拟合陷阱。
简而言之,对于您正在分析的数据而言,过拟合模型过于复杂。 过度拟合回归模型可以反映您所收集的特定样本的噪声,异常和随机特征,而不是完全反映整个种群。 发生这种情况时,过拟合模型不太可能拟合另一个来自相同总体的随机样本,而后者可能会有其自身的怪癖。
一个好的模型不仅应该适合您拥有的样本,还应该适合您从相同总体中收集的任何新样本。有关过度拟合回归模型的危险的示例,请查看以下拟合线图:
即使此模型看起来可以解释响应中的很多变化,但对于此样本数据而言,它太复杂了。在总体中,如此处详细说明的那样,在预测变量和此响应之间没有真正的关系。
推论统计基础
为了更深入地了解过度拟合的问题,让我们回顾一下推理统计的基本概念,在该概念中,可以尝试从随机样本中得出有关总体的结论。样本数据用于提供总体参数和关系的无偏估计,还用于检验关于总体的假设。
在推论统计中,样本的大小会影响您可以收集的有关总体的信息量。如果您想了解更多信息,则需要更大的样本量。试图从一个小样本中获取太多信息并不能很好地工作。
例如,样本量为20,您可能会很好地估计出单个总体平均值。但是用总样本量为20来估计两个总体均值是一个风险较高的主张。如果您想用相同的样本估算三个或更多的总体均值,则得出的任何结论都是非常粗略的。
换句话说,尝试从样本中学习太多会导致结果不如我们所希望的可靠。在此示例中,随着每个参数的观察值从20减少到10到6.7甚至更多,参数估计将变得更加不可靠。一个新样本可能会产生不同的参数估计值。
样本量如何与过拟合模型相关
同样,过度拟合回归模型的原因是试图从太小的样本中估计太多的参数。在回归中,使用单个样本来估计模型中所有项的系数。这包括每个预测变量,交互作用和多项式项。结果,可以安全容纳的术语数取决于样本的大小。
较大的样本允许使用更复杂的模型,因此,如果您要研究的问题或过程非常复杂,则需要足够大的样本量来支持这种复杂性。由于样本量不足,您的模型将不可靠。
因此,您的样本需要针对每个术语进行足够的观察。在多元线性回归中,每项10-15个观察值是一个很好的经验法则。因此,具有两个预测变量且具有交互作用的模型将需要30到45个观察值,如果您具有较高的多重共线性或较小的效应量,则可能需要更多观察值。
避免过拟合模型
您可以通过交叉验证来检测过度拟合-确定模型对新观测值的适应程度。对数据进行分区是一种评估模型如何拟合未用于估计模型的观测值的方法。
对于线性模型,Minitab会计算预测的R平方,这是一种不需要单独样本的交叉验证方法。为了计算预测的R平方,Minitab会系统地从数据集中删除每个观察值,估计回归方程,并确定模型对移除的观察值的预测程度。
在预测删除的观察结果时表现不佳的模型可能符合样本中的特定数据点,并且不能推广到全部人群。
过度拟合问题的最佳解决方案是避免。确定重要变量并考虑可能要指定的模型,然后提前计划以收集足够大的样本来处理您的响应变量可能需要的所有预测变量,交互作用和多项式项。
对Minitab的更多应用感兴趣吗?联系在线客服了解更多产品详情。
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn
文章转载自:minitab本文探讨 SQL Server 中 NULL 和空值之间的区别,并讨论如何有效地处理它们。
Unity 是一款功能极其丰富的游戏引擎,允许开发人员将各种媒体集成到他们的项目中。但是,它缺少最令人兴奋的功能之一 - 将 Web 内容(例如 HTML、CSS 和 JavaScript)直接渲染到 3D 场景中的纹理上的能力。在本文中,我们将介绍如何使用 DotNetBrowser 在 Unity3D 中将 Web 内容渲染为纹理。
DevExpress v24.2帮助文档正式发布上线了,请按版本按需下载~
本教程将向您展示如何用MyEclipse构建一个Web项目,欢迎下载最新版IDE体验!
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@cahobeh.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢