彩票走势图

产品

产品
资讯
资源
视频
学院
示例

产品中心
解决方案
行业方案
视频课程
关于慧都

热门产品

UI界面: DevExpress telerik BCGSoft Developer Machines

文档管理: Aspose E-iceblue GrapeCity PDFlib

图表控件: LightningChart Steema Iocomp

数据采集: TAKEBISHI Matrikon

思维导图: TheBrain XMind

开发工具: IntelliJ IDEA MyEclipse Zend PyCharm WebStorm CLion

报表控件: Fast Report Stimulsoft GrapeCity

加密解密: VMPsoft Eziriz Oreans

项目管理: DHTMLX NETRONIC

数据库管理: Devart PremiumSoft

条码工具: Bartender Softek Dynamsoft TEC-IT Byte Aspose.BarCode

解决方案

软件定制解决方案: 软件系统定制高端UI定制业务系统定制

智能制造解决方案: OMES制造执行系统 APS生产排程系统 OQMS质检管理系统 OPTS生产溯源系统 OTPM设备管理系统 OKanban看板管理 DA工业数据采集系统 SRM供应商管理 PDM产品数据管理 WMS仓储管理 OMES ProLine产线MES系统

行业方案

制造行业: 磁性材料行业hot 汽车零配件行业电子行业精密装配行业钣金行业机械加工行业汽车改装行业金属薄膜材料行业灯具照明行业电线电缆行业钢结构行业

其他行业: 石油行业hot 医疗行业金融行业建筑行业

视频课程

产品视频: UI界面类图标报表网络通讯文档管理矢量图像处理位图图像处理音频视频文件格式转码条形码加密解密测试分析地图/CAD/GIS BI/大数据算法工作流 UML 数据库/服务器 IDE 项目管理思维导图其他移动开发扫描识别条形码

学院课程: VIP视频免费视频用户界面图表报表文档管理大数据工作流项目管理测试分析往期公开课项目管理其他

企业培训: 定制培训班

关于慧都

慧都简介慧都文化联系我们合作伙伴典型客户

彩票走势图 > 资讯 > 如何改进手上的机器学习模型

如何改进手上的机器学习模型

转帖|使用教程|编辑：我只采一朵|2017-07-13 11:24:03.000|阅读 123 次

概述：你发现，在你的测试集上你只有80%的正确率，这远远地低于你的预期。现在怎么办，你怎么来改进你的模型？

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

大数据

作者：Sourabh Bajaj

假如，你手头上正有一个机器学习的项目。你通过各种渠道手机数据，建立你自己的模型，并且得到了一些初期的结果。你发现，在你的测试集上你只有80%的正确率，这远远地低于你的预期。现在怎么办，你怎么来改进你的模型？

你需要更多的数据吗？或者建立个更复杂的模型？还是说调整正则参数？加减特征？迭代更多次？不然全来一遍吧？

最近我的一个朋友也这么问我，他觉得改进模型就是全凭运气。这促使我决定写这篇文章，来告知应该怎么做一个有信息量，有意义的举措。

1. 偏差和方差

为了构建一个准确的模型，我们首先要了解模型带来的各种误差。

偏差：偏差误差是来源于模型的期望（平均）预测数值与真实数值之间的差值。

方差：对于一个给定的数值，模型预测结果的变异（波动）程度。

大数据

1.1 数学定义

我们想要预测Y，我们的输入是X。我们假设他们两个直接有关系，比如，其中误差项服从正态分布。

我们可能通过线性回归或者其他建模方法得到一个估计，然后在点处的期望误差的平方是：

这个误差能够被拆分成偏差和方差两个组成部分：

大数据

必不可少的误差来源于误差项，任何模型都不能够彻底地解决。只有给定问题本身的真实模型和无穷大的数据来修正它，我们能够让偏差和方差项都变成零。然而，在一个没有完美的模型和无穷的数据的世界里，我们必须要在减小偏差和方差中权衡。

2. 什么是学习曲线

现在我们知道权衡偏差和误差这件事了，但是如何改进我们的模型仍然有待考究。我们的模型面对 严重偏离 和 高度变异 的时候应该怎么处理？我们需要绘制模型的学习曲线来解答这个问题。

2.1 严重偏离

小训练样本：很小，并且很大。
大训练样本：和都很大，并且两者近似相等。

2.2 高度变异

小训练样本：很小，并且很大。
大训练样本：随着训练集增加而变大，并且继续减小，但是不会稳定。，而且他们之间的差距很显著。

大数据

3. 下一步做什么？

我们已经明白，问题往往出在偏差或者方差上。这时候，我们要根据不同的情况，做出不同的抉择。

3.1 严重偏离

选择更复杂的特征，高阶项或者增加节点。
减小正则参数。

3.2 高度变异

收集更多的训练数据来帮助模型得到更好的泛化。
减小特征集合的大小。
增大正则参数。

大数据

4. 机器学习流程

大多数的机器学习系统都是由一个模型链组成的。通常情况下都会有一种困境，你已经有了一个机器学习的管道，但是接下来一步应该做什么呢？上限分析在这里很有帮助。

上限分析每一次在管道中的某一部分中插入一个完美的版本，并且由此来测度我们所观察到的完整的管道能够有多大的提升。这种方法能够帮助我们明白在整个模型链中，哪一步能够带来最可观的优化。

大数据

比如说上述的文字识别的管道（模型链），你发现一个完美的字符分割模型能够给整个识别系统提升1%，但是一个完美的字符识别模型能够提升7%。所以相比于改进字符分割模型，我们应该更关注字符识别模型的改进。

本文转载自：36大数据

标签：

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn

上一篇：条码控件Dynamsoft Barcode Reader教程：从PDF417驾驶执照中提取数据下一篇：Visual Paradigm教程：如何使用Open API为你的图表生成图像映射

彩票走势图相关的文章 MORE

业务系统定制

智能制造解决方案: 工业设计运营管理生产管理

石油工程解决方案: 油气勘探数字化钻井工程数字化数据管理与分析

关于我们: 慧都简介公司动态业务区域典型案例

区域服务电话: 重庆 / 023-68661681 华东 / 13452821722 华南 / 18166486035 华北 / 17347785263

客户支持: 技术培训/ 咨询服务服务热线：400-700-1020 邮箱：sales@cahobeh.cn 微信在线咨询

官方微信

官方微博

服务电话

重庆/ 023-68661681

华东/ 13452821722

华南/ 18100878085

华北/ 17347785263

客户支持

技术支持咨询服务

服务热线：400-700-1020

邮箱：sales@cahobeh.cn

关注我们

地址 : 重庆市九龙坡区火炬大道69号6幢

慧都科技版权所有 Copyright 2003- 2024 渝公网安备 50010702500608号

扫码咨询

添加微信立即咨询

电话咨询

客服热线
023-68661681

TOP