彩票走势图

产品

产品
资讯
资源
视频
学院
示例

产品中心
解决方案
行业方案
视频课程
关于慧都

热门产品

UI界面: DevExpress telerik BCGSoft Developer Machines

文档管理: Aspose E-iceblue GrapeCity PDFlib

图表控件: LightningChart Steema Iocomp

数据采集: TAKEBISHI Matrikon

思维导图: TheBrain XMind

开发工具: IntelliJ IDEA MyEclipse Zend PyCharm WebStorm CLion

报表控件: Fast Report Stimulsoft GrapeCity

加密解密: VMPsoft Eziriz Oreans

项目管理: DHTMLX NETRONIC

数据库管理: Devart PremiumSoft

条码工具: Bartender Softek Dynamsoft TEC-IT Byte Aspose.BarCode

解决方案

软件定制解决方案: 软件系统定制高端UI定制业务系统定制

智能制造解决方案: OMES制造执行系统 APS生产排程系统 OQMS质检管理系统 OPTS生产溯源系统 OTPM设备管理系统 OKanban看板管理 DA工业数据采集系统 SRM供应商管理 PDM产品数据管理 WMS仓储管理 OMES ProLine产线MES系统

行业方案

制造行业: 磁性材料行业hot 汽车零配件行业电子行业精密装配行业钣金行业机械加工行业汽车改装行业金属薄膜材料行业灯具照明行业电线电缆行业钢结构行业

其他行业: 石油行业hot 医疗行业金融行业建筑行业

视频课程

产品视频: UI界面类图标报表网络通讯文档管理矢量图像处理位图图像处理音频视频文件格式转码条形码加密解密测试分析地图/CAD/GIS BI/大数据算法工作流 UML 数据库/服务器 IDE 项目管理思维导图其他移动开发扫描识别条形码

学院课程: VIP视频免费视频用户界面图表报表文档管理大数据工作流项目管理测试分析往期公开课项目管理其他

企业培训: 定制培训班

关于慧都

慧都简介慧都文化联系我们合作伙伴典型客户

彩票走势图 > 资讯 > 机器学习|客户价值预测分析

机器学习|客户价值预测分析

原创|大数据新闻|编辑：郑恭琳|2020-12-04 11:06:09.343|阅读 211 次

概述：项目目的：预测客户的交易价值。数据内容：4459条已知客户的交易价值和客户的属性（具体内容不知道，有可能是性别、年龄、收入、交税等等，每一个用户有4993条属性）。步骤：数据分析、特征值选取、模型建立、调试。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

相关链接：

项目目的：预测客户的交易价值

数据来源：//www.kaggle.com/c/santander-value-prediction-challenge

数据内容：4459条已知客户的交易价值和客户的属性（具体内容不知道，有可能是性别、年龄、收入、交税等等，每一个用户有4993条属性）

步骤：

数据分析
特征值选取
模型建立
调试

数据分析

有4459行，4993列，其实中1845列为float类型，3147列为int类型，有1列为object（应该为用户id）

特征值选取

观察发现特征值数量较大

初步处理：去掉常数列，去掉重复列

数据由4993变为4732

由于特征值太多，难以作图分析

直接使用所有特征值

对需要预测值分析，观察数据分布（下图左），大部分数据集中在左侧，做log处理使数据更符合高斯分布（下图右）。通常高斯分布的数据预测更准确（原因不是很清楚，个人理解是如果有较大值出现，预测偏差一点，loss改变很大，对拟合不利）。

方法1

可能存在问题，样本太少，有可能过拟合。先看下效果在说吧。

首先建立了一个4层的dnn网络（详见test_dnn.py）

预测结果分析

对测试集进行测试

衡量标准为为均方根

计算方法：sqrt((预测值-原始值)**2/样本数)

Rms=1.84

下图为预测误差分布图

结果分析：效果不理想，预测值与真实值差距较大，有一个值偏离非常大

原因分析：

1. 模型结构不够理想

2. 超参数的设置

3. 样本太少，有200w的参数但是样本只有4000+，过拟合问题严重（在20次迭代后，就发生过拟合了）

方法2

使用lightgbm

直接使用lightgbm库（能用，但是对调参还需要学习）

详见test_lightgbm.py

预测结果分析

对测试集进行测试

衡量标准为均方根

Rms=1.35

结果分析：效果依旧不理想，但是比dnn较好，而且没有偏移非常大的值

原因分析：

1. 依旧存在过拟合

2. 模型参数设置

方法3

使用xgboost

方法同上

预测结果

Rms=1.38

结果分析：效果依旧不理想

原因分析：

1. 2000次迭代次数不够，模型还未收敛

2. 模型参数设置

方法4

使用catboost

方法同上

预测结果

Rms=1.47

结果分析：效果依旧不理想

方法5

使用集成学习的思想，将上面的方法混合使用

将3个学习器的结果根据权重求和，得到最后结果

Rms=1.36

结果分析：

使用4种方法对预测目标进行建模，其中dnn由于数据太少，很早就发生了过拟合

Xgboost，lightgbm，catboost效果比dnn要好很多，但是对价值预测依然存在偏差。但是结合kaggle的论坛帖子，由于数据特点在不使用leak的情况下这已经是不错的预测。由于调参修改的时间需求较大就不进行了，这里只是一个验证，验证结果为Xgboost，lightgbm，catboost在数据量较少的场景，效果是非常好的。

慧都大数据分析平台，将学习、推理、思考、预测、规划等能力赋予企业数据，让数据驱动决策，创造最高业务价值。

欢迎拨打慧都热线023-68661681或咨询，我们将帮您转接大数据专业团队，并发送相关资料给您！

标签：

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn

上一篇：技术支持在大数据时代必不可少的五大理由下一篇：简单一文11种数据库全给你解释清楚！

彩票走势图相关的文章 MORE

业务系统定制

智能制造解决方案: 工业设计运营管理生产管理

石油工程解决方案: 油气勘探数字化钻井工程数字化数据管理与分析

关于我们: 慧都简介公司动态业务区域典型案例

区域服务电话: 重庆 / 023-68661681 华东 / 13452821722 华南 / 18166486035 华北 / 17347785263

客户支持: 技术培训/ 咨询服务服务热线：400-700-1020 邮箱：sales@cahobeh.cn 微信在线咨询

官方微信

官方微博

服务电话

重庆/ 023-68661681

华东/ 13452821722

华南/ 18100878085

华北/ 17347785263

客户支持

技术支持咨询服务

服务热线：400-700-1020

邮箱：sales@cahobeh.cn

关注我们

地址 : 重庆市九龙坡区火炬大道69号6幢

慧都科技版权所有 Copyright 2003- 2024 渝公网安备 50010702500608号

扫码咨询

添加微信立即咨询

电话咨询

客服热线
023-68661681

TOP

<tfoot id='1mly6'></tfoot>

<legend id='1mly6'><style id='1mly6'><dir id='1mly6'><q id='1mly6'></q></dir></style></legend>

<i id='1mly6'><tr id='1mly6'><dt id='1mly6'><q id='1mly6'><span id='1mly6'><b id='1mly6'><form id='1mly6'><ins id='1mly6'></ins><ul id='1mly6'></ul><sub id='1mly6'></sub></form><legend id='1mly6'></legend><bdo id='1mly6'><pre id='1mly6'><center id='1mly6'></center></pre></bdo></b><th id='1mly6'></th></span></q></dt></tr></i><div id='1mly6'><tfoot id='1mly6'></tfoot><dl id='1mly6'><fieldset id='1mly6'></fieldset></dl></div>