提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
原创|大数据新闻|编辑:郑恭琳|2020-12-04 11:06:09.343|阅读 211 次
概述:项目目的:预测客户的交易价值。数据内容:4459条已知客户的交易价值和客户的属性(具体内容不知道,有可能是性别、年龄、收入、交税等等,每一个用户有4993条属性)。步骤:数据分析、特征值选取、模型建立、调试。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
项目目的:预测客户的交易价值
数据来源://www.kaggle.com/c/santander-value-prediction-challenge
数据内容:4459条已知客户的交易价值和客户的属性(具体内容不知道,有可能是性别、年龄、收入、交税等等,每一个用户有4993条属性)
步骤:
有4459行,4993列,其实中1845列为float类型,3147列为int类型,有1列为object(应该为用户id)
观察发现特征值数量较大
初步处理:去掉常数列,去掉重复列
数据由4993变为4732
由于特征值太多,难以作图分析
直接使用所有特征值
对需要预测值分析,观察数据分布(下图左),大部分数据集中在左侧,做log处理使数据更符合高斯分布(下图右)。通常高斯分布的数据预测更准确(原因不是很清楚,个人理解是如果有较大值出现,预测偏差一点,loss改变很大,对拟合不利)。
可能存在问题,样本太少,有可能过拟合。先看下效果在说吧。
首先建立了一个4层的dnn网络(详见test_dnn.py)
预测结果分析
对测试集进行测试
衡量标准为为均方根
计算方法:sqrt((预测值-原始值)**2/样本数)
Rms=1.84
下图为预测误差分布图
结果分析:效果不理想,预测值与真实值差距较大,有一个值偏离非常大
原因分析:
1. 模型结构不够理想
2. 超参数的设置
3. 样本太少,有200w的参数但是样本只有4000+,过拟合问题严重(在20次迭代后,就发生过拟合了)
使用lightgbm
直接使用lightgbm库(能用,但是对调参还需要学习)
详见test_lightgbm.py
预测结果分析
对测试集进行测试
衡量标准为均方根
Rms=1.35
结果分析:效果依旧不理想,但是比dnn较好,而且没有偏移非常大的值
原因分析:
1. 依旧存在过拟合
2. 模型参数设置
使用xgboost
方法同上
预测结果
Rms=1.38
结果分析:效果依旧不理想
原因分析:
1. 2000次迭代次数不够,模型还未收敛
2. 模型参数设置
使用catboost
方法同上
预测结果
Rms=1.47
结果分析:效果依旧不理想
使用集成学习的思想,将上面的方法混合使用
将3个学习器的结果根据权重求和,得到最后结果
Rms=1.36
结果分析:
使用4种方法对预测目标进行建模,其中dnn由于数据太少,很早就发生了过拟合
Xgboost,lightgbm,catboost效果比dnn要好很多,但是对价值预测依然存在偏差。但是结合kaggle的论坛帖子,由于数据特点在不使用leak的情况下 这已经是不错的预测。由于调参修改的时间需求较大就不进行了,这里只是一个验证,验证结果为Xgboost,lightgbm,catboost在数据量较少的场景,效果是非常好的。
慧都大数据分析平台,将学习、推理、思考、预测、规划等能力赋予企业数据,让数据驱动决策,创造最高业务价值。
欢迎拨打慧都热线023-68661681或咨询,我们将帮您转接大数据专业团队,并发送相关资料给您!
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn
大数据分析的一些发展趋势将为企业的未来发展做好准备。大数据分析如今成为政府部门和私营企业以及医疗机构抗击新冠疫情的重要资源。这在很大程度上要归功于云计算软件的发展,很多企业现在可以实时跟踪和分析大量业务数据,并相应地对其业务流程进行必要的调整。
生产质量分析是从工厂订单下单-订单生产-流入市场, 针对整个生产链进行全面的质量分析。其中最重要的一环就是对于质量控制。
生产质量分析主要是为了帮助企业更快更准确的发现产品的质量问题,找到影响质量的根本原因,改善原因,提高企业产品良率。下面我们看看慧都科技的质量分析到底能帮助企业解决哪些问题?
在工业制造界,企业极不希望发生停机事故。因为,一小时的停机时间会使企业损失上百万人民币甚至更多。除了资金方面的损失之外,停机还意味着,当持续发生设备故障时,对员工的激励难度则会变大。因此,在企业的日常业务运营中,预测性维护就显得十分重要。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@cahobeh.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢