机器学习初学者指南:机器学习黑客马拉松竞赛经验分享

4413 字丨阅读本文需 11 分钟

总览本文是进入机器学习黑客马拉松竞赛的前10%的终极入门者指南。如果你遵循本文列出的这些简单步骤,那么赢得黑客马拉松的分类问题是比较简单的始终保持不断的学习,以高度的一致性进行实验,并遵循你的直觉和你随着时间积累的领域知识从几个月前在Hackathons作为初学者开始,我最近成为了Kaggle专家,并且是 Vidhya 的JanataHack Hackathon系列分析的前5名贡献者之一。我在这里分享我的知识,并指导初学者使用Binary分类中的分类用例进行顶级黑客竞赛

让我们深入研究二元分类–学习来自Analytics Vidhya的JanataHack Hackathon系列的保险交叉销售实例,并进行实践实验保险交叉销售黑客马拉松的链接t我们的客户是一家为客户提供健康保险的保险公司,现在他们需要我们帮助构建模型,来预测过去一年的保单持有人(客户)是否也会对公司提供的车辆保险感兴趣。保险单是公司承诺为特定的损失,损害,疾病或死亡提供赔偿保证,以换取指定的保险费的一种协议,保费是客户需要定期向保险公司支付此保证金的金额。例如,我们每年可以为200000卢比的健康保险支付5000卢比的保险费,这样,如果我们在那一年生病并需要住院治疗,保险公司将承担最高200000卢比的住院费用。现在,如果我们想知道,当公司只收取5000卢比的保险费时,该如何承担如此高的住院费用,那么,概率的概念就出现了。例如,保险公司每年可能有100名客户支付5000卢比的保险费,但只有少数人(比如2-3人)会在当年住院,这样,每个人都会分担其他人的风险。就像医疗保险一样,有些车辆保险每年需要客户向保险提供商公司支付一定金额的保险费,这样,如果车辆不幸发生意外,保险提供商公司将提供赔偿(称为“投保”)。建立模型来预测客户是否会对车辆保险感兴趣对公司非常有帮助,因为它随后可以相应地计划其沟通策略,以覆盖这些客户并优化其业务模型和收入。分享我的数据科学黑客马拉松方法——如何在20,000多个数据爱好者中达到前10%在第1部分中,我们学习可以重复,优化和改进的10个步骤,这是帮助你快速入门的良好基础。学习分类任务黑客马拉松的10个简单步骤1. 理解问题陈述并导入包和数据集2. 执行EDA(探索性数据分析)——了解数据集。探索训练和测试数据,并了解每个列/特征表示什么,检查数据集中目标列是否不平衡3. 从训练数据检查重复的行4. 填充/插补缺失值-连续-平均值/中值/任何特定值|分类-其他/正向填充/回填5. 特征工程–特征选择–选择最重要的现有特征| 特征创建或封装–从现有特征创建新特征6. 将训练数据拆分为特征(独立变量)| 目标(因变量)7. 数据编码–目标编码,独热编码|数据缩放–MinMaxScaler,StandardScaler,RobustScaler8. 为二进制分类问题创建基线机器学习模型9. 结合平均值使用K折交叉验证改进评估指标“ ROC_AUC”并预测目标“Response”10. 提交结果,检查排行榜并改进“ ROC_AUC”在GitHub链接上查看PYTHON中完整的工作代码以及可用于学习和练习的用例。. 了解问题陈述并导入包和数据集数据集说明

3. XGBOOST中的GPU参数
tree_method ='gpu_hist'gpu_id = 0用法将tree_method参数指定为以下算法之一。算法

支持的参数

黑客马拉松交叉销售任务经验总结
在这个AV交叉销售黑客竞赛中总结的“10件事”:2个最佳功能:Vehicle_Damage的目标编码和按Region_Code分组的Vehicle_Damage总和——基于特征重要性-在CV(10折交叉验证)和LB(公共排行榜)方面有了很大提升。基于域的特征:旧车辆的频率编码特征对模型的学习有所提高。LB得分:0.85838 |LB排名:15Hackathon Solutions的排名功能:带来了巨大的推动力。LB得分:0.858510 |LB排名:23删除“id”栏:带来了巨大的推动力。基于域的特性:每辆车辆的车辆损坏、年龄和地区代码——有一点提升。LB得分:0.858527 |LB排名:22消除年度保险费的偏离值:带来了巨大的推动力。LB得分:0.85855 |LB排名:20基于领域的特征:每个地区的车辆损坏,代码和政策,销售渠道,基于特征重要性,有一点提升。LB得分:0.85856 |LB排名:20用超参数和10-Fold CV对所有3个模型进行了调整,得出了一个稳健的策略和最好的结果,早期停止的轮数=50或100。Scale_pos_weight在这里没有太大作用。基于域的特性:客户期限以年为单位,因为其他特性也以年为单位,保险响应将基于年数。LB得分:0.858657 |LB排名:18综合所有3个最好的单独模型:LightGBM、CatBoost和XGBoost,得到了最好的分数。5件“不管用”的事未处理的特征:[ 按年龄分组的车辆损坏总和,按以前投保的车辆损坏总和,按地区代码分组的车辆损坏计数,按地区代码分组的车辆最大损坏,按地区代码分组的最小车辆损坏,按老旧车辆的频率编码,车辆年龄的频率编码,每月EMI=年度保险费/12,按保险单分组的车辆损坏总额,按车辆年龄分组的车辆损坏总额,按驾驶执照分组的车辆损坏总额 ]删除与响应不相关的驾驶执照列所有特征的独热编码/虚拟编码与未标度数据相比,所有3种标度方法都不起作用——StandardScaler给出了其中最好的LB评分。StandardScaler  –0.8581 | MinMaxScaler–0.8580 | RobustScaler–0.8444删除基于训练和测试的Region_Code上的重复代码根本不起作用本文阐述了许多步骤,如基于领域知识的特征工程、交叉验证、提前停止、在GPU中运行3个机器学习模型,对多个模型进行平均组合,最后总结出“哪些技术有效,哪些无效”,这将帮助我们节省大量时间和精力,提高未来我们对黑客竞赛的关注度。
非常感谢你的阅读!

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:磐创AI
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...