时间:2022-09-08 09:00:47 | 栏目:Python代码 | 点击:次
写入头文件之前,需要下载安装所必须的依赖包。有的无法使用pip安装的内容,使用手动导入依赖的方式.
课件中选取16个特征值,这里我采用了所有的特征值进行处理。
对于离散值进行连续处理,同时设置lambda函数计算G1、G2、G3。
2.4 对于当前处理过的数据集,划分训练集和测试集,并设置好随机种子等其他参数
训练完的模型用来设置图像参数进行可视化展现。
对训练好的模型进行打分。
输出优化后的分数。
重新划分数据集用于训练模型。
这里采用集成学习的多个决策树方式进行训练模型,以及模型的评估。
这里采用集成学习的Bagging算法进行训练模型,对模型做出分数估测。
模型 | 得分 |
---|---|
决策树(优化前) | 0.806 |
决策树(优化后) | 0.848 |
多个决策树 | 0.831 |
Bagging | 0.890 |
Random Forest | 0.882 |
AdaBoost | 0.806 |
GBDT | 0.865 |
根据决策树和集成学习两大类的训练模型可以看出:两种方式实现各有千秋,同样由优缺点。
决策树在优化参数前后预测结果有了较明显的提升,并且有可视化的图片便于观察。集成学习中的Bagging算法对于预测结果是最好的,随之的得分情况也是最高。但是AdaBoost算法的表现就相对不够。