好久没更了,主要还是懒,在家摸摸鱼。等我的MBP到了估计就会长时间摸鱼了。

总结下毕设的技术栈。

集成学习算法:

总结来说分为三步:

  1. 导入数据和应用包,对数据进行简单的预处理:

预处理所用函数:

sum(is.na(Ionosphere)) #对总体缺失值进行统计
Ionosphere <- Ionosphere[,-2] #去掉第二列
Ionosphere$V1 <- as.numeric(as.character(Ionosphere$V1)) #将第一列转换为数字

至此对数据进行了简单的整合。

  1. 得到训练模型

载入table后就可以使用函数模型来训练数据了,就是调用函数,但载入了一些CART没有的包花了一些时间

  1. 统计各模型训练结果,对比分析

核心步骤吧,理解了诸如混淆矩阵,ROC等重要概念,关键是数据可视化

提升

虽然R做的函数很容易调用,像predict函数封装的很好用,但不得不说其简单但功能性不如py和matlib。最后数据分类也是个大数据问题,很多时候要在服务器上做分布式训练,可惜我的数据集只有1k+,之后可以在spark上玩一玩。

Comments

2019-07-06

⬆︎TOP