机器学习技巧总结

SVM vs Logistic Regression

  1. 逻辑回归和线性核SVM本质上其实没啥区别;
  2. 特征数大于样本数或者二者数量相当时,逻辑回归或者线性核SVM会有比较好的效果;
  3. 特征数较少,样本数一般多时,高斯核SVM会有比较好的效果;
  4. 特征少,样本特别多时,构建更多的特征,然后用逻辑回归或者线性核SVM

调参技巧

解决测试误差较大的办法

  1. 增加训练样本 -> 降低方差
  2. 减少特征数量 -> 降低方差
  3. 增加新特征 -> 降低偏差
  4. 现有特征多项式组合(x1^2, x2^2, x1*x2等等) -> 降低偏差
  5. 降低正则λ -> 降低偏差
  6. 增加正则λ -> 降低方差