特征工程

目的:将数据转换为能够更好地表示潜在问题的特征,从而提高机器学习性能。

清洗数据

  • 对非结构化数据机芯结构化

  • 数据填充

  • 数据归一化

    • 标准化(z分数标准化)

    • 极差法(min-max标准化)

    • L1和L2正则化(将数据投影到不同的空间)

特征选择

筛选出数据的有用的列

  • 相关系数

  • 识别并移除多重共线性

  • 卡放检验

  • 方差分析

  • 理解p值

  • 迭代特征选择

  • 用机器学习测量熵和信息增益

特征降维

  • 线性判别分析法(LDA)

  • 主成分分析法(PCA)

最后更新于

这有帮助吗?