目的:将数据转换为能够更好地表示潜在问题的特征,从而提高机器学习性能。
对非结构化数据机芯结构化
数据填充
数据归一化
标准化(z分数标准化)
极差法(min-max标准化)
L1和L2正则化(将数据投影到不同的空间)
筛选出数据的有用的列
相关系数
识别并移除多重共线性
卡放检验
方差分析
理解p值
迭代特征选择
用机器学习测量熵和信息增益
线性判别分析法(LDA)
主成分分析法(PCA)
最后更新于3年前
这有帮助吗?