type
status
date
slug
summary
tags
category
icon
password
1. 数据的预处理
- 对于缺失值
- 缺失量少,均值,中位数等填充;
- 缺失量多,离散化;
- 拟合模型填充.
- 对于异常值
- 基于统计的方法:3 sigma
- 聚类方法
- isolation forest 等算法.
2. 特征工程
- 连续特征, 离散特征
- 特征组合, 生成新的特征

- 特征的归一化 (Normalization) 对于在一定范围内的特征
- eg: 身高
- 线性函数归一化 (Min-Max Scaling)
- 零均值归一化 (Z-Score Normalization) = 标准化 (Standardization)
- 优点:
- 在变量更新速度不一致的情况下, 归一化能更好的实现梯度下降
- 线性变换不会改变原始数据的数值排序
: 均值. : 标准差
- 类别型特征 (Categorical Feature) 对于只在有限选项内取值的特征
- eg: 性别, 血型
- 特征的选择
- Filter(过滤法)
- 按照发散性或相关性对各个特征进行评分, 设定阈值或者待选择特征的个数进行筛选
- 就是, 算特征与特征之间的关系
- Pearson()皮尔森相关系数: 单个变量之间的线性相关性,结果的取值区间为[-1,1]
- from scipy.stats import pearsonr
- 优点: 速度快
- 缺点: 只对线性关系敏感
- 卡方验证
- 类别型变量对类别型变量的相关性
- 最大信息系数 maximal information coefficient (MIC)
- from minepy import MINE
- Wrapper(包装法)
- 根据目标函数(往往是预测效果评分), 每次选择若干特征, 或者排除若干特征
- Embedded(嵌入法)
- 先使用某些机器学习的模型进行训练, 得到各个特征的权值系数, 根据系数从大到小选择特征(类似于Filter, 只不过系数是通过训练得来的) word2vec
- 特征的降维