将属性称之为特征,对当前学习任务有用的属性称为“相关特征”,没什么用的属性称为“无关特征”。从给定得到特征集合中选择出相关特征子集的过程,称为----特征选择。
为什么进行特征选择呢?
1. 在现实任务中经常会遇到维数灾难问题,就是因为属性过多造成的,若能从中选择出重要的特征,使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题就会大大减轻。
2. 去除不相关特征往往会降低学习任务的难度,只留下关键因素,更容易看清。
常见的特征选择方法大致可分为三类:过滤式、包裹式和嵌入式。
1. 过滤式:先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程初始特征进行“过滤”,在用过滤后的特征来训练模型。(ps:这是我们常见的方式)
Relisf是一种著名的过滤式特征选择的方法,该方法设计了一个相关统计量来度量特征的重要性。该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。于是,只需指定一个阈值,然后比较比该阈值大的相关统计量分量所对应的特征即可;也可指定欲选取的特征个数,然后选择相关统计量分量最大的几个特征。
2. 包裹式选择:与过滤式特征选择不考虑后续学习器不同,包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。
目的是为给定学习器选择有利于其性能、“量身定做”的特征子集。由于包裹式特征选择方法直接针对给定学习器进行优化,因此,从最终学习器性能来看,包裹式特征选择比过滤式选择更好,但另一方面,由于在特征选择过程中需多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。
LVW是一个典型的包裹式特征选择方法,它在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。
3. 嵌入式选择:是将特征选择过程与学习器训练过程融为一体,两者在用一个优化过程种完成,即在学习器训练过程中自动地进行了特征选择。
基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程与学习器训练过程融为一体,同时完成。