博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
特征选择
阅读量:4966 次
发布时间:2019-06-12

本文共 970 字,大约阅读时间需要 3 分钟。

将属性称之为特征,对当前学习任务有用的属性称为“相关特征”,没什么用的属性称为“无关特征”。从给定得到特征集合中选择出相关特征子集的过程,称为----特征选择。

 

为什么进行特征选择呢?

1. 在现实任务中经常会遇到维数灾难问题,就是因为属性过多造成的,若能从中选择出重要的特征,使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题就会大大减轻。

2. 去除不相关特征往往会降低学习任务的难度,只留下关键因素,更容易看清。

 

常见的特征选择方法大致可分为三类:过滤式、包裹式和嵌入式。

 

1. 过滤式:先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程初始特征进行“过滤”,在用过滤后的特征来训练模型。(ps:这是我们常见的方式)

  Relisf是一种著名的过滤式特征选择的方法,该方法设计了一个相关统计量来度量特征的重要性。该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。于是,只需指定一个阈值,然后比较比该阈值大的相关统计量分量所对应的特征即可;也可指定欲选取的特征个数,然后选择相关统计量分量最大的几个特征。

2. 包裹式选择:与过滤式特征选择不考虑后续学习器不同,包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。

  目的是为给定学习器选择有利于其性能、“量身定做”的特征子集。由于包裹式特征选择方法直接针对给定学习器进行优化,因此,从最终学习器性能来看,包裹式特征选择比过滤式选择更好,但另一方面,由于在特征选择过程中需多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。

  LVW是一个典型的包裹式特征选择方法,它在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。

3. 嵌入式选择:是将特征选择过程与学习器训练过程融为一体,两者在用一个优化过程种完成,即在学习器训练过程中自动地进行了特征选择。

  基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程与学习器训练过程融为一体,同时完成。

转载于:https://www.cnblogs.com/CynthiaWendy/p/11040653.html

你可能感兴趣的文章
UINavigationController的视图层理关系
查看>>
html阴影效果怎么做,css 内阴影怎么做
查看>>
宏观经济
查看>>
综合练习:词频统计
查看>>
BZOJ1026: [SCOI2009]windy数
查看>>
样板操作数
查看>>
64位UBUNTU下安装adobe reader后无法启动
查看>>
组件:slot插槽
查看>>
Nginx配置文件nginx.conf中文详解(转)
查看>>
POJ 1308 Is It A Tree?(并查集)
查看>>
N进制到M进制的转换问题
查看>>
利用sed把一行的文本文件改成每句一行
查看>>
Android应用开发:核心技术解析与最佳实践pdf
查看>>
python——爬虫
查看>>
孤荷凌寒自学python第五十八天成功使用python来连接上远端MongoDb数据库
查看>>
求一个字符串中最长回文子串的长度(承接上一个题目)
查看>>
简单权限管理系统原理浅析
查看>>
springIOC第一个课堂案例的实现
查看>>
求输入成绩的平均分
查看>>
php PDO (转载)
查看>>