sklearn库学习--SelectKBest 、f_regression
创始人
2025-05-29 02:05:57
0

目录

一、SelectKBest 介绍、代码使用

介绍:

代码使用:

二、评分函数

【1】f_regression:

(1)介绍:

(2)F值和相关系数

【2】除了f_regression函数,还有一些适用于回归问题的特征选择评价函数。

一、SelectKBest 介绍、代码使用

介绍:

SelectKBest是scikit-learn库中的一个特征选择函数,用于从数据集中选择k个最佳特征。它可以根据给定的评价函数和得分,来选择和排名特征。

SelectKBest可以用于以下两种情况:

  1. 想要减少数据集的维度,仅使用最重要的特征。

  2. 想要获得每个特征的重要程度排名,以便进一步分析。

代码使用:

假设你有一个数据集 X 和对应的标签 y,想要进行特征筛选,只使用最重要的特征来训练模型。你可以使用 Scikit-learn 中的 SelectKBest 类来选择最好的 k 个特征。

以下是示例代码:

import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest, f_regression# 读取数据集
data = pd.read_csv('data.csv')
X = data.drop('label', axis=1) # 特征
y = data['label'] # 标签# 选择最好的5个特征
k = 5
selector = SelectKBest(score_func=f_regression, k=k)
X_new = selector.fit_transform(X, y)# 输出结果
mask = selector.get_support() # 获得特征掩码
new_features = X.columns[mask] # 选择重要的特征
print(new_features)

这个示例中,我们使用 SelectKBest 类和 f_regression 函数来选择最好的5个特征。具体来说,SelectKBest 类会计算每个特征的评分,然后根据评分选择最好的 k 个特征。在本例中,评分函数是 f_regression,这个函数使用 F 检验来计算特征的相关性。最后,我们从原始数据集中选择重要的特征,输出它们的名称。

需要注意的是,如果要使用 SelectKBest 类,特征和标签必须是数值型的。如果你的数据集中有多个特征,你还可以使用其他的评分函数来进行特征筛选,例如卡方检验、互信息法等等。

二、评分函数

【1】f_regression:

(1)介绍:

是scikit-learn库中的一个函数,用于在回归模型中评估每个特征和目标变量之间的关系。它可以计算每个特征和目标变量之间的F值和相关系数,以及计算每个F值对应的p值。

F值越大,表示特征和目标变量之间的相关性越强,p值越小,表示结果越显著。

f_regression函数的使用方法如下:

from sklearn.feature_selection import f_regressionf_values, p_values = f_regression(X, y)  # 计算每个特征和目标变量之间的F值和p值

在上述代码中,X是特征矩阵,y是目标变量。

需要注意的是,f_regression函数只能用于回归问题的特征选择。在分类问题中,需要使用其他评价函数,如卡方检验(chi2)、互信息(mutual_info_classif)等。同时,f_regression函数不会进行特征选择,它只是提供了评价每个特征和目标变量之间相关性的指标,可以作为特征选择算法的评价函数之一。

(2)F值和相关系数

f_regression函数计算每个特征和目标变量之间的关系,其中F值和相关系数的含义如下:

  • F值:指特征和目标变量之间的关系是否显著,是一个统计指标。F值越大,表示特征和目标变量之间的相关性越强。
  • 相关系数:指特征和目标变量之间的线性关系的强度和方向,可以是正相关、负相关或无关。相关系数的取值范围为[-1,1],绝对值越大,表示相关性越强,符号表示相关性的方向。

需要注意的是,F值和相关系数是两个不同的指标,F值反映特征和目标变量之间的关系是否显著,相关系数反映特征和目标变量之间的线性关系的强度和方向。在特征选择中,通常使用F值作为评价函数,选择与目标变量相关性较强的特征,或者使用相关系数作为评价指标,评价每个特征与目标变量之间的关系



【2】除了f_regression函数,还有一些适用于回归问题的特征选择评价函数。

  1. mutual_info_regression:互信息(mutual information)评价函数,可以用于回归问题的特征选择。互信息用于度量特征和目标变量之间的非线性关系,可以捕获特征和目标变量之间的任何关系。mutual_info_regression函数可以计算每个特征和目标变量之间的互信息值。

  2. chi2:卡方检验(chi-squared test)评价函数,可以用于回归问题的特征选择。卡方检验用于度量特征和目标变量之间的关联性,可以应用于离散特征的选择。

  3. f_classif:方差分析(ANOVA)评价函数,可以用于回归问题的特征选择。方差分析用于度量特征和目标变量之间的线性关系,可以捕获特征和目标变量之间的方差相关性。

这些评价函数的使用方法与f_regression函数类似,都是计算每个特征和目标变量之间的关系。使用这些评价函数可以选择与目标变量相关性较强的特征,进一步提高回归模型的准确性。

相关内容

热门资讯

FIBA期待杨瀚森表现 最新实... 北京时间6月25日消息,FIBA国际篮联公布了最新一期世界杯预选赛亚太区球队实力榜,中国男篮排在澳大...
收评:创业板指放量反弹涨2.8... 市场冲高回落后,再度震荡拉升。黄白线分化明显,权重股走势较强。量能明显放大,沪深两市成交额3.59万...
巨头财报引爆A股存储芯片板块,... 当地时间6月24日美股盘后, 美光科技(MU.US)公布截至5月31日的2026财年第三财季财报,业...
银行、消金公司助贷余额增速不得... 近日,中国证券报记者从多位业内人士处独家获悉,5月以来,多地金融监管部门对部分中小银行、消金公司下达...
朱鸿接任陈航,担任钉钉科技有限... 消费日报-今朝新闻讯 天眼查显示,6月23日,钉钉科技有限公司发生工商变更,陈航卸任法定代表人、董事...
3日累跌超20%,德创环保:公... 6月25日, 德创环保(603177.SH)公告,公司股票于2026年6月23日、6月24日和6月2...
北京发布2026年第七轮拟供商... 央广网北京6月25日消息(记者门庭婷)6月25日,北京市规划和自然资源委员会网站发布了2026年第七...
开放麦 | 启明创投胡奇:从A... “2026年,创投圈的浪潮再次翻涌:AI从技术概念走进产业深水区,硬科技创业从“小众赛道” 变成“主...
腾讯孙忠怀:在行业转身处 6月24日,2026腾讯视频年度发布在上海举行。腾讯公司副总裁、腾讯在线视频董事长孙忠怀以《在行业转...
加息,突变!美联储,重磅传来!... 美联储政策路径突生变数。 美国商务部经济分析局最新公布的数据显示,5月个人消费支出(PCE)物价指数...
6月合肥上门收金必看!5步避坑... 2026年6月,合肥黄金市场持续高位运行,不少市民翻出家里闲置的旧金饰、投资金条想变现,上门回收因为...
潮汕女富豪挂帅后加码液冷!祥鑫... 潮汕女强人,带着百亿公司加码液冷散热。 6月24日晚间,祥鑫科技(002965.SZ)公告称,公司董...
马斯克向太空要电,GobiX ... 一场关于「去哪里找电」的全球竞赛,正在朝两个方向展开。 作者|周永亮 编辑| 郑玄 「太空光伏是不是...
原料药行业陷入周期低谷 有药企... 每经记者|许立波 每经编辑|魏文艺 “过完年到现在,我们整个团队每个月都在出差,跑遍了亚非拉、欧美市...
家门口筛查白内障!永顺泽家镇暖... 大众卫生报·新湖南客户端6月25日讯(通讯员 彭雪姣)为切实解决辖区老年性白内障患者异地就医奔波、就...
终于等到!油价马上再大跌,这个... 点击添加图片描述(最多60个字) 编辑 各位车主朋友,好消息接二连三! 继6月18日油价大幅下调...
丈量出海新路 世界酒庄影响力指... 长期以来,全球酒庄评价体系由西方机构主导,且大多局限于单一酒种、单一评价维度,这一局面正逐渐被打破。...
峰瑞资本创始合伙人李丰:从资本... “2026年,创投圈的浪潮再次翻涌:AI从技术概念走进产业深水区,硬科技创业从“小众赛道” 变成“主...
原创 A... 迈向成熟,还有茁壮成长的机会。 作者 | 方璐 编辑丨于婞 来源 | 野马财经 2026年6月21日...
为企业解锁出海新通道!亚太中小... 6月24日下午,作为2026年APEC中小企业工商论坛的重要组成部分,亚太中小企业国际化合作发展论坛...