sklearn库学习--SelectKBest 、f_regression
创始人
2025-05-29 02:05:57
0

目录

一、SelectKBest 介绍、代码使用

介绍:

代码使用:

二、评分函数

【1】f_regression:

(1)介绍:

(2)F值和相关系数

【2】除了f_regression函数,还有一些适用于回归问题的特征选择评价函数。

一、SelectKBest 介绍、代码使用

介绍:

SelectKBest是scikit-learn库中的一个特征选择函数,用于从数据集中选择k个最佳特征。它可以根据给定的评价函数和得分,来选择和排名特征。

SelectKBest可以用于以下两种情况:

  1. 想要减少数据集的维度,仅使用最重要的特征。

  2. 想要获得每个特征的重要程度排名,以便进一步分析。

代码使用:

假设你有一个数据集 X 和对应的标签 y,想要进行特征筛选,只使用最重要的特征来训练模型。你可以使用 Scikit-learn 中的 SelectKBest 类来选择最好的 k 个特征。

以下是示例代码:

import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest, f_regression# 读取数据集
data = pd.read_csv('data.csv')
X = data.drop('label', axis=1) # 特征
y = data['label'] # 标签# 选择最好的5个特征
k = 5
selector = SelectKBest(score_func=f_regression, k=k)
X_new = selector.fit_transform(X, y)# 输出结果
mask = selector.get_support() # 获得特征掩码
new_features = X.columns[mask] # 选择重要的特征
print(new_features)

这个示例中,我们使用 SelectKBest 类和 f_regression 函数来选择最好的5个特征。具体来说,SelectKBest 类会计算每个特征的评分,然后根据评分选择最好的 k 个特征。在本例中,评分函数是 f_regression,这个函数使用 F 检验来计算特征的相关性。最后,我们从原始数据集中选择重要的特征,输出它们的名称。

需要注意的是,如果要使用 SelectKBest 类,特征和标签必须是数值型的。如果你的数据集中有多个特征,你还可以使用其他的评分函数来进行特征筛选,例如卡方检验、互信息法等等。

二、评分函数

【1】f_regression:

(1)介绍:

是scikit-learn库中的一个函数,用于在回归模型中评估每个特征和目标变量之间的关系。它可以计算每个特征和目标变量之间的F值和相关系数,以及计算每个F值对应的p值。

F值越大,表示特征和目标变量之间的相关性越强,p值越小,表示结果越显著。

f_regression函数的使用方法如下:

from sklearn.feature_selection import f_regressionf_values, p_values = f_regression(X, y)  # 计算每个特征和目标变量之间的F值和p值

在上述代码中,X是特征矩阵,y是目标变量。

需要注意的是,f_regression函数只能用于回归问题的特征选择。在分类问题中,需要使用其他评价函数,如卡方检验(chi2)、互信息(mutual_info_classif)等。同时,f_regression函数不会进行特征选择,它只是提供了评价每个特征和目标变量之间相关性的指标,可以作为特征选择算法的评价函数之一。

(2)F值和相关系数

f_regression函数计算每个特征和目标变量之间的关系,其中F值和相关系数的含义如下:

  • F值:指特征和目标变量之间的关系是否显著,是一个统计指标。F值越大,表示特征和目标变量之间的相关性越强。
  • 相关系数:指特征和目标变量之间的线性关系的强度和方向,可以是正相关、负相关或无关。相关系数的取值范围为[-1,1],绝对值越大,表示相关性越强,符号表示相关性的方向。

需要注意的是,F值和相关系数是两个不同的指标,F值反映特征和目标变量之间的关系是否显著,相关系数反映特征和目标变量之间的线性关系的强度和方向。在特征选择中,通常使用F值作为评价函数,选择与目标变量相关性较强的特征,或者使用相关系数作为评价指标,评价每个特征与目标变量之间的关系



【2】除了f_regression函数,还有一些适用于回归问题的特征选择评价函数。

  1. mutual_info_regression:互信息(mutual information)评价函数,可以用于回归问题的特征选择。互信息用于度量特征和目标变量之间的非线性关系,可以捕获特征和目标变量之间的任何关系。mutual_info_regression函数可以计算每个特征和目标变量之间的互信息值。

  2. chi2:卡方检验(chi-squared test)评价函数,可以用于回归问题的特征选择。卡方检验用于度量特征和目标变量之间的关联性,可以应用于离散特征的选择。

  3. f_classif:方差分析(ANOVA)评价函数,可以用于回归问题的特征选择。方差分析用于度量特征和目标变量之间的线性关系,可以捕获特征和目标变量之间的方差相关性。

这些评价函数的使用方法与f_regression函数类似,都是计算每个特征和目标变量之间的关系。使用这些评价函数可以选择与目标变量相关性较强的特征,进一步提高回归模型的准确性。

相关内容

热门资讯

6月信托数量环比增加1440款... 数据显示,截至2025年6月末,共有65家信托公司存续43625款标品信托产品,存续数量环比增加14...
原创 油... 车友们,今天是2025年7月28日,农历闰六月初四,星期一。距离新一轮汽柴油调价倒计时不足36个小时...
加快动产及权利质押融资创新,增... 来源:金融电子化 近年来,监管部门相继出台《关于规范发展供应链金融 支持供应链产业链稳定循环和优化升...
上交所:东方证券股份有限公司债... 7月28日,上交所发布关于东方证券股份有限公司2025年面向专业投资者公开发行短期公司债券(第三期)...
哈尔滨机场停车费24小时收费标... 一、哈尔滨机场停车场位置和路线 地下停车场(P4) 位置:位于T2航站楼前1号停车场下面。 进场路...
山西证券:首次覆盖浙江荣泰给予... 山西证券股份有限公司徐风,姚健近期对浙江荣泰进行研究并发布了研究报告《主业稳健增长,传动业务卡位优越...
关税对许多商户构成生存威胁!德... 当地时间27日欧盟与美国就双方贸易问题达成框架协议。根据协议,美国将对大部分欧盟进口产品征收15%的...
国家统计局公布:重要数据降幅收... 7月27日,国家统计局公布数据显示,6月份,规模以上工业企业利润同比下降4.3%,较5月份明显收窄。...
贸易协议缓解担忧,欧元兑美元维... 汇通财经APP讯——欧元兑美元在前两个交易日录得小幅下跌后微涨,周一(7月28日)亚洲时段交投于1....
福建德尔IPO前“突击”清理多... 在氟化工行业高歌猛进的浪潮中,主要从事氟化工基础材料、新能源锂电材料、特种气体和半导体湿电子化学品等...
突发!居然智家实控人汪林朋坠楼... “ 短短数日,这位曾身家125亿元的家居巨头掌舵人以一种令人唏嘘的方式告别了他一手打造的资本王国,也...
居然智家一度跌停,公司回应董事... 图片来源:居然之家官网 7月28日,居然智家(000785.SZ)开盘跌停。截至上午收盘,该股股价跌...
快手2025一季度净利润下滑3... 运营商财经网 实习生郑永杰/文 近日,快手科技发布2025年第一季度财报。报告期内,公司实现营收32...
居然智家董事长汪林朋被曝坠楼身... 7月27日消息,家居行业头部企业居然智家、董事长汪林朋被曝跳楼身亡。经多位行业人士确认,证实了此消息...
“国补”继续!第三批690亿元... 近日,国家发展改革委已会同财政部,向地方下达了今年第三批690亿元超长期特别国债支持消费品以旧换新资...
港股午评:恒指涨0.4%科指跌... 7月28日消息,三大指数冲高回落。截至午间收盘,恒生指数涨0.4%,报25490.45点,恒生指数跌...
弘信电子:7月25日融券卖出6... 证券之星消息,7月25日,弘信电子(300657)融资买入1.12亿元,融资偿还1.66亿元,融资净...
东山精密:7月25日融资买入1... 证券之星消息,7月25日,东山精密(002384)融资买入1.46亿元,融资偿还2.36亿元,融资净...
A股2025年首只10倍股诞生 上纬新材早盘一度涨超16%,再创历史新高。 该股年内累计涨幅已到达10倍以上,成为A股2025年以...
魅族换帅!创始人亲弟黄质潘重掌... 瑞财经 吴文婷7月25日,据媒体报道,星纪魅族证实,黄质潘正式出任星纪魅族集团CEO。 与此同时,...