多项式特征生成--PolynomialFeatures类
admin
2024-02-12 20:15:30
0

目录

  • PolynomialFeatures
  • 参数
    • degree
    • interaction_only
    • include_bias
    • order
  • 属性
    • powers_
    • n_features_in_
    • feature_names_in_
    • n_output_features_
  • 方法
    • fit(X[, y])
    • fit_transform(X[, y])
    • get_feature_names([input_features])
    • get_feature_names_out([input_features])
    • get_params([deep])
    • set_params(**params)
    • transform(X)
  • 应用示例

PolynomialFeatures

sklearn.preprocessing.PolynomialFeatures(degree=2, *, interaction_only=False, include_bias=True, order='C')

生成多项式和交互特征
生成一个新的特征矩阵,由所有的阶小于等于参数degree的多项式特征组合而成

  1. 比如,如果输入的样本是二维的数据:[a,b][a,b][a,b],参数degree=2,那么生成的二项式特征为[1,a,b,a2,ab,b2].[1, a, b, a^2, ab, b^2].[1,a,b,a2,ab,b2].
  2. 为什么要生成多项式特征?
    当初始的数据特征较少时,使用模型对数据进行拟合往往会出现过拟合的现象,但是,获取数据的代价经常是非常高昂的,而且从已知数据中挖掘出更多特征也不是一件容易得事情,所以我们可以用纯数学的方法来人为的制造一些特征,比如,原来的输入特征只有x1,x2x_1,x_2x1​,x2​,其对应的多项式特征有:x1,x2,x1x2,x12,x22x_1,x_2,x_1x_2,x_1^2,x_2^2x1​,x2​,x1​x2​,x12​,x22​

参数

degree

int or tuple (min_degree, max_degree), default=2

数据类型描述
int指定了多项式特征的最高阶数
tuple (min_degree, max_degree)指定多项式特征的阶数范围

interaction_only

bool, default=False
如果为真,只生成交互特征(由不同特征生成的多项式特征,其阶数小于参数degree且不同于输入特征)
假设输入数据有两列特征(x,y),那么当该参数为True时,多项式特征的生成情况如下

生成情况描述
生成x,y,xyx,y,xyx,y,xy
不生成x2,y2x^2,y^2x2,y2

include_bias

bool, default=True
如果为真,引入一个偏差数据列,其中所有多项式幂都为零

order

{‘C’, ‘F’}, default=’C’
在密集情况下输出数组的顺序,

属性

powers_

ndarray of shape (n_output_features_, n_features_in_)
每个输入数据的指数

n_features_in_

int
拟合过程中的特征数量

feature_names_in_

ndarray of shape (n_features_in_,)
拟合过程中的特征名称

n_output_features_

int
多项式特征数量

方法

fit(X[, y])

计算输出特征的数量

Compute number of output features.

fit_transform(X[, y])

拟合并转化数据

Fit to data, then transform it.

get_feature_names([input_features])

返回数据特征名称(将在sklearn 1.2版本中被弃用)

DEPRECATED: get_feature_names is deprecated in 1.0 and will be removed in 1.2.

get_feature_names_out([input_features])

返回输出特征的名称

Get output feature names for transformation.

get_params([deep])

返回模型参数

Get parameters for this estimator.

set_params(**params)

设置模型参数

Set the parameters of this estimator.

transform(X)

将数据转化为多项式特征

Transform data to polynomial features.

应用示例

import numpy as np
from sklearn.preprocessing import PolynomialFeatures
x=np.array([0,1])
poly=PolynomialFeatures(2)
poly.fit_transform(x)
>>> array([1.,0.,1.,0.,0.,1.])   # 1,a,b,a^2,ab,b^2
poly1=PolynomialFeatures(2,interaction_only=True)
poly1.fit_transform(x)
>>> array([1.,0.,1.,0.])    # 1,a,b,ab

相关内容

热门资讯

莲华资产洪灏:黄金成为全球资产... 近期黄金价格大幅走强,并带动有色金属板块稳健上行。2026年A股金属板块走势将如何演绎?投资者又应如...
飞阅楼市第210期丨本土“三驾... 文/青岛日报李鹏飞 2021-2025年,中国房地产行业迎来深度调整的“阵痛期”,青岛楼市在这一轮周...
突发!妙可蓝多创始人被免职并被... 【导读】妙可蓝多公告,柴琇被免去副董事长、总经理及法定代表人职务 中国基金报记者 郑俊婷 虽然妙可...
穿越周期的力量:2025中国企... 责编 | 贾宁排版| 沐言 第 9411 篇深度好文:20094字 |25分钟阅读 商业人物 笔记君...
原创 重... 欧洲正加大力度,坚决切断与俄罗斯的能源联系,尤其是在石油领域。欧盟的这一举措不仅针对直接进口俄罗斯石...
屡犯不改,这家私募被限制交易三... 【导读】多次盘中拉抬股价,浩坤昇发遭限制交易3个月 中国基金报记者 孙越 北交所近日发布一则自律监管...
从“有钱花”到“有命花”,蚂蚁... ©️深响原创 · 作者|何理 毫无意外,AI成了互联网大厂们的必争赛点。 豆包投流高歌猛进、阿里先推...
投资收手,并购加速,京东成市场... 作者 | IT桔子团队 排版 | 王梓璇 来源|IT 桔子 图片 | AI生成 “请回答中国创投 2...
寒锐钴业大宗交易折价成交18.... 寒锐钴业01月26日大宗交易平台共发生1笔成交,合计成交量18.83万股,成交金额885.01万元。...
紫金矿业,280亿元“扫货”金... 1月26日晚,紫金矿业公告称,公司控股的紫金黄金国际有限公司(以下简称“紫金黄金国际”,公司持有其8...
原创 特... “24小时里两颗重磅消息砸向欧洲。” 一头是特朗普放话要把法国红酒和香槟的关税拉到两倍再翻番,直指2...
国际金价首破5100美元势如破... 国际金价不断刷新历史新高,现货价格和期货价格先后突破5000美元/盎司、5100美元/盎司关口,部分...
资金动向 | 北水增持腾讯超1... 1月26日,南下资金净卖出港股8.26亿港元,为连续第二日净卖出。 其中:净买入腾讯控股10.15亿...
金价首破5000美元 该买还是... 封面新闻记者 边雪 “早上9点半到SKP,已经排了五六十人,等了快两小时才挪到店门口,我最后直接坐在...
迪亚洛空砍23+10+7 杰曼... 【搜狐体育战报】北京时间1月26日CBA常规赛第20轮,客场作战的北京北汽以87-86击败山西汾酒,...
刚刚,交易所出手!对白银、锡期... 数据是个宝 数据宝 投资少烦恼 上期所出手。 上期所:对相关客户采取限制开仓、限制出金监管措施 今日...
“不是借壳上市!”黎瑞刚影视版... 每经记者|丁舟洋 每经编辑|廖丹 黎瑞刚掌舵的华人文化,正以资本并购的方式将旗下核心影视资产打包注...
原创 中... 很多人可能到现在都没意识到,中国刚刚悄无声息地做了一件大事——我们彻底停止了从俄罗斯进口电力。 你没...
“五个最”战略 仁怀的底气和路... 当下,白酒行业正经历深度调整期,市场从“增量共享”转向“存量博弈”,产区间的系统性竞争日趋白热化。作...
A股发展能力百强榜出炉,谁是未... 如果说规模实力决定企业的当下地位,那么发展能力就决定了它的未来高度。 在资本市场,增长可以靠并购短期...