多项式特征生成--PolynomialFeatures类
admin
2024-02-12 20:15:30
0

目录

  • PolynomialFeatures
  • 参数
    • degree
    • interaction_only
    • include_bias
    • order
  • 属性
    • powers_
    • n_features_in_
    • feature_names_in_
    • n_output_features_
  • 方法
    • fit(X[, y])
    • fit_transform(X[, y])
    • get_feature_names([input_features])
    • get_feature_names_out([input_features])
    • get_params([deep])
    • set_params(**params)
    • transform(X)
  • 应用示例

PolynomialFeatures

sklearn.preprocessing.PolynomialFeatures(degree=2, *, interaction_only=False, include_bias=True, order='C')

生成多项式和交互特征
生成一个新的特征矩阵,由所有的阶小于等于参数degree的多项式特征组合而成

  1. 比如,如果输入的样本是二维的数据:[a,b][a,b][a,b],参数degree=2,那么生成的二项式特征为[1,a,b,a2,ab,b2].[1, a, b, a^2, ab, b^2].[1,a,b,a2,ab,b2].
  2. 为什么要生成多项式特征?
    当初始的数据特征较少时,使用模型对数据进行拟合往往会出现过拟合的现象,但是,获取数据的代价经常是非常高昂的,而且从已知数据中挖掘出更多特征也不是一件容易得事情,所以我们可以用纯数学的方法来人为的制造一些特征,比如,原来的输入特征只有x1,x2x_1,x_2x1​,x2​,其对应的多项式特征有:x1,x2,x1x2,x12,x22x_1,x_2,x_1x_2,x_1^2,x_2^2x1​,x2​,x1​x2​,x12​,x22​

参数

degree

int or tuple (min_degree, max_degree), default=2

数据类型描述
int指定了多项式特征的最高阶数
tuple (min_degree, max_degree)指定多项式特征的阶数范围

interaction_only

bool, default=False
如果为真,只生成交互特征(由不同特征生成的多项式特征,其阶数小于参数degree且不同于输入特征)
假设输入数据有两列特征(x,y),那么当该参数为True时,多项式特征的生成情况如下

生成情况描述
生成x,y,xyx,y,xyx,y,xy
不生成x2,y2x^2,y^2x2,y2

include_bias

bool, default=True
如果为真,引入一个偏差数据列,其中所有多项式幂都为零

order

{‘C’, ‘F’}, default=’C’
在密集情况下输出数组的顺序,

属性

powers_

ndarray of shape (n_output_features_, n_features_in_)
每个输入数据的指数

n_features_in_

int
拟合过程中的特征数量

feature_names_in_

ndarray of shape (n_features_in_,)
拟合过程中的特征名称

n_output_features_

int
多项式特征数量

方法

fit(X[, y])

计算输出特征的数量

Compute number of output features.

fit_transform(X[, y])

拟合并转化数据

Fit to data, then transform it.

get_feature_names([input_features])

返回数据特征名称(将在sklearn 1.2版本中被弃用)

DEPRECATED: get_feature_names is deprecated in 1.0 and will be removed in 1.2.

get_feature_names_out([input_features])

返回输出特征的名称

Get output feature names for transformation.

get_params([deep])

返回模型参数

Get parameters for this estimator.

set_params(**params)

设置模型参数

Set the parameters of this estimator.

transform(X)

将数据转化为多项式特征

Transform data to polynomial features.

应用示例

import numpy as np
from sklearn.preprocessing import PolynomialFeatures
x=np.array([0,1])
poly=PolynomialFeatures(2)
poly.fit_transform(x)
>>> array([1.,0.,1.,0.,0.,1.])   # 1,a,b,a^2,ab,b^2
poly1=PolynomialFeatures(2,interaction_only=True)
poly1.fit_transform(x)
>>> array([1.,0.,1.,0.])    # 1,a,b,ab

相关内容

热门资讯

一季度增长12.2%后,王莉定... 来源:茅台时空 据茅台官微报道,茅台酱香系列酒一季度交出营业收入78.8亿元、同比增长12.2%的成...
曦智科技沈亦晨:将与上海国资联... 曦智科技创始人、董事长沈亦晨 图片来源:主办方供图 5月10日,上海曦智科技创始人、董事长沈亦晨出现...
东实环境“还贷式IPO”困境:... 图源:图虫创意 来源|时代商业研究院 作者|特约研究员赖钧洪、郑琳 编辑|郑琳 作为东莞市国资委10...
为什么是宁波?扛起中国五金出口... 中国作为全球最大的五金制品生产国和出口国,正以绿色转型、品牌出海为方向,在全球五金供应链中占据核心地...
微信:关于开展涉税虚假宣传信息... 近期,平台接到用户投诉举报,发现个别账户发布“纳税15万,国家补贴5万”“4月恢复核定征收”等涉税虚...
央视调查:AI“买家秀”误导消... IT之家 5 月 10 日消息,据央视新闻今日报道,在网购场景中,由于消费者无法直接接触商品,所以评...
(机遇香港)“温情经济”升温 ... 中新社香港5月10日电 (记者 邱兆翔)5月10日是母亲节。在香港,不少子女与父母一早出门饮茶庆祝,...
原创 3... 5月8日,彭博社一段视频访谈把华尔街炸了。有"新债王"之称的双线资本创始人冈拉克,公开承认自己已经在...
网点关停潮?一半全国性银行机构... 营业网点是商业银行经营的最小细胞,也是直接触达客户、创造价值的核心战场,其竞争力直接关系到银行经营效...
粮农组织:战火阴影下4月全球食... 来源:财联社 联合国粮农组织(FAO)周五指出,由于中东局势紧张及霍尔木兹海峡反复被封,全球粮食价格...
原创 帮... 老铁们,帮主又来了。今天聊个事儿,保证让你觉得,原来国家战略离你的钱包可以这么近!四部门刚发了个文,...
吸引全球资本,亚洲新一轮“超级... 投资者正将目光转向亚洲,寻找全球股市上涨行情的下一个突破口。 在人工智能浪潮驱动下,韩国股市本月涨幅...
越秀区多维经营账服务细致入微的... 越秀区多维经营账服务细致入微的代理机构参考 在广州越秀区这一商贸活跃的核心区域,中小企业对财税服务...
教人挣钱的自媒体平台叫什么 教人挣钱的自媒体平台叫什么?这问题问得太到位了。说实话,我也曾经翻遍全网、踩过无数坑,就为了找一个真...
湖人被无情戏耍又是三节崩 里夫... 与雷霆的半决赛打到第三场,一种无望的情绪已彻底裹挟了湖人全队,彻底无法被摆脱了。 所有人都清楚,湖人...
原创 欧... 据环球网综合报道,欧盟正处于前所未有的抉择压力之下。在俄乌冲突延续近四年的沉重阴影下,欧盟内部关于援...
原创 1... 雷达财经出品 文|丁禹 编|孟帅 五一假期刚刚结束,市值百亿的川酒上市公司水井坊,其核心管理层再次迎...
美银Hartnett:材料板块... 美银证券首席投资策略师Michael Hartnett在最新报告中点名材料板块,称其将是下一个“牛市...
情绪消费的好日子,还剩多久 文|强调Next 2025年是中国潮玩行业最热闹的一年,也是从业者最难熬的一年。 热闹是真的热闹。...