2022年12月3日 PCA学习笔记
admin
2024-03-15 16:46:07
0

主成分分析概念介绍及公式推导

​ 主成分分析,因为特征之间可能存在相关性,这样的特征一起利用显得冗余,利用主成分分析,将原始特征进行运算,得到更加合适于样本的特征。从几何意义角度显示就是对数据进行了降维。

计算过程,整个过程可以结合上面网址例子走一遍

  • 求特征平均值,对于所有的样例,减去对应的特征平均值,再减去方差做归一化处理
  • 计算协方差矩阵
  • 计算协方差的特征值和特征向量
  • 将特征值从大到小排列,选取最大的k个,将对应的k个特征向量作为列向量组成特征向量矩阵
  • 将样本点投影到特征向量上,用减去均值的样本矩阵m*n乘以特征向量组成的矩阵n*k,得到最终的数据矩阵

上面网站PCA理论基础自行了解


在进行主成分分析前,先补充对数据做合适性检验先来判断是否数据适合做主成分分析

  • 球形检验

假设:

​ H0:相关系数矩阵为单位阵(即变量不相关)

​ H1:相关系数矩阵不是单位阵(即变量间有相关关系)

  • KMO统计量

KMO的值在0,1之间,该值越大,则样本数据越适合作主成分分析和因子分析。一般要求该值大于0.5,方可作主成分分析或者相关分析。

代码

热力图用不了可能是matlab绘图库和它冲突了,可以试试降低matlab绘图库版本

数据需要删除第一样第一列,否则会报格式错误

# 数据处理
import pandas as pd
import numpy as np# 绘图
import seaborn as sns
import matplotlib.pyplot as pltdf = pd.read_csv("aa.csv", encoding='gbk', index_col=0).reset_index(drop=True)
print(df)# Bartlett's球状检验
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericitychi_square_value, p_value = calculate_bartlett_sphericity(df)
print(chi_square_value, p_value)# KMO检验
# 检查变量间的相关性和偏相关性,取值在0-1之间;KOM统计量越接近1,变量间的相关性越强,偏相关性越弱,因子分析的效果越好。
# 通常取值从0.6开始进行因子分析
from factor_analyzer.factor_analyzer import calculate_kmokmo_all, kmo_model = calculate_kmo(df)
print(kmo_all)# #标准化# #所需库
# from sklearn import preprocessing
# #进行标准化
# df = preprocessing.scale(df)
# print(df)# #求解系数相关矩阵
# covX = np.around(np.corrcoef(df.T),decimals=3)
# print(covX)# #求解特征值和特征向量
# featValue, featVec=  np.linalg.eig(covX.T)  #求解系数相关矩阵的特征值和特征向量
# print(featValue, featVec)# 不标准化
# 均值
def meanX(dataX):return np.mean(dataX, axis=0)  # axis=0表示依照列来求均值。假设输入list,则axis=1average = meanX(df)
print(average)# 查看列数和行数
m, n = np.shape(df)
print(m, n)# 均值矩阵
data_adjust = []
avgs = np.tile(average, (m, 1))
print(avgs)# 去中心化
data_adjust = df - avgs
print(data_adjust)# 协方差阵
covX = np.cov(data_adjust.T)  # 计算协方差矩阵
print(covX)# 计算协方差阵的特征值和特征向量
featValue, featVec = np.linalg.eig(covX)  # 求解协方差矩阵的特征值和特征向量
print(featValue, featVec)####下面没有区分######## 对特征值进行排序并输出 降序
featValue = sorted(featValue)[::-1]
print(featValue)# 绘制散点图和折线图
# 同样的数据绘制散点图和折线图
plt.scatter(range(1, df.shape[1] + 1), featValue)
plt.plot(range(1, df.shape[1] + 1), featValue)# 显示图的标题和xy轴的名字
# 最好使用英文,中文可能乱码
plt.title("Scree Plot")
plt.xlabel("Factors")
plt.ylabel("Eigenvalue")plt.grid()  # 显示网格
plt.show()  # 显示图形# 求特征值的贡献度
gx = featValue / np.sum(featValue)
print(gx)# 求特征值的累计贡献度
lg = np.cumsum(gx)
print(lg)# 选出主成分
k = [i for i in range(len(lg)) if lg[i] < 0.85]
k = list(k)
print(k)# 选出主成分对应的特征向量矩阵
selectVec = np.matrix(featVec.T[k]).T
selectVe = selectVec * (-1)
print(selectVec)# 主成分得分
finalData = np.dot(data_adjust, selectVec)
print(finalData)# 绘制热力图plt.figure(figsize=(14, 14))
ax = sns.heatmap(selectVec, annot=True, cmap="BuPu")# 设置y轴字体大小
ax.yaxis.set_tick_params(labelsize=15)
plt.title("Factor Analysis", fontsize="xx-large")# 设置y轴标签
plt.ylabel("Sepal Width", fontsize="xx-large")
# 显示图片
plt.show()# 保存图片
# plt.savefig("factorAnalysis", dpi=500)

相关内容

热门资讯

建设银行[601939]日常公... 本版导读 2026-02-28 2026-02-28 2026-02-28 2026...
国际油价27日上涨 △资料图 国际油价27日上涨。截至当天收盘,纽约商品交易所4月交货的轻质原油期货价格上涨1.81美元...
深夜,全线大涨!中东局势,骤然... 中东紧张局势骤然升级。 今日晚间,国际黄金、白银、原油价格全线大涨,现货白银大涨超4%,WTI原油、...
*ST东易:公司及管理人已完成... 有投资者向*ST东易(002713.SZ)提问,贵公司的债转股的全部完成了吗? 2月27日,公司回答...
26日起登记领取国投白银LOF... 愉记早前专栏追踪了《国投瑞银白银 LOF 风波:当“程序正确”撞上信任危机》,我们后台收到了百余条留...
GLP-1药物广告为何应重视音... 引言 近年来,随着人们对健康管理的重视,GLP-1类药物逐渐成为糖尿病和肥胖症治疗的热门选择。然而,...
马年新春鄂州城区三大地标联动点... 马年春节假期,南浦路、庾楼、武昌门三大文旅地标联动推出特色新春活动,通过线上线下同频发力、多点联动,...
加拿大第四季度GDP萎缩0.6... 来源:环球市场播报 加拿大经济年末表现趋弱,企业库存大幅下降,推动第四季度实际国内生产总值(GDP)...
原创 美... 美国海关这次突然宣布取消对中国商品的部分关税,你说,这到底是他们为了谁? 是为了美国老百姓,还是为了...
臻宝科技科创板IPO将于3月5... 北京商报讯(记者 马换换 李佳雪)2月27日晚间,上交所官网显示,重庆臻宝科技股份有限公司(以下简称...
【加密货币支持的规则扩大信托银... 【加密货币支持的规则扩大信托银行服务获得美国最终批准】美国银行业监管机构正在扩大贷款机构在国家信托牌...
覆铜板量价齐升 生益科技202... 面对每天上千份上市公司公告该看哪些?重大事项公告动辄几十页几百页重点是啥?公告里一堆专业术语不知道算...
3 个穴位,调帕金森,不费力也... 3 个穴位,调帕金森,不费力也不花钱。只要你手抖、肢体僵硬、走路不稳的时候,按这 3 个穴位,就能舒...
“以租代买”为何受青睐?“万物... 最近一段时间,在最长春节假期的带动下,我国的消费市场活力十足。然而,在“买买买”之外,也有些人把“租...
新一批香港互认基金获批 【导读】新一批香港互认基金获批 中国基金报记者 格林 中国基金报记者获悉,摩根亚洲股票高息基金、富达...
春节假期产销两旺 “白沙好物”... 2月27日,记者从白沙电商中心获悉,今年春节假期,在浓厚的节日消费氛围带动下,“白沙好物”市场持续火...
损失4万5,和解金4100多,... 【文/羽扇观金工作室 陶立烽】 损失将近4万5,和解金才4100多,亏的越多补偿越少?国投瑞银白银...
雷军直播新一代SU7门把手:增... 红星资本局2月28日消息 2月27日,小米创办人、董事长兼CEO雷军在小米汽车工厂里进行直播,与多位...
迎接50万亿存款迁徙|搬家的钱... 开栏语:一场规模高达50万亿的存款迁徙正蓄势待发。站在财富配置的历史拐点,如何审视这波天量资金的洪流...
大连航天医院费用公开透明|下肢... 大连航天医院静脉曲张专科学科带头人杨红东:下肢静脉曲张在人群中发病率大概在7%左右。下肢静脉曲张最主...