2022年12月3日 PCA学习笔记
admin
2024-03-15 16:46:07
0

主成分分析概念介绍及公式推导

​ 主成分分析,因为特征之间可能存在相关性,这样的特征一起利用显得冗余,利用主成分分析,将原始特征进行运算,得到更加合适于样本的特征。从几何意义角度显示就是对数据进行了降维。

计算过程,整个过程可以结合上面网址例子走一遍

  • 求特征平均值,对于所有的样例,减去对应的特征平均值,再减去方差做归一化处理
  • 计算协方差矩阵
  • 计算协方差的特征值和特征向量
  • 将特征值从大到小排列,选取最大的k个,将对应的k个特征向量作为列向量组成特征向量矩阵
  • 将样本点投影到特征向量上,用减去均值的样本矩阵m*n乘以特征向量组成的矩阵n*k,得到最终的数据矩阵

上面网站PCA理论基础自行了解


在进行主成分分析前,先补充对数据做合适性检验先来判断是否数据适合做主成分分析

  • 球形检验

假设:

​ H0:相关系数矩阵为单位阵(即变量不相关)

​ H1:相关系数矩阵不是单位阵(即变量间有相关关系)

  • KMO统计量

KMO的值在0,1之间,该值越大,则样本数据越适合作主成分分析和因子分析。一般要求该值大于0.5,方可作主成分分析或者相关分析。

代码

热力图用不了可能是matlab绘图库和它冲突了,可以试试降低matlab绘图库版本

数据需要删除第一样第一列,否则会报格式错误

# 数据处理
import pandas as pd
import numpy as np# 绘图
import seaborn as sns
import matplotlib.pyplot as pltdf = pd.read_csv("aa.csv", encoding='gbk', index_col=0).reset_index(drop=True)
print(df)# Bartlett's球状检验
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericitychi_square_value, p_value = calculate_bartlett_sphericity(df)
print(chi_square_value, p_value)# KMO检验
# 检查变量间的相关性和偏相关性,取值在0-1之间;KOM统计量越接近1,变量间的相关性越强,偏相关性越弱,因子分析的效果越好。
# 通常取值从0.6开始进行因子分析
from factor_analyzer.factor_analyzer import calculate_kmokmo_all, kmo_model = calculate_kmo(df)
print(kmo_all)# #标准化# #所需库
# from sklearn import preprocessing
# #进行标准化
# df = preprocessing.scale(df)
# print(df)# #求解系数相关矩阵
# covX = np.around(np.corrcoef(df.T),decimals=3)
# print(covX)# #求解特征值和特征向量
# featValue, featVec=  np.linalg.eig(covX.T)  #求解系数相关矩阵的特征值和特征向量
# print(featValue, featVec)# 不标准化
# 均值
def meanX(dataX):return np.mean(dataX, axis=0)  # axis=0表示依照列来求均值。假设输入list,则axis=1average = meanX(df)
print(average)# 查看列数和行数
m, n = np.shape(df)
print(m, n)# 均值矩阵
data_adjust = []
avgs = np.tile(average, (m, 1))
print(avgs)# 去中心化
data_adjust = df - avgs
print(data_adjust)# 协方差阵
covX = np.cov(data_adjust.T)  # 计算协方差矩阵
print(covX)# 计算协方差阵的特征值和特征向量
featValue, featVec = np.linalg.eig(covX)  # 求解协方差矩阵的特征值和特征向量
print(featValue, featVec)####下面没有区分######## 对特征值进行排序并输出 降序
featValue = sorted(featValue)[::-1]
print(featValue)# 绘制散点图和折线图
# 同样的数据绘制散点图和折线图
plt.scatter(range(1, df.shape[1] + 1), featValue)
plt.plot(range(1, df.shape[1] + 1), featValue)# 显示图的标题和xy轴的名字
# 最好使用英文,中文可能乱码
plt.title("Scree Plot")
plt.xlabel("Factors")
plt.ylabel("Eigenvalue")plt.grid()  # 显示网格
plt.show()  # 显示图形# 求特征值的贡献度
gx = featValue / np.sum(featValue)
print(gx)# 求特征值的累计贡献度
lg = np.cumsum(gx)
print(lg)# 选出主成分
k = [i for i in range(len(lg)) if lg[i] < 0.85]
k = list(k)
print(k)# 选出主成分对应的特征向量矩阵
selectVec = np.matrix(featVec.T[k]).T
selectVe = selectVec * (-1)
print(selectVec)# 主成分得分
finalData = np.dot(data_adjust, selectVec)
print(finalData)# 绘制热力图plt.figure(figsize=(14, 14))
ax = sns.heatmap(selectVec, annot=True, cmap="BuPu")# 设置y轴字体大小
ax.yaxis.set_tick_params(labelsize=15)
plt.title("Factor Analysis", fontsize="xx-large")# 设置y轴标签
plt.ylabel("Sepal Width", fontsize="xx-large")
# 显示图片
plt.show()# 保存图片
# plt.savefig("factorAnalysis", dpi=500)

相关内容

热门资讯

邮储银行行长芦苇兼任公司首席合... 5月26日,邮储银行发布董事会决议公告,邮储银行行长芦苇自2026年5月26日起兼任邮储银行首席合规...
我愿意二次到店吗?小店主理人交... 来源:滚动播报 (来源:上观新闻) 咖啡店主理人可以去餐饮店体验一天,感受烟火气和客流管理;手工...
原创 深... 当政策暖风遇上资产配置需求,深圳楼市正上演一场“热度与信心齐飞”的戏码!上周(5.18-5.24),...
被封千万网红大蓝卷土重来:拉人... 蓝鲸新闻5月26日讯(记者 赵凯)“朋友圈散布经济恐慌言论制造焦虑,拉人头设多级返利,数百人入局、累...
抖音商城618前六日数据:消费... “清凉经济”热度高:抖音商城618首阶段空气循环扇订单量同比增长348% 作者 I 钱游 报道 I ...
金华有闲置贵金属想变现该怎么挑... 当下闲置物品处置、短期资金周转的需求日渐普遍,市面上的相关服务机构水平参差不齐,不少有黄金回收需求的...
千亿市值芯片企业完成IPO辅导... 【大河财立方消息】5月26日,新三板挂牌企业宸芯科技股份有限公司(证券简称:宸芯科技)公告,收到青岛...
NBBOSS R1全球首发 重... 5月26日,信人智能旗下全球首款企业家专属AI决策伙伴NBBOSS AI决策机器人R1正式全球首发。...
NFC果汁配料表“水”排第一?... 随着气温升高,果汁进入消费旺季。然而很多果汁产品的标注却让消费者感到困惑。比如:有的标注“纯果汁”,...
存储牛市与全民狂热:韩国股市泡... 2026年5月的韩国,正经历一场史无前例的资本狂欢。自2025年4月触底以来,KOSPI指数在18个...
下架,召回!双汇子公司猪肉抗生... 近日,黑龙江省市场监督管理局网站发布关于食品安全监督抽检信息的通告(2026年第7期)。 其中,望奎...
换帅潮席卷白酒圈 白酒本轮人事变动频次之高、画像之多元,几乎超过了过去任何一个周期。 5月19日,“河北王”老白干酒宣...
4月意大利起泡酒猛增122.5... 近日,海关总署公布了2026年4月葡萄酒进口数据。其中,起泡酒表现尤为突出,进口量同比增长35.8%...
华为“韬定律”提振港股半导体股... 财联社5月26日讯(编辑 胡家荣)半导体产业链个股集体走强。截至发稿,华虹半导体(01347.HK)...
历史不会重演,但会惊人相似:中... 金价疯涨别乱买!复刻2015年走势,普通人记住3个保命妙招 最近逛商场,最大的感受就是黄金柜台太热闹...
商品标签被指涉嫌性暗示,盒马道... 近日,盒马旗下一款粉木耳产品因标签设计引发争议,不少网友吐槽该商品标签低俗,涉嫌性暗示。 25日晚...
东莞一上市公司董事会“换血”,... 近日,易事特集团股份有限公司发布《关于董事会完成换届选举及聘任高级管理人员、证券事务代表暨公司控制权...
做宠物食品,已经很难赚到钱了? 流量争夺战里没有赢家 撰文/ 黎炫岐 编辑/ 李觐麟 排版/ Annalee “它经济”,一个持续升...
2万亿美元!SpaceX上市前... “你想在早上醒来时觉得未来会很美好——而这正是成为太空文明的全部意义所在。它关乎相信未来,并认为未来...