【数据挖掘】推荐系统
admin
2024-02-03 03:11:11
0

1. What is Recommender System

推荐系统提出的动机是什么呢?

  • 对于商家:更好的卖产品,更好的宣传
  • 对于个人:有一个比较感兴趣导向,可以以引起多巴胺回路兴奋
  • 对于信息:能够快速从大量信息中找到想要的

🎉 推荐系统

  • 自动列出一个合适用户兴趣的简短列表

理念

  • 使用历史数据,如用户过去的喜好(past preferences)或类似用户过去的喜好来预测未来的喜好
  • 通过观察过去用户或群体的喜好,试着预测他们未来的喜好,然后就可以试着给他们一些推荐了

基本假设

  • 用户的偏好可能会保持稳定,并随着时间的推移而平稳变化
  • 品味相似的用户对某一物品的评价也相似

通过这个基本假设,我们可以发现,推荐系统是将人们的过去数据(喜好什么的)当作聚类点进行聚类了,相似的簇具有类似的行为,而且这个行为在时间序列上是平稳变化(或者周期性变化)

从形式上讲,推荐系统采用一组用户UUU和一组项目III,学习函数fff使其满足关系RRR
f:U×I→Rf:U\times I\to R f:U×I→R
推荐系统与搜索引擎最大的区别在于,搜索引擎并没有考虑用户的喜好,而是考虑内容的相关性。


2.Recommendation Algorithms

2.1 Content-based Method

  • 基于内容的方法基于这样一个事实:用户的兴趣应该与ta应该被推荐的项目的描述相匹配。

  • 商品的描述与用户感兴趣的描述越相似,用户就越有可能觉得商品的推荐有趣。

核心思想

  • 核心理念:找到用户和所有现有物品之间的相似性

步骤

  • 描述向用户推荐的项目
  • 创建用户画像,描述用户感兴趣的内容
  • 将项目与用户简介进行比较,以决定推荐什么

评价指标

  • 我们用一组向量表示项目和用户属性:

    • Ij=(ij,1,ij,2,...,ij,k)I_j=(i_{j,1},i_{j,2},...,i_{j,k}) Ij​=(ij,1​,ij,2​,...,ij,k​)

    • Ui=(ui,1,ui,2,...,uj,k)U_i=(u_{i,1},u_{i,2},...,u_{j,k}) Ui​=(ui,1​,ui,2​,...,uj,k​)

  • 他们之间(用户uuu和项目iii)的相似性扩压用余弦距离度量:

  • sim(Ui,Ij)=cos(Ui,Ij)=∑l=1kui,lij,l∑l=1kui,l2∑l=1kij,l2sim(U_i,I_j)=cos(U_i,I_j)=\frac{\sum_{l=1}^ku_{i,l}i_{j,l}}{\sqrt{\sum_{l=1}^ku_{i,l}^2}\sqrt{\sum_{l=1}^k}i_{j,l}^2} sim(Ui​,Ij​)=cos(Ui​,Ij​)=∑l=1k​ui,l2​​∑l=1k​​ij,l2​∑l=1k​ui,l​ij,l​​

接着就是计算最接近的top(k)项目啦!

上面的算法只是用用户去评价一个商品,比较适合喜好推荐,并没有基于用户群体给出一个客观的评价。

我们知道,某些商品虽然描述的很好,但可能并不受到群体喜欢(比如某些盗版),除却考虑推荐内容的相关性,还需要考虑目标群体,那怎么办呢?


2.2 Collaborative Filtering Algorithm

协同过滤算法基于用户-项目矩阵:

举个例子:User-Item Matrix

Lion KingAladdinMulanAnastasia
John3033
Joe5402
Jill1242
Jane3?10
Jorge2201

在商品评价中,得分可以由用户显示打分给出(explicit)

也可以从其他用户的行为中推测得到(implicit)

算法的具体步骤为:

  • 权衡所有用户/项目与当前用户/项目的相似性
  • 选择用户/项(邻居)的一个子集作为推荐器
  • 使用邻居对相同(或类似)物品的评级来预测用户对特定物品的评级
  • 推荐预测排名最高的项目

评价指标

  • 余弦距离

  • 皮尔逊相关系数

    • sim(Ui,Uj)=∑k(ri,k−rˉi)(rj,k−rˉj)∑k(ri,k−rˉi)2∑k(rj,k−rˉj)2sim(U_i,U_j)=\frac{\sum_k(r_{i,k}-\bar r_i)(r_{j,k}-\bar r_j)}{\sqrt{\sum_k(r_{i,k}-\bar r_i)^2}\sqrt{\sum_k(r_{j,k}-\bar r_j)^2}} sim(Ui​,Uj​)=∑k​(ri,k​−rˉi​)2​∑k​(rj,k​−rˉj​)2​∑k​(ri,k​−rˉi​)(rj,k​−rˉj​)​

    • 相较于余弦距离,皮尔逊系数做了中心缩放

  • 更新指数

    • ru,i=rˉu+∑v∈N(u)sim(u,v)(rv,i−rˉv)∑v∈N(u)Sim(u,v)r_{u,i}=\bar r_u+\frac{\sum_{v\in N(u)}sim(u,v)(r_{v,i}-\bar r_v)}{\sum_{v\in N(u)}Sim(u,v)} ru,i​=rˉu​+∑v∈N(u)​Sim(u,v)∑v∈N(u)​sim(u,v)(rv,i​−rˉv​)​

    • 其中,ru,ir_{u,i}ru,i​表示用户uuu对商品iii的得分,rˉu\bar r_urˉu​表示用户的平均分,v∈N(u)v\in N(u)v∈N(u)表示与用户uuu最相似的邻居组

举个例子

Lion KingAladdinMulanAnastasia
John3033
Joe5402
Jill1242
Jane3?10
Jorge2201

我们现在要评价JaneJaneJane对AladdinAladdinAladdin的评分,需要怎么做呢?

1️⃣ 计算用户之间的相似度
KaTeX parse error: Undefined control sequence: \ at position 82: …+0^2}}=0.73 \\ \̲ ̲\\ sim(Jane,Joe…
2️⃣ 选择最相似的topk,并计算他们的平均分。例如,我们选两个:
rˉjoe=5+4+0+24=2.75\bar r_{joe}=\frac{5+4+0+2}{4}=2.75 rˉjoe​=45+4+0+2​=2.75
joe是个老好人
rˉjorge=2+2+0+14=1.25\bar r_{jorge}=\frac{2+2+0+1}{4}=1.25 rˉjorge​=42+2+0+1​=1.25
jorge给分不咋样

3️⃣ 基于最近的邻居计算得分
rJane,Aladdin=rˉJane+sim(Jane,Joe)(rJoe,Aladdin−rˉJoe)sim(Jane,Joe)+sim(Jane,Jorge)+sim(Jane,Jorge)(rJorge,Aladdin−rˉJorge)sim(Jane,Joe)+sim(Jane,Jorge)=1.33+0.88∗(4−2.75)+0.84∗(2−1.25)0.88+0.84=2.33r_{Jane,Aladdin}=\bar r_{Jane}+\frac{sim(Jane,Joe)(r_{Joe,Aladdin}-\bar r_{Joe})}{sim(Jane,Joe)+sim(Jane,Jorge)} \\ \ \\ +\frac{sim(Jane,Jorge)(r_{Jorge,Aladdin}-\bar r_{Jorge})}{sim(Jane,Joe)+sim(Jane,Jorge)} \\ \ \\=1.33+\frac{0.88*(4-2.75)+0.84*(2-1.25)}{0.88+0.84}=2.33 rJane,Aladdin​=rˉJane​+sim(Jane,Joe)+sim(Jane,Jorge)sim(Jane,Joe)(rJoe,Aladdin​−rˉJoe​)​ +sim(Jane,Joe)+sim(Jane,Jorge)sim(Jane,Jorge)(rJorge,Aladdin​−rˉJorge​)​ =1.33+0.88+0.840.88∗(4−2.75)+0.84∗(2−1.25)​=2.33


3.Evaluation of Recommender Systems

推荐系统偏向于数据导向,不同的算法在不同的数据集上会有不同的表现

早期的工作中,人们比较关注准确性,后来呢,也逐渐重视用户满意度和性能。所以说,决定在比较评价中应采用何种综合措施是一项挑战。

1️⃣ 平均绝对误差(MAE)
MAE=∑ij∣r^ij−rij∣nMAE=\frac{\sum_{ij}|\hat r_{ij}-r_{ij}|}{n} MAE=n∑ij​∣r^ij​−rij​∣​
2️⃣ 标准平均绝对误差(NMAE)
NMAE=MAErmax−rminNMAE=\frac{MAE}{r_{max}-r_{min}} NMAE=rmax​−rmin​MAE​
3️⃣ 均方根误差(RMSE)

更加强调偏差
RMSE=1n∑i,j(r^ij−rij)2RMSE=\sqrt{\frac{1}{n}\sum_{i,j}(\hat r_{ij}-r_{ij})^2} RMSE=n1​i,j∑​(r^ij​−rij​)2
4️⃣ 精度(Precision)
P=TPTP+NPP=\frac{TP}{TP+NP} P=TP+NPTP​
用来评价模型本身的性能

5️⃣ 召回率(Recall)

完整性(覆盖率)的度量,更像在数据上的性能
R=TPTP+FNR=\frac{TP}{TP+FN} R=TP+FNTP​
6️⃣ F-Score

精确率和召回率互相影响,理想状态下肯定追求两个都高,但是实际情况是两者相互“制约”,此时需要综合考虑二者
F=(1+β2)P⋅Rβ2P+RF=(1+\beta^2)\frac{P\cdot R}{\beta^2P+R} F=(1+β2)β2P+RP⋅R​
β\betaβ用于控制权重。

7️⃣ 斯皮尔曼相关系数
ρ=1−6∑i=1n(xi−yi)2n3−n\rho=1-\frac{6\sum_{i=1}^n(x_i-y_i)^2}{n^3-n} ρ=1−n3−n6∑i=1n​(xi​−yi​)2​
8️⃣ Kendall’s τ\tauτ

  • 按照预测顺序是否与实际顺序相同,计算得到consistentconcordant值,最终的结果为:

  • τ=c−dC2n\tau=\frac{c-d}{C_2^n} τ=C2n​c−d​

相关内容

热门资讯

货币政策加大宏观调控强度 为贯彻中央政治局会议精神,进一步实施好适度宽松的货币政策,中国人民银行行长潘功胜近日在国新办新闻发布...
国投白银LOF:将于1月22日... 国投瑞银白银期货证券投资基金(LOF)A类基金份额发布二级市场交易价格溢价风险提示及停复牌公告。近期...
2024年度个人所得税综合所得... 一、什么是年度汇算? 年度汇算指的是年度终了后,纳税人汇总一个纳税年度内取得的综合所得收入额,减除费...
原创 三... 2026年的春节脚步渐近,当电影市场摩拳擦掌争夺票房时,休闲零食赛道的“互联网鼻祖”三只松鼠却再次选...
通源环境大宗交易溢价成交3.8... 通源环境01月21日大宗交易平台共发生1笔成交,合计成交量3.88万股,成交金额202.46万元。成...
眼内手术自主机器人:重塑眼科手... 国中科院自动化研究所边桂彬团队研发的眼内手术自主机器人系统,正为眼科手术领域注入革命性力量,有望彻底...
从全球第四、全球第二,看中国汽... 近日,各大车企及行业媒体陆续发布了2024年汽车销量数据。在各类榜单中,比亚迪排名均十分优异:202...
大唐御医的误诊:以为是绝症肿瘤... 声明:本文内容结合公开史料与中医典籍进行艺术创作,旨在人文科普,不传播封建迷信,请读者朋友保持理性阅...
赛英电子治理“黑洞”:IPO前... 本文时代商业研究院 作者:陆烁宜 来源丨时代商业研究院 作者丨陆烁宜 编辑丨郑琳 IPO前夕董秘及...
万亿市值迫近 北交所托举实体创... 【编者按】新质生产力加速成长、产业升级步履铿锵、首都功能不断提升……“十四五”时期,我们见证了北京高...
确认了!她接棒父亲任董事长 公司召开第四届董事会第十九次会议选举公司副董事长石思慧担任公司董事长,石平湘担任副董事长。此外,公司...
促消费!6部门发布19条举措加... 6月24日 为推动大力提振消费 中国人民银行等6部门对外发布 《关于金融支持提振和扩大消费的指导意见...
退税更“丝滑” 多地提供“即买... 近日,商务部等6部门发布通知,进一步优化离境退税政策。文件出台后,一些城市增加了退税商店,提供更加便...
突发!王健林旗下大连万达集团所... 红星资本局3月23日消息,日前,王健林旗下大连万达集团股份有限公司(以下简称大连万达集团)又新增一条...
银行间主要利率债收益率升幅扩大 每经AI快讯,3月14日,银行间主要利率债收益率升幅扩大,10年期国开债“25国开05”收益率上行1...
国内期货夜盘开盘多数上涨 【国内期货夜盘开盘多数上涨】沪银涨近3%,铁矿石、沪镍、沪锡、焦炭等均涨超1%,沪金涨近1%;跌幅方...
6国心脏外科医生到北医三院,首... 近日 首期北京大学“一带一路” 微创冠脉搭桥国际高级学习班 在北医三院顺利举行 来自 葡萄牙、以色列...
去年净利预亏约10亿!“国产G... 摩尔线程(688795.SH)今日公告称,公司预计2025年年度实现营业收入14.5亿元到15.2亿...
华能旗下上市公司资产重组过审! 12月12日,内蒙古蒙电华能热电股份有限公司(以下简称“内蒙华电”)发布公告称,拟通过发行股份及支付...
金价,暴跌! 10月21日,黄金白银再次急跌。 截至16:43发稿时,伦敦现货黄金大跌近2%,交投于4270美元/...