人工智能多模态方向学习笔记-Deep Visual-Semanti算法
创始人
2025-05-31 07:06:43
0

简介

Deep Visual-Semantic (DeViSE)是一种用于图像分类的算法,它使用了深度学习中的卷积神经网络 (CNN) 和词向量模型。它的主要目的是将图像和单词表示为相同的特征空间,以便可以将它们放在一起进行训练和分类。

DeViSE算法的基本思想是将每个图像映射到一个固定长度的向量,这个向量被称为“视觉嵌入”(visual embedding)。同时,每个单词也被映射到一个固定长度的向量,这个向量被称为“语义嵌入”(semantic embedding)。然后,算法使用这些嵌入向量来训练一个分类器,将图像分类为正确的标签。

以下是DeViSE算法的简单流程:

1.使用CNN对图像进行特征提取,得到视觉嵌入向量。
2.使用词向量模型对每个标签单词进行编码,得到语义嵌入向量。
3.通过一个训练集,将每个视觉嵌入向量和相应的语义嵌入向量配对,并将它们放在一起进行训练。
4.训练一个分类器,它使用训练好的嵌入向量来将图像分类为正确的标签。

原理推导

DeViSE算法的核心思想是将图像和单词表示为相同的嵌入空间,并在该空间中使用向量距离来衡量它们之间的相似性。具体地说,该算法利用了词向量模型中的相似性,将单词编码为固定长度的向量,然后使用CNN对图像进行特征提取,得到图像的嵌入向量。通过将它们放在一起进行训练,算法使这些嵌入向量在相同的空间中,以便它们可以被分类器用来对图像进行分类。

以下是DeViSE算法的原理推导过程:

设定嵌入空间

假设我们有一个大小为 ddd 的嵌入空间,我们的目标是将图像和单词表示为该空间中的向量。我们使用 viv_ivi​ 表示第 iii 个图像在该空间中的向量表示,使用 wjw_jwj​ 表示第 jjj 个单词在该空间中的向量表示。

计算图像嵌入向量

使用CNN对图像进行特征提取,得到一个 kkk 维的视觉特征向量 xix_ixi​。为了得到该图像在嵌入空间中的向量表示 viv_ivi​,我们将该特征向量乘以一个权重矩阵 WWW 并加上一个偏置向量 bbb,即 vi=Wxi+bv_i = Wx_i + bvi​=Wxi​+b。我们将该权重矩阵和偏置向量视为CNN的最后一层的参数。

计算单词嵌入向量

使用词向量模型将每个单词编码为一个 ddd 维的向量 wjw_jwj​。我们使用单词的词向量作为其在嵌入空间中的向量表示。

计算嵌入向量的损失

对于一个给定的图像 iii 和标签 jjj,我们希望它们在嵌入空间中的向量距离尽可能小。我们定义损失函数为嵌入向量之间的欧几里得距离的平方:

Lij=∣∣vi−wj∣∣2L_{ij} = ||v_i - w_j||^2Lij​=∣∣vi​−wj​∣∣2

其中,∣∣⋅∣∣||\cdot||∣∣⋅∣∣ 表示向量的范数。

我们的目标是最小化所有图像和标签之间的距离,即:

L=∑i,jmax(0,α−Lij)L = \sum_{i,j} max(0, \alpha - L_{ij})L=∑i,j​max(0,α−Lij​)

其中,α\alphaα 是一个较小的正数,max(0,α−Lij)max(0, \alpha - L_{ij})max(0,α−Lij​) 用于确保嵌入向量之间的距离大于等于 α\alphaα,以便训练过程更加稳定。

训练分类器

通过在嵌入空间中学习图像和标签之间的相似性,我们可以使用分类器将图像分为不同的类别。具体地说,我们使用线性分类器将每个图像向量映射到类别空间,该空间由 CCC 个类别向量 ycy_cyc​ 组成,其中 c=1,...,Cc=1,...,Cc=1,...,C。我们将图像嵌入向量 viv_ivi​ 乘以一个权重矩阵 WcW_cWc​ 并加上一个偏置向量 bcb_cbc​,即 fc(vi)=Wcvi+bcf_c(v_i) = W_cv_i + b_cfc​(vi​)=Wc​vi​+bc​。然后,我们将该结果传递给softmax函数,以得到预测概率向量 pip_ipi​:

pi=softmax(f(vi))=efc(vi)∑c′efc′(vi)p_i = softmax(f(v_i)) = \frac{e^{f_c(v_i)}}{\sum_{c'} e^{f_{c'}(v_i)}}pi​=softmax(f(vi​))=∑c′​efc′​(vi​)efc​(vi​)​

其中,softmaxsoftmaxsoftmax 函数将 f(vi)f(v_i)f(vi​) 归一化为一个概率分布。

训练过程

在训练过程中,我们需要同时优化损失函数和分类器参数。我们使用随机梯度下降算法来最小化损失函数 LLL,并更新权重矩阵和偏置向量,以使图像和单词在嵌入空间中更加相似。同时,我们使用交叉熵损失函数来最小化分类器预测结果和真实标签之间的差异,以使分类器能够更好地对图像进行分类。

总的来说,DeViSE算法通过将图像和单词表示为相同的嵌入空间,并使用向量距离来衡量它们之间的相似性,实现了将视觉和语义信息结合起来的目标。它在图像分类和图像注释等任务中都取得了较好的表现。

伪代码

# 定义CNN模型和词向量模型
cnn_model = CNNModel()
word2vec_model = Word2VecModel()# 定义分类器
classifier = LinearClassifier()# 定义优化器
optimizer = SGD()# 定义训练集
train_dataset = ImageTextDataset()# 训练嵌入向量
for epoch in range(num_epochs):for images, labels in train_dataset:# 计算图像的视觉嵌入向量visual_embeddings = cnn_model.compute_visual_embeddings(images)# 计算标签的语义嵌入向量semantic_embeddings = word2vec_model.compute_semantic_embeddings(labels)# 计算嵌入向量的损失loss = compute_embedding_loss(visual_embeddings, semantic_embeddings)# 计算梯度并更新模型参数gradients = optimizer.compute_gradients(loss)optimizer.apply_gradients(gradients)# 训练分类器
for epoch in range(num_epochs):for images, labels in train_dataset:# 计算图像的视觉嵌入向量visual_embeddings = cnn_model.compute_visual_embeddings(images)# 计算分类器的损失loss = classifier.compute_loss(visual_embeddings, labels)# 计算梯度并更新模型参数gradients = optimizer.compute_gradients(loss)optimizer.apply_gradients(gradients)

相关内容

热门资讯

美国电动汽车“缺血”,根源居然... 美国商务部7月17日宣布,对来自中国的活性阳极材料(Active Anode Material,简称...
送门票发福利 银行助力提振消费... 随着促消费政策陆续出台,在前期探索后,银行支持提振和扩大消费的措施越来越具体、优惠越来越亲民,力度也...
黄金市场高位震荡:多空博弈加剧... 近期,黄金市场呈现 “量价齐升” 与 “资金分歧” 并存的复杂格局。截至 2025 年 7 月 23...
中科酷原完成数千万元战略融资,... 图片系AI生成 7月23日消息,中科酷原科技(武汉)有限公司(以下简称“中科酷原”)宣布完成数千万元...
前“二股东”因开赌场被捕,恒坤... 作者:何光 编辑:马克 科创板又迎来一家即将上会的“硬科技”企业。 厦门恒坤新材料科技股份有限公司(...
中国太平总经理李可东兼任太平财... 运营商财经网 实习生付桢/文 近日,太平养老官网发布的两则公告,经国家金融监督管理总局核准,李可东正...
紫燕百味鸡携手淘宝闪购,全域新... 近日,紫燕百味鸡与淘宝闪购平台携手联名点亮上海多个地标,通过淘宝闪购平台限时特惠活动,精准触达年轻消...
为何苹果在AI上进展缓慢?外媒... 【环球网科技综合报道】7月22日消息,据外媒AINEWS报道称,在人工智能浪潮汹涌澎湃的当下,苹果却...
原创 比... 原创首发 | 金角财经(ID: F-Jinjiao) 作者 | 温颖颖 又一“老登经济”泡沫破了。 ...
《低空经济基础设施框架指引(2... 7月23日,在2025国际低空经济博览会暨低空经济基础设施发展大会上,中国民用机场协会副秘书长黄伟宏...
坚定信心 勇挑大梁·产业新亮点... 来源:石家庄广播电视台 创新抢先一拍,成就钢铁独角兽 ——探访首钢智新的转型路径 7月16日,首钢...
奥克斯赴港上市前分红近38亿,... 奥克斯电气有限公司(下称“奥克斯”)离港交所上市又进一步。 近日,中国证监会官网显示,奥克斯取得境外...
外卖新战场:对决供应链 21世纪经济报道记者孔海丽、实习生吴佳芸、欧思岐 北京报道 外卖大战,正从手机屏幕里的补贴大战,烧向...
披着“稳定币”外衣!五大特征教... 本文转自【人民网】; 稳定币概念自6月底走热以来,一直是市场关注的焦点。在火热的市场情绪下,一些不法...
AI赋能,数智升级——浪潮智慧... 日前,中国卫生信息技术/健康医疗大数据应用交流大会暨软硬件与健康医疗产品展览会(2025CHITEC...
股票杠杆新玩法:ETF期权替代... 在股票投资的工具中,股票杠杆是一个需要谨慎对待的存在,它既可能为投资者带来放大的操作空间,也潜藏着相...
突破34万亿大关 公募基金管理... 公募基金管理规模再攀新高峰。天相投顾数据显示,截至2025年二季度末,公募基金管理规模突破34万亿元...
“巴菲特最爱”的中证红利质量E... 7月23日,两市午后走弱,截至14时49分,贵州茅台6连升,中证红利质量ETF(159209)跌0....
海南全岛封关时间定了!啥是封关... 国家发展改革委副主任王昌林7月23日在国新办发布会上表示,关于海南自贸港封关的具体时间,经党中央批准...