人工智能多模态方向学习笔记-Deep Visual-Semanti算法
创始人
2025-05-31 07:06:43
0

简介

Deep Visual-Semantic (DeViSE)是一种用于图像分类的算法,它使用了深度学习中的卷积神经网络 (CNN) 和词向量模型。它的主要目的是将图像和单词表示为相同的特征空间,以便可以将它们放在一起进行训练和分类。

DeViSE算法的基本思想是将每个图像映射到一个固定长度的向量,这个向量被称为“视觉嵌入”(visual embedding)。同时,每个单词也被映射到一个固定长度的向量,这个向量被称为“语义嵌入”(semantic embedding)。然后,算法使用这些嵌入向量来训练一个分类器,将图像分类为正确的标签。

以下是DeViSE算法的简单流程:

1.使用CNN对图像进行特征提取,得到视觉嵌入向量。
2.使用词向量模型对每个标签单词进行编码,得到语义嵌入向量。
3.通过一个训练集,将每个视觉嵌入向量和相应的语义嵌入向量配对,并将它们放在一起进行训练。
4.训练一个分类器,它使用训练好的嵌入向量来将图像分类为正确的标签。

原理推导

DeViSE算法的核心思想是将图像和单词表示为相同的嵌入空间,并在该空间中使用向量距离来衡量它们之间的相似性。具体地说,该算法利用了词向量模型中的相似性,将单词编码为固定长度的向量,然后使用CNN对图像进行特征提取,得到图像的嵌入向量。通过将它们放在一起进行训练,算法使这些嵌入向量在相同的空间中,以便它们可以被分类器用来对图像进行分类。

以下是DeViSE算法的原理推导过程:

设定嵌入空间

假设我们有一个大小为 ddd 的嵌入空间,我们的目标是将图像和单词表示为该空间中的向量。我们使用 viv_ivi​ 表示第 iii 个图像在该空间中的向量表示,使用 wjw_jwj​ 表示第 jjj 个单词在该空间中的向量表示。

计算图像嵌入向量

使用CNN对图像进行特征提取,得到一个 kkk 维的视觉特征向量 xix_ixi​。为了得到该图像在嵌入空间中的向量表示 viv_ivi​,我们将该特征向量乘以一个权重矩阵 WWW 并加上一个偏置向量 bbb,即 vi=Wxi+bv_i = Wx_i + bvi​=Wxi​+b。我们将该权重矩阵和偏置向量视为CNN的最后一层的参数。

计算单词嵌入向量

使用词向量模型将每个单词编码为一个 ddd 维的向量 wjw_jwj​。我们使用单词的词向量作为其在嵌入空间中的向量表示。

计算嵌入向量的损失

对于一个给定的图像 iii 和标签 jjj,我们希望它们在嵌入空间中的向量距离尽可能小。我们定义损失函数为嵌入向量之间的欧几里得距离的平方:

Lij=∣∣vi−wj∣∣2L_{ij} = ||v_i - w_j||^2Lij​=∣∣vi​−wj​∣∣2

其中,∣∣⋅∣∣||\cdot||∣∣⋅∣∣ 表示向量的范数。

我们的目标是最小化所有图像和标签之间的距离,即:

L=∑i,jmax(0,α−Lij)L = \sum_{i,j} max(0, \alpha - L_{ij})L=∑i,j​max(0,α−Lij​)

其中,α\alphaα 是一个较小的正数,max(0,α−Lij)max(0, \alpha - L_{ij})max(0,α−Lij​) 用于确保嵌入向量之间的距离大于等于 α\alphaα,以便训练过程更加稳定。

训练分类器

通过在嵌入空间中学习图像和标签之间的相似性,我们可以使用分类器将图像分为不同的类别。具体地说,我们使用线性分类器将每个图像向量映射到类别空间,该空间由 CCC 个类别向量 ycy_cyc​ 组成,其中 c=1,...,Cc=1,...,Cc=1,...,C。我们将图像嵌入向量 viv_ivi​ 乘以一个权重矩阵 WcW_cWc​ 并加上一个偏置向量 bcb_cbc​,即 fc(vi)=Wcvi+bcf_c(v_i) = W_cv_i + b_cfc​(vi​)=Wc​vi​+bc​。然后,我们将该结果传递给softmax函数,以得到预测概率向量 pip_ipi​:

pi=softmax(f(vi))=efc(vi)∑c′efc′(vi)p_i = softmax(f(v_i)) = \frac{e^{f_c(v_i)}}{\sum_{c'} e^{f_{c'}(v_i)}}pi​=softmax(f(vi​))=∑c′​efc′​(vi​)efc​(vi​)​

其中,softmaxsoftmaxsoftmax 函数将 f(vi)f(v_i)f(vi​) 归一化为一个概率分布。

训练过程

在训练过程中,我们需要同时优化损失函数和分类器参数。我们使用随机梯度下降算法来最小化损失函数 LLL,并更新权重矩阵和偏置向量,以使图像和单词在嵌入空间中更加相似。同时,我们使用交叉熵损失函数来最小化分类器预测结果和真实标签之间的差异,以使分类器能够更好地对图像进行分类。

总的来说,DeViSE算法通过将图像和单词表示为相同的嵌入空间,并使用向量距离来衡量它们之间的相似性,实现了将视觉和语义信息结合起来的目标。它在图像分类和图像注释等任务中都取得了较好的表现。

伪代码

# 定义CNN模型和词向量模型
cnn_model = CNNModel()
word2vec_model = Word2VecModel()# 定义分类器
classifier = LinearClassifier()# 定义优化器
optimizer = SGD()# 定义训练集
train_dataset = ImageTextDataset()# 训练嵌入向量
for epoch in range(num_epochs):for images, labels in train_dataset:# 计算图像的视觉嵌入向量visual_embeddings = cnn_model.compute_visual_embeddings(images)# 计算标签的语义嵌入向量semantic_embeddings = word2vec_model.compute_semantic_embeddings(labels)# 计算嵌入向量的损失loss = compute_embedding_loss(visual_embeddings, semantic_embeddings)# 计算梯度并更新模型参数gradients = optimizer.compute_gradients(loss)optimizer.apply_gradients(gradients)# 训练分类器
for epoch in range(num_epochs):for images, labels in train_dataset:# 计算图像的视觉嵌入向量visual_embeddings = cnn_model.compute_visual_embeddings(images)# 计算分类器的损失loss = classifier.compute_loss(visual_embeddings, labels)# 计算梯度并更新模型参数gradients = optimizer.compute_gradients(loss)optimizer.apply_gradients(gradients)

相关内容

热门资讯

走进小城看消费丨江西资溪:低碳...   夏日时节下午4点,江西省抚州市资溪县大觉山景区漂流终点依然热闹。来自南昌的游客余鑫漂流结束后没有...
【中原晨会0625】市场分析专... 来源:市场资讯 (来源:中原证券研究所) 本期重点研报目录 【中原策略】市场分析:电子半导体领涨 ...
南向资金连买4日!低费率+可月... 6月25日早盘,港股红利资产震荡整理。截至11时14分,港股红利低波ETF招商(520550)下跌0...
618成交破百万!紫荆花用一套... 一年一度的618年中大促,是消费市场的晴雨表,也是品牌间最激烈的角力场。当各大品牌在直播间里铆足了劲...
原创 黄... 2026年6月25日的国际金价已经从前期的5500美元高点跌到4200美元下方,累计跌幅超过22%,...
英伟达CEO:Vera Rub... 截至9:38,中证半导体材料设备主题指数(931743)涨2.36%创新高;权重股中,中微公司涨3....
再被催债16亿!“钢铁大王”戴... 澎湃新闻记者 贺梨萍 因“铁本事件”入狱五年的戴国芳重返钢铁行业,但他并没有完成从阶下囚再到“钢铁大...
周三原油价格下跌 随着美国和伊朗在和平谈判中取得进展,越来越多的油轮公开穿越霍尔木兹海峡,原油在战时的价格上涨已经蒸发...
这种蛋白是大脑衰老的开关 这种蛋白是大脑衰老的开关 清晨,假设一位五十岁左右的王女士发现自己常常把手机放在熟悉的抽屉里又找不到...
信通院牵头算力Token出海生... 盘面上,截至11:04,中证科创创业50指数(931643)涨1.68%,创历史新高;权重股中,芯原...
海外 774 亿营收背后:日本... 文 | 游戏价值论 6月23日,彭博社报道了腾讯正在围绕出售多家日本游戏工作室少数股权开展谈判,包...
餐饮“抢人”大战:把店开到公交... 作者 |餐饮老板内参 内参君 医院、公交站、演唱会…餐饮品牌,正在无孔不入 在北京儿童医院,肯德基...
快讯 | 外资扫货!陈翊庭:港... 港交所行政总裁陈翊庭在接受《中国证券报》专访时指出,国际资本对中国资产的看法已彻底扭转,布局中国市场...
2777.77元!A股“股王”... 25日早盘,昨天创下历史新高的A股“股王”联讯仪器,今天上午继续走强,盘中股价再度刷新历史新高。 截...
原创 今... 欧洲自己的媒体直接下结论,欧盟衰退躲不掉,内部分裂拦不住,现在就连欧洲顶尖工业巨头,都偷偷在用中国的...
黄仁勋股东大会放言:本轮AI基... 在当地时间6月24日的英伟达(NVDA.O)2026年度股东大会上,股东批准了该公司全部10名董事会...
国际油价大跌 新华社消息, 纽约原油期货主力合约价格24日盘中跌破每桶70美元,为伊朗战事爆发以来首次。 市场分析...
马云带队插秧,什么信号? 一场别开生面的“务农”,让外界看到了一个不一样的阿里巴巴。 近日,阿里巴巴合伙人、高德董事长刘振飞在...
全球最大产能,最高丰度达99.... 本文转自【科技日报】; 6月23日,高丰度硼-10同位素技术暨产业化成果发布会在山东省东营市举办,全...
黄金大跳水!金饰克价年内暴跌近... 25日,现货黄金盘中震荡,截至发稿,报3985.070美元/盎司,跌0.17%。 当地时间24日,...