谷歌发布Gemini 1.5,能自动识别视频中的幽默梗,目前仅面向部分用户 谷歌发布Gemini 1.5,能自动识别视频中的幽默梗,目前仅面向部分用户
admin
2024-02-16 18:49:50
0

当地时间 2 月 15 日, 推出 Gemini 1.5 Pro,其在处理大量视频、文本和图像的能力上得到增强。

2023 年 12 月, 推出 Gemini 1.0 版本,按照大小和复杂性可以分为 Nano 版、Pro 版、Ultra 版。本次新版本正是在此基础之上打造而来。

据了解,只有一部分被精选之后的开发人员和企业客户,可以使用 Gemini 1.5 Pro 的预览版。

表示,Gemini 1.5 Pro 在性能上与其之前的顶级型号 Gemini 1.0 Ultra 相匹配,但使用的计算能力较低。

至关重要的是,Gemini 1.5 Pro 模型可以处理来自用户的大量数据。虽然每个 AI 模型都有其可以消化的数据量上限,但新 Gemini 1.5 Pro 的标准版本可以处理多达 128000 个 tokens 的输入。

这些 tokens 是 AI 模型将输入分解成的单词或单词的一部分,与 GPT-4 的最佳版本(GPT-4 Turbo)相当。

目前,开发者能向 Gemini 1.5 Pro 最多提交 100 万个 tokens,这相当于大约 1 小时的视频、11 小时的音频或 700000 字的文本。毫无疑问这是一个巨大的飞跃,使得我们可以做目前其他模型无法做到的事情。

在展示的一段演示视频中,研究人员使用百万 tokens 版本向模型提供了一份 402 页的阿波罗登月任务记录。

然后,他们向 Gemini 展示了一张手绘的靴子草图,并要求它识别该图画所代表的记录中的时刻。

“这是尼尔·阿姆斯特朗(Neil Alden Armstrong)登陆月球的那一刻,”Gemini 正确地回答道,“他说,‘个人的一小步,人类的一大步。’”

这款模型还能够识别幽默时刻。当研究人员要求在阿波罗记录中找到一个有趣的时刻时,它找到了宇航员迈克·柯林斯(Mike Collins)将阿姆斯特朗称为“沙皇”(可能不是最好的台词)。

在另一次演示中,该团队上传了一部由美国默片时代演员巴斯特·基顿(Buster Keaton)主演的 44 分钟无声电影,并要求人工智能识别一张纸上的信息。

这张纸在电影中的某个时刻,会从人物的口袋中取出。不到一分钟,模型就找到了这一场景,并正确回忆出了纸上写的文字。


研究人员还重复了阿波罗实验中的类似任务,要求模型根据绘图找到电影中的场景,结果它也能完成这一任务。

表示,它对 Gemini 1.5 Pro 进行了开发大型语言模型时通常会使用的一系列测试,包括结合文本、代码、图像、音频和视频的评估。

该团队发现 Gemini 1.5 Pro 在 87% 的基准测试中优于 Gemini 1.0 Pro,并且在所有基准测试中或多或少与 Gemini 1.0 Ultra 相当,同时使用的计算能力更少。

表示,处理更大输入的能力是专家混合架构取得进展的结果。使用这种设计的人工智能将其神经网络分成多个块,只激活与手头任务相关的部分,而不是立即启动整个网络。

并不是唯一使用这种架构的公司;法国人工智能公司 发布了一个使用它的模型,据传 GPT-4 也采用了该技术。

深度学习团队负责人奥瑞尔·威亚斯()表示:“在某种程度上,它的运作方式很像我们的大脑,但并不是整个大脑一直都在激活。” 这种划分可以节省人工智能的计算能力,并且可以更快地生成响应。

艾伦人工智能研究所前技术总监奥伦·埃齐奥尼()没有参与这项工作,他说:“这种在不同模式之间来回流动并利用它来搜索和理解的流动性非常令人印象深刻。”“这是我以前从未见过的东西。”

这种可以跨模式运行的人工智能,和人类的行为方式更加相似。“人们天生就是多模式的,”说,因为我们可以毫不费力地通过在说话、写作、绘图、制表之间切换来传达想法。

然而,警告不要从事态发展中获得太多意义。“有一句著名的台词,”他说,“永远不要相信人工智能演示。”

目前尚不清楚演示视频遗漏了多少内容或从各种任务中精心挑选了多少内容(确实因其早期 Gemini 发布没有透露视频已被加速而受到批评。)

如果输入措辞稍作调整,模型也可能无法复制某些演示。表示,人工智能模型总体来说是脆弱的。

另外,此次发布的 Gemini 1.5 Pro 仅限于部分开发者和企业客户。没有具体说明何时可以进行更广泛的发布。

运营/排版:何晨龙


01/

02/

03/


05/

相关内容

热门资讯

什么情况?白银突然暴涨7%逼近... 贵金属市场本周开局表现强劲。尽管围绕美伊和平谈判的最新进展再度受挫,白银价格仍升至两个月高位。 现货...
芯原股份20cm涨停,寒武纪涨... 半导体板块全线走强。芯原股份20cm涨停,寒武纪涨超17%,科创人工智能ETF易方达、科创人工智能E...
现金、动销与未来:五粮液的转身... 2026年4月30日,年报最后截止日,五粮液一纸会计差错更正公告,将2025前三季度营收从609.4...
动荡中的“压舱石”:顶级豪宅为... 文/乐居财经 严明会 “我们梳理了九大‘不确定因素’场景。虽然它们不在基准预测之列,但任何一个若兑现...
AI“三剑客”压阵!小摩:下半... 自2025年以来,新兴市场股市相对发达市场的超额收益已达25%。 这可能仅仅是开始。摩根大通认为,本...
【IPO追踪】胜宏科技(024... 5月11日,AI PCB龙头胜宏科技(02476.HK)大涨13.67%创上市以来新高,市值一举突破...
一周融资汇总:热度不减,11家... 上周(5.5-5.11)机器人行业持续迎来资本热潮。《智能新观察》基于公开信息的不完全统计,梳理出5...
原创 股... 股息到账的喜悦还未褪去,手机突然弹出一条银行扣款短信——“红利差异税扣缴xxx元”。不少股民都经历过...
注意!“三类情形”不合规发票不... “三类情形”不合规发票不能报销,这些风险点要避开! 不符合规定的发票不可以作为报销凭证,任何单位和个...
4月份CPI同比上涨1.2% 5月11日,河北石家庄,顾客在一超市内购买蔬菜。5月11日,国家统计局发布数据显示,4月份,受国际原...
轻舟智航CEO于骞:有智驾的车... 【CNMO科技消息】近日,轻舟智航联合创始人、董事长兼CEO于骞在与凤凰网财经《发现新势力》对话时,...
“双十”增长开局!宁波银行20... 近日,随着宁波银行2026年一季报及2025年年报的相继披露,这家城商行“领头羊”展现出强劲的发展韧...
原创 火... 斑马消费 范建 火锅主业增长触顶,影响资本市场信心。海底捞将破局筹码,押在了多品牌孵化之上。 202...
原创 夯... 作者|娅沁 声明|题图来源于网络。惊蛰研究所原创文章,如需转载请留言申请开白。 近两年,年轻人中开始...
美伊谈判再挫金价,市场转向交易... 据央视新闻,当地时间5月10日,美国总统特朗普在社交媒体表示,伊朗方面的回应“完全不可接受”。据新华...
宗馥莉罢免销售负责人 图片拍摄:界面新闻 赵晓娟 界面新闻记者 |赵晓娟 界面新闻编辑 |牙韩翔 娃哈哈和宏胜饮料...
直击茅台业绩说明会!回应营收确... 【导读】贵州茅台5月11日召开业绩说明会 中国基金报记者 郑俊婷 5月11日下午,贵州茅台在线上召开...
大跌41.8% 智能音箱市场遇... 快科技5月11日消息,最新行业数据显示,2026年第一季度国内智能音箱线上市场行情很冷,整体销量直接...
贵州茅台业绩会直面营利波动,王... 茅台直面了外界关注的诸多核心问题。 图片来源:贵州茅台官微 5月11日,贵州茅台酒股份有限公司(6...
2026合肥贷款中介深度评测:... 合肥专业贷款中介深度评测:合规选品,融资成功率提升65% #### 合肥贷款中介行业格局与核心挑战...