Sora 证明马斯克的是对的,但特斯拉和人类可能都输了 特斯拉能相信马斯克吗 马斯克和特斯拉新消息
admin
2024-02-19 15:02:42
0


Sora 证明特斯拉的思路是对的,而特斯拉证明 Sora 的价值不止是生成视频。


作者 | 曹思颀
编辑| 郑玄

Sora 推出,马斯克可能是心情最复杂的一个。不仅因为其本人与 OpenAI 早年的纠葛,更因为 Sora 实现的其实是特斯拉早几年间一直在探索的方向。

2 月 18 日,马斯克在科技主播 @Dr.KnowItAll 一条主题为「OpenAI 的重磅炸弹证实了特斯拉的理论」的视频下留言,称「特斯拉已经能够用精确物理原理制作真实世界视频大约一年了」。

随后他在 X 上转发了一条 2023 年的视频,内容是特斯拉自动驾驶总监 Ashok Elluswamy 向外界介绍特斯拉如何用 AI 模拟真实世界驾驶。视频中,AI 同时生成了七个不同角度的驾驶视频,同时只需要输入「直行」或者「变道」这样的指令,就能让这七路视频同步变化。


当然,这不意味着特斯拉早在一年前就掌握了 Sora 的技术,毕竟特斯拉的生成技术只用于模拟车辆行驶,而 Sora 能够处理的环境、场景、Prompt、物理规律等信息更加复杂,二者在难度上不可同日而语。

但特斯拉 AI 和 Sora 训练的思路是一致的:并不是训练 AI 如何生成视频,而是训练 AI 理解和生成一个真实的场景或者世界,视频只是从某一个视角观察这个场景的一段时空。这是两家在现有业务上完全不同的公司,以彼此不同的方法来感知真实世界,而他们共同希望通向的,都是 AGI(通用人工智能),甚至更具体一些,就是具身智能和智能体。

理解这个观点的核心,是理解 OpenAI 为 Sora 赋予的使命,并不只是替代视频生成的创作者,而是将视频生成作为帮助 AI 理解真实世界的「模拟器」。如果说特斯拉数以百万计的车辆仍然需要用「肉身」感受这个世界,那么 Sora 则是单纯依靠数据的输入,建立起对世界的认知。


OpenAI 官网上,关于 Sora 的这篇研究论文名为《把视频生成模型作为世界模拟器》。请注意「世界模拟器」(world simulators)这个关键词,它是比生成视频更关键的核心所在。

其实,早在特斯拉发布 FSD V12 的时候,这家以汽车为主要消费产品的人工智能公司,就已经展示了类似的能力。

如何理解呢?首先,在 FSD V12 上,工程师删除了超过 30 万行定义驾驶规则的代码,系统将从被「投喂」的驾驶视频中,学习如何应对真实的驾驶场景,而不是向过往那样,按照写好的规则,在某个特定场景下执行某一个具体的命令。

当然,和作为「生成式模型」的 Sora 不同,FSD 的目标是实现自动驾驶,所以它并不需要真正生成一个具体的视频。你可以想象成一个人(或者智能体)正在进行「防御性驾驶」,基于过往经验,可以对周围环境中交通参与者的下一步移动趋势做出判断。这个判断存在在头脑里就行了,不需要真正把它画在纸上。因此,特斯拉的 FSD 也不需要把对未来的想象,生成为一个真实视频,并呈现在车辆的某一个屏幕上。

所以,现在有 OpenAI 和特斯拉两家完全不同的公司,用截然不同的方式和路径,实现「通过视频生成,让 AI 理解物理世界」这个相同的目标。

简单了解一下 Sora 的运行逻辑:OpenAI 表示,Sora 结合了 Transformer 和 Diffusion 两个过去几年最重要的模型。ChatGPT、Gemini、LLaMA 等语言模式都是基于 Transformer 模型,它对词语进行标记,并生成下一个单词;Diffusion 模型则是「文生图」的代表。

如果从「理解世界」的角度来审视 Sora,那么某一帧图像的画质、画面关系绝不是模型质量高低的评判标准,甚至官网释出的 60 秒一镜到底视频也不是最核心的部分。重要的是这个生成的视频可以被剪辑——在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都保持着高度的「一致性」。这才是 Sora 遥遥领先并接近真实的地方。


Sora 生成的视频,在不同机位下呈现出的「一致性」| OpenAI 官网截图

这一点和特斯拉在 FSD 上采取「纯视觉」方案可以结合理解。简单来说,99% 的车企或者智驾团队都会在车辆上保留激光雷达,通过激光束的发射和接收,辅助计算周围物体和车辆间的距离关系。但马斯克不仅删除了 30 万行代码,还移除了雷达,只依靠高清摄像头采集和神经网络学习来判断距离关系。

无论是对特斯拉,还是对 OpenAI,这都是巨大的挑战。毕竟输入的画面是 2D 的,但输出的结果(无论是驾驶指令还是视频)都需要基于对 3D 世界的深刻理解。

规模和质量是训练模型的核心。特斯拉的数据来源于真实道路上,搭载了传感器的车辆;而 OpenAI 的大量数据,从目前的公开信息来看,来源于网络。在质量的维度,在《马斯克传》里,作者艾萨克森写道特斯拉通过和 Uber 合作,获取「五星司机」的素材训练 FSD;而从规模出发,奥特曼最近希望筹集万亿规模的资金,就是重注算力和规模的具体体现。


计算资源会直接影响生成的视频质量,从左往右分别是 1 倍资源、4 倍资源、16 倍资源的生成效果 | 视频播客截图

最后,回到一开始的那个问题,为什么我们会认为 Sora 和 FSD v12 是相似的?Sora 和 OpenAI 未来的想象空间又是什么呢?它们和 AGI 又有什么关系?

在马斯克看来,当人工智能可以真正解决一个问题(物理、数学、化学等等)的时候,AGI 就到来了。不过还有另外一个理解维度,那就是具身智能。毕竟现实世界里,并不是只有数学公式和文字规则,拥有一定的智商的小猫小狗也可以依靠运动真实地和物理世界进行互动。

这点对于过去只能输入二维信息的 AI 来说很难做到。这也是为什么马斯克看到 Sora 后在 X 上评价是「GG Humans」,在他看来 Sora 今天做到的,已经打破了过去的次元壁,而能理解真实世界并继续学习,AI 也就有了更进一步影响真实世界的能力。

而就像特斯拉把这种生成能力用于训练车辆,Sora 的价值也不仅仅是生成一个难以让人区分真假的视频,用作影视创作者的生产力工具(尽管这是一个非常困难且刚需的场景)。就像周鸿祎所说,「Sora 只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。」

*头图来源:《埃隆·马斯克传》

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你认为 Sore 和 OpenAI

未来的想象空间是什么

星际荣耀液体火箭型号总体副总师姜沂在极客公园科技小年老友会直播中,谈到了火箭实现可重复使用的三个关键技术点。

点赞关注极客公园视频号

相关内容

热门资讯

涉及680万股东!A股下周一正... 文/帅可聪 下周一(7月6日)起,沪深交易所主板风险警示股票(ST股)涨跌幅限制将上调至10%。 今...
2025-2000上市公司医药... 本人将中国上市公司医药数据精心整理为面板数据的形式,医药企业具有471家,5972多个样本,无论是做...
汇川技术:PLC已形成完整系列... 来源:问董秘 投资者提问: 董秘,您好:想问一下贵司在大中型PLC的研发投入和技术发展现在处于什么阶...
原创 董... 昨晚天津卫视黄金档突然上线的《花开如梦》,像是从时间缝隙里掉出来的一部剧,让不少守在电视机前的观众一...
和讯高璐明:突发!券商爆利好!... 券商爆利好,业绩大幅飙升,创历史新高,那么到底对于下周市场会产生多大影响?券商板块未来还有没有上攻的...
国足短期内不会与佛得角交手 近期,关于佛得角可能与国足来一场友谊赛的消息备受关注。 在与阿根廷队赛前,佛得角队首发阵容合影。图...
BC技术接棒、钙钛矿叠层技术蓄... 本报记者 殷高峰 张晓玉 “现阶段光伏项目招标,不配备BC(背接触)组件,基本很难进入业主采购短名单...
原创 海... 新华社德黑兰7月4日电,伊朗伊斯兰革命卫队迎来关键人事变动,阿里·阿兹玛伊少将出任革命卫队海军司令。...
金属3D打印火箭厂商Rocke... 长三角G60激光联盟导读:国外的金属3D打印火箭厂商Rocket Lab,发展速度之快就像坐上了火箭...
嘴歪眼斜是什么病前兆 嘴歪眼斜一般情况下是面瘫、脑卒中、脑梗死等疾病的前兆。 1、面瘫:通常是因为感染因素,也有可能是因为...
上海建工:获政府补助3.48亿... 根据《企业会计准则第16号——政府补助》相关规定,公司将上述与收益相关的政府补助确定为“其他收益”并...
李彦宏最大IPO来了 窗口期。 作者/吴琼 报道/投资界PEdaily “份额抢不到。” 这一幕正在出现在昆仑芯身上。自年...
万全区召开传统制造业数字化升级... 来源:厚德万全 7月3日,万全区召开传统制造业数字化升级与电子商务发展座谈会。区政协、区商务局、...
原创 德... 在全球经济的复杂棋局中,近期德国总理默茨对人民币汇率的言论引发了不小的波澜。他声称人民币“低估了30...
煤科先锋丨从戈壁“小白”到攻坚... (来源:中国煤炭科工集团) 2022年初夏,刚入职不到半年的田凤亮,第一次踏上新疆戈壁深处的露天矿。...
海归博士回国创业,一年狂飙4倍... 文 | 硅基象限,作者 | 张思 一个50后海归博士,扎进全球仅剩三个玩家的“冷门”芯片赛道,做到...
3个月融资35亿,清华90后博... 极佳视界创始人 黄冠 作者 | 邱鑫浩 来源 | 邱处机 投资人正在押注物理AI的到来。 据《投资界...
12亿天价豪宅成交,又一个神秘... 文丨金融八卦女 月月 卖豪宅“续命”的大佬,又多了一个。 近日,香港地产圈诞生了2026年以来最贵...
今夜,欧美全线拉升!黄金白银,... 【导读】平静的一晚 中国基金报记者 泰勒 大家好啊,今晚美股休假,一起简单看看海外市场的表现吧。 7...
上半年880只新基成立创历史新... 财联社7月4日讯(记者 封其娟)2026 年上半年的公募发行市场,呈现出一幅“分裂式繁荣”的图景。 ...