前沿趋势|OpenAI首个文生视频模型Sora惊艳发布,听听园企技术专家怎么说······

发布于: 2024-02-21
分类: 浦软聚焦

2月16日凌晨,OpenAI又展开了一次超乎所有人想象的发布,其首款文生视频模型Sora正式对外亮相。ChatGPT、DALL-E3,再到Sora,如果用一句话来总结OpenAI的与众不同之处,那就是:技术想象力和工程能力,要远比技术路线或者黑科技重要。

 

首款文生视频模型Sora火爆“出道”

2023年及以前,文生视频的模型虽然出现Runway、Pika等现象级产品,但从整个行业来看,把扩散模型和语言模型相结合的工作并没有被业内放在“最高优先级”。OpenAI指出,Sora与之前的文生视频思路并不一样,是让模型一次预测多帧画面,并且确保视频主体保持不变。

Sora在视频帧上做突破,巧妙地提升生成视频的使用上限。把Transformer引入到文生视频的扩散模型中,实现视频帧之间的语义信息预测,让语言模型在其中发挥出巨大的价值。也就是说:Transformer+Diffusion Model,在2024年初实现融合,不再是独立两条发展路径。

Sora的效果已经在科技圈内不断刷屏,以至于很多人对于OpenAI新技术的发布,如同期待苹果乔布斯时代的发布一样,总有超乎预期的技术让人眼前一亮。

 

Sora 1.0版本将如何升级?

Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解,能准确解读提示,并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。

当然,对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,有的狼崽凭空出现或消失。

该模型还可能混淆提示词的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。如根据提示词“篮球穿过篮筐然后爆炸”生成的视频中,篮球撞到篮筐边缘竟然没有反弹而是直接穿过。

OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。如今,Sora正面向部分成员开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请一批视觉艺术家、设计师和电影制作人加入,期望获得宝贵反馈,以推动模型进步,更好地助力创意工作者。

 

关于Sora,园企这样说

达观数据有限公司

副总裁  王文广

语言是人类智能的基础,人类之所以成为人类就是出现了语言,所以人类制造的智能体,需要以语言为基础。但要在人工智能中真正实现AGI,这中间还有一个关键环节,那就是让机器能够自主地从物理世界中学习,这就要求AGI具备连续的视觉理解能力,构建出能够模拟现实物理世界的时空模型。也就是说,连续的视觉理解能力是AGI从物理世界学习的基础。Sora的出现,正是在时空模型和视觉理解上往前推进了一大步。这有点像ChatGPT的出现,在语言智能上往前推进了一大步一样。也正是因为这个原因,Sora一出世即获得极大关注,再一次重现一年多前的ChatGPT的场景。

另外,在技术上,Sora是在视觉领域重复了GPT3的路径,是规模化的智能涌现,而不是模型或算法上的突破。通过Sora,证实了不断扩大视频模型的规模,将有可能模拟整个物理世界,并让人造智能体能够理解世界,为改造世界打下基础。

当然,上面是从通用人工智能的视角来看待Sora的。Sora的直接影响是整个影视制作和媒体行业,这是颠覆性的影响,有如火车的出现,改变了整个运输行业一样。马车不会消失,但成了小众,未来的影视制作形态也会完全变了样。

 

上海森亿医疗科技有限公司

联合创始人兼首席技术官  殷嘉珩

Sora模型一经推出,就在视频生成领域做到了SOTA(State of the Art),一下子就将相关领域的效果推进了很多,获得广泛关注。Sora使用基于视频时空patch的方式,将视频可以表示成类似大语言模型Token的形式,从而可以用类似LLM的方式使用Diffusion Transformer(DiT)进行训练和生成。Sora可以根据文本和图片提示,生成60秒任意分辨率和长宽比的视频,更令人兴奋的是,这个视频中会更好地模拟每个对象的物理特性,从而看起来非常真实。

不过就目前来看,Sora距离真正的强人工智能和世界模型还是有较大的差距。Meta的首席AI科学家Yann LeCun指出,Sora能生成出4条腿的蚂蚁,就说明了Sora不能真正地像人一下理解世界的常识。比如幼儿哪怕是小动物,都能从简单的观察中意识到,一切抛掷的物体终将落向地面,但Sora这样的模型,只能通过海量的训练数据,去模拟这样的行为,并不能真正地实现“世界模型”。

 

上海智位机器人股份有限公司

高级工程师/AIGC小组主理人  夏青

Sora是一个在工程领域成功的模型,其创新性地结合了扩展模型和Transformer模型。它的物理过程、长距离关联性、3D连续性等特性让人震惊,让我们再次看到大规模参数训练后产生的涌现。它是否代表人工智能已经理解了现实世界,甚至是通向AGI的第一步?同时,其生成60秒的视频的能力也超越了许多现有的工具。虽然目前Sora并未提供接口供公众使用,但我们预见其在短视频领域的巨大潜力。然而,其稳定性可能是一个问题,需要进一步地训练和使用以稳定输出。对于监管,利用区块链技术进行可追溯的水印可能是一个解决方案。

 

派欧云计算(上海)有限公司(PPIO)

Sora之所以能引起如此大的震动,是因为它在一定程度上实现了物理世界的虚拟化,是当前最接近AGI概念的产品。Sora不仅能理解用户在提示中提出的要求,还能模仿这些物体在物理世界中的存在方式。比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化,这其中的技术突破是远超预期的。Sora的问世也正印证了硅谷的新摩尔定律:模型能力1-2年提升一代,训练成本18个月下降4倍,推理成本18个月下降10倍。

从商业上看,AI在应用层如雨后春笋般发展,各行各业都在涉及。而大模型的训练与推理、生成式AI应用的规模化落地,需要新一代的基础设施来支撑。GPU和云作为AI的军火,其市场需求将更加旺盛,未来几年甚至会供不应求。当下的AI模型训练主要依靠英伟达GPU,但主流算力芯片已经供不应求,有机构预测到2024年需求将达到150-200万。虽然现在来看ARM、英伟达、台积电构建的全球AI半导体产业链可能是短期的最大收益者,但未来或许会迎来更大的竞争。目前,对于中国企业来讲,算力基础设施的自主化建设、尤其是算力芯片,仍是在AI赛道上与全球保持同步进步的重要方向。

 

来源|央视网、腾讯科技、北京新闻广播微信公众号,达观数据、森亿智能、智位机器人、PPIO

编辑|王芳

审核|姚远

校对|办公室

分享