凌晨,OpenAI 介绍了其在 AI 视频领域的新技术进展:我们打造了一种名为Sora的文本到视频模型。Sora能够生成长达一分钟的视频,同时保持视觉质量和对用户提示的遵循。
简单来说,Sora可以根据简单的提示和静态图像,生成包含多个角色的视频画面。此外,Sora还可以自己“脑补”、“扩展”现有视频片段。
用词语总结Sora,那就是:“60s超长长度”“单视频多角度镜头”“充满情感的角色”“高度拟真的细节”和“世界模型”。
这项技术一经发布,立刻引爆大众,令无数人发出感叹:
“OpenAI第三个大招——向所有影视公司抛出二向箔”
“彻底端掉视频行业饭碗!OpenAI首个AI视频模型炸裂登场”
“60秒一镜到底惊人,世界模型真来了?”
“太炸了!OpenAI深夜发布,文字直接生成视频!网友:我要失业了”
“OpenAI再次举起屠刀,Sora血洗行业”
OpenAI 在官方网站特别指出,所有的视频都是由 Sora 直接生成的,没有做过后期调整。
OpenAI指出,Sora与 GPT 模型类似,也使用了diffusion transformer架构,是一种扩散型变换器模型。OpenAI将视频和图像的数据表示为patch,类似GPT中的token。技术上,Sora生成的视频中,主体可以在三维视频中进行连续运动。
当无数人都在等待OpenAI 公测的时候,Sam Altman已经自己玩嗨了。
他发推疯狂安利的同时,还亲自下场为网友生成视频:你们随意来prompt,我一一输出。
这时,Sam Altman的身份是剪辑师?摄影师?演员?还是导演?
去年,娱乐资本论在采访AI创业者时,有人提出AI视频将在今年迎来大爆发,前途不可限量。
没想到,时间来得如此之快。
那么,Sora将会为世界带来哪些改变?
01 一段文字就能生成短片,视频内容将会大规模爆发,原有的岗位结构将会发生变化,例如摄影师、剪辑将不再存在,编剧可以直接生成电影;
02 讲故事的能力会越来越重要;
03 如果你不会讲故事,那么从古书、小说中爬取故事的能力也会很重要,人类历史上的大量文字内容,将会以视频内容的形式再现;
04 Sora生成的内容,将会最先在短视频领域爆火。因为这个行业对技术的要求低,且Sora可以相对低成本地产出大量具备猎奇性的内容;
05 特效行业的诸多镜头可以直接使用AI生成;
06 以后拍戏不需要这么多演员了;
07 游戏、动画行业的制作成本将会被大大降低,建模过程可以直接省略了;
08 以后自己写剧本、自己生成视频,再加上人机交互的机器,《头号玩家》的剧情会加速到来;
09 人人都有机会成为AI导演;
10 Sora将会加速数字人、自动驾驶、智慧成本、元宇宙等行业的发展,降低了数字资产的成本;
11 AI视频赛道将会迎来新的竞争点。此前被众人看好的Pika、Runway需要重新思考发展方向;
12 当视频被生成以后,世界是真实的可能性越来越微乎其微。继电话、数字人诈骗后,新的诈骗手段也会层出不穷;
13 客观来看,Sora的视频现在还存在着不连贯帧数、卡帧、断帧等问题,准确性不足等问题,但这些都会随着技术的进步而解决。
世界模型意味着什么?
维特根斯坦在《逻辑哲学论》里说,句子是实在的图像语言,意思是句子、语言可以影射世界的真实状态,语言就是我们的世界模型。
而现在,Sora已经通过大量的数据,能够理解物理世界的运动规律,学会了关于3D几何形状和一致性的知识,通过运动、反射等方式,创建了一个包含物理规则、与真实世界接近的虚拟世界。
某种程度上来说,Sora已经可以像人一样,对世界有了全面准确地认知。
例如,Sora在生成“色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界”为主题的视频中,可以自己通过运镜拍摄,展现内容。
项目研究员Bill Peebles指出,“视频中实际上发生了多次镜头转换——这些镜头并非后期拼接而成,而是模型一气呵成地生成的。我们并没有特别指令它这么做,它却能自动完成。”
Sora的成果
提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
一镜到底的60秒视频里,主体人物和背景都十分稳定,且全景、特写、镜头推拉摇移都有,有着复杂的摄影机运动。细节上水中的倒影也在变化。主体人物走动的时候,背景的招牌也在不断发生变化。有氛围,风格绚丽,堪比电影大片的质感。以后导演做创投的时候可以直接用AI生成短片,无需花高价拍摄了。
提示词:一个美丽的剪影动画展示了一只狼对着月亮嚎叫,感到孤独,直到它找到狼群。
整个视频通过蓝色的背影和狼的剪影,极好地展现出了狼的孤独,剧情上从一匹狼到多匹狼过渡自然,镜头语言上全景和中景、特写交替切换。Sora不仅懂拍摄,还可以识别人类的情绪。
提示词:与中国龙一起庆祝中国农历新年的视频。
龙的形象十分真实且符合节日氛围,人群也很有春节的氛围。
提示词:一位24岁女子在魔法时刻站在马拉喀什,眨眼的特写镜头,70毫米拍摄的电影胶片,景深,生动的色彩,电影。
视频中,人物的皮肤细节、睫毛都是十分逼真,和真人实拍几乎没有差别。
结语
Sora技术报告详细内容可以看技术文档:
https://openai.com/research/video-generation-models-as-world-simulators
OpenAI也宣布,将在今天晚些时候,更新技术论文。不过根据Openai之前的发布风格,当真正有用的东西出来的时候,他们只会公开有限的东西,就像GPT4本身到现在也没有发布详细的技术参数。
或许,当Sora最终跟大家见面,就是在GPT5和ChatGPT相结合发布的时候。先不用说那时会有多炸裂的改进,就算跟现在Pika或Gen-2相近的视频生成功能,可以在ChatGPT不额外花钱使用,那也将会给用户带来很大的改变。