围攻光明顶:Sora效应下的AI视频生成竞赛

Sora横空出世,同行们怎么样了?

文|新火种 一号

编辑|美美

Sora的出现,让AI视频生成领域真正“活”了起来。

2024年2月,OpenAI发布Sora,在生成式AI领域扔下了重磅炸弹。

尽管在去年,Runway、Pika以及Stable Video等就已经涉足AI视频生成领域,并且也曾经带给人们很多惊艳的时刻,甚至让马斯克都直呼,2024会是AI视频生成的元年。就在大家还在期待着这些公司会在2024年带给大家更多惊喜的时候,Sora放出的Demo,60秒、动作流畅,涂抹感不强,凭借一己之力抬高了视频生成领域的标准,对于之前只能生成几秒钟的AI视频来说,简直就是降维打击。

因此,不仅在社交媒体上人们对Sora赞不绝口,在官方媒体以及一众企业家眼中,Sora也成了AI界中明星般的存在。尽管已经过去了一个月,光是靠着在TikTok上更新Sora生成的视频,OpenAI刚开通不久的账号就已经涨了数十万粉。这样的热度,让不少的公司都开始想着如何与Sora竞争,如何复现Sora。

AI视频生成的战场,因为Sora,开始真正热了起来。

Sora横空出世,同行们怎么样了?

在Sora横空出世后,因为AI绘画开源模型Stable Diffusion而被人们所熟知的Stability AI率先带头冲锋,将在去年展现过的Stable Video拿出来进行了公测。在SV官网上,提供了图像和文字生成两个选择,在输入提示词之后,可以生成四张图像供人选择,并且还能选择镜头运动的方式,但目前还只能生成4秒钟的视频,不少人实际体验下来,觉得差强人意。

而要说去年炙手可热的两大AI视频生成工具,那一定是Runway的Gen 2以及初创公司Pika。在Sora发布之前,Runway和Pika都被认为是视频生成领域上的佼佼者,而在Sora展示了Demo之后,很多人认为,效果已经能够轻松吊打这两家新兴独角兽公司了,不少人开始担忧这些创业者的命运。

不过,Pika创始人,华人女学霸郭文景却并不心灰意冷,她在采访中回应称,“我们觉得这是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标Sora。”而事实上,Pika也开始在最近几周开始了频繁的更新,但并不是和Sora硬刚。Pika先是更新了让视频中的人物能够根据输入的音频实现对口型的Lip Syne功能,主打一个电影台词还是电影最重要的部分。随后又更新了视频音效生成的功能,毕竟有声电影比无声电影还是要精彩得多的。

而Runway则是自去年Pika刷屏之后,就说下一步的研究方向是世界模型,因此到现在为止,除了更新了一下用于控制视频生成效果的运动笔刷,就没有什么大的消息了。

此外,还有一家来自以色列的公司LTX Studio另辟蹊径,上线了一个电影制作平台,直接把视频生成、编辑、剪辑还有旁白一条龙全都搞定了。

国内企业也在暗暗追赶Sora

除了国外AI视频生成领域原本的佼佼者开始对Sora奋起直追外,饱受吐槽的国产AI实际上也并没有让人失望。

首先是国内大厂,与Pika一样,阿里巴巴同样选择了音频和视频结合的赛道来进行“弯道超车”,推出了一个基于音频生成视频的模型EMO,只要上传一张照片和一段音频,就能让照片里的人开口说话、唱歌,并且不限时长。像什么小李子版说唱,蒙娜丽莎开口说话以及奥黛丽赫本演讲等等都不在话下。

Sora Demo视频中的这个东京女郎,也成为了能说会道的女士。而且效果也比PIka强不少,也因此在社交媒体上刷了一波屏,该说不说,大厂不愧是大厂。

而字节跳动,则是早在Sora发布之前,就已经展现了一款名为Boximator的视频生成模型。它能够精准空时视频中的物体,用户无需编写复杂的文本提示词,直接在参考图像中框选对象,然后添加一些方框和线条来定义目标的结束位置或跨帧的整个运动路径,尽管目前产品还未落地,但也体现了在视频生成上的一大创意。

除了大厂,在今年3月5日的超讯通信X七火山大会上,一家名为七火山的公司推出了一个融合了Diffusion和Transformer的AI视频生成模型Etna,实现了15秒4K 60帧的超逼真视频生成效果,并且同样具备一定的时空理解能力,可以说是当前国内最接近Sora的模型之一了。

Sora成功激活了AI视频市场

除了国内外不同企业的追赶,Sora的出现不仅给同是AI视频生成领域的创业公司带来了压力,也同样给他们带来了希望。

早在Sora展现Demo之前,国内就有一家名为智子引擎的公司在快1年以前提出了基于Transformer的Video统一生成框架,他们拿着这篇论文十分费劲地为投资人、求知者讲了大半年,却屡屡碰壁。而如今因为Sora的火爆,他们也收到了不同投资人的电话,想要学习Sora、学习他们的论文成果。

同样因为Sora而收到关注的,还有一家名为爱诗科技的公司。它们的目标是3-6个月赶超Sora。它由字节跳动前视觉技术负责人王长虎于2023年4月创办,他们致力于打造全球顶尖的AI视频生成模型及应用。如今它已经完成了亿级A1轮融资,资金将主要用于底层视频大模型的技术研发和团队搭建等方面。

企业之外,高校也并未落队。北大团队发起了一项Sora复现计划——Open Sora,希望集结开源社区的力量,尽可能完成对Sora的复现。这个初始团队一共有13人:带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。消息一经公布,就有北大校友兼AnimateDiff贡献者等人进行了回应,究竟这个“国产版Sora”的新挑战者能否成功实现复现,我们拭目以待。

显然Sora的诞生已经成功激活了AI视频生成领域,相信一部完全由AI生成的院线电影可能会比我们想象中更快到来。

声明:本文内容仅代表该投稿文章作者观点,不代表蓝鲸号立场。 未经授权不得随意转载,蓝鲸号保留追究相应责任的权利