中国版Sora哪家强？实测8款视频生成大模型，结果意外

2024-10-09
小编: 网络
正體

分享到：

导读: “甄嬛在后宫大吃汉堡”“等我老了依靠小猫养老”......近期，用AI大模型制作的上述视频走红网络。利用AI，有人将经典电视剧《甄嬛传》变成了“舌尖上的中国”，有人不断推出AI萌

丝瓜网小编提示，记得把"中国版Sora哪家强？实测8款视频生成大模型，结果意外"分享给大家！

“甄嬛在后宫大吃汉堡”“等我老了依靠小猫养老”......近期，用AI大模型制作的上述视频走红网络。利用AI，有人将经典电视剧《甄嬛传》变成了“舌尖上的中国”，有人不断推出AI萌系宠物视频快速在社交媒体上成为宠物博主。

这些视频的背后，是“中国版Sora”的快速崛起。今年年初，Sora在发出60秒视频一鸣惊人后，迟迟不上线变成了遥不可及的“期货”。在这期间，多家中国厂商抢先入场，推出了视频大模型产品，包括字节、快手、阿里云、昆仑万维、美图在内的互联网厂商，以及Minimax、智谱、爱诗科技与生数科技等大模型初创等厂商都在快速跟进。

中国版Sora哪家强？近期，南都记者对8家热门视频大模型进行了测评，在文生视频方面发现生成效果参差不齐，而图生视频领域，大部分的产品还有很大提升空间。

实测8款视频生成应用（文生视频）↓↓

入局

快手、字节、Minimax围攻Sora“期货”

今年春节期间，Sora的横空出世投下了一枚炸弹，瞬间让卷“文生文”“文生图”的大模型厂商开启了“视频的ChatGPT时代”。不过，Sora一鸣惊人后却迟迟未上线，被外界称为“期货”

就在两三天前，10月5日，Meta抢在OpenAI之前推出对标的Sora的Meta Movie Gen。据悉，这款应用可创建不同宽高比的高清长视频，支持1080p，不但可以通过文本输入生成视频，还可以通过文本对现有视频进行编辑修改。此外，它还能生成配套的背景音乐和音效、根据文本指令编辑视频，以及根据用户上传的图像生成个性化视频，号称逼真程度超越sora。

扎克伯格的Meta动作并不算快，中国企业早已迫不及待，抢先布局。

今年3月底，字节跳动旗下剪映团队研发的AI创作平台“即梦AI”开放内测，8月6日，该应用移动版正式上架至苹果应用商店，目前已拥有文生图、文生视频、图生视频等功能。

6月13日，美图推出基于美图奇想大模型、聚焦短片创作的平台MOKI。创作者在平台上仅需经过前期设定、内容生成和后期制作，即可打造动画短片、网文短剧、故事绘本和MV，南都记者测试后发现制作出来的视频时长能到2分钟。

6月21日，快手旗下的可灵推出了图生视频功能。7月24日，可灵宣布基础模型再次升级，在画面质量、运动表现方面均有所提升。

9月19日，阿里云通义万相发布全新视频生成模型，上线文生视频和图生视频功能。在文生视频功能中，用户输入任意文字提示词，即可免费生成一段高清视频。

大模型初创企业方面，Minimax、智谱、爱诗科技与生数科技均在视频大模型方面有所布局。

早在今年1月，爱诗科技就正式发布AI视频生成产品PixVerse，能够免费生成4K高清视频。到7月24日，爱诗科技正式发布视频生成产品PixVerse V2，一次生成多个视频片段，可实现单片段8秒和多片段40秒的视频生成。

值得一提的是，爱诗科技创始人王长虎曾在2017年加入字节跳动担任 AI Lab 总监，从0到1支撑了抖音与 TikTok 等国民级视频产品的建设和发展。他曾公开表示，中国公司在短视频赛道做出了10亿级别的国民级产品抖音、TikTok，视频应用在中国有用户基础和生长土壤，且在AI生成视频这条赛道上有机会诞生大的巨头公司。

今年4月，同为大模型初创企业的生数科技发布了视频生成模型Vidu，支持最长16秒、最高1080P分辨率视频的生成。两个月后，视频时长升级为最长32秒。不过，生数科技7月底上线的Vidu官网仅提供4秒和8秒两种时长选择。

7月26日，大模型初创企业智谱AI宣布AI生成视频模型清影（Ying）正式上线智谱清言。南都记者关注到，应用清影生成6秒视频只需要30秒的时间，该功能不仅支持文生视频、图生视频，也支持视频生成视频。

9月2日，MiniMax发布了视频模型abab-video-1，并透露该模型压缩率高、文本响应好、风格多样，支持原生高分辨率、高帧率视频等特点，能媲美电影质感。

实测一

通义猫咪只看不做菜，生数科技猫爪变人手

对于视频生成的时长，生数科技CEO唐家渝曾对外介绍，生成时长的能力，本质上与模型对物理世界和对语义输入的理解相关。南都记者对上述8家企业进行测评后发现，目前各家厂商推出的视频大模型中，能生成的时长最长可到2分钟，最短的3秒钟。

八款视频生成大模型产品对比测评

制表：南都记者林文琪。（注：根据实测情况统计）

南都记者在测评中从第一性原理出发，C端用户用AI大模型做视频，追求的是效率的提升，或许还夹杂着对新科技的未知期待。从这一点看，本次测评要考量的首先是AI大模型能否达到用户的基本要求，这一点可以从输入指令后得出的视频来逐一测评是否达到基本效果，同时也对比输出视频的时长。其次，从用户对新科技的未知期待上，南都记者在测评时也将观察，某些视频大模型能否做出让人意向不到的附加效果，比如运镜、视频风格上能否在完成基本需求的情况下有所突破。

近期，大批用AI制作的宠物视频在社交媒体上传播，以此为例，南都记者以“一只白猫和一只黑猫在厨房，左边的白猫在包饺子，右边的黑猫在切韭菜”为提示词对上述8款产品进行测试，结果发现效果参差不齐。

其中，阿里通义和抖音即梦推出的视频生成功能中，通义生成后两只猫并没有实现包饺子、切韭菜，而是看着一把刀对韭菜和饺子随意切了起来；而抖音即梦生成的视频中，两只猫试图伸爪子“参与”到包饺子和切韭菜活动中，但呈现出来的效果倒像是在蹑手蹑脚地嗅闻，“偷感”十足。