海外炸场,国产“ Sora ”们这一波反馈如何

时间:2024-08-14 14:14:00编辑:奇闻君

不仅如此,这批视频模型都自信了起来,全球上线成了基本操作,敢于接受海内外用户的检视。关于几个模型的测评已经铺天盖地,但我们更好奇的是国内与海外的用户们到底给予了怎样的评价?

注:Pixverse V1 在今年 1 月上线,有一定的流量基础,M 为百万

在了解用户反馈之前,我们先介绍一下最近杀出来的几个模型,包括快手的可灵、爱诗科技的 Pixverse V2 和生数科技 Vidu,基本的参数与功能如上所示。

除了基础功能外,我们也根据收集到的海外用户热评总结出了几个测试维度,包括主体一致性、空间关系理解、运镜理解、以及场景还原度,用一个包含上述维度的 prompt 对 3 款模型进行测试,方便大家对各个模型生成视频质量有一个直观感受后,再去感受用户评价。

Prompt

侧面拍摄,镜头跟随狸花猫,一只狸花猫从广场的左边跑向广场的右边,遇到一只哈士奇并跳起来跨越了哈士奇。

可灵

场景还原度较高,但在空间理解上差点意思。生成的狸花猫是从右往左过去的,跨越哈士奇的动作比较还原,但狸花猫还是出现了一定程度的变形,主体一致性一般,运镜上不符合要求,是从侧面拍摄、但镜头没有跟随。

Pixverse V2

空间关系理解差,并没有体现狸花猫从广场的左边跑向右边,跨越的动作也没有出现,此外在运动过程中猫和哈士奇都出现了比较大的变形,主体一致性差,除此之外,运镜同样不符合要求,视频清晰度也不够,甚至可以说质量较差。为防止是运气问题,我们又抽了一次卡,但仍然出现了处理提示词理解不到位以及主体变形的问题。

Vidu

场景基本还原,空间理解上和可灵不相上下,猫的运动方向正确、但没呈现跨越的动作。猫和狗的形态都比较自然,主体一致性不错,运镜也符合要求的,侧面拍摄且镜头跟随猫推进。

至此,我们根据测评结果对这几个模型的表现进行一个小结:

我们测试后对 3 个视频生成模型的评价(上),用户对 3 个模型生成视频的反馈总结(下),注:我们将用户评价和测评结果不一致的地方标黄了 | 白鲸出海根据网络评论整理

将我们自己的测试结果,与我们搜集到的网友评论进行对比后发现,可灵在用户中的口碑更好一些,普遍认为它的效果独一档,不知道是否是 prompt 的问题,与我们的测试有一些出入。PixVerse V2 是一款老产品推出了新模型,但网友认为它的效果不太理想,算是落后了,这与我们的观察一致。而 Vidu 则靠着在动画风视频中的出色发挥获得了用户的好评,且在一致性和运镜理解上都有不错的表现,总体评价中等。

感兴趣的用户,也可以详细看下海外用户都说了什么?(用户评论收集方法:为了了解海内外用户对这一波密集的大模型上线的反馈,通过关键词搜索,我们在几个主流的科技爱好者社区 X、Reddit、油管评论区集中浏览了平台上对近期推出的国产视频模型的评论,选取了一些高转赞、高频次的评价作为用户反馈的代表。)

背靠快手的可灵,“真香”了

X 的网友在“求号”

可灵于 7 月 6 日网页端上线,在海外收获了不少好评,甚至出现了一号难求的局面,可灵 7 月在海外的访问量也达到 228 万,国内访问量 140 万,从数据上看,海外的声量还更大点。

可灵基本参数

在性能上,广大海外网友的反馈为“超预期”,提示词理解、主体一致性和连贯性几个点都获得了高度赞扬,明显优于其他模型。此外,还原吃喝动作,可灵“无敌”,读者可以感受一下。

可灵与 Sora 在生成吃东西这个动作时的对比|图片来源:X

海外网友对可灵的好评(上),对支付和去水印功能的吐槽(下)|图片来源:X

除了质量好之外,UI 友好,工具齐全,性价比高也让可灵收获了很多好评。而海外网友的差评普遍在去水印和支付这两个点上,有用户反馈,虽然会员权益里有去水印,但实际用的时候却找不到,而且支付方式的接入也不齐全,产品细节和本地化上可灵还有可优化的地方。

国内用户对可灵的评论

而相比海外网友一片夸夸,国内网友就严格得多了。他们表示,付费后可灵的视频生成质量还是无法达到预期,生成时间也长。

“老牌”产品Pixverse推出的 V2,可能有点落后了

PixVerse的基本参数

Pixverse 的母公司是爱诗科技,由前字节 AI 技术总监王长虎创立,于今年 1 月上线,而 7 月 24 日 PixVerse 推出的是新款模型 PixVerse V2。

7月 PixVerse 流量情况,红色箭头所示就是推出V2的时间点|图片来源:similarweb

除了视频质量和模型性能提升,PixVerseV2 推出了一项新功能,能一次性生成 1-5 段连续的视频内容,且片段之间会自动保持主体形象、画面风格和场景元素的一致,强化了可用性,而对应地,PixverseV2 也有其他 2 款视频模型不具备的角色生成视频功能,一致性,感觉是 PixVerseV2 在攻克的重点,但是不论是我们测评的结果、还是用户的反馈,PixVerseV2 的一致性的表现都是最差的。不论怎么样,根据 Similarweb 的数据,V2 发布当天 PixVerse 网站的流量还是迎来一个小高峰。

根据国外网友对 Luma、可灵、runway Gen3、Haiper、Pixverse V2 的评测来看,PixverseV2 在主体一致性、场景还原度等方面差点意思,弱于可灵、runway Gen3 和 Luma 等产品,读者可以自行体会一下 Pixverse V2 的生视频质量。

Prompt :吃意大利面的男人|图片来源:X 上网友的测试

Prompt :张开的手,握紧拳头|图片来源:X 上网友的测试

虽然写实场景表现一般,但 PixverseV2 在奇幻风格上表现还不错,不仅画面比较丰富,视频崩掉的情况也少了。在 PixverseV2 的高浏览量油管测评视频的评论区,也有用户反馈这一点。

在图生视频层面,Pixverse 之前广受好评的 Magic brush 功能暂时不支持新模型,用户如果想使用 Magic brush 的话还得切换回 PixverseV1。

从清华走出的Vidu,是动画特长生

Vidu 基本参数

Vidu 是生数科技和清华大学合作开发的,在 7 月 30 日正式上线。

Prompt :一个穿水手服的少女眼神哀愁地站在樱花树下遥望远方,颜色清新淡雅

Vidu 虽然动画风与写实风都可以生成,但网友们都表示,相比写实风,动画风是 Vidu 的强项。笔者自己也试了一下,Vidu 做得相当好,氛围感一整个拿捏。

Prompt :一个穿水手服的少女眼神哀愁地站在樱花树下遥望远方,颜色清新淡雅

而同样的提示词在写实风格中生成就稍微有点奇怪,而且氛围感要弱一点。此外,大家普遍反映,因为 Vidu 生视频的动作幅度会比较大,可能会导致视频整个崩掉,抽卡成功率大大降低,这么一看,笔者的手气还可以。

图片来源:APPSO 公众号

国内有媒体又用 Sora 的经典场景测试了 Vidu,但生成的视频中就出现了人物走动过快而导致整个画面模糊,女人和路人都变成鬼影的情况。总体来看,Vidu 在写实风的表现一般。

Vidu 的网友评论|图片来源:X

此外,对比其他 2 个模型,Vidu 的生成速度是最快的,能控制在在 1min 之内(可灵是 2-5min,Pixverse 是 3-7min),可能是由于动作幅度大,生成质量不稳定,要频繁抽卡,Vidu 着重优化了这一点。但显然,相比生成效果,用户并不太在意生成速度。

经过我们的对用户反馈的观察和自己的测试,可以得出大致结论:虽然在我们自己测评时,可灵表现的没网友口中那么好,但综合实力确实还是第一的,但如果按“能用”为标准可能细节上还差不少。Vidu 处于中间位置,但由于偏重动画风,算是一个特长生,能满足一部分用户的需求。PixverseV2 生成质量上确实有点落后了。

而相对 Luma、Pika 这些海外视频模型,国产模型做出来的视频虽然也不能直接用,但对比起来好像还不错,而本周,阿里又推出视频轨迹可控的 Tora、智谱连夜开源了 CogVideoX,面壁也推出了小钢炮 2.6,大家一起卷,这种“繁华”背后是什么原因,从这次表现有点优异的快手身上,好像能找到点痕迹。

这一次国产大模型“集体自信”,其实也并非无迹可寻。视频生成工具集中爆发的原因,其实我们在《这个AI赛道,一个月内融资4笔,一大半的创始人是华人》选题中曾经有过一次观察。

从主观意愿上来说,在当下的互联网格局中,视频模态是最贴近用户,商业化天花板最高的模态,而且国内又是短视频时代的先行者。有了这两个前提,就有了如今“百模大战”热度减退,我们距离海外的 LLM 依然有不小距离的情况下,国内厂商在视频大模型上依然在卷。

Sora 使用的是 DiT 架构,全名 Diffusion- Transformer,其中 Diffusion 的作用是细化和完善视频画面,而 Transformer 则用来处理和解析复杂的文本输入,并控制视频的逻辑连贯性,这个技术路径结合了之前两种主流技术路径的优点。

而从客观可行性上,Sora 虽然一直在跳票,但让 AI 视频生成的技术路径清晰了起来。我们上文观察到的可灵、Vidu、Pixverse V2,加上智谱 AI 推出的清影等,无一例外都走了与 Sora 类似的技术路径,Pixverse 的王长虎就表示:“在 Sora 出来之前,业内其实并不相信视频生成能在短时间内做出来,Sora 的出现让我们坚定了前进的方向。”

意愿+可行性同时具备,各个国内厂商就开始了“拼速度“。而可灵这次算是令人比较惊艳的,这与快手短视频大厂的身份不无相关。快手具备大视频模型和视频平台的双重身份,也更可能打通从生产到应用的链条,所以我们也重点回顾了下快手这次的突袭。

3 个月上线产品,快手已经为可灵准备很久了

可灵的前身是快手内部的一个图片转 GIF 的项目“噗叽”,但这个项目在去年 10 月上马后不久就搁浅了。而 2 月 Sora 的爆火让快手视觉生成与互动中心负责人万鹏飞看到了视频生成的机会,所以 3 月就基于“噗叽”的技术储备立项了可灵。

但在立项的同时,市场上已经有 Haiper、Pixverse 等华人视频创企推出了产品或完成了融资,“老对头”字节,也推出了一款 AI 视频模型,彼时的快手真的落后了不少。但仅用了 3 个月,可灵就开始了测试,而且赶在其他玩家之前在 7 月初上线。能够如此快速上线,数据集和硬件储备是两大重点。

早在 2023 年,快手音视频团队就发布过关于自动视频质量评估算法的论文,注:此论文主要针对个性化推荐领域,但确实可以用来进行数据集的处理|图片来源:实时互动网

如上所述,其实在技术路径相对明确之后,厂商更多的其实在拼训练数据、对业务的理解、甚至算力储备。

先说数据集,根据量子位的报道,作为短视频平台,个性化推荐是拉长用户时长的重要手段,快手的 AI 团队也在很早以前就建立了一套完备的标注体系,也包括自动视频质量评估算法这类技术。基于这套体系,团队会对快手平台上的视频,从基础质量、美学、自然度等多个方面进行标注,而且还扩展出了大量的细化维度,形成立即可用的高质量训练数据集。

这一点真是属于先天优势,在其他大模型还面临扒 YouTube 视频来训练、版权争议的时候,快手已经有清洗好的数据了。

英伟达与快手 2019 年合作的新闻(上),快手与英伟达今年的合作(下)

快手除了年初在囤卡之外,早在 2019 年,快手就与英伟达展开了合作,部署并优化过算力平台。而在今年英伟达的 GTC 大会上,快手与英伟达还宣布合作突破了推荐系统的算力优化技术。在算力的调配与优化上,快手凭借着经验和与英伟达的长期合作,也有可能是有过人之处的。硬件储备和算力优化技术在算力密集型的视频生成赛道,同等重要。

而这背后都是可灵获得了全力支持,这与快手本身的商业化路径密不可分。

3 个模型背后是完全不同的思路,快手真的可能会更快些

而实际上,除了可灵,这次视频大模型这次集体“出海”,AI 视频确实开始了比较有针对性的落地测试,如助力创作者、赋能电商、短剧制作、甚至一些自媒体 AIGC 视频的生成。

自有生态的快手,是定位和路径最清晰的那个。快手的收入主要来自 3 块,营销、直播、电商,而这三块收入又都建立在用户使用时长的基础上,时长又和平台上的可消费内容的量强相关。

从可灵初期的推广动作来看,快手的视频大模型,直指收入和可消费内容两大核心问题。

根据媒体报道,第一批受邀去测试可灵的是各平台的 AI 博主们,这些博主测评后发布的内容,在快手上的,就会获得流量支持,在其他平台发布的,快手也会选择优秀者帮忙买量。

快手在 2024 全球人工智能大会上宣布举办视频创作者大赛

除此之外,快手也举办了各种活动,激励创作者把可灵用起来,比如基于可灵图生视频功能推出的“复活古画”和“让老照片动起来”的挑战活动,再比如举办创作者大赛。

2024 年 3 月,某公司与快手合作在海外推出换脸短剧|图片来源:雪球

根据计算,2023 年快手创作者占总用户的比例可能只有 19%,相比 2021 年财报披露的 25% 下降了不少,绝对数量上,这几年也稳定在 1.4 亿这个数量级上。快手希望通过 AIGC,降低创作者的门槛,让更多用户加入创作者行列,增加平台上的可消费内容。此外,在短剧等快速增长的内容版块中,快手也在积极地探索 AI 的使用,来高效生产内容。

电商是另一个重要应用场景,在邀请创作者测试的同时,快手也将部分测试资格交给了电商合作伙伴。有快手内部技术人员告诉媒体:“让 AI 生成一个跳舞的人很难,但基于一张图生成杯子的视频却不难,AI 生视频更可能被用在解决电商卖家缺素材的痛点上。”

基于商品图让 AI 生成视频的难度肯定会比生成“跳跃的猫”要简单些,但因为涉及到实体产品的销售,对主体一致性和视频细节的要求极高,否则退货率肯定飙升。现在看来,可灵的质量可能还不能满足电商场景的要求。但是让用户用起来,收集反馈,再优化质量,可能是快手在电商领域进行尝试必须走的一步。

由于有助力本身业务的目的,据知情人士透露,可灵没有商业化目标,投入也无明确上限,推出会员模式也是为了覆盖掉一部分推理成本。而从几款产品的定价来看,可灵虽然不是单条视频价格最便宜的,但却是免费额度最高的。

反观 Vidu 和 PixVerse ,走得更像是服务艺术创作者,靠自身订阅变现的逻辑。除了短视频创作者和电商/企业用户以外,视频生成工具还有一类目标人群是电影、纪录片等从业者,这类人群更注重运动控制、场景还原和运镜等维度,对视频的细节要求也更高。

而 Pixverse 和 Vidu 显然还是面向这类用户。Pixverse V2 的测试效果较差,但从功能来看,Magic Brush、以及连续生成多段主体一致性视频的攻克方向,明显面向这类人群。Vidu 的动漫强于写实,而且着重优化了生成速度,猜测是服务于需要频繁“抽卡”,追求最佳效果的创作者,而动漫的创作可能也是 AI 生成视频更务实的落地场景。

广电传媒参股 Pixverse 的新闻(上),Pixverse 与电影创作者协会合作的新闻(下)

就 Pixverse 和 Vidu 面向专业创作者的思路来看,其生成效果距离实现目标,可能还很远。而可灵,借助于快手的平台,以及营销、短剧、电商等几条自有业务线,真的有可能在目前已经取得一些成绩的基础上,越走越快。

字节,其实早在今年 5 月上线了 AI 生成视频网站即梦,但从声量上是弱于可灵,不论 AI 生成视频是否能发展成为一个独立的营收业务线,但快手从自有业务和商业化出发,在时间点相对落的情况下迅速跟进,总算是“早了一回”。

参考文献:

1、文生视频大模型,短视频的过弯点?

2、可灵让快手支棱起来了?

3、快手版 Sora「可灵」开放测试:生成超 120s 视频,更懂物理,复杂运动也能精准建模

4、快手可灵,能成为中国 Sora 吗?

5、合作快手,丝滑换脸。短剧出海的铲子股——超讯通信今天又有什么新技术?

6、揭秘快手可灵背后的「关键 7 人」

7、揭秘“中国版 Sora ”可灵:程一笑督战,20人团队三个月完成的快手版“大力出奇迹”

8、在海外,Sora 正在被可灵替代

9、「国产版 Sora」Vidu 全面开放,对比 Runway、可灵后我发现它是动画特长生

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

上一篇:理想汽车郎咸朋:未来没有10亿美元利润,玩不起自动驾驶|36氪专访

下一篇:电动MINI Cooper对比smart 精灵#1:经典小车再战电动时代-测评