4月27日,“2024中关村论坛-未来人工智能先锋论坛”举行,国内首个纯自研Sora级视频大模型Vidu发布。主办方供图

中国青年报客户端北京4月27日电(中青报·中青网见习记者 贾骥业 记者 尹希宁)对标Sora,我国进入视频大模型自研时代。在今天上午举行的“2024中关村论坛-未来人工智能先锋论坛”上,北京生数科技有限公司(以下简称“生数科技”)联合清华大学正式发布了我国首个长时长、高一致性、高动态性视频大模型——Vidu。

据介绍,Vidu采用研发团队原创的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。与Sora一致,Vidu能根据文本描述直接生成长达16秒的高质量视频。

清华大学教授、生数科技首席科学家朱军在论坛现场展示了Vidu生成的视频,包括“在画室里驶向镜头的船”“戴珍珠耳环的猫”等。朱军介绍,Vidu还可以生成特有的中国元素,例如熊猫、龙等。

Vidu视频大模型生成视频截图。主办方供图

同时,Vidu生成的动态镜头视频,已经不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。

值得一提的是,Vidu生成的视频短片中的片段均为从头到尾连续生成,没有明显的插帧现象,这采用了“一步到位”的生成方式,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。

Vidu视频大模型生成视频截图。主办方供图

大模型的突破是一个多维度、跨领域的综合性过程,需要技术与产业应用的深度融合。发布Vidu的同时,生数科技还正式推出了“Vidu大模型合作伙伴计划”,邀请产业链上下游企业、研究机构加入,共同构建合作生态。据了解,生数科技公司的创始团队来自清华大学人工智能研究院,是全球范围内最早从事扩散概率模型研究的团队之一。

来源:中国青年报客户端

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com