在今日举办的中关村落论坛未来人工智能先锋论坛上,生数科技携手清华大学,向环球展示了中国在人工智能领域的最新打破——首个永劫长、高同等性、高动态性的视比年夜模型“Vidu”。
这一重大发布标志着中国在环球AI视频天生技能领域的领先地位,为AI技能的发展树立了新的标杆。
视频加载中...
Vidu模型采取生数科技团队原创的Diffusion与Transformer领悟架构U-ViT,能够一键天生长达16秒、分辨率高达1080P的高清视频内容。
该模型仿照了真实物理天下,灰尘、光影等细节的呈现极为逼真,与人类在现实物理天下中的感知体验高度相似。
还融入了丰富的想象力,例如天生“女孩在鱼缸看鱼的场景”,富有深度和梦幻色彩;
以及天生“一只正在娴熟演奏吉他的熊猫”,它融意见意义性与艺术性于一体,将平日憨态可掬的熊猫与音乐天下的灵动节奏完美结合。
并能够天生堪比影院级别的视觉体验,无论是在色彩的饱和度还是画面的清晰度上。
只管展现的是动态场景,但该模型确保了画面中的运动表现高度自然流畅,险些杜绝了常见的穿模征象、运动拖影以及违背物理规律的不真实动作等问题。
Vidu的问世,是继Sora之后,环球视比年夜模型领域的又一重大打破,其性能全面对标国际顶尖水平,并在持续加速迭代提升中。Vidu的快速打破得益于团队在贝叶斯机器学习和多模态大模型的长期积累,以及多项原创性成果。
核心技能U-ViT架构由团队于2022年9月提出,是环球首个将Diffusion与Transformer领悟的架构。
2023年3月,团队开源了环球首个基于U-ViT领悟架构的多模态扩散模型UniDiffuser,完成了U-ViT架构的大规模可扩展性验证。
在短短两个月内,团队进一步打破了长视频表示与处理的多项关键技能,研发了Vidu视比年夜模型,显著提升了视频的连贯性和动态性。
Vidu的问世不仅是U-ViT领悟架构在大规模视觉任务中的又一次成功验证,也代表了生数科技在多模态原生大模型领域的持续创新能力和领先性。
作为通用视觉模型,Vidu能够支持天生更加多样化、更永劫长的视频内容。面向未来,Vidu的灵巧架构将能够兼容更广泛的模态,进一步拓展多模态通用能力的边界。
随着大模型AI技能的飞速发展,生数科技深刻认识到这一领域的打破是一个多维度、跨领域的综合性过程。
转载请注明:片头模版 » Sora级国产视频模型可生成16秒高清视频