Vidu上线“参考生”功能, 可让诸葛亮和拿破仑同屏对话

  • 2025-07-10 05:14:18
  • 828

作者 | 江宇

智东西AI前瞻7月9日报道,昨日,AI视频生成平台Vidu正式上线“参考生”功能,支持用户通过上传人物、场景和道具图像,一键生成造型统一、动作自然的高清视频内容。

系统最多可输入七个主体图像,让人物不“变脸”、场景不混乱,多角色同框和跨场景复用成为可能。

该功能运行于Vidu Q1模型之上,支持1080P输出,无需用户手动控制每一帧画面,也不依赖首尾帧设定,整体生成过程全部基于图像设定自动完成。

目前,参考生已在 Vidu 网页端与移动端同步上线。

体验指路:https://www.vidu.cn/create

一、上传图片,就能拍出连续镜头,还能生成音效

在参考生功能中,用户只需上传一张角色图像,系统便可识别人物外观、服饰、动作特征,并自动生成5至10秒的视频片段。画面中角色不会在镜头间“变脸”或丢失细节,人物造型、动作风格能保持一致。

不仅角色可以设定,用户也可以加入背景图、道具图,用于构建完整的场景设定。这些元素将在视频生成时一起被识别,组成统一画面。例如,输入2个牛仔人物,2个场景,2把手枪的参考图,即可生成“西部大片”。

除了画面内容,Vidu此次也上线了AI音效功能,用户只需输入简单描述,即可生成与画面匹配的音效片段。

目前支持多个音效同时叠加,例如“雨声+脚步声+背景音乐”,并可自动适配画面节奏。这一功能降低了创作者在后期配音、寻找素材库等环节的操作成本,进一步向“全流程自动生成”方向靠近。

二、人物不变,场景可切,多角色互动更自然

参考生也支持将同一个人物放进不同环境中进行生成,这意味着用户可以制作“同角色穿越多个地点”的连续内容。比如在广告场景中,可用一个人物设定,同时生成多场景版本,更换不同的商拍素材,做出整套素材。

这种方式尤其适合需要统一人物形象的内容创作,比如品牌宣传、IP角色运营、电商广告等场景。

在以往,生成这样一组内容通常需要反复“抽卡式”生成并后期筛选,而现在可一键完成。

参考生生成视频还有一个明显的变化:现在可以在一段视频中加入多个角色,并让他们同时出现在画面中。这对于想要创作对话类短剧、剧情剪辑、甚至IP联动内容的用户来说,是此前AI工具较难实现的能力。

系统会自动识别每个角色的空间关系与相对动作,确保多个角色之间的互动看起来自然、稳定。

系统最多支持七个主体图像同时输入,包括主角、配角、场景、道具等多个元素。在生成过程中,系统会自动识别每个角色的空间位置与相对动作,确保互动关系自然、画面结构稳定,且各角色在镜头切换中保持外观、造型和细节的一致性。

这使得AI视频创作从“单人独白”迈向了更具场景表现力的“多人共演”。

比如让来自不同朝代、国家、地域的三个人诸葛亮、丘吉尔和拿破仑出现在同一个会议室交流。用户只需输入三个人物图片素材和相应提示词(“[@诸葛亮]与[@丘吉尔]、[@拿破仑]在会议室面对面坐着讨论”),即可生成一段三人对话的视频。

三、体验:画面稳定、生成提速,图像还原与动作连贯性较好

相比Vidu早期版本,Q1参考生在画质、稳定性和生成效率上均有明显提升,当前版本生成一条5秒的1080P视频,所需时间约为1至2分钟。

在成本方面,该平台当前定价为5秒视频约0.895元,按照基础套餐估算,1000元可生成约48分钟的视频内容。

智东西第一时间对该功能进行了体验。用户登录Vidu平台后,可通过上传图片创建“主体角色”,系统将自动生成风格与描述文本,用户可根据需要进行修改或自定义设定。

此外,还支持上传背景图片构建自定义场景,平台提供基础裁剪功能辅助画面适配。

在本次体验中,智东西选择了两张图像作为输入,并设定生成指令为“@安陵容在@图2奔跑”。上传完成后,系统自动识别人物姿态与背景结构,几分钟内即生成视频成片。

输出画面中,人物造型、服饰细节、动作流畅度均较为稳定,背景融合自然,整体视觉效果贴近设定图像所构建的情境。

结语:结构可控、一致性可复用,AI视频更实用

相比以往的图生视频、文生视频产品,Vidu Q1参考生的更新让AI视频第一次变得“可以反复使用”。用户不再依赖生成运气或剪辑技巧,只需准备好图像,就可以批量输出结构稳定的视频内容。

这对很多中小型创作者、电商商家、内容团队来说,是一次流程的简化:不用租摄影棚,不用协调演员,也不需要复杂分镜,只靠设定图就能完成一整套内容制作。

接下来,如何生成更长、更复杂、更可控的视频结构,会成为这一类产品进一步演进的方向。但对当前阶段的用户来说,参考生已经解决了“生成像不像”和“能不能用”的基本问题,这也是一次实用意义上的进化。