Vidu上线“参考生”功能, 可让诸葛亮和拿破仑同屏对话

作者 | 江宇

智东西AI前瞻7月9日报道，昨日，AI视频生成平台Vidu正式上线“参考生”功能，支持用户通过上传人物、场景和道具图像，一键生成造型统一、动作自然的高清视频内容。

系统最多可输入七个主体图像，让人物不“变脸”、场景不混乱，多角色同框和跨场景复用成为可能。

该功能运行于Vidu Q1模型之上，支持1080P输出，无需用户手动控制每一帧画面，也不依赖首尾帧设定，整体生成过程全部基于图像设定自动完成。

目前，参考生已在 Vidu 网页端与移动端同步上线。

体验指路：https://www.vidu.cn/create

一、上传图片，就能拍出连续镜头，还能生成音效

在参考生功能中，用户只需上传一张角色图像，系统便可识别人物外观、服饰、动作特征，并自动生成5至10秒的视频片段。画面中角色不会在镜头间“变脸”或丢失细节，人物造型、动作风格能保持一致。

不仅角色可以设定，用户也可以加入背景图、道具图，用于构建完整的场景设定。这些元素将在视频生成时一起被识别，组成统一画面。例如，输入2个牛仔人物，2个场景，2把手枪的参考图，即可生成“西部大片”。

除了画面内容，Vidu此次也上线了AI音效功能，用户只需输入简单描述，即可生成与画面匹配的音效片段。

目前支持多个音效同时叠加，例如“雨声+脚步声+背景音乐”，并可自动适配画面节奏。这一功能降低了创作者在后期配音、寻找素材库等环节的操作成本，进一步向“全流程自动生成”方向靠近。

二、人物不变，场景可切，多角色互动更自然

参考生也支持将同一个人物放进不同环境中进行生成，这意味着用户可以制作“同角色穿越多个地点”的连续内容。比如在广告场景中，可用一个人物设定，同时生成多场景版本，更换不同的商拍素材，做出整套素材。

这种方式尤其适合需要统一人物形象的内容创作，比如品牌宣传、IP角色运营、电商广告等场景。

在以往，生成这样一组内容通常需要反复“抽卡式”生成并后期筛选，而现在可一键完成。

参考生生成视频还有一个明显的变化：现在可以在一段视频中加入多个角色，并让他们同时出现在画面中。这对于想要创作对话类短剧、剧情剪辑、甚至IP联动内容的用户来说，是此前AI工具较难实现的能力。

系统会自动识别每个角色的空间关系与相对动作，确保多个角色之间的互动看起来自然、稳定。

系统最多支持七个主体图像同时输入，包括主角、配角、场景、道具等多个元素。在生成过程中，系统会自动识别每个角色的空间位置与相对动作，确保互动关系自然、画面结构稳定，且各角色在镜头切换中保持外观、造型和细节的一致性。

这使得AI视频创作从“单人独白”迈向了更具场景表现力的“多人共演”。

比如让来自不同朝代、国家、地域的三个人诸葛亮、丘吉尔和拿破仑出现在同一个会议室交流。用户只需输入三个人物图片素材和相应提示词（“[@诸葛亮]与[@丘吉尔]、[@拿破仑]在会议室面对面坐着讨论”），即可生成一段三人对话的视频。

三、体验：画面稳定、生成提速，图像还原与动作连贯性较好

相比Vidu早期版本，Q1参考生在画质、稳定性和生成效率上均有明显提升，当前版本生成一条5秒的1080P视频，所需时间约为1至2分钟。

在成本方面，该平台当前定价为5秒视频约0.895元，按照基础套餐估算，1000元可生成约48分钟的视频内容。

智东西第一时间对该功能进行了体验。用户登录Vidu平台后，可通过上传图片创建“主体角色”，系统将自动生成风格与描述文本，用户可根据需要进行修改或自定义设定。

此外，还支持上传背景图片构建自定义场景，平台提供基础裁剪功能辅助画面适配。

在本次体验中，智东西选择了两张图像作为输入，并设定生成指令为“@安陵容在@图2奔跑”。上传完成后，系统自动识别人物姿态与背景结构，几分钟内即生成视频成片。

输出画面中，人物造型、服饰细节、动作流畅度均较为稳定，背景融合自然，整体视觉效果贴近设定图像所构建的情境。

结语：结构可控、一致性可复用，AI视频更实用

相比以往的图生视频、文生视频产品，Vidu Q1参考生的更新让AI视频第一次变得“可以反复使用”。用户不再依赖生成运气或剪辑技巧，只需准备好图像，就可以批量输出结构稳定的视频内容。

这对很多中小型创作者、电商商家、内容团队来说，是一次流程的简化：不用租摄影棚，不用协调演员，也不需要复杂分镜，只靠设定图就能完成一整套内容制作。

接下来，如何生成更长、更复杂、更可控的视频结构，会成为这一类产品进一步演进的方向。但对当前阶段的用户来说，参考生已经解决了“生成像不像”和“能不能用”的基本问题，这也是一次实用意义上的进化。

相遇时光的唯美句子短句发布网,提供相遇时光的唯美句子短句发布信息,第一时间发布列表及资讯,相遇时光里是相遇时光里首选资讯平台。