热门资讯

SkyReels-V3 – 昆仑万维开源的多模态视频生成模型

业界来源：AI工具集 2026-02-03 11:23:21

SkyReels-V3是什么

SkyReels-V3是昆仑万维开源的多模态视频生成模型，用单一架构实现专业级视频创作。模型能将静态图像转化为动态影像，支持智能延长视频时长和电影级转场，让数字人音视频精准同步。模型在人物一致性、画面质量等关键指标上超越主流商用产品，标志着AI视频生成进入高保真、全模态的新阶段，为创作者提供从短片段到长叙事的一站式解决方案。

SkyReels-V3的主要功能

参考图像转视频：根据1-4张参考图生成时序连贯、特征保留完整的高质量动态视频。
视频延长：支持单镜头延续和五种专业电影转场，实现从时间扩展到叙事扩展的升级。
音频驱动虚拟形象：基于单张肖像和音频生成音视频同步的数字人视频，支持分钟级长视频和多角色对话。

SkyReels-V3的技术原理

图像转视频：通过跨帧配对策略筛选动态素材，用图像编辑模型提取主体、补全背景并语义重写，避免”复制粘贴”伪影，模型采用统一编码融合最多4张参考图像的文本与视觉信息。通过图像-视频混合训练及多分辨率联合优化，提升对不同尺寸和宽高比的鲁棒性。
视频延长：创新统一多分段位置编码技术，精准建模复杂序列中的运动轨迹，模型通过分层混合训练策略实现镜头平滑切换，解决传统延长的”跳跃”问题，同时内置智能镜头切换检测器自动识别转场点，支持五种专业电影转场手法。
虚拟形象：基于区域路由机制实现精准音视频对齐，可指定特定角色说话，采用关键帧约束生成策略先构建等间隔关键帧确定动作框架，再用关键帧和音频为约束分段填充中间帧，实现分钟级长视频的稳定生成。