LONGLIVE – 英伟达等推出的交互式长视频生成框架

业界 来源:AI工具集 2025-10-05 09:46:44

LONGLIVE是什么

LONGLIVE 是英伟达等顶尖机构联合推出的实时交互式长视频生成框架。框架通过帧级自回归(AR)模型,结合 KV-recache 机制、流式长视频微调和短窗口注意力 + 帧汇入技术,解决长视频生成中效率和质量的双重瓶颈。LONGLIVE 能在单个 H100 GPU 上以 20.7 FPS 的速度生成长达 240 秒的高质量视频,支持实时提示词切换和动态调整,为创意、教育和影视等领域开辟了新的创作可能性,是推动 AI 视频生成从“玩具”走向“生产力工具”的关键一步。

LONGLIVE的主要功能

  • 实时交互:支持用户在视频生成过程中实时输入流式提示词(prompt),动态调整视频内容,引导叙事或改变风格。
  • 长视频生成:模型能生成长达数分钟的高质量视频,支持复杂的叙事和场景发展。
  • 高效推理:在单个 NVIDIA H100 GPU 上达到 20.7 FPS 的实时速度,支持长达 240 秒的视频生成,同时保持高保真度和时间连续性。
  • 高质量生成:通过创新技术确保生成视频的视觉连贯性和语义一致性,在频繁切换提示词时能保持平滑过渡。
  • 低部署成本:支持 INT8 量化推理,进一步降低模型大小和部署成本,几乎不损失性能。

LONGLIVE的技术原理

  • KV-recache 机制:在切换提示词时,通过重新计算键值(KV)缓存“刷新”状态,清除旧提示词的残留信息,同时保留视觉和运动线索,确保画面平滑过渡并精准执行新指令。将 recache 操作整合到训练中,使模型在训练时就学会如何在提示词切换后平滑过渡。

  • 流式长视频微调(Streaming Long Tuning):解决自回归(AR)模型在长视频生成中的质量衰减问题,通过“滚动扩展”的方式模拟推理过程,减少训练与推理的不一致性。用局部监督和梯度分离,避免长序列反向传播导致的内存溢出(OOM)问题,确保教师模型的可靠监督。

  • 短窗口注意力 + 帧汇入(Frame Sink):基于短窗口注意力,将注意力范围限制在局部窗口内,显著降低计算复杂度和内存需求。引入帧汇入机制,通过保留全局锚点(如视频的第一帧块),恢复长程一致性,同时保持短窗口的高效性。

LONGLIVE的项目地址

  • GitHub仓库:https://github.com/NVlabs/LongLive

  • HuggingFace模型库:https://huggingface.co/Efficient-Large-Model/LongLive-1.3B

  • arXiv技术论文:https://arxiv.org/pdf/2509.22622

LONGLIVE的应用场景

  • 创意视频制作:创作者能实时调整视频内容和风格,快速生成符合创意需求的长视频,提升创作效率和灵活性。
  • 教育内容生成:教师根据教学进度实时生成教学视频,动态插入知识点或案例,增强教学互动性和趣味性。
  • 影视制作:导演和编剧能在拍摄前实时预览不同场景和叙事路径,快速调整剧本和拍摄计划,降低制作成本。
  • 广告创作:广告团队能根据客户需求实时生成广告视频,快速调整创意方向,提高广告的针对性和吸引力。
  • 游戏开发:开发者能实时生成游戏过场动画或动态背景,根据游戏剧情实时调整内容,提升玩家沉浸感。
延伸阅读

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接