Waypoint-1: 实时交互式视频扩散从Overworld

Jan 23, 2026     Author:avaer     HN Points:82     HN Comments:9
Share this

摘要: Waypoint-1 是 Overworld 开发的实时交互式视频扩散模型,可以通过文本、鼠标和键盘进行控制。用户可以提供一些帧,运行模型后,创建一个可以进入并与之交互的世界。该模型基于 10,000 小时多样化的视频游戏内容训练,并支持交互式体验。与现有模型不同,Waypoint-1 从一开始就专注于交互性,支持更灵活的操控方式,并具有零延迟。该模型通过扩散强迫和自强迫技术进行训练,并通过 WorldEngine 高性能推理库进行实时渲染。Overworld 还将举办 World Engine黑客马拉松活动,鼓励开发者使用 WorldEngine 构建交互式世界模型。

讨论: 用户ecmulli分享了使用插件在Runpod上尝试Overworld模型的经验,表示虽然GPU性能不足,但体验仍然很酷。roskelld描述了使用该模型生成的场景变化,从幻想游戏到科幻抽象空间,并提到模型似乎没有概念限制、空间记忆或地形理解。lcastricato提供了Gradio空间和Overworld的流媒体链接。avaer推荐了另一个项目NitroGen。Plankaluel询问了RTX 5090在运行小模型时的帧率表现。dsrtslnd23对训练数据量表示怀疑。khimaros将Overworld与DeepMind的Genie进行了比较。lcastricato作为Overworld的CEO,欢迎提问。

原文标题:Waypoint-1: Real-Time Interactive Video Diffusion from Overworld
原文链接:https://huggingface.co/blog/waypoint-1
讨论链接:https://news.ycombinator.com/item?id=46733301