摘要: VOID模型用于从视频中删除物体及其引发的交互,采用四值掩码(remove, overlap, affected, background)进行条件生成,基于CogVideoX 3DTransformer架构。训练数据来自HUMOTO(含物理交互)和Kubric(物体交互)。提供两种使用方式:通过notebook快速启动或命令行运行。输入需包含视频、四值掩码和场景描述。预训练模型为void_pass1.safetensors,可选void_pass2增强时间一致性。需40GB+显存(如A100)运行。
讨论: 天哪,又是一个让我无法抽空尝试的极其强大的工具。至少我会关注那些生成更有说服力示例的人。看起来这可能会彻底改变实际应用效果。
原文标题:Netflix just dropped their first public model on Hugging Face: VOID
原文链接:https://huggingface.co/netflix/void-model
讨论链接:https://news.ycombinator.com/item?id=47635558