摘要: Lumina-DiMOO 是一种开源的基础模型,旨在实现无缝的多模态生成和理解。它通过使用全离散扩散模型来处理各种模态的输入和输出,与之前的统一模型不同。这种创新的方法使得 Lumina-DiMOO 相比于之前的自回归(AR)或混合 AR-扩散范式具有更高的采样效率,并能支持包括文本到图像生成、图像到图像生成(如图像编辑、主题驱动生成和图像修复等)以及图像理解在内的广泛多模态任务。在多个基准测试中,Lumina-DiMOO 实现了最先进的性能,超越了现有的开源统一多模态模型。为了促进多模态和离散扩散模型研究的进一步发展,作者发布了他们的代码和检查点。
讨论: 用户randomNumber7询问关于完全离散扩散模型(fully discrete diffusion modeling)的定义,而turnsout表示对某项技术表示赞赏,并提出了创业想法。
原文标题:Lumina-DiMOO: An open-source discrete multimodal diffusion model
原文链接:https://synbol.github.io/Lumina-DiMOO/
讨论链接:https://news.ycombinator.com/item?id=45221103