Lumina-DiMOO：一个开源的离散多模态扩散模型

摘要： Lumina-DiMOO 是一种开源的基础模型，旨在实现无缝的多模态生成和理解。它通过使用全离散扩散模型来处理各种模态的输入和输出，与之前的统一模型不同。这种创新的方法使得 Lumina-DiMOO 相比于之前的自回归（AR）或混合 AR-扩散范式具有更高的采样效率，并能支持包括文本到图像生成、图像到图像生成（如图像编辑、主题驱动生成和图像修复等）以及图像理解在内的广泛多模态任务。在多个基准测试中，Lumina-DiMOO 实现了最先进的性能，超越了现有的开源统一多模态模型。为了促进多模态和离散扩散模型研究的进一步发展，作者发布了他们的代码和检查点。

讨论： 用户randomNumber7询问关于完全离散扩散模型（fully discrete diffusion modeling）的定义，而turnsout表示对某项技术表示赞赏，并提出了创业想法。

原文标题：Lumina-DiMOO: An open-source discrete multimodal diffusion model
原文链接：https://synbol.github.io/Lumina-DiMOO/
讨论链接：https://news.ycombinator.com/item?id=45221103