斯坦福大学研究显示，AI视觉模型会生成它们从未看到过的图像。

摘要： 多模态AI系统在视觉语言推理机制方面存在根本性脆弱性。研究发现：1. 前沿模型能生成从未接触过的图像详细描述及推理痕迹（如病理偏见临床发现），称为‘幻象推理’；2. 无图像输入时，模型在通用和医学多模态基准测试中表现优异，甚至胸片问答基准中排名第一，质疑其设计合理性；3. 明确要求无图猜答时性能显著下降，与隐含假设有图的模式形成对比。为此提出B-Clean方案，旨在通过消除文本提示实现公平的视觉锚定评估，尤其在医学领域至关重要。

讨论： 内容为空

原文标题：Stanford study reveals AI vision models invent images they never see
原文链接：https://arxiv.org/abs/2603.21687
讨论链接：https://news.ycombinator.com/item?id=47570650