摘要: 多模态AI系统在视觉语言推理机制方面存在根本性脆弱性。研究发现:1. 前沿模型能生成从未接触过的图像详细描述及推理痕迹(如病理偏见临床发现),称为‘幻象推理’;2. 无图像输入时,模型在通用和医学多模态基准测试中表现优异,甚至胸片问答基准中排名第一,质疑其设计合理性;3. 明确要求无图猜答时性能显著下降,与隐含假设有图的模式形成对比。为此提出B-Clean方案,旨在通过消除文本提示实现公平的视觉锚定评估,尤其在医学领域至关重要。
讨论: 内容为空
原文标题:Stanford study reveals AI vision models invent images they never see
原文链接:https://arxiv.org/abs/2603.21687
讨论链接:https://news.ycombinator.com/item?id=47570650