不要麻烦解析：直接使用图像进行RAG

摘要： Morphik 通过使用视觉语言模型（如 ColPali）直接处理文档图像，避免了传统 OCR、解析和重建流程中的信息丢失问题。这种方法可以更准确地检索和理解复杂文档中的信息，包括图表、表格和文本。Morphik 的系统在处理财务报告、技术手册、发票等文档时表现出色，并且能够通过自然语言查询检索相关信息。此外，Morphik 正在开发多文档智能、具有推理能力的文档系统和集成工作流程的工具，以进一步扩展其文档理解能力。

讨论： 该讨论主要围绕使用图像和文本处理技术进行文档解析和检索的优缺点展开。讨论者指出，直接使用图像提取信息存在一些问题，如多页文档处理困难、图像提取准确性下降、以及OCR识别的局限性。同时，也有观点认为结合图像和文本处理可以提升解析效果。一些参与者分享了他们的解决方案和实践经验，包括开源项目、自定义模型训练以及结合多种技术的混合方法。讨论还涉及了多模态RAG的应用、视觉检索的基准测试以及与传统文本处理方法的比较。

原文标题：Don’t bother parsing: Just use images for RAG
原文链接：https://www.morphik.ai/blog/stop-parsing-docs
讨论链接：https://news.ycombinator.com/item?id=44637715