Claude 对比 Gemini:在 100 万个上下文标记上的测试

Aug 12, 2025     Author:dshipper     HN Points:142     HN Comments:9
Share this

摘要: Anthropic发布了Claude Sonnet 4的新版本,其上下文窗口扩展到100万个标记,相当于《哈利·波特》全书的文本量。通过三个主要测试,包括长文本分析、长代码分析和AI外交,结果显示Claude Sonnet 4在速度和准确性方面优于Google的Gemini模型,但在细节分析方面稍逊一筹。在代码分析任务中,尽管Claude Sonnet 4的速度更快,但Gemini 2.5 Flash表现略好。在AI外交游戏中,Claude Sonnet 4表现出色,仅次于o3模型。总体而言,Claude Sonnet 4适用于需要快速且无幻觉的长文本任务,而Gemini模型则在细节分析方面更胜一筹。

讨论: 该内容主要讨论了AI模型的使用和比较。HackerThemAll提到了在aistudio.google.com上,用户可以免费使用包括最新模型在内的所有模型的交互式聊天模式。dang提到了Claude Sonnet 4现在支持1M tokens的上下文,并附上了相关链接。irthomasthomas对Sonnet-4在长上下文下的速度表示惊讶,尽管Gemini运行在快速的TPUS上。arnaudsm提供了一个链接,但没有具体说明内容。ozbonus似乎在开玩笑或发表无关评论。akomtu提出了一种关于LLMs数据压缩的竞赛想法。daft_pink对Gemini在长聊天历史中的表现表示好奇,认为它可能会混淆并回应之前的提示。koakuma-chan对将所有《哈利·波特》书籍放入1M tokens表示怀疑。

原文标题:Claude vs. Gemini: Testing on 1M Tokens of Context
原文链接:https://every.to/vibe-check/vibe-check-claude-sonnet-4-now-has-a-1-million-token-context-window
讨论链接:https://news.ycombinator.com/item?id=44878999