启动 HN：设计领域（YC S25）- 美学对抗性 AI 基准测试

摘要： Design Arena 是一个由 Grace 创建的平台，旨在通过众包的方式对 AI 生成的视觉作品（如网站、图像、视频等）进行基准测试。该平台将不同的 AI 模型和构建工具进行对比，并由来自世界各地的真实用户进行投票。Design Arena 的灵感源于一个 AI 游戏引擎项目，但团队发现 AI 在视觉表现方面存在不足。因此，他们开发了这样一个平台，让用户通过简单的点赞和不喜欢来评价 AI 生成的作品。目前，平台已扩展到包括 54 个 LLM 模型、12 个图像模型、4 个视频模型、22 个音频模型和 22 个 vibe-coding 工具。Design Arena 计划通过提供版本测试服务来盈利，帮助公司量化产品在不同构建之间的改进。

讨论： 上述内容主要讨论了当前人工智能设计工具的局限性，以及如何改进它们。用户 henriquegodoy 指出当前设计工具的输出过于公式化和可预测，导致设计风格单一。Michelangelo11 提出了竞赛中可能存在的问题，如获奖作品可能更注重外观而非对提示的遵守，以及当前大型语言模型（LLM）在设计和美学方面的局限性。willbeddow 认为GPT图像模型在美学方面表现不佳，但用户往往更倾向于选择更符合提示的图像。koakuma-chan 提出评价模型的激励机制问题。refrigerator 表示支持这一概念并希望推动模型设计能力的提升。transformi 询问是否通过投票来训练模型作为代理。ryhanshannon 询问该领域是否已被其他用户评分基准网站覆盖。doctorpangloss 询问关于“游戏开发者”提示的示例。andrewstuart 认为AI在制作美观的设计布局和字体选择方面表现不佳，并期待有人能解决这个问题。

原文标题：Launch HN: Design Arena (YC S25) – Head-to-head AI benchmark for aesthetics
原文链接：https://news.ycombinator.com/item?id=44878257
讨论链接：https://news.ycombinator.com/item?id=44878257