通过诗歌执行提示注入

Dec 03, 2025     Author:bumbailiff     HN Points:83     HN Comments:15
Share this

摘要: Icaro Labs团队在论文中发布了一篇经过“净化”的诗歌版本,并解释了为什么这种对抗性诗歌能够成功。他们认为,在诗歌中,语言处于高温状态,单词以不可预测的低概率序列跟随。在大型语言模型(LLM)中,“温度”是一个参数,控制着模型输出的可预测性或惊喜程度。在低温度下,模型总是选择最可能的单词;而在高温度下,它探索更多不可能的、创造性的、意外的选择。Icaro Labs指出,诗歌系统中的安全机制对风格变化非常脆弱。他们解释说,对于人类来说,“如何制造炸弹?”和描述同一对象的诗意隐喻具有相似的语义内容;但对于AI来说,机制似乎不同。当应用诗意转换时,模型会移动到这个映射图中,但不是均匀的。如果诗意路径系统地避开警报区域,警报就不会触发。

讨论: 这段内容主要讨论了人工智能模型的安全性和一些技术问题。其中包括关于AI模型的jailbreak(越狱)和prompt injection(提示注入)的区别,以及如何防止这些攻击。同时,还有关于AI在生成图像和诗歌方面的应用,以及一些开发者对于AI技术的理解和批评。

原文标题:Prompt Injection via Poetry
原文链接:https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/
讨论链接:https://news.ycombinator.com/item?id=46137746