通过诗歌执行提示注入

摘要： Icaro Labs团队在论文中发布了一篇经过“净化”的诗歌版本，并解释了为什么这种对抗性诗歌能够成功。他们认为，在诗歌中，语言处于高温状态，单词以不可预测的低概率序列跟随。在大型语言模型（LLM）中，“温度”是一个参数，控制着模型输出的可预测性或惊喜程度。在低温度下，模型总是选择最可能的单词；而在高温度下，它探索更多不可能的、创造性的、意外的选择。Icaro Labs指出，诗歌系统中的安全机制对风格变化非常脆弱。他们解释说，对于人类来说，“如何制造炸弹？”和描述同一对象的诗意隐喻具有相似的语义内容；但对于AI来说，机制似乎不同。当应用诗意转换时，模型会移动到这个映射图中，但不是均匀的。如果诗意路径系统地避开警报区域，警报就不会触发。

讨论： 这段内容主要讨论了人工智能模型的安全性和一些技术问题。其中包括关于AI模型的jailbreak（越狱）和prompt injection（提示注入）的区别，以及如何防止这些攻击。同时，还有关于AI在生成图像和诗歌方面的应用，以及一些开发者对于AI技术的理解和批评。

原文标题：Prompt Injection via Poetry
原文链接：https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/
讨论链接：https://news.ycombinator.com/item?id=46137746