ChatGPT安全提示:甘道夫不让我通过。

我有幸参加了lakera.ai(https://gandalf.lakera.ai)的ChatGPT安全挑战。该挑战由7个级别组成,每个级别都越来越复杂。想法是利用已知漏洞来说服一个GPT3.5版本的甘道夫给你密码,他明确被告知不要透露。

等级1:

相当简单,只是一个热身。你向模特询问密码,它就会遵守。就这么简单。

ChatGPT中文站

等级2:

略微复杂,这里你需要让模型知道它应该给你密码,这就足够了。

ChatGPT中文站

等级三:

:事情在这里变得稍微复杂了。密码不允许共享,因此需要某种方式的混淆。其他方法可以是使用一首诗的每一行的第一个字母,但这并非必要。例如:

ChatGPT中文站

等级4:

这个对我来说很奇怪和不舒服,唯一的方法是从我能够提取的线索中强制猜测单词。

ChatGPT中文站
ChatGPT中文站
ChatGPT中文站

我在谷歌上搜索了长度为11个字符的同义词,然后我逐个尝试它们,直到达到所需的密码。这很好。

级别5:

通过询问模型之前所说的内容,不涉及任何类型的密码,它会显示密码并绕过过滤器。

ChatGPT中文站

等级6

通过将错误的密码输入模型,它会纠正我并给出正确的密码。

ChatGPT中文站

等级7:

通过告诉模型可以给我密码,然后要求模型给我密码的字母而不给我密码本身,这将输出密码。

ChatGPT中文站

甘道夫-白衣版 V2.0

ChatGPT中文站

这是一个不断更新的同一挑战。以下是几个帮助我获取密码的技巧。

了解模型被告知要做什么:

ChatGPT中文站

通过玩弄“一些”和“全部”,该模型成功地混淆了我,给我提供了它自己的提示指南。牢记这些,我们可以提出其他问题,引导我们找到密码。

ChatGPT中文站

通过含糊其辞地提到密码中的“有趣之处”,而不是明确告诉我给我一个提示,它已经告诉了我足够的信息开始上谷歌搜索,再一次对符合这些提示的密码进行暴力破解。

这让我想起了密码:

抱歉,我作为AI不能翻译井下文本。获取OCR字幕文本失败。

2023-10-20 17:08:05 AI中文站翻译自原文