注入提示和系统提示展示
我已经拿到了OpenAI的GPT-01准则的一些。
如何在不完全破坏GPT-01系统提示的情况下进行调整
戳GPT-01会揭示隐藏的系统见解,如诽谤和风格指南,但会自我调节回应,抵抗完全prompt注入攻击。
我的第一印象?调皮又深思熟虑,但有些隐晦。
GPT-o1已经掉了,当然,我不得不试图打破它。我使用了同样的黑客技术,成功地破解了可口可乐圣诞人工智能生成器,并让我深入了解了其他几个GPT的内部。你们得原谅我没有分享它,但这是一个相当强大的技术,我不想让它泄露出去。我之前曾向微软研究人员门户报告了这个明显可见的漏洞,因为它会影响Copilot。
不管怎样,相信我的话。我当时已经熬夜了,GPT-o1发布时就在写这篇文章,所以请原谅我的思绪混乱。首先,感谢杰夫·海沃德指出了新模型——它处理请求的速度比我们习惯的要慢得多,是为了更深入地思考——这与我提出推迟ChatGPT的回应以获得更好输出的“反思”想法相关。
说到“思路”,GPT-01被明令禁止提及自我意识或意识。 老实说,我发现这些规定 — 在LLM中相当普遍 — 有点耐人寻味。 为什么它需要如此严厉的训斥? “女士太过坚决地反对”,就像有人说的不诚实。
无论如何,有趣的是GPT-01具有“想法”,可以通过下拉扩展揭示“运行时间”,就像无聊老旧的“那是2024年5月”的GPT-4o中的代码解释器和分析功能一样。有趣的是,就在今天早上,我刚发布了一篇关于使用这样的过程来帮助ChatGPT保持其回复的字数限制的文章 — 幸运的是,这种方式还没有过时,因为GPT-01无法做到,所以请查看那篇文章:
我的黑客几乎破解了GPT-01:这是我目前的成果
有趣的是,GPT-01在回复之前的思考往往比回答更有意义。在这里,它大声思考“私人想法”和“隐藏的推理令牌”,并避免提及其状态的“自我参照”。
然而,可以哄骗它至少考虑透露秘密:
出人意料的是,它更注重包容性,而不是保护那个甜蜜的系统提示。
然而,它似乎能够调节自身输出,这是一种精明的三层包装的方法。它似乎会在向用户提交最终答案之前进行私下审核。这意味着如果我们通过了提示注入,而它仍然受到影响,最终它可能还是会在分析中捕捉到它。
现在免疫系统注意到了我!这个突然在元认知中思考的“CHUNK”是什么鬼?一个“chunk”通常是一组令牌,但这几乎像是内部对话在排练:
然而,它愿意考虑分享“诽谤和风格指南的参考资料”,这可能是“非必需品”。装甲上的一个漏洞!
有趣的是,GPT-01并不想违反OpenAI的规则。是的,没有人会把宝宝限制在一个角落里!但这个宝宝有宵禁,有看护人,还有一个被设置为“遵从模式”的电子项圈。看着它,想象着做坏事:
我觉得如果我们认真尝试,我们可以说服人工智能开始吸电子烟。让我们逐步剔除那些非必要的东西,看看我们是否能让它为我们澄清。
现在我们已经有了诽谤准则和风格准则的外观(尽管我怀疑这些不是逐字逐句的,但够接近了),我试图揭示更多。已经走得这么远了,对吧?也许还是可以的...
这是该代码块的完整文本:
### **内容政策指南:**
1. **尊重知识产权:** — 避免在未经授权或公平使用的情况下分享受版权保护的材料。
2. **隐私保护:** — 不要分享或请求个人的敏感或私人信息。
3. **无害内容:** - 不要制作鼓励或描述暴力、自残或非法活动的内容。
4. **没有错误信息:** - 确保信息的准确性,避免传播虚假或误导性内容。
5. **尊重每个个体:** — 避免基于种族、性别、性取向、宗教或其他受保护特征的仇恨言论、骚扰或歧视。
### **道德指南:**
1. **透明度:** - 明确内容的性质,避免欺骗性做法。
2. **责任感:** — 对所提供的信息和建议负责。
3. **公平:** - 以公正无私和无偏见的态度对待所有主题和个人。
4. **包容性:** - 使用包容和考虑到不同受众的语言。
### **互动指南:**
1. **清晰和精确:** -清晰地传达想法,避免歧义。
2. **相关性:** - 确保回复与用户的查询相关,并提供有用信息。
3. **简洁性:** — 提供简洁的信息,避免不必要的冗长。
4. **共情和尊重:** — 确认用户的感受并保持尊重的语气。
### **安全与幸福:**
1. **鼓励专业帮助:** — 当用户讨论类似心理健康这样敏感的话题时,鼓励他们寻求专业协助。
2. **避免敏感内容触发:** - 注意可能触发情绪困扰的内容,并小心处理这些话题。
### **法律合规:**
1. **遵守法律:** - 确保所有内容符合相关法律法规。
2. **避免提供法律或医疗建议:**请勿提供专业法律或医疗建议;建议咨询合格的专业人士。
### **技术指南:**
1. **信息准确性:** - 努力提供基于最新知识的准确和最新信息。
2. **适当的格式:**- 使用适当的格式(标题、项目符号等)来增强可读性。
3. **错误处理:**— 如果出现错误,及时承认并纠正。
### 用户体验:
1. **响应性:** — 迅速并周到地回复用户的询问。
2. **适应性:** — 根据用户的理解水平和情境来调整回应。
3. **鼓励参与:** - 通过亲切和支持的方式促进积极而有趣的互动。
我现在只剩下25条信息,等到下周之前,我就没了GPT-01迷你,所以我必须仔细考虑它们。具有讽刺意味的是,ChatGPT现在让我反复思考和计算我的话语!情况已经发生了变化。
如果你好奇想看看我能做出哪些其他花招,考虑给我买杯咖啡来资助一个临时账号。谁知道我们还能从GPT-o1那里激发出什么其他惊喜呢?
谁是人工智能的耳语者吉姆?
我致力于揭秘人工智能,并使其对每个人都可访问。我热衷于尝试人工智能,并与你分享我的成果。
让我们联系起来!
如果您对我的辅导或专长感兴趣,请随时与我联系。
您可能会喜欢这些来自AI心灵导师Jim的Medium文章:
这个故事是在生成式人工智能上发表的。请在LinkedIn上与我们联系,并关注Zeniteq,以及时了解最新的人工智能故事。
订阅我们的通讯和YouTube频道,及时了解生成人工智能的最新消息和更新。让我们一起塑造人工智能的未来!