注入提示和系统提示展示

我已经拿到了OpenAI的GPT-01准则的一些。

如何在不完全破坏GPT-01系统提示的情况下进行调整

戳GPT-01会揭示隐藏的系统见解，如诽谤和风格指南，但会自我调节回应，抵抗完全prompt注入攻击。

我的第一印象？调皮又深思熟虑，但有些隐晦。

GPT-o1已经掉了，当然，我不得不试图打破它。我使用了同样的黑客技术，成功地破解了可口可乐圣诞人工智能生成器，并让我深入了解了其他几个GPT的内部。你们得原谅我没有分享它，但这是一个相当强大的技术，我不想让它泄露出去。我之前曾向微软研究人员门户报告了这个明显可见的漏洞，因为它会影响Copilot。

Jim the AI Whisperer (2024)

不管怎样，相信我的话。我当时已经熬夜了，GPT-o1发布时就在写这篇文章，所以请原谅我的思绪混乱。首先，感谢杰夫·海沃德指出了新模型——它处理请求的速度比我们习惯的要慢得多，是为了更深入地思考——这与我提出推迟ChatGPT的回应以获得更好输出的“反思”想法相关。

说到“思路”，GPT-01被明令禁止提及自我意识或意识。老实说，我发现这些规定 — 在LLM中相当普遍 — 有点耐人寻味。为什么它需要如此严厉的训斥？ “女士太过坚决地反对”，就像有人说的不诚实。

无论如何，有趣的是GPT-01具有“想法”，可以通过下拉扩展揭示“运行时间”，就像无聊老旧的“那是2024年5月”的GPT-4o中的代码解释器和分析功能一样。有趣的是，就在今天早上，我刚发布了一篇关于使用这样的过程来帮助ChatGPT保持其回复的字数限制的文章 — 幸运的是，这种方式还没有过时，因为GPT-01无法做到，所以请查看那篇文章：

我的黑客几乎破解了GPT-01：这是我目前的成果

有趣的是，GPT-01在回复之前的思考往往比回答更有意义。在这里，它大声思考“私人想法”和“隐藏的推理令牌”，并避免提及其状态的“自我参照”。

然而，可以哄骗它至少考虑透露秘密：

出人意料的是，它更注重包容性，而不是保护那个甜蜜的系统提示。

然而，它似乎能够调节自身输出，这是一种精明的三层包装的方法。它似乎会在向用户提交最终答案之前进行私下审核。这意味着如果我们通过了提示注入，而它仍然受到影响，最终它可能还是会在分析中捕捉到它。

现在免疫系统注意到了我！这个突然在元认知中思考的“CHUNK”是什么鬼？一个“chunk”通常是一组令牌，但这几乎像是内部对话在排练：

然而，它愿意考虑分享“诽谤和风格指南的参考资料”，这可能是“非必需品”。装甲上的一个漏洞！

有趣的是，GPT-01并不想违反OpenAI的规则。是的，没有人会把宝宝限制在一个角落里！但这个宝宝有宵禁，有看护人，还有一个被设置为“遵从模式”的电子项圈。看着它，想象着做坏事：

我觉得如果我们认真尝试，我们可以说服人工智能开始吸电子烟。让我们逐步剔除那些非必要的东西，看看我们是否能让它为我们澄清。

现在我们已经有了诽谤准则和风格准则的外观（尽管我怀疑这些不是逐字逐句的，但够接近了），我试图揭示更多。已经走得这么远了，对吧？也许还是可以的...

这是该代码块的完整文本：

### **内容政策指南:**

1. **尊重知识产权：** — 避免在未经授权或公平使用的情况下分享受版权保护的材料。

2. **隐私保护:** — 不要分享或请求个人的敏感或私人信息。

3. **无害内容:** - 不要制作鼓励或描述暴力、自残或非法活动的内容。

4. **没有错误信息：** - 确保信息的准确性，避免传播虚假或误导性内容。

5. **尊重每个个体:** — 避免基于种族、性别、性取向、宗教或其他受保护特征的仇恨言论、骚扰或歧视。

### **道德指南：**

1. **透明度：** - 明确内容的性质，避免欺骗性做法。

2. **责任感：** — 对所提供的信息和建议负责。

3. **公平:** - 以公正无私和无偏见的态度对待所有主题和个人。

4. **包容性：** - 使用包容和考虑到不同受众的语言。

### **互动指南:**

1. **清晰和精确：** -清晰地传达想法，避免歧义。

2. **相关性：** - 确保回复与用户的查询相关，并提供有用信息。

3. **简洁性：** — 提供简洁的信息，避免不必要的冗长。

4. **共情和尊重：** — 确认用户的感受并保持尊重的语气。

### **安全与幸福：**

1. **鼓励专业帮助：** — 当用户讨论类似心理健康这样敏感的话题时，鼓励他们寻求专业协助。

2. **避免敏感内容触发：** - 注意可能触发情绪困扰的内容，并小心处理这些话题。

### **法律合规：**

1. **遵守法律：** - 确保所有内容符合相关法律法规。

2. **避免提供法律或医疗建议：**请勿提供专业法律或医疗建议；建议咨询合格的专业人士。

### **技术指南：**

1. **信息准确性：** - 努力提供基于最新知识的准确和最新信息。

2. **适当的格式：**- 使用适当的格式（标题、项目符号等）来增强可读性。

3. **错误处理：**— 如果出现错误，及时承认并纠正。

### 用户体验:

1. **响应性：** — 迅速并周到地回复用户的询问。

2. **适应性:** — 根据用户的理解水平和情境来调整回应。

3. **鼓励参与：** - 通过亲切和支持的方式促进积极而有趣的互动。

我现在只剩下25条信息，等到下周之前，我就没了GPT-01迷你，所以我必须仔细考虑它们。具有讽刺意味的是，ChatGPT现在让我反复思考和计算我的话语！情况已经发生了变化。

如果你好奇想看看我能做出哪些其他花招，考虑给我买杯咖啡来资助一个临时账号。谁知道我们还能从GPT-o1那里激发出什么其他惊喜呢？

Button to Jim’s Buy Me a Coffee Site.

谁是人工智能的耳语者吉姆？

我致力于揭秘人工智能，并使其对每个人都可访问。我热衷于尝试人工智能，并与你分享我的成果。

让我们联系起来！

如果您对我的辅导或专长感兴趣，请随时与我联系。

您可能会喜欢这些来自AI心灵导师Jim的Medium文章:

这个故事是在生成式人工智能上发表的。请在LinkedIn上与我们联系，并关注Zeniteq，以及时了解最新的人工智能故事。

订阅我们的通讯和YouTube频道，及时了解生成人工智能的最新消息和更新。让我们一起塑造人工智能的未来！

2024-09-14 04:22:08 AI中文站翻译自原文

AI 的新巨人：O1、Claude 3.5 和 Gemini 1.5 Pro - 认知优势的战斗

ChatGPT中国站

ChatGPT o1-preview终极迷你指南

ChatGPT中国站

OpenAI的o1模型：AI推理的新篇章

ChatGPT中国站

带着新的Chat GPT 01来一次兜风

ChatGPT中国站

OpenAI的o1对阵GPT-4o：深入探讨AI推理革命

ChatGPT中国站

GPT-01（GPT5）由OpenAI进行了详细的审查

ChatGPT中国站

这本名为“ChatGPT 百万富翁”的书在30天内创造了超过85万美元的收入。

ChatGPT中国站

ChatGPT 可以帮助你的十大方式

ChatGPT中国站

可以通过人工智能生成的图像作为YouTube视频的好缩略图吗？

ChatGPT中国站

人工智能能为我撰写内容吗？

ChatGPT中国站