关于LLM的安全性

ChatGPT中文站
Carefully - Photo by Brett Jordan on Unsplash

我不知道LLMs中的审查层如何工作,但在理论上,在微调、指令集和提示步骤中,您可以使LLMs尽可能不正确地、或者政治正确,特别是使用开源模型。

除非您已经对训练集进行了预审查,否则审查和指导层将无济于事。

我正在想象这个审查层在一个自由培训的LLM上:

  • 0层:免费LLM基于互联网爬虫的数据进行训练。作为一个开放的画布,最具有混乱性的反映了互联网上发现的任何数据集。它会学习说话,并讨论自己发现的任何事情。对政府来说是噩梦,这将是最不正统的LLM,仅仅基于人们在线上所说的一切进行训练,因此理论上,你可以让AI说出任何事情,包括谎言(在这个意义上,这样的模型将更具人类化)。
  • 层1:公司的微调层。受监督的训练集。【审查#1】。
  • 第二层:用户的微调层。一组定制的非通用数据集。用户可以审查或选择在微调中使用哪些数据,因此这可能被视为某种“审查”。一组定制的非通用数据集。用户可以审查或选择在微调中使用哪些数据,因此这可能被视为某种“审查”[审查 #2]。
  • 第三层:禁止使用特定词语或一组词语来构成请求内容。该查询将不会传达到LLM的主要知识引擎(第0层或第1层)。[审查#3]
  • 第四层:对提示/请求进行审查(查询永远不会进入LLM引擎)。【审查#4】
  • 第五层(用户层):人员推动,撰写指令集或微调。【审查 #5】

层数越高,数据的层级重要性就越高。因此,在触碰第0层之前,程序将停止并输出错误或响应。

如果你想要更加安全地实现这一点,并加强模型的审查,你可以在向用户显示响应之前添加一个额外的层(如果重新生成的次数没有限制,这可能会创建一个无限循环,因此你可以将重新生成限制在2次往返)。

层RE(返回过滤层):在LLM的回应之前,可能会有一个简单的过滤器,禁止含有强制重新生成的单词/短语,而不是向用户显示错误[过滤层-> 冲突响应响应A]。如果生成返回中有被禁止的单词/短语,则重新生成可能会具有稍微不同的温度/概率计算,或者AI可能会默认为出现与返回过滤层(层RE)冲突的错误,要求用户更改提示或设置。

OpenAI的规则可能优先于任何指令集,因此上面的层次结构可能是准确的。因此,作为开发者,你们在DALLE上获得的自由度较少。

在我的经验中,我发现编程访问更加宽容。

关于监管

我认为政府将很难监管这些模型,因为似乎它们并不完全理解这些模型,而这些工具和算法已经随处可见,并被各地的开发者所拥有。但从长远来看,我认为人工智能将会像互联网和电子邮件一样,同样或更有用。

互联网的一些“不良方面”,例如DDoS攻击的开放可能性和电子邮件协议中的垃圾邮件,从未得到完全解决,但是这些技术对人类的需要、愿望和技术进步有巨大的用处。

总的来说,我相信大多数人会利用科技来做一些有用的事情,而一些“坏演员”或烦人的事情则不可避免地会发生/共存。

完美的解决方案

接近完美的解决方案往往也很昂贵。如果您针对收到的邮件付费,比如每条邮件0.10美元到3美元不等,并由用户指定价格,或只允许白名单中的人/实体发送邮件,那么您可以解决99%的真正不需要的垃圾邮件。

但是,这也可能会引发其他问题,例如访问问题,年轻人和较少富裕的用户可能无法访问电子邮件。

这就是以太坊解决垃圾邮件和高效存储的方式,例如通过对所有使用收取费用,但现在在以太坊主链上写入数据和进行交易非常昂贵,因为它非常流行。大多数交易的成本从1美元到50美元或更多,我个人在以太坊交易上花费了成千上万美元,仅仅是为了转移资金或执行简单操作,这使它成为大多数用户负担不起的昂贵技术。

我认为非常容易获得和低成本的技术,往往从监管机构的角度来看固有缺陷,因为它可以服务于任何人,不带任何判断。最容易获得的技术就像你在沃尔玛买的刀一样,没有使用刀具的许可证,指纹认证,或其他形式的追踪或安全措施。

这个刀具自由市场确实会导致更多人使用这些工具攻击人类,但我们自然地认为这种情况的可能性很低,而且遵守大量规定的麻烦程度很高,因此我们不要求持有刀具使用许可证,尽管刀具使用可能导致致命后果是真实存在的。

不幸的是,许多人被负面影响所麻痹(部分原因是生物学,部分原因是许多人看太多电视和主流媒体),因此许多人会过度反应并被技术的风险所麻痹,往往忽略了其潜在的益处,这些益处通常远远超过了它的缺点。

2023-10-20 16:50:30 AI中文站翻译自原文