当AI从AI中学习时会发生什么?

这个模型已经脱离了现实。

ChatGPT中文站

随着人工智能工具在内容创作领域的广泛应用,有一个潜在风险需要关注,这可能会影响大型语言模型(LLMs)的未来。

你知道,LLM主要依赖从网络上抓取的数据,而该数据主要由人类创造。然而,随着人工智能生成内容的兴起,人们担心LLM最终可能会使用这些人工智能生成的数据进行训练,导致输出结果出现扭曲和不准确。

研究人员来自剑桥、牛津、多伦多和帝国学院等著名机构,他们在名为“递归的诅咒:训练生成数据使模型忘记”的研究论文中探讨了这个问题。

他们描述了一种令人担忧的现象,称之为“模型崩溃”,即LLMs与现实脱节并被其自身的输出所腐化。

想象一种情境,即由人工智能生成的内容成为LLMs的主要训练数据。随着时间的推移,这些模型开始遗忘真正的基础数据分布,导致对现实的不准确描绘。它们所接受的训练数据变得如此污染,以至于与真实世界信息毫不相似。

这是在越来越多地使用人工智能工具的情况下可能成为一种可能性。广泛的人工智能使用可能最终导致将人工智能生成的内容作为训练数据输入到大型语言模型中,从而导致其输出出现不准确和扭曲。

这是怎么发生的呢?其实,这归根结底是由于训练数据缺乏必要的多样性和复杂度,导致AI模型产生重复或次优的结果。

导致模型崩溃的罪魁祸首就是反馈循环,其中AI模型从有偏见或有限的数据中学习,导致受限且乏味的输出空间。

这个问题在各种大型语言模型中都有观察到,以及变分自编码器和高斯混合模型。他们越依赖于人工智能生成的数据,就越远离我们世界真实的表达。

ChatGPT中文站

为了解决这个问题,研究人员提出了更智能的LLM培训方法。其中之一是“先动者优势”,强调保留对原始人类生成的数据来源的访问。简单来说,这意味着确保LLM持续接触真实的人类生成内容。

然而,区分人工生成的数据和AI生成的数据仍然是一个挑战。这就是为什么这篇研究论文强调需要进行“全社区协调”的原因。它呼吁各个涉及到LLM创建和部署的利益相关者合作,分享关于数据来源的重要信息。

但为什么这么大惊小怪呢?如果我们不能应对这个挑战,训练更新版本的LLMs可能会变成一个艰巨的任务。在AI技术普及之前收集的数据或由人类大规模生成的数据的直接获取可能会受到限制。

因此,解决这个问题并找到保持LLMs与现实之间联系的方法非常关键。

保持对原始人类生成数据的访问,并促进LLM开发相关人员之间的合作,将是确保准确可靠的AI生成内容的关键。

通过这样做,我们可以确保人工智能生成的内容始终是值得信赖的、准确的,并真实地反映了我们的世界。

通过保持与现实世界的联系并保持对人类制作内容的访问,我们可以从长远来看增强人工智能生成内容的可靠性和真实性。

加入人工智能革命!关注我们,获取令人震撼的技术、引人入胜的见解和独家更新。

2023-10-20 16:59:43 AI中文站翻译自原文