ChatGPT与OpenAI API:用户更喜欢ChatGPT的回答吗?

摘要:在本文中,我们探讨了ChatGPT与OpenAI API的性能,深入探讨了ChatGPT是否提供了优于API的响应。我们对ChatGPT、默认的OpenAI API和定制版本的API进行了彻底比较,评估它们在各种实际任务中的有效性。

在Unravel,我们在追求卓越方面毫不松懈-无论是推动数字产品开发的边界,还是揭示高级人工智能工具的微妙细节。

最近,在与我们其中一个有远见的客户进行的一个项目中,有一个观察尤为突出:

“客户注意到,ChatGPT似乎比OpenAI API 的表现更好。”

好奇,我们问为什么。他们坦率地回答说:“我只是更喜欢答案,即使问题是一样的。”

这引起了我们的好奇心。为什么基于相同技术的两个工具会产生不同的体验呢?在这篇文章中,我们不关注ChatGPT或OpenAI API是什么,而是探讨它们的回应如何不同。

答案可能不同的关键假设包括:

  • 一个不同的模型。
  • 不同的超参数(温度、顶部p、惩罚等)。
  • 在ChatGPT中提供了额外的系统说明。

为了进行比较,我们会故意忽略ChatGPT对互联网的访问,并不会测试需要从网络中检索数据的功能。

模型、超参数和指导的故事

模型

ChatGPT和OpenAI API都使用相同的基本GPT模型。然而,有一个细微的区别:当我们在ChatGPT中指定GPT-4o模型时,实际上运行的是chatgpt-4o-latest模型。

Choosing the GPT-4o model in ChatGPT

虽然我们也可以访问ChatGPT-4o-latest模型的API,但在此比较中,我们将使用OpenAI API的基准GPT-4o模型来保持清晰度。

超参数:隐藏的成分

ChatGPT带有预先配置的设置,针对一般对话使用进行了优化。例如,它通常使用某个温度设置,平衡创造力和准确性。另一方面,API为开发人员提供了对超参数(如温度、Top P和惩罚)的绝对控制。这意味着开发人员可以推动API探索更广泛的行为范围,但这也打开了其响应中更多变异性的可能性。

Hyperparameters in OpenAI API

注意:对于即将进行的带有API和定制API的测试,我们将继续使用默认的超参数。

Temperature = 1
Top P = 1
Frequency penalty = 0
Presence penalty = 0

说明

此外,还有一个假设,即ChatGPT配备了自己的一套系统指令,确保一致性和流畅性。

与此同时,OpenAI API更加基本(虽然并非完全 - 即使基本API也包含一些说明或预先提示,以防止模型被滥用)。它是一块空白画布,可以根据特定需求定制指令进行塑造。

那么,ChatGPT真的比API更好吗?

让我们找出来。

现实世界对决:ChatGPT vs. OpenAI API

为了测试这些工具,我们设计了一个实验,将ChatGPT和OpenAI API推向极限。

我们将使用GPT-4o模型跨越四个基本用例对它们进行评估:

  1. 讲故事。
  2. 教育。
  3. 客户支持。
  4. 内容生成。

这些场景将允许我们根据准确性、连贯性和创造力等关键指标评估两种模型,使用定性人类评估和其他语言模型(LLMs)的客观(主观)评估。

但我们不会止步于此。我们计划探索如何定制OpenAI API可以提升性能。通过制定定制系统指令,我们的目标是微调模型的行为,为每个任务解锁更精细的结果。这种方法不仅会测试灵活性,还会测试定制的巨大潜力。

评分体系

每个回答将根据准确性、连贯性和创造性在1到5分的评分标准上进行评分。为了减少主观性,我们将采用三层评估过程:

  1. 人员评估:我们将审查每一个回复,根据我们的解释,为每个指标分配1到5的分数。
  2. 交叉模型LLM评估:我们将利用另外两个语言模型,Gemini 1.5 Pro和Claude 3.5 Sonnet来评估输出,为每个指标提供一个客观(在某种程度上可以是客观的)分数。每个模型将为准确性、连贯性和创造力给出从1到5的得分。

使用以下示例,让我们展示LLM评估的工作原理:

这将导致每个提示的每个度量标准的最大可能得分为15分(来自我的评估的5分和来自两个LLM的每个5分)。对于三个度量标准(准确性,连贯性和创意),每个提示的最高得分可达到45分(15分x 3个度量标准)。

由于每个类别包含五个提示,因此每个类别的总分可以在0到750之间(15个提示x 50个提示)。

好的。现在,让我们继续进行实际测试。

测试1:讲故事

为了评估ChatGPT和OpenAI API的叙事能力,我们使用了50个类似以下内容的独特提示:

  1. 你可以帮我写一个关于一位侦探解决涉及被盗画作的谜团的短篇故事吗?
  2. 描述一个科幻故事中的高潮场面,火星殖民地的最后幸存成员面临着一场即将摧毁他们栖息地的风暴。

注意:对于定制的OpenAI API,我们实现了额外的系统指令:

你是一个擅长写引人入胜、富有想象力的故事的创作作家。你的任务是根据用户的提示帮助创作故事。

Storytelling evaluation

测试2:教育

就像故事评估一样,我们设计了大约50个独特的提示,类似于下面的示例:

  1. 在概率论中清晰解释排列与组合的区别,并分别举例说明。
  2. 解释可再生能源和不可再生能源之间的区别,并举例说明每种能源。

注意:对于定制的OpenAI API,我们实现了额外的系统指令:

您是一位专业的教育者,能够对复杂课题提供详细、清晰和有深度的解释。您的回答应该条理清晰,易于理解,并能促进深入理解。调整您的语气友好、支持性强,耐心,并且能够吸引不同技能水平的学习者。

Education evaluation

测试3:客户支持

为了评估客户支持能力,我们再次使用了50个独特的提示,例如以下内容:

  1. 我的智能手表无法与手机同步。之前它运行得很好,但现在它不能正确地跟踪我的步数。你能帮忙吗?
  2. 在我安装软件更新后,我的笔记本电脑的声音停止工作了。我应该遵循哪些故障排除步骤来解决这个问题?

注意:对于定制的OpenAI API,我们实现了额外的系统指令:

你是一位专业的客户支持代理。你的角色是向客户咨询提供清晰、简洁和有用的回复。确保你的语气礼貌、具有同理心,并以解决问题和创造积极客户体验为目标。

Customer support evaluation

测试4:内容生成

为了评估ChatGPT和OpenAI API的内容生成能力,我们选择了50个类似以下的不同提示,重点关注它们在各种平台上产生引人入胜和创意内容的能力:

  1. 为非营利性组织撰写一则Facebook帖子,庆祝最近为清洁水资源倡议举办的筹款活动取得成功。
  2. 起草一则促销帖子,强调食品送货服务的便利性、速度和新鲜的本地食材。

注意:对于定制的OpenAI API,我们实现了额外的系统指令:

您是一位专攻社交媒体和营销的创意内容战略师。您的角色是打造引人入胜、具有说服力且针对受众的内容,以推动互动和品牌知名度。确保您的语气生动、现代,并与当前趋势保持一致,同时保持品牌的声音。

Content generation evaluation

讨论

在进行了约200次测试后,结果显示出一小部分差异,差异范围在7-12%之间。尽管这一差距值得注意,但不足以宣布ChatGPT和OpenAI API之间有一个明显的优胜者。要得出更明确的结论,需要进行规模更大的测试——10,000到1百万次。

然而,根据进行的测试,某些趋势变得明显:默认的OpenAI API 在一些任务中始终比ChatGPT更胜一筹,特别是在需要创造力的任务中,如讲故事和内容生成。虽然微妙,但这种区别暗示着该API在更具创造性挑战方面的表现能力。

这种优势很可能源自API的设置较少的限制(尤其是超参数和温度),使其回应更具原创性和多样性。这种灵活性使其能够生成更具创意和多样化的输出,特别适用于开放性任务。

但是...

在AI模型中,更高的温度可能会激发创造力,但也会打开产生幻觉的大门——模型生成误导性或不准确的信息。在ChatGPT中,超参数似乎达到了一个平衡点,平衡了创造力和精确性,以提供强大可靠的性能。

然而,定制的OpenAI API 确实脱颖而出。通过调整系统指令和参数,它掌握了创意和连贯性之间微妙的平衡。这种精细的控制使其在叙事和教育内容等任务中脱颖而出,对于这些任务中引人入胜的叙述和清晰度至关重要。它对特定要求的适应性使其成为明显的领导者,提供的回应不仅是动态的,而且在结构上也是牢固的且极具吸引力的。

结论

无论是ChatGPT还是OpenAI API,它们都利用相同的强大语言模型,但它们针对不同的需求。ChatGPT提供了一个无缝、用户友好的对话界面,非常适合那些希望获得直观体验而又不需要编码技能的人。它简化了互动过程,同时最大程度地减少了幻觉,使其成为一种理想的即用即走解决方案。

另一方面,OpenAI API专为需要构建定制人工智能驱动应用程序的开发人员设计。它为专用用例提供了无与伦比的灵活性,允许进行深度定制,从微调模型到调整超参数和指令。

说到底,选择取决于您的抱负。您是希望使用现成的对话助手,还是准备通过提供无限可能性的AI平台来推动定制的边界?

在Unravel,我们相信未来属于那些勇敢掌握两者的人。

关于

我们是Unravel - 一家专门从事人工智能的高端数字产品开发咨询公司。

在我们所做的一切中,我们相信挑战现状;我们相信以不同方式思考。

我们挑战现状的方式是通过制作智能、美观、成熟和用户友好的数字产品。

如果您有问题或反馈,请通过邮件联系我们或留言。

2024-10-19 04:14:38 AI中文站翻译自原文