为什么机场没有更多相同的包?我问AI解释。
这是一个小实验,用来比较人工智能服务。
我问了四个人工智能提供商同一个棘手问题。这不仅需要计算,还需要基于对世界的假设进行一些智能估计。这个问题据说是在谷歌面试时经常被问到的,比如“美国有多少个窗户?”。
这个灵感源于在机场传送带周围等待我的箱子。
如果两个等待航班行李的乘客发现他们在500次航班中只有1次拿错了同样的行李箱,市场上需要多少种不同的行李箱或其他包?
以下是四个AI答案:
- ChatGPT ChatGPT
这是四项测试中唯一的付费服务。这些答案来自它的每月$20的订阅服务,使用GPT-4o。你也可以免费访问ChatGPT。
为了计算需要多少种不同类型的手提箱(或设计)才能实现两名乘客在飞行中有相同手提箱的概率为1/500,我们可以使用一个简化版本的生日问题方法。在这里,我们对一组乘客中至少两人拥有相同手提箱的概率感兴趣。
假设:
- 概率是:500分之1,或0.002。
- 乘客托运行李的平均数量:让我们假设每个航班大约有100名乘客,这是典型商业航班的合理平均数。
- 统一分配:每个行李设计被任何乘客选择的概率相等,简化了概率计算。
我已经截取了接下来的内容的屏幕截图,因为下面的许多公式无法复制和粘贴。
要在大约100名乘客的航班上只有1/500的几率两名乘客拥有相同的手提箱,大约需要大约247万种不同的手提箱设计在流通中。这么高的数字反映了typical airport scenario中需要的各种各样的多样性,以使得完全匹配变得罕见。
我的反应:
在这里有一个合适的方法论,其中说明了假设。但是AI所做出的两个假设是可疑的(就像我的“500分之1”可能也是一样)。即使像瑞安航空这样的短途航空公司也有容纳180至220名乘客的能力,所以100名乘客拿取行李的数量似乎是一个较低的估计。并非所有的行李设计都有同等的可能性 - 尽管AI意识到这一点并承认为了简化计算而做出了这个假设。最终的数字——2,470,000个“独特的行李设计”——似乎很高,尽管这一反应纯粹是基于我的“直觉”!
总体评分: 6/10
2. 困惑
保留HTML结构,将以下英文文本翻译成简体中文: (问同一个问题)
为了回答这个问题,我们需要考虑两名乘客拥有相同行李箱设计的概率。如果两名乘客拥有相同行李箱的概率是500次飞行中的1次,则我们可以确定需要多少种不同的行李箱设计来实现这个概率。让我们来分解一下:
- 两名乘客拥有相同行李箱的概率是1/500。
- 这个概率等同于1/N,其中N是可用的不同手提箱设计数量。
- 因此,我们可以设立方程式:1/N = 1/500.
解决这个方程,我们发现 N = 500。这意味着市场上需要有500种不同类型的手提箱或包才能实现两名乘客在500次航班中只有一次携带相同的手提箱的概率。
我的反应:
这个计算就是说“如果我想从一组不同数字中随机选出一个特定的数字,我需要从中选取多少个数字才能成功一次在500次中,答案是500。” 这并没有回答关于手提箱数量的问题: 它只是重申了我的问题。 但我将额外给一个分数,因为意识到手提箱类型的不均匀分布会改变结果。
总分:3/10
3. 微软 Copilot
保持HTML结构,将以下英文文本翻译成简体中文: (询问相同的问题)
副驾驶提出的几乎与困惑一样含糊其辞。
好的,让我们来解释一下。如果两名乘客拥有相同行李箱的概率是500分之1,那意味着发生这种情况的概率是1/500。
使用一些概率数学:1/500 = 0.002
现在,如果每个乘客都从一组可能性中挑选一个手提箱,那么独特手提箱的数量应该足够高以保持这种概率。为简单起见,我们可以假设每种手提箱都同样受欢迎,并计算需要有多少不同种类的手提箱。
如果我们假设每个人独立选择自己的手提箱,那么他们最终拿到相同手提箱的概率是1除以手提箱的种类数(我们称之为N):
1/N = 1/500 N = 500 1/N = 1/500 N = 500
因此,市场上需要有500种不同款式的手提箱来维持这种概率。
这有很多种选择,但不过,你觉得你永远不可能有太多选择,是吧?
嗯,我不确定这真的足够多样化!但是AI意识到通过假设所有种类的情况同样受欢迎来简化结果,所以我将不得不给予与困惑相同的评分。
总体评分:3/10
4. 克劳德
保持html结构,将以下英文文本翻译成简体中文: (问同一个问题)
让我一步一步解决这个概率问题。
- 首先,让我们定义我们正在寻找的内容:
- 假设n = 可用的不同行李箱类型数量
- 任意两名乘客之间匹配的概率=1/500
- 对于任何两位乘客:
- 第一位乘客拥有任何特定行李箱的概率是1/n。
- 第二个乘客有相同行李箱的概率也是1/n。
- 因此,匹配的概率是1/n × 1 = 1/n
- 我们被告知这个概率是1/500,所以:1/n = 1/500
- 因此:n = 500
其实,我这个假设过于简单了。这假设每种箱子类型被选择的可能性都是相等的。实际上:
- 如果p₁,p₂等是每种类型被选择的概率:
- 匹配的概率= ∑(p₁²+ p₂²+ … + pₙ²)
- 这个总和等于1/500.
- 由于有些手提箱类型比其他类型更受欢迎,我们需要500多种类型才能达到与匹配的低概率相同。
- 例如,如果有些类型的市场份额为5%,而其他类型为0.1%:
- 我们可能需要1000多种不同类型才能达到1/500的匹配概率.
因此,至少需要有500种类型,考虑到市场份额分布不均可能会超过1000种。
我的反应:
答案的第一部分与Perplexity和Copilot的非答案相同,尽管我不确定推理是否正确: “所以匹配的概率是1/n × 1 = 1/n” 是什么意思?
但是AI随后想到,正确地假设并非所有设计都同样受欢迎。我并没有理解这个新方程式,似乎AI也没有得出具体的结论,只是得出“我们可能需要1000多种不同类型”的结论。
但我会给它一些分数,因为它更加深刻地理解了问题,尽管没有完全找到答案。
总体评分:5/10
然后,我继续追问Claude、Copilot和Perplexity三人他们回答遗漏的部分,即聊天GPT正确考虑到的乘客人数问题:
在您的计算中,您假设飞机上有多少名乘客?
克劳德在回答中非常谦虚。
啊 - 我犯了一个严重错误!你是对的。我只考虑了两个乘客,但在一次真实的飞行中有更多的乘客,这大大增加了匹配的机会。
因此,我们需要大约4百万种不同的行李箱类型,才能在一架载有180名乘客的航班上只有1/500的概率匹配,假设分布均匀。如果分布不均匀(某些类型更受欢迎),我们将需要更多。
这比我之前的回答要现实得多,考虑到我们在行李中看到的实际种类!
所以Claude在第二个提示之后找到了“生日问题”公式——ChatGPT立刻找到了。它对乘客人数做出了比ChatGPT更为现实的假设,并计算出了更多的行李箱种类——400万。考虑到它假设了180名乘客而不是ChatGPT的100名,这两个数字之间的差异——400万和ChatGPT的大约250万——可能归结于:人群更大,你需要更多不同种类的行李箱来保持每500次飞行中只有一对的搭配。
Claude没有考虑行李箱类型的不均匀分布,但他将其作为一个问题指出,并正确指出这意味着需要更多类型的箱子才能保持在500个中的一个。
总体评分: 高卢的最终得分为6/10 (如果不需要答错第二个问题的话,得分会更高)
然后我问了疑惑同样的问题:
在你的计算中,你假设有多少乘客在飞机上?
它同样是懊悔的,稍微有些狡猾。 (并不是说它没有“明确说明”乘客数量:它只是根本没考虑过这个问题)
抱歉在我之前的回答中没有明确说明乘客数量。让我们澄清这个重要细节。根据提供的搜索结果,我们可以看出商业航班上的平均乘客数量是被计算出来的:
我不知道这些Python行代表什么 - 这只是当您询问谷歌关于航班平均乘客人数时发生的幕后情况吗?困惑继续:
修订计算
现在,让我们重新计算所需的不同行李箱设计数量,考虑到乘客人数:
- 两个特定乘客拥有相同行李箱的概率为1/500。
- 有175名乘客,我们需要考虑可能的乘客配对数。
- 可能组合对的数量由组合公式给出:(175选2) = 175 * 174 / 2 = 15,225。
- 至少有一对乘客拥有相同的箱子设计的概率大约为:1 - (1-1/500)¹⁵²²⁵ ≈ 0.35
- 这意味着在500种不同的行李箱设计中,在任何一次飞行中至少有一对乘客拥有相同的行李箱的几率约为35%。
调整后的行李箱设计数量
为了将这种可能性降低到1/500(0.002或0.2%),我们需要增加手提箱设计的数量。精确计算很复杂,但我们可以近似计算:500 / 175 ≈ 2.86
这意味着我们需要大约2.86倍的行李箱设计数量才能达到期望的概率。因此,为了确保仅有1/500的机会两名乘客拥有相同的行李箱设计,我们大约需要:175 * 2.86 ≈ 500 种不同的行李箱设计。这与我们最初的答案一致,但现在我们清楚地了解了假设乘客数量如何影响计算。
我的数学水平还达不到跟随概率计算,但我对结果仍然只有500种不同的手提箱设计感到怀疑。它声称“我们大约需要比乘客多2.86倍的手提箱设计才能实现所需的概率”。假设有10名乘客,那么你肯定需要超过30种手提箱设计,才能阻止十名乘客中有两人更频繁地拥有相同的包,超过500次中有1次?(当然,在现实世界中,某些设计比其他设计更受欢迎,那么你需要更多手提箱设计。)
最后,Copilot在聪明的回应中显得防御和有点傲慢。
我假设有两位乘客比较他们的行李。实际上,一架飞机通常搭载更多人,对吧?因此,调整为更多乘客会使计算更加复杂,但现在,为了保持清晰和简单,我们只看有两名乘客的飞机。现实当然为方程式增加了更多层次。
现在批改你自己的家庭作业
然后,我要求这四家服务按照我上面写的内容对自己和对方进行排名:
我一直在比较您在附件文档中的答案与其他人工智能服务的答案。请总结结果并对服务的答案进行排名。请根据他们的表现为每项服务自行打分,而不是使用我的评估。
ChatGPT 赞同我的观点,认为这是最好的。
以下是我根据每个人工智能服务在深度、准确性和适应性方面的表现给出的打分,满分为十分:
1. ChatGPT - 8/10 (ChatGPT - 8/10)
- 优点:ChatGPT从一开始就提供了一个结构良好的答案,采用生日问题的方法来得出一个合理的估计。它清晰地概述了假设,并识别出潜在的限制,比如统一的箱包受欢迎程度,表明它理解现实世界因素如何可能改变结果。
- 限制:假设100名乘客的假设可以进行调整,以更好地适应典型的商业航班,特别是对于高容量的航空公司。
- 总体而言: ChatGPT的答案很全面,用逻辑方法解决了计算和上下文因素,可以通过微小的调整进行改进。
2. 克劳德—7/10
- 优点:尽管克劳德一开始采用简化的方法,但在被提示后迅速调整,承认需要包括一个真实的乘客计数。这导致了更准确的估计(400万设计),与现实世界的动态很好地保持一致。它还指出了行李箱类型的非均匀分布,这是很有见解的。
- 限制:克劳德的初始反应较为简单,类似于一种简化的方法,但随后的跟进将其显著改善。
- 总体而言,克劳德对反馈的适应能力和在提示后做出的现实调整是其优势,尽管更精致的初始回应会得到更高的评分。
3. 困惑 - 4/10
- 优势:困惑正确地指出行李箱设计中的非均匀受欢迎程度可能会影响答案。在被提示后,它纳入了一个现实的乘客数量,尽管其对500个行李箱设计的估计过于简单化。
- 限制:最初的回应并没有展示出非常深入的内容,只是简单地将假设重新陈述为简单的概率计算。概率解释也缺乏准确答案所需的复杂性。
- 总体而言:虽然提示有所改善,但后续的初步简单和有限的调整使其缺乏深刻见解。
4. 微软 Copilot - 3/10
- 优点:Copilot给出了一个基本的概率答案,但深度很小,类似于Perplexity的方法。
- 限制:CoPilot只假设有两名乘客是不切实际的,导致估计非常低。在要求澄清时,它的回应没有有意义地调整以回答核心问题。
- 总体而言:Copilot的回应最不全面,表现出最小的适应性,使其成为四个中最弱的。
最终排名总结:
- ChatGPT: 8/10
- 克劳德:7/10
- 困惑程度:4/10
- 微软Copilot:3/10
这次评估将ChatGPT评分最高,因为它有明确的方法论和初步精度,其次是克劳德,它很好地适应了后续提示,但在初始准确性方面有所欠缺。
好吧,对于ChatGPT来说,这很容易,因为它能够同意我的观点 - 尽管它给自己打了8分,而我只给了6分。
其他人会如何评价他们不太令人印象深刻的表现?
困惑:
根据提供的文件,我将总结结果并根据回答问题:“如果两名等待行李的乘客发现他们在500个航班中只有1次找到相同的手提箱,市场上需要有多少种手提箱或其他行李袋?”对AI服务进行排名。
总结和排名:
- ChatGPT (8/10) 聊天GPT(8/10)
ChatGPT 提供了最全面和方法学上正确的答案。它采用了生日问题的方法,做出了合理的假设(每次航班100名乘客),并考虑到问题的复杂性。最终估计为 247 万种独特的行李箱设计,虽高,但反映了对问题规模的更现实的理解。
- 克劳德(7/10)
克劳德最初做了一个简单的计算,但在被问及乘客人数时意识到错误。在随后的跟进中,他提供了一个更为现实的估计,即在乘客数为180人的航班上有400万个行李箱类型。克劳德也承认了行李箱受欢迎程度分布不均会产生影响,显示出对问题的细致理解。
- 困惑 (5/10)
困惑最初给出了500种行李箱类型的简单答案。当被问及乘客人数时,它使用175位乘客提供了更详细的计算。然而,它最终得出的仍然只需要500种不同的行李箱设计的结论似乎与其自己的计算和问题的复杂性不一致。
- 微软合作伙伴 (3/10)
副驾驶提供了与困惑的初始回复一样简单的答案,建议有500种不同类型的手提箱。它没有考虑飞行中的乘客数量以及对多个比较进行概率计算的复杂性。当被问及乘客数量时,它变得防御性并且没有改进它的回答。
总体上说,ChatGPT和Claude展示了对问题复杂性的更好理解,并提供了更现实的估计。当受到提示时,Perplexity表现出改进,但仍得出了一个值得质疑的结论。Microsoft Copilot的回应是最不全面的,而且随后的跟进也没有改善。
困惑在自我评价方面较为谦虚,给自己打了5分,比克劳德和ChatGPT都少 - 后者认为自己应得8分,困惑也认同。
克劳德:
根据本文档,让我分析每项人工智能服务如何处理这个概率问题:
- ChatGPT(8/10)
- 立即将这个问题识别为“生日问题”的一个变种。
- 明确的假设(100名乘客,均匀分布)
- 提供完整的数学推理
- 计算出了一个真实的结果(~247 万种手提箱类型)
- 唯一的弱点是稍微低估了典型乘客人数。
2. 克劳德(原我)(5/10)
- 最初只考虑两名乘客,犯了一个基本错误。
- 承认非均匀分布问题
- 需要一个后续问题来纠正这个重大疏忽
- 经过校正,提供了良好的数学推理和一个现实的结果(400万种)。
- 在承认错误时表现出良好的知识诚实。
- 需要提示才考虑多位乘客而失去分数
3. 困惑 (4/10)
- 最初给出了一个过于简化的回答(500种类型)
- 当提示时,尝试进行更复杂的计算。
- 最终结果看起来仍然不切实际(即使有175名乘客,也有500种类型)
- 在后续计算中使用了可疑的逻辑。
- 承认非均匀分布是一个因素
4. 微软Copilot(2/10)
- 给出了可能的最基本答案(500 种类型)
- 当受到挑战时,变得防守而非重新考虑。
- 刻意选择坚持不实际的两名乘客情景
- 没有意识到真正问题的复杂性
- 未考虑不均匀分布
关键的区别在于服务是否意识到这是生日问题的一个变种,需要考虑所有可能的乘客配对。只有ChatGPT立即意识到了这一点,而我(克劳德)需要提示,然后提供了一项扎实的分析。另外两个服务未能领会问题的全部复杂性。
最真实的答案在数百万种行李箱类型中,这与对行李多样性的真实世界观察更加吻合。
克劳德可能是最全面的分析者,提出了一个“关键差异”的概念,即识别出问题是生日问题的变体。它还承认是克劳德——而其他人似乎都没有意识到自己。
最后,您无法将如此大的文件上传到Copilot,所以我无法询问它,也无法给它一个机会为自己辩护。
如下是我对十分制进行评分,与邀请进行评估的三个服务提供的评分进行比较:
总的来说,这些服务本身对他们的评价比我更慷慨 — 不仅仅是在排名上,而且在对他们的竞争对手上也是如此。也许他们说的对,我有点吝啬。
那么,这证明了什么?
嗯,这是一个非常惊人的演示,展示了人工智能已经可以进行复杂推理。并没有表现出明显的胡言乱语。数学常常比我能理解的更加先进(这并不是我在夸耀任何伟大成就)。
鉴于我们仍处于人工智能服务的初期阶段,并且有可能它们的能力将迅速扩展,正如过去一年左右已经发生的那样,人们开始期望计算机比他们更快、更博学和更聪明,这看起来是不可避免的。也许我们是最后一代不会视之为理所当然的人。而这可能带来的影响是......哦,我真希望我足够聪明来了解。