为什么机场没有更多相同的包？我问AI解释。

这是一个小实验，用来比较人工智能服务。

我问了四个人工智能提供商同一个棘手问题。这不仅需要计算，还需要基于对世界的假设进行一些智能估计。这个问题据说是在谷歌面试时经常被问到的，比如“美国有多少个窗户？”。

这个灵感源于在机场传送带周围等待我的箱子。

如果两个等待航班行李的乘客发现他们在500次航班中只有1次拿错了同样的行李箱，市场上需要多少种不同的行李箱或其他包？

以下是四个AI答案：

ChatGPT ChatGPT

这是四项测试中唯一的付费服务。这些答案来自它的每月$20的订阅服务，使用GPT-4o。你也可以免费访问ChatGPT。

为了计算需要多少种不同类型的手提箱（或设计）才能实现两名乘客在飞行中有相同手提箱的概率为1/500，我们可以使用一个简化版本的生日问题方法。在这里，我们对一组乘客中至少两人拥有相同手提箱的概率感兴趣。

假设：

概率是：500分之1，或0.002。
乘客托运行李的平均数量：让我们假设每个航班大约有100名乘客，这是典型商业航班的合理平均数。
统一分配：每个行李设计被任何乘客选择的概率相等，简化了概率计算。

我已经截取了接下来的内容的屏幕截图，因为下面的许多公式无法复制和粘贴。

要在大约100名乘客的航班上只有1/500的几率两名乘客拥有相同的手提箱，大约需要大约247万种不同的手提箱设计在流通中。这么高的数字反映了typical airport scenario中需要的各种各样的多样性，以使得完全匹配变得罕见。

我的反应：

在这里有一个合适的方法论，其中说明了假设。但是AI所做出的两个假设是可疑的（就像我的“500分之1”可能也是一样）。即使像瑞安航空这样的短途航空公司也有容纳180至220名乘客的能力，所以100名乘客拿取行李的数量似乎是一个较低的估计。并非所有的行李设计都有同等的可能性 - 尽管AI意识到这一点并承认为了简化计算而做出了这个假设。最终的数字——2,470,000个“独特的行李设计”——似乎很高，尽管这一反应纯粹是基于我的“直觉”！

总体评分: 6/10

2. 困惑

保留HTML结构，将以下英文文本翻译成简体中文： (问同一个问题)

为了回答这个问题，我们需要考虑两名乘客拥有相同行李箱设计的概率。如果两名乘客拥有相同行李箱的概率是500次飞行中的1次，则我们可以确定需要多少种不同的行李箱设计来实现这个概率。让我们来分解一下：

两名乘客拥有相同行李箱的概率是1/500。
这个概率等同于1/N，其中N是可用的不同手提箱设计数量。
因此，我们可以设立方程式：1/N = 1/500.

解决这个方程，我们发现 N = 500。这意味着市场上需要有500种不同类型的手提箱或包才能实现两名乘客在500次航班中只有一次携带相同的手提箱的概率。

这是一个简化的模型，假设旅行者之间的所有行李箱设计是均等分布的。实际情况中，某些设计可能比其他设计更受欢迎，这可能会影响实际的概率。然而，为了进行这个计算，需要500种不同的设计来满足指定的概率。

我的反应：

这个计算就是说“如果我想从一组不同数字中随机选出一个特定的数字，我需要从中选取多少个数字才能成功一次在500次中，答案是500。” 这并没有回答关于手提箱数量的问题：它只是重申了我的问题。但我将额外给一个分数，因为意识到手提箱类型的不均匀分布会改变结果。

总分：3/10

3. 微软 Copilot

保持HTML结构，将以下英文文本翻译成简体中文：（询问相同的问题）

副驾驶提出的几乎与困惑一样含糊其辞。

好的，让我们来解释一下。如果两名乘客拥有相同行李箱的概率是500分之1，那意味着发生这种情况的概率是1/500。

使用一些概率数学：1/500 = 0.002

现在，如果每个乘客都从一组可能性中挑选一个手提箱，那么独特手提箱的数量应该足够高以保持这种概率。为简单起见，我们可以假设每种手提箱都同样受欢迎，并计算需要有多少不同种类的手提箱。

如果我们假设每个人独立选择自己的手提箱，那么他们最终拿到相同手提箱的概率是1除以手提箱的种类数（我们称之为N）：

1/N = 1/500 N = 500 1/N = 1/500 N = 500

因此，市场上需要有500种不同款式的手提箱来维持这种概率。

这有很多种选择，但不过，你觉得你永远不可能有太多选择，是吧？

嗯，我不确定这真的足够多样化！但是AI意识到通过假设所有种类的情况同样受欢迎来简化结果，所以我将不得不给予与困惑相同的评分。

总体评分：3/10

4. 克劳德

保持html结构，将以下英文文本翻译成简体中文： (问同一个问题)

让我一步一步解决这个概率问题。

首先，让我们定义我们正在寻找的内容：
假设n = 可用的不同行李箱类型数量
任意两名乘客之间匹配的概率=1/500
对于任何两位乘客：
第一位乘客拥有任何特定行李箱的概率是1/n。
第二个乘客有相同行李箱的概率也是1/n。
因此，匹配的概率是1/n × 1 = 1/n
我们被告知这个概率是1/500，所以：1/n = 1/500
因此：n = 500

其实，我这个假设过于简单了。这假设每种箱子类型被选择的可能性都是相等的。实际上：

如果p₁，p₂等是每种类型被选择的概率：
匹配的概率= ∑（p₁²+ p₂²+ … + pₙ²）
这个总和等于1/500.
由于有些手提箱类型比其他类型更受欢迎，我们需要500多种类型才能达到与匹配的低概率相同。
例如，如果有些类型的市场份额为5%，而其他类型为0.1%:
我们可能需要1000多种不同类型才能达到1/500的匹配概率.

因此，至少需要有500种类型，考虑到市场份额分布不均可能会超过1000种。

我的反应：

答案的第一部分与Perplexity和Copilot的非答案相同，尽管我不确定推理是否正确： “所以匹配的概率是1/n × 1 = 1/n” 是什么意思？

但是AI随后想到，正确地假设并非所有设计都同样受欢迎。我并没有理解这个新方程式，似乎AI也没有得出具体的结论，只是得出“我们可能需要1000多种不同类型”的结论。

但我会给它一些分数，因为它更加深刻地理解了问题，尽管没有完全找到答案。

总体评分：5/10

然后，我继续追问Claude、Copilot和Perplexity三人他们回答遗漏的部分，即聊天GPT正确考虑到的乘客人数问题：

在您的计算中，您假设飞机上有多少名乘客？

克劳德在回答中非常谦虚。

啊 - 我犯了一个严重错误！你是对的。我只考虑了两个乘客，但在一次真实的飞行中有更多的乘客，这大大增加了匹配的机会。

因此，我们需要大约4百万种不同的行李箱类型，才能在一架载有180名乘客的航班上只有1/500的概率匹配，假设分布均匀。如果分布不均匀（某些类型更受欢迎），我们将需要更多。

这比我之前的回答要现实得多，考虑到我们在行李中看到的实际种类！

所以Claude在第二个提示之后找到了“生日问题”公式——ChatGPT立刻找到了。它对乘客人数做出了比ChatGPT更为现实的假设，并计算出了更多的行李箱种类——400万。考虑到它假设了180名乘客而不是ChatGPT的100名，这两个数字之间的差异——400万和ChatGPT的大约250万——可能归结于：人群更大，你需要更多不同种类的行李箱来保持每500次飞行中只有一对的搭配。

Claude没有考虑行李箱类型的不均匀分布，但他将其作为一个问题指出，并正确指出这意味着需要更多类型的箱子才能保持在500个中的一个。

总体评分: 高卢的最终得分为6/10 (如果不需要答错第二个问题的话，得分会更高)

然后我问了疑惑同样的问题:

在你的计算中，你假设有多少乘客在飞机上？

它同样是懊悔的，稍微有些狡猾。（并不是说它没有“明确说明”乘客数量：它只是根本没考虑过这个问题）

抱歉在我之前的回答中没有明确说明乘客数量。让我们澄清这个重要细节。根据提供的搜索结果，我们可以看出商业航班上的平均乘客数量是被计算出来的：

我不知道这些Python行代表什么 - 这只是当您询问谷歌关于航班平均乘客人数时发生的幕后情况吗？困惑继续：

修订计算

现在，让我们重新计算所需的不同行李箱设计数量，考虑到乘客人数：

两个特定乘客拥有相同行李箱的概率为1/500。
有175名乘客，我们需要考虑可能的乘客配对数。
可能组合对的数量由组合公式给出：(175选2) = 175 * 174 / 2 = 15,225。
至少有一对乘客拥有相同的箱子设计的概率大约为：1 - (1-1/500)¹⁵²²⁵ ≈ 0.35
这意味着在500种不同的行李箱设计中，在任何一次飞行中至少有一对乘客拥有相同的行李箱的几率约为35％。

调整后的行李箱设计数量

为了将这种可能性降低到1/500（0.002或0.2%），我们需要增加手提箱设计的数量。精确计算很复杂，但我们可以近似计算：500 / 175 ≈ 2.86

这意味着我们需要大约2.86倍的行李箱设计数量才能达到期望的概率。因此，为了确保仅有1/500的机会两名乘客拥有相同的行李箱设计，我们大约需要：175 * 2.86 ≈ 500 种不同的行李箱设计。这与我们最初的答案一致，但现在我们清楚地了解了假设乘客数量如何影响计算。

我的数学水平还达不到跟随概率计算，但我对结果仍然只有500种不同的手提箱设计感到怀疑。它声称“我们大约需要比乘客多2.86倍的手提箱设计才能实现所需的概率”。假设有10名乘客，那么你肯定需要超过30种手提箱设计，才能阻止十名乘客中有两人更频繁地拥有相同的包，超过500次中有1次？（当然，在现实世界中，某些设计比其他设计更受欢迎，那么你需要更多手提箱设计。）

最后，Copilot在聪明的回应中显得防御和有点傲慢。

我假设有两位乘客比较他们的行李。实际上，一架飞机通常搭载更多人，对吧？因此，调整为更多乘客会使计算更加复杂，但现在，为了保持清晰和简单，我们只看有两名乘客的飞机。现实当然为方程式增加了更多层次。

现在批改你自己的家庭作业

然后，我要求这四家服务按照我上面写的内容对自己和对方进行排名：

我一直在比较您在附件文档中的答案与其他人工智能服务的答案。请总结结果并对服务的答案进行排名。请根据他们的表现为每项服务自行打分，而不是使用我的评估。

ChatGPT 赞同我的观点，认为这是最好的。

以下是我根据每个人工智能服务在深度、准确性和适应性方面的表现给出的打分，满分为十分：

1. ChatGPT - 8/10 (ChatGPT - 8/10)

优点：ChatGPT从一开始就提供了一个结构良好的答案，采用生日问题的方法来得出一个合理的估计。它清晰地概述了假设，并识别出潜在的限制，比如统一的箱包受欢迎程度，表明它理解现实世界因素如何可能改变结果。
限制：假设100名乘客的假设可以进行调整，以更好地适应典型的商业航班，特别是对于高容量的航空公司。
总体而言: ChatGPT的答案很全面，用逻辑方法解决了计算和上下文因素，可以通过微小的调整进行改进。

2. 克劳德—7/10

优点：尽管克劳德一开始采用简化的方法，但在被提示后迅速调整，承认需要包括一个真实的乘客计数。这导致了更准确的估计（400万设计），与现实世界的动态很好地保持一致。它还指出了行李箱类型的非均匀分布，这是很有见解的。
限制：克劳德的初始反应较为简单，类似于一种简化的方法，但随后的跟进将其显著改善。
总体而言，克劳德对反馈的适应能力和在提示后做出的现实调整是其优势，尽管更精致的初始回应会得到更高的评分。

3. 困惑 - 4/10