在1960年代,蒙提·霍尔帕林(Monty Hall)主持了一个名为“让做交易”的游戏节目,该节目无疑在多年里赚取了数十亿美元。游戏分为两个阶段——在第一阶段,赢得最大概率是33%,而在第二轮中这个概率增加到66%。想象一下,如果观众知道最佳策略来应对这个问题,主持人将会有66%的时间输掉。
本文不会深入探讨蒙提霍尔问题的推导,因为这是成千上万人研究并发表过的。相反,本文将作为进一步深入探讨同一问题的思考食粮。
如果增加一扇门(总共四扇门),并打开其中的两扇,这肯定会使观众相信他们获胜的机会进一步增加,使节目更加有趣。但如果观众持续采取最佳策略,主持人会输掉超过66%的时间吗?如果不是,可能导演应该在节目中增加一扇门,使其更有趣,使交易时间更长,即使面对最佳策略,输掉的次数也更少。
假设在一个游戏节目中,有三扇门可供选择:一扇门后面是一辆汽车(比如说法拉利);其他两扇门后面是山羊。选择了一扇门,比如说1号门,主持人知道每扇门后面是什么,他打开了另一扇门,比如说3号门,里面有一只山羊。然后他对说,“想选择2号门吗?”换门是否对有利?
// 事件定义
A: 1号门有车
B: 2号门有车
C: 3号门有车
Co: 主持人打开3号门并显示一只山羊
// 概率计算
P(Co/C) = 0 // 主持人永远不会展示有车的门
P(Co/A) = 0.5 // 参赛者选择了有车的门,主持人可以展示1号或2号门中的任意一个
P(Co/B) = 1 // 主持人别无选择,只能打开3号门
P(A) = P(B) = P(C) = 1/3 // 所有事件都是等可能的
// 使用贝叶斯定理
P(Co) = 1/3 * (0 + 0.5 + 1) = 0.5
P(A/Co) = (0.5 * 1/3) / 0.5 = 1/3 = 33.34%
P(B/Co) = (1 * 1/3) / 0.5 = 2/3 = 66.67%
因此,参赛者应该换门,将获胜的机会从33.34%提高到66.67%。但请注意,如果参赛者采取最佳策略,主持人将会输掉66.67%的时间。
有四扇门可供选择:一扇门后面是一辆汽车;其他门后面是山羊。选择了一扇门,比如说1号门,主持人知道每扇门后面是什么,他打开了另一扇门,比如说2号门,里面有一只山羊。然后他对说,“想选择3号门还是4号门?”最佳策略是什么?
// 事件定义
A: A号门有车
B: B号门有车
C: C号门有车
D: D号门有车
Bo: 主持人打开B号门并显示一只山羊
// 概率计算
P(Bo/C) = P(Bo/D) = 1/2 // 主持人可以展示任何一扇没有车的门
P(Bo/A) = 1/3 // 参赛者选择了有车的门,主持人可以展示1号、2号或3号门中的任意一个
P(Bo/B) = 0 // 主持人不能展示有车的门
P(A) = P(B) = P(C) = P(D) = 1/4 // 所有事件都是等可能的
// 使用贝叶斯定理
P(Bo) = 1/4 * (0 + 0.5 + 0.5 + 0.333) = 1/3
P(A/Bo) = P(Bo/A) * P(A) / P(Bo) = (1/3 * 1/4) / (1/3) = 1/4 = 25%
P(C/Bo) = P(D/Bo) = 1/2(1-1/4) = 3/8 = 37.5% // 通过对称性,这两个概率将相等
因此,最佳策略是转向C号门或D号门。
主持人进一步打开D号门并再次展示一只山羊。再次被问及是否想从C号门换回A号门,或者选择留在C号门。
// 事件定义
Do: 主持人打开D号门并展示一只山羊
P(Do/A/Bo) = 在B已经打开且A有车的情况下,主持人打开D的概率
= 1 // 主持人别无选择
P(Do/C/Bo) = 0.5 // 主持人可以在A和D之间选择
P(Do/D/Bo) = 0
P(Do/Bo) = P(Do/A/Bo) * P(A/Bo) + P(Do/C/Bo) * P(C/Bo) = 1 * 1/4 + 3/8 * 1/2 = 7/16
P(C/Do/Bo) = (3/16) / (7/16) = 3/7 = 42.8%
P(A/Do/Bo) = 57.2%
再次,看到如果从C号门换到A号门,获胜的机会将显著增加。注意,还没有探索主持人打开A号门的最佳策略。如果在这种修改后的场景中进行类似的计算,将看到如果转向D号门,最佳策略存在。在这种情况下获胜的机会变为66.67%。
将这两种场景与原始的蒙提霍尔问题进行比较,发现主持人在四扇门场景中输掉的最大概率等于三扇门场景。让考虑一下主持人被迫打开A号门(这是一个亏损提议)的场景。主持人只有在参与者最初选择A号门时才会被迫打开A号门。
P(anchor losing in 4 door-2 open) = 0.25 * 66.67% + 0.75 * 57.2% = 59.6% P(anchor losing in 3 door-1 open) = 66.67%
请注意,留下了一个场景,即参与者坚持他最初的门在第一个场景中。这次获胜的概率将比以前更高,但不会触及这个案例。这是因为这个案例假设候选人已经知道主持人将在参与者选择留在他的第一个选择后打开第二扇门。在原始的蒙提霍尔问题中,参与者并不基于主持人将打开其他两扇门之一的知识做出选择。想象一下选择了A号门,主持人向展示了B号门后面的山羊。现在主持人问要不要换,选择留在A号门。下一刻,主持人说“看来真的喜欢A号门,那么让看看A号门后面是什么。”在这种情况下,显然只有25%的获胜概率。