在家中不慎打碎了一件古董,开始寻找FeviQuick(一种经典胶水)来修复它。由于它总是被放错地方,开始在所有可能的抽屉和过去三个月未曾触及的家中角落寻找。经过一个小时的搜索后,放弃了,FeviQuick无影无踪。缩小了搜索范围,再次开始寻找,最终在三本书下找到了它!
但这个故事与机器学习模型有何关联?让解释一下是如何思考这个问题的,以及机器学习模型会如何思考。
会列出所有可能的位置(数据)。大脑会自动优先考虑哪些地方需要彻底搜索。这可以被视为为每个地方分配一个概率(先验)。在第一次搜索没有结果后,开始思考所有可能的地方。母亲认为她最后一次看到它是在卧室(新数据)。现在考虑了在卧室找到该物品的可能性(思维)。
在这个思考过程中,大脑为每个地方分配了新的概率(后验)。基本上,概率值不是局限于一个值,而是一个值的范围。这正是贝叶斯概率的范围——不是一个单一的值,而是一个值的分布。
现在对于机器来说。输入包含所有可能找到它的地方的数据。对于模型来说,每个找到物品的地方都是同样可能的,因为机器不知道偏见是什么,也没有先前的训练数据可以参考。
现在机器无法得到任何结果,因此它将每个概率值都设为零。即使教会机器只考虑少数几个地方,它也会给每个地方一个同样可能的概率,这无助于情况。在这里,可以看到概率值被限制在一个单一的值上。如果物品没有找到,机器会将概率值设为零,因为它没有考虑到可能犯错误的概率(所有机器都容易出错)。
机器学习模型没有空间来融入不确定性和概率!
考虑这个问题被应用到一个现实生活的问题中,比如发生了一起绑架案,试图缩小绑匪可能带走人质的可能性范围。
这是可能拥有的先验知识,因此描绘了在给定他在这个区域的情况下找到绑匪的可能性。
作为人类,知道没有地方可以被排除,因为首先,绑匪不必是静止的,他总是有可能隐藏在不知道的地方。因此,根据每个街区存在的建筑类型来做出他可能在哪里的概率。对于那些阴暗和偏远地区的区域,给予了更高的概率,这被称为可能性。
现在,假设从一个人那里得到一个线索,他肯定看到人质从E13街区直走?那么概率将会如下变化:
绑匪可能在哪里的后验概率。
在这里,可以看到概率的对齐发生了变化。E12街区右侧的单元格的绿色阴影增加了。这有时也被称为后验概率。可能性已经乘以一个值E,使得那些区域的后验概率值得到了更新。这个值E被称为证据。
尽管有信息,但它并没有将E12街区之前的街区的概率设为零,因为它考虑到了不确定性。
这个层次结构可以作为一个事件链来应用,一旦有新信息输入,证据就会被更新。前一个情况的后验将成为更新情况的可能性。让给一直在可视化的公式一个公式:
P(A1|B1), P(A2|B2) 是计算出的后验
对于一个机器学习模型,比如逻辑回归,甚至是多层感知器,如果不考虑到贝叶斯类比,就不可能训练这些模型。对于一个机器学习模型,它会分配看起来像这样的值:
每个街区被赋予同样可能的概率。
现在让看看机器学习模型会如何像之前一样对新信息做出反应,即绑匪被看到向E12街区的右侧走去:
这里的模型表示非常少,显示出太多的偏见和对数据的依赖。
可以看到模型变得多么有偏见了吗?它直接将E12街区之前的地方的概率值设为零。这似乎很不方便,因为它没有考虑到提供的信息或数据可能是错误的,因此模型可能已经在错误的方向上寻找,浪费时间。