奇妙的贝叶斯公式与大数据生活
  • 来源:科普时报
  • 作者:张远航 向帅
  • 2021-10-13 16:50

在这个计算机日新月异的时代,大数据已经成为人们生活中不可或缺的一部分,它正在改变着人们的生活。大部分人都有过网购的经历:在网上进行购买操作后,同类商品在主页上所占比例也会随之上调。

超级计算机对每个人每天产生的各种信息进行统计分析,向客户提供个性化服务,以期不断完善用户体验。大数据之所以几近完美地解决不算复杂的问题,从而提出更好支持未来的决策,离不开可靠的贝叶斯公式对数据进行修正反馈。大数据的数据收集工作展现了可靠的经典统计学:只要收集足够的样本数据,无需建立复杂模型或是研究数字规律,充分的统计数据自然会为我们揭晓隐藏在数据背后的信息。而在数据处理层面,名为贝叶斯的理论令人信赖地帮助计算机完成一道道难题。

在大多数情况下,经典统计学能够满足我们的基本需求——它简单可靠,依靠庞大的数据与简单的整理,几乎无所不能。那么,在大数据这样一项改变时代的技术中,贝叶斯公式到底如何扮演了一个指挥官的角色,或者说,在以大数据为代表的绝对大量的数据面前,贝叶斯公式的力量真的有那么强大吗?

在璀璨数学银河中,它是一项至少沉寂了两百年的数学统计学公式:在托马斯·贝叶斯提出之后,石沉大海,寂寂无闻。但这是一项十分有意思的理论:当我们不能准确知悉一个事物的本质时,可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。

贝叶斯公式在著名天蝎号核潜艇搜救事件中体现得淋漓尽致。如果抽象地将地球已知的海域看作一块幕布,在横竖等距作线将其划分为相同的正方区域,有序地编号;那么可以肯定的是,失踪的潜艇在某一个编号方块内。科学家们结合当时有限的情报确定某一个可疑范围里最可疑方块,计算它的可疑程度,然后开捞;如果没有打捞成功,那么这片海域其他方块“藏货”概率上升;专家们只需要几次操作,便可找到真正的“藏货”方格,达成目的。这就是贝叶斯公式,它支持对各种结果的概率作出验前估计,进行检验,计算验后概率。人类再根据不确定性信息作出决策。

崭露头角后随之而来的第二波“贝叶斯浪潮”是计算机迭代。贝叶斯公式为数学家提供了新的思考方法,即利用“采样—评估—考察—结果”这一体系替代“尽数收录—得到结果”。

经典统计学遇到了瓶颈,概率推理却如鱼得水。计算机的自然语言处理问题就应用了贝叶斯公式。世界著名的语音识别和自然语言处理专家弗莱德里克·贾里尼克教授,将语音识别问题转化为通信问题,即根据接收到的信号序列推测说话人发出的信号序列——他说的话和话里的意思。听上去是不是很像贝叶斯公式的高级运用,事实也确实如此。同时,贝叶斯公式对现实变化具有高敏感度,因为概率推理的结果投机多变。

时至今日,贝叶斯公式已是诸多领域不可或缺的存在。或许因为我们早已习惯这种思考方式,它早已刻入我们基因;又或许宇宙的旨意,让我们不敢再忘记执果索因的奥妙。

 (作者系华中农业大学名师工作室成员)

责任编辑:毛梦囡
  • TEL:010-58884104
  • E-Mail:kepu@kepu.gov.cn
  • 如果您有任何意见或建议,请联系我们!