概率的数学基础
测量理论介绍这里有抽象来隐藏无关紧要的东西,而只关注重要的细节。 尽管有时看起来有些可怕,但这是管理复杂性的最佳工具。
如果您要求n位数学家定义有关数学的内容,则可能会得到2n个不同的答案。 我的定义是,它是将事物抽象化直到只剩下核心的科学,为推理任何事物提供了最终的框架。
您是否考虑过真正的概率是多少? 您肯定已经使用它来进行数据推理,进行统计分析,甚至构建算法来通过统计学习为您进行推理。 在这篇文章中,我们将深入兔子洞并用放大镜探索概率论。
先决条件要继续学习,您不需要任何高级数学,我专注于从头开始解释所有内容。 但是,如果您了解以下内容,将是有益的:
· 设置和设置诸如并集,交集和差的操作。
· 极限和一些基本的演算。
设置和度量概率可以通过启发式方式考虑为一个函数,用于衡量事件发生的可能性。 从数学上来说,目前尚不清楚什么是事件和措施。 在我们正确讨论概率之前,我们需要首先建立坚实的基础。 因此,让我们从事件开始。
大事记"我用这个骰子掷奇数的概率是多少?"
作为一个简单的问题,我们在谈论概率时会想到一个例子。 在这个简单的问题中,事件正在滚动一个奇数。 为了对此进行数学建模,我们使用集合。 "宇宙",即包含该实验结果的基础集,简单地是Ω= {1,2,3,4,5,6},一个事件是Ω的子集。 在此,滚动奇数对应于子集A = {1、3、6}。
因此,要定义概率,您需要一个基础集合Ω及其子集Σ的集合,我们将其称为事件。 但是,Σ不能只是子集的任何集合。 必须满足三个条件。
· Ω是一个事件。
· 如果X是一个事件,那么它的补码Ω X也是一个事件。 也就是说,一个没有发生的事件也是另一个事件。
· 事件的联合就是事件。 也就是说,(事件或另一个事件)也是一个事件。 换句话说,Σ对联合是封闭的。
如果满足这些条件,则Σ称为σ代数。 用适当的数学术语:
就我们而言,
当Ω是实数集时,会出现一个更有趣的情况。 稍后我们将看到,如果所有实数子集都被视为事件,那么可能会发生非常奇怪的事情。
描述σ代数我们用σ代数定义的这些事件空间很难描述。 可以立即看到,为了在非平凡的基本集Ω上拥有有意义的事件空间,我们应该有无限数量的事件。 例如,我们在板上射击子弹,并希望计算击中某个区域的概率。 在这些情况下,指定一些子集并采用包含这些子集的最小σ代数就足够了。
假设我们要在一块矩形板上射击。 如果我们说事件空间是包含棋盘所有矩形子集的最小σ代数,那么我们
· 对σ代数有一个非常简单的描述,
· 由于σ代数在并集下闭合,因此将具有各种形状。
如下所示,很多集合可以描述为矩形的无穷大并集。
> Irregular shape as the union or infinite rectangles.
我们将板内部的矩形集称为生成集,而将最小的σ代数称为生成的σ代数。
您可以将这一生成过程视为采用生成集中的所有元素,并以所有可能的方式采用并集和补码。
现在我们有了一个处理事件的数学框架,我们将把注意力转移到测量上。
措施尽管直观地测量某些东西很清楚,但是要正确形式化这是一件非常困难的事情。 度量基本上是将集合映射到数字的函数。 考虑一个简单的例子,测量三维物体的体积似乎很简单,但是即使在这里,我们仍然存在严重的问题。 您能想到无法测量面积的空间中的物体吗?
可能您不能马上这样做,但事实并非如此。 可以证明,如果空间的每个子集都有明确定义的体积,则可以采用一个单位体积的球体,将其切成几块,然后将两个单位体积的球体放在一起。
> The Banach-Tarski paradox. Source: Wikipedia
这称为Banach-Tarski悖论。 由于您实际上无法做到这一点,因此您无法测量空间中每个子集的体积。
但是在这种情况下,到底有什么措施? 实际上,我们只有三个要求:一项措施应始终是积极的; 空集的度量应为零; 如果对不相交集的度量求和,就可以得到它们的并集度量。
为了正确定义它们,我们需要一个基本集Ω和一个子集的Σσ代数。 功能
是一个措施,如果
特性3.称为σ可加性。 如果我们只有有限数量的集合,则将其简称为度量的可加性。
这个定义只是体积测量的抽象。 看起来很奇怪,但这三个属性很重要。 其他一切都来自他们。 例如,我们有
这是因为A B和B不相交,并且它们的并集是A。
> Set differences.
另一个重要特性是措施的连续性。 这说
该属性与实值函数的连续性定义类似,因此命名并非偶然。
描述措施正如我们对于σ代数所看到的,您只需要给出一个生成集,而不是一个完整的σ代数。 这对于我们在使用度量时非常有用。 尽管度量是在σ代数上定义的,但在生成子集上定义它们就足够了,因为由于σ可加性,它决定了σ代数的每个元素上的度量。 这是从
概率的定义现在,一切都设置为以数学方式定义概率。
元组定义概率空间
其中Ω是基集,Σ是其子集的σ代数,P是使得
因此,概率与面积和体积之类的数量密切相关。 面积,数量和概率都是它们各自空间中的度量。 但是,这是一个非常抽象的概念,因此我们举几个例子。
投币最简单的概率空间由抛硬币事件来描述。 假设我们以0开头和1结尾的代码
由于σ代数和度量的性质,您只需要定义事件{0}(头)和事件{1}(尾)的概率,这完全确定了概率度量。
随机数一个更有趣的示例与随机数生成有关。 如果您熟悉Python,则可能使用过random.random()函数,该函数为您提供0到1之间的随机数。尽管这看起来很神秘,但是用概率空间来描述它非常简单。
再次注意,足以给出生成集元素的概率。 例如,我们有
要看一个更复杂的示例,P({0.5})是什么? 我们如何计算选择0.5的概率? (或零到一之间的任何其他数字。)为此,我们需要依赖度量的属性。 我们有
对于所有ε> 0都成立。这里,我们使用了概率测度的可加性。 因此,
同样,因为它对所有ε> 0都成立。这意味着该概率小于任何正实数,因此它必须为零。
任何0≤x≤1都遵循类似的论点。令人惊讶的是,选择特定数字的概率为零。 因此,在您生成随机数并观察了结果之后,便知道它的发生概率恰好为0。 但是,结果仍然摆在您面前。
零概率事件可能发生。
分布和密度我们走了很长一段路。 从实际的角度来看,使用度量和σ代数仍然不是很方便。 幸运的是,这不是处理概率的唯一方法。
为了简单起见,假设我们的基本集是实数集。 具体来说,我们有概率空间(Ω,Σ,P),其中
P是该空间上的任何概率测度。 之前我们已经看到,事件的概率(a,b]决定了事件空间中其余事件的概率。但是,我们可以进一步压缩该信息。实际上,函数
包含我们必须了解的有关概率测度的所有信息。 考虑一下:我们有
对于所有a和b。 这称为P的分布函数。对于所有概率测度,分布函数都满足以下属性:
(第4个称为左连续性。如果您不熟悉连续性的定义,请不要强调,它现在不是必需的。)
同样,如果这太抽象了,我们来看一个例子。 对于前面的随机数生成示例,我们有
这称为[0,1]上的均匀分布。
总而言之,如果您给我一个概率测度,我将给您一个描述概率测度的分布函数。 但是,这不是最佳的分配功能。 从数学的角度来看,如果您给出的函数满足上面的属性1)–4),那么我也可以从中构造出概率度量。 此外,如果两个分布函数在各处均相等,则它们相应的概率测度也相同。 因此,从数学角度来看,分布函数和概率测度在某些情况下是相同的。 这对我们来说非常有用。
密度函数如我们所见,分布函数从概率测度中获取所有信息,并从本质上对其进行压缩。 这是一个很棒的工具,但有时并不方便。 例如,当我们只有分布函数时,很难计算期望值。 (如果您不知道期望值,请放心,我们现在不会使用它。)
对于许多实际目的,我们用密度函数描述概率测度。 功能
是概率度量P的密度函数,如果
满足σ代数Σ中的所有E。 也就是说,启发式地,给定集合的概率由f(x)曲线下的面积确定。 这个定义似乎很简单,但是这里隐藏了许多细节,我将不再赘述。 例如,如何在任意集合E上集成函数并不是一件容易的事。
您可能对微积分中著名的牛顿-莱布尼兹规则很熟悉。 在这里,这说
这基本上意味着,如果分布函数是可微的,则其导数就是密度函数。
在某些概率分布中,只有密度函数为封闭形式,这是已知的。 (具有封闭形式意味着可以用有限数量的标准运算和基本函数表示它。)最著名的分布之一是这样的:高斯分布。 它的定义是
其中,μ和σ是参数。
> Probability density function of the Gaussian distribution. Source: Wikipedia
> Probability distribution function of the Gaussian distribution. Source: Wikipedia
无论看起来多么令人惊讶,我们都无法用封闭形式表示高斯分布函数。 这不是数学家们还没有弄清楚,而是证明这是不可能的。 (相信我,有时很难证明数学上不可能做的事情。)
然后去哪儿?到目前为止,我们所看到的只是冰山一角。 (想一想,这可以在每次数学讨论的结尾说出来。)在这里,我们仅以数学(半)精确的方式定义了什么是概率。
像机器学习这样真正有趣的东西仍然摆在我们面前。
(本文翻译自Tivadar Danka的文章《The mathematical foundations of probability》,参考:)