同线性代数一样,概率论也代表了一种看待世界的方式,其关注的焦点是无处不在的可能性

频率学派

从事件发生的频率认识概率的方法被称为“频率学派”(frequentist probability),“概率”,其实是一个可独立重复的随机实验中单个结果出现频率的极限。在概率的定量计算上,频率学派依赖的基础是古典概率模型。假设所有基本事件的数目为 n,待观察的随机事件 A 中包含的基本事件数目为 k,则古典概率模型下事件概率的计算公式为

$P(A) = \frac{k}{n}$

条件概率是根据已有信息对样本空间进行调整后得到的新的概率分布。假定有两个随机事件 A 和 B,条件概率就是指事件 A 在事件 B 已经发生的条件下发生的概率,用以下公式表示

$P(A B) = \frac{P(AB)}{P(B)}$

上式中$P(AB)$称为联合概率,表示的是 A 和 B 两个事件共同发生的概率。如果联合概率等于两个事件各自概率的乘积,即$P(AB) = P(A)*P(B)$,说明这两个事件的发生互不影响,即两者相互独立。

基于条件概率可以得出全概率公式。全概率公式的作用在于将复杂事件的概率求解转化为在不同情况下发生的简单事件的概率求和,即

$P(A) = \sum_{i=1}^NP(A B_i)*P(B_i)$

$\sum_{i=1}^NP(B_i) = 1$

全概率公式代表了频率学派解决概率问题的思路,即先做出一些假设$P(B_i​)$,再在这些假设下讨论随机事件的概率$P(A∣B_i​)$。

贝叶斯学派

对全概率公式稍作整理,就演化出了求解“逆概率”这一重要问题。所谓“逆概率”解决的是在事件结果已经确定的条件下$P(A)$,推断各种假设发生的可能性$P(B_i​∣A)$。其通用的公式形式被称为贝叶斯公式:

$P(B_i A) = \frac{P(A B_i)*P(B_i)}{\sum_{j=1}^NP(A B_j)*P(B_j)}$

贝叶斯公式可以进一步抽象为贝叶斯定理:

$P(H D) = \frac{P(D H)*P(H)}{P(D)}$

上式中$P(H)$被称为先验概率,即预先设定的假设成立的概率;$P(D∣H)$被称为似然概率,是在假设成立的前提下观测到结果的概率;$P(H∣D)$被称为后验概率,即在观测到结果的前提下假设成立的概率。

贝叶斯定理提供了一种全新的逻辑。它根据观测结果寻找合理的假设,或者说根据观测数据寻找最佳的理论解释,其关注的焦点在于后验概率。概率论的贝叶斯学派正是诞生于这种理念。

应用

频率学派认为假设是客观存在且不会改变的,即存在固定的先验分布,只是作为观察者的我们无从知晓。因而在计算具体事件的概率时,要先确定概率分布的类型和参数,以此为基础进行概率推演。相比之下,贝叶斯学派则认为固定的先验分布是不存在的,参数本身也是随机数。换言之,假设本身取决于观察结果,是不确定并且可以修正的。数据的作用就是对假设做出不断的修正,使观察者对概率的主观认识更加接近客观实际。

概率论是线性代数之外,人工智能的另一个理论基础,多数机器学习模型采用的都是基于概率论的方法。但由于实际任务中可供使用的训练数据有限,因而需要对概率分布的参数进行估计,这也是机器学习的核心任务。

概率的估计有两种方法:最大似然估计法最大后验概率法,两者分别体现出频率学派和贝叶斯学派对概率的理解方式。最大似然估计法的思想是使训练数据出现的概率最大化,依此确定概率分布中的未知参数,估计出的概率分布也就最符合训练数据的分布。最大后验概率法的思想则是根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数取值作为估计值。在估计参数时,最大似然估计法只需要使用训练数据,最大后验概率法除了数据外还需要额外的信息,就是贝叶斯公式中的先验概率。

总结

  • 概率论关注的是生活中的不确定性或可能性
  • 频率学派认为先验分布是固定的,模型参数要靠最大似然估计计算
  • 贝叶斯学派认为先验分布是随机的,模型参数要靠后验概率最大化计算

M


乌托邦

xl

Stay hungry, Stay foolish.