深度学习的数学基石：概率统计与信息论

引言

在深度学习的世界里，概率统计与信息论构成了另一条“数学基石”。它们不仅指导我们如何在不确定环境中学习模型参数，还提供了评估模型信息量、衡量分布差异、设计优化目标的理论工具。本篇将深入探讨概率分布、极大似然估计与贝叶斯方法、信息熵与交叉熵、KL 散度与变分推断、互信息与信息瓶颈等核心概念，并结合深度学习典型场景（分类损失函数、生成模型、正则化、自监督学习等）进行细致剖析。

概率分布与随机变量

我们首先复习几个最基本的概率概念。给定随机变量 X X X，若它可以取离散值，则由概率质量函数（PMF） p ( x ) = Pr ⁡ [ X = x ] p(x)=Pr[X=x] p(x)=Pr[X=x] 描述其分布；若为连续变量，则由概率密度函数（PDF） p ( x ) p(x) p(x) 描述，满足 ∫ p ( x ) d x = 1 int p(x),mathrm{d}x=1 ∫p(x)dx=1。
常见分布：
· 离散分布：伯努利分布、二项分布、泊松分布；
· 连续分布：高斯（正态）分布、指数分布、均匀分布。
例如，一维高斯分布写作

p ( x ; μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) . p(x;mu,sigma^2)=frac{1}{sqrt{2pisigma^2}}expBigl(- frac{(x-mu)^2}{2sigma^2}Bigr). p(x;μ,σ2)=2πσ2
1exp(−2σ2(x−μ)2).

在深度学习中，高斯分布常用来假设观测噪声（回归任务）或对隐变量编码。

极大似然估计（MLE）

设我们的模型 p ( x ; θ ) p(x; heta) p(x;θ) 带参数 θ heta θ，给定独立同分布样本集 { x i } i = 1 N {x_i}_{i=1}^N {
xi}i=1N，MLE 通过最大化样本联合概率来估计 θ heta θ：

θ ^ M L E = arg ⁡ max ⁡ θ L ( θ ) = arg ⁡ max ⁡ θ ∏ i = 1 N p ( x i ; θ ) = arg ⁡ max ⁡ θ ∑ i = 1 N log ⁡ p ( x i ; θ ) . hat heta_{mathrm{MLE}}=argmax_ heta;L( heta) ;=argmax_ heta;prod_{i=1}^N p(x_i; heta) ;=argmax_ heta;sum_{i=1}^N log p(x_i; heta). θ^MLE=argθmaxL(θ)=argθmaxi=1∏Np(xi;θ)=argθmaxi=1∑Nlogp(xi;θ).

以简单的一维高斯为例，极大似然解有解析形式：

μ ^ = 1 N ∑ i x i , σ ^ 2 = 1 N ∑ i ( x i − μ ^ ) 2 . hatmu=frac1Nsum_i x_i,quad hatsigma^2=frac1Nsum_i (x_i-hatmu)^2. μ^=N1i∑xi,σ^2=N1i∑(xi−μ^)2.

在深度学习中，“交叉熵损失”即是 MLE 的负对数形式。分类网络最后一层通常输出对数几率 log ⁡ p ( y ∣ x ; θ ) log p(y|x; heta) logp(y∣x;θ)，我们最小化

L ( θ ) = − 1 N ∑ i = 1 N log ⁡ p ( y i ∣ x i ; θ ) , mathcal{L}( heta)=-frac1Nsum_{i=1}^N log p(y_i|x_i; heta), L(θ)=−N1i=1∑Nlogp(yi∣xi;θ),

与极大似然等价。

贝叶斯方法与后验分布

MLE 只关注点估计，而贝叶斯方法引入先验分布 p ( θ ) p( heta) p(θ)，通过贝叶斯公式得到后验：

p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) p ( X ) = ∏ i p ( x i ; θ ) p ( θ ) ∫ ∏ i p ( x i ; θ ) p ( θ ) d θ . p( hetamid X) =frac{p(Xmid heta),p( heta)}{p(X)} =frac{prod_i p(x_i; heta),p( heta)}{int prod_i p(x_i; heta),p( heta),mathrm{d} heta}. p(θ∣X)=p(X)p(X∣θ)p(θ)=∫∏ip(xi;θ)p(θ)dθ∏ip(xi;θ)p(θ).

后验分布不仅给出参数最有可能取值区域，也反映了不确定性。对于小规模模型，我们可以通过解析或 Markov Chain Monte Carlo（MCMC）方法采样；对于大规模深度网络，通常借助变分推断或贝叶斯神经网络（BNN）等近似方法。

期望最大化（EM）算法

当模型含有隐变量（如高斯混合模型、隐马尔可夫模型、变分自编码器），MLE 无法直接优化完整数据对数似然，此时 EM 算法通过交替执行：
E 步：固定参数，计算隐变量的后验期望；
M 步：固定期望，最大化参数的期望对数似然。
变分自编码器（VAE）即将 EM 思路与变分推断结合，设计后验近似分布 q ( z ∣ x ) q(z|x) q(z∣x)，并最大化证据下界（ELBO）。

信息熵与自信息

信息论由香农提出，其中核心量为信息熵（Entropy）：
离散随机变量 X X X 的熵定义为

H ( X ) = − ∑ x p ( x ) log ⁡ p ( x ) . H(X) = -sum_x p(x),log p(x). H(X)=−x∑p(x)logp(x).

它度量了分布的不确定性：均匀分布熵最大，确定性分布熵为零。自信息（Self‑Information） I ( x ) = − log ⁡ p ( x ) I(x)=-log p(x) I(x)=−logp(x) 表示一次事件带来的信息量。
在深度学习中，熵用于评估分类器输出分布的置信度，也用于蒸馏学习中评价教师–学生分布差异。

交叉熵与损失函数

给定真实分布 p p p 与预测分布 q q q，交叉熵定义为

H ( p , q ) = − ∑ x p ( x ) log ⁡ q ( x ) . H(p,q) = -sum_x p(x),log q(x). H(p,q)=−x∑p(x)logq(x).

它与熵的关系： H ( p , q ) = H ( p ) + D K L ( p ∥ q ) H(p,q)=H(p)+D_{mathrm{KL}}(p|q) H(p,q)=H(p)+DKL(p∥q)。分类任务中我们通常用 one‑hot 编码的 p p p 和模型输出 q q q，最小化交叉熵即相当于最小化 KL 散度。
示例：二分类时交叉熵损失

L = − [ y log ⁡ y ^ + ( 1 − y ) log ⁡ ( 1 − y ^ ) ] . mathcal{L} = -igl[yloghat y + (1-y)log(1-hat y)igr]. L=−[ylogy^+(1−y)log(1−y^)].

KL 散度与变分推断

KL 散度衡量两个分布差异：

D K L ( p ∥ q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x ) , D_{mathrm{KL}}(p|q) = sum_x p(x),logfrac{p(x)}{q(x)}, DKL(p∥q)=x∑p(x)logq(x)p(x),

或连续形态 ∫ p ( x ) log ⁡ p ( x ) q ( x ) d x int p(x)logfrac{p(x)}{q(x)},mathrm{d}x ∫p(x)logq(x)p(x)dx。它不对称， D K L ( p ∥ q ) ≥ 0 D_{mathrm{KL}}(p|q)ge0 DKL(p∥q)≥0。
在变分推断中，我们选取可计算的近似分布族 q ( z ) q(z) q(z)，通过最小化 D K L ( q ( z ) ∥ p ( z ∣ x ) ) D_{mathrm{KL}}(q(z)|p(zmid x)) DKL(q(z)∥p(z∣x)) 来逼近真实后验。VAE 的 ELBO 可写为：

L E L B O = E q ( z ∣ x ) [ log ⁡ p ( x ∣ z ) ] − D K L ( q ( z ∣ x ) ∥ p ( z ) ) . mathcal{L}_{mathrm{ELBO}} = mathbb{E}_{q(z|x)}[log p(x|z)] – D_{mathrm{KL}}(q(z|x)|p(z)). LELBO=Eq(z∣x)[logp(x∣z)]−DKL(q(z∣x)∥p(z)).

该目标既包含了重构误差，又包含了先验正则项。

互信息与信息瓶颈

互信息度量两个随机变量共享的信息量：

I ( X ; Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) . I(X;Y)=sum_{x,y}p(x,y)logfrac{p(x,y)}{p(x)p(y)}. I(X;Y)=x,y∑p(x,y)logp(x)p(y)p(x,y).

它在自监督学习、对比学习中得到重要应用。如 InfoNCE 损失通过下界估计 I I I 值，驱动编码器学习区分正负样本对。信息瓶颈（Information Bottleneck）框架则通过最小化

L = I ( X ; Z ) − β I ( Z ; Y ) mathcal{L} = I(X;Z) – eta,I(Z;Y) L=I(X;Z)−βI(Z;Y)

在压缩输入表示的同时保留对标签的预测信息，从而提供对深度网络泛化能力的解释。

自监督与对比学习的概率视角

自监督方法常设计“预文本”、“预图像”任务，将未标注数据转化为监督信号。对比学习（Contrastive Learning）进一步通过最大化正样本对（同一对象不同视图）的相似度、最小化负样本对的相似度，近似最大化下式的下界：

L I n f o N C E = − E [ log ⁡ exp ⁡ ( f ( x ) ⋅ f ( x + ) / τ ) ∑ x − exp ⁡ ( f ( x ) ⋅ f ( x − ) / τ ) ] . mathcal{L}_{mathrm{InfoNCE}} =-mathbb{E}Bigl[logfrac{exp(f(x)cdot f(x^+)/ au)}{sum_{x^-}exp(f(x)cdot f(x^-)/ au)}Bigr]. LInfoNCE=−E[log∑x−exp(f(x)⋅f(x−)/τ)exp(f(x)⋅f(x+)/τ)].

该目标实为交叉熵形式，对比学习背后的概率学与信息论解释帮助我们理解“为何这种预训练任务能提升下游性能”。

熵正则化与泛化

在强化学习中，策略梯度方法常加入熵正则项

L = − E [ log ⁡ π ( a ∣ s ) ] − α H ( π ( ⋅ ∣ s ) ) mathcal{L} = -mathbb{E}[logpi(a|s)] – alpha,H(pi(cdot|s)) L=−E[logπ(a∣s)]−αH(π(⋅∣s))

鼓励策略保持探索性。类似地，分类网络也可对输出分布加熵正则，防止过度自信，从而提升泛化。

小结与实践建议

概率统计与信息论为深度学习提供了从数据分布到模型训练、从损失设计到自监督学习、从正则化到生成建模等全方位的数学视角。建议读者在实践中：

用真实或合成数据验证 MLE 与贝叶斯估计的差异，并可视化后验分布；
在分类网络中分别使用交叉熵与 KL 散度正则，观察对训练曲线与泛化的影响；
手写 VAE 的 ELBO 优化流程，理解多项式分布、正态分布下的重参数化技巧；
在对比学习实验中，调节温度系数 τ au τ，并用互信息下界估计方法衡量不同超参数对表征质量的影响；
在强化学习策略网络输出中添加熵正则，比较不同权重 α alpha α 下的训练稳定性与收敛速度。

本文涵盖了深度学习数学基石中概率与信息论的重要概念与应用案例。后续章节将聚焦“深度网络的模型结构与训练方法”，带来更深入的算法拆解与实战指导。

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END