一、损失函数的详细构造过程
逻辑回归的损失函数源于最大似然估计(Maximum Likelihood Estimation, MLE),核心逻辑是 “让已观察到的样本数据出现的概率最大”。以下是分步构造过程:
1. 单个样本的概率建模
逻辑回归处理二分类问题,样本标签为 (1 表明正类,0 表明负类)。模型通过 sigmoid 函数输出 “样本为正类” 的概率:
- x 是样本特征向量(如 “年龄”“收入”),w 是权重向量(衡量特征重大性),b 是偏置项(调整基准概率),z 是特征的线性组合。
对于单个样本 的概率可统一表明为:
解释:
- 当
(即模型预测的正类概率);
- 当
(即模型预测的负类概率)。
2. 联合似然函数(整体样本的概率)
假设数据集 中的样本独立同分布(i.i.d.),则整个数据集出现的联合概率(即似然函数)为各样本概率的乘积:
似然函数 的物理意义是:“在参数
下,观察到当前数据集 D 的概率”。
3. 对数似然函数(简化计算)
似然函数是乘积形式,直接最大化时计算复杂(涉及高次乘积的求导)。利用对数函数的单调性(“最大化 L” 等价于 “最大化 ”),将乘积转为求和:
根据对数运算法则 化简得:
4. 损失函数(负对数似然)
最大似然估计的目标是 “找到使 最大的参数
”。为了将 “最大化问题” 转化为更常用的 “最小化问题”,定义损失函数为负的平均对数似然:
代入对数似然表达式,得到逻辑回归的交叉熵损失函数:
二、损失函数的物理意义(详细说明)
损失函数 并非抽象的数学公式,而是衡量模型预测与真实数据吻合程度的 “误差指标”,其数值大小直接反映模型的好坏。具体可从 “单个样本损失” 和 “整体损失” 两个层面理解:
1. 单个样本的损失:衡量预测概率与真实标签的 “匹配度”
对单个样本 ,其损失项为
,该值的大小取决于 “
”:
- 当
(真实为正类)时:
损失项简化为 。
- 若模型预测
(损失极小);
- 若模型预测
(损失极大)。
直观来说:“把正类错判为负类的程度越严重,损失越大”。
- 当
(真实为负类)时:
损失项简化为 。
- 若模型预测
(预测正确):
,则
(损失极小);
- 若模型预测
(预测错误):
,则
(损失极大)。
直观来说:“把负类错判为正类的程度越严重,损失越大”。
- 极端案例:
假设医学诊断中,样本 实际患病(
):
- 若模型预测患病概率
(接近真实),损失
(几乎无损失);
- 若模型预测患病概率
(严重错判),损失
(损失很大)。
2. 整体损失:衡量模型对所有样本的 “平均预测误差”
总损失 是所有样本损失的平均值(
),其物理意义是:
“模型对整个数据集的平均预测误差”。
- 当
时:说明模型对绝大多数样本的预测概率都接近真实标签(正类预测
,负类预测
),模型拟合效果极好;
- 当 J 很大时:说明模型对多数样本的预测与真实标签偏差较大(如正类预测
或负类预测
),模型需要优化。
3. 与 “最大似然” 的关联:损失最小化等价于 “让数据最可能发生”
从构造过程可知,,因此 “最小化 J” 等价于 “最大化
”(即最大化似然函数)。
这意味着:损失函数最小的参数 ,是能让 “已观察到的数据集 D” 出现概率最大的参数。从物理意义上看,这是一种 “从结果反推最可能缘由” 的逻辑 —— 既然数据已经发生,那么最合理的模型参数,应该是让这些数据 “最容易发生” 的参数。
三、损失函数的凸性证明
凸函数的关键性质是 “局部最优解即为全局最优解”,这保证了梯度下降等优化算法能稳定找到最优参数。以下证明逻辑回归的交叉熵损失函数是凸函数。
1. 凸函数的定义(多元函数)
对于多元函数 (此处忽略偏置 b,因证明逻辑一样),若其Hessian 矩阵 H(二阶偏导数构成的矩阵)满足:对任意向量 v,都有
(即 Hessian 矩阵半正定),则
是凸函数。
2. 计算损失函数的 Hessian 矩阵
步骤 1:一阶偏导数(梯度)
先求损失函数 对单个权重
的一阶偏导数(梯度)。
由 ,且 sigmoid 函数的导数为:
利用链式法则,单个样本损失对 的偏导数为:
因此,总损失的一阶偏导数(平均梯度)为:
步骤 2:二阶偏导数(Hessian 矩阵元素)
Hessian 矩阵 H 的元素 是损失函数对
和
的二阶偏导数:
对一阶偏导数继续求导,利用 (sigmoid 导数性质),得:
代入 ,最终得:
3. 证明 Hessian 矩阵半正定
需证明:对任意向量 v,都有 。
展开 :
代入 的表达式:
交换求和顺序(先对样本 i 求和,再对 求和):
注意到 (向量内积),且
(平方项),因此:
4. 结论:半正定性成立
- 对任意样本
(因
,sigmoid 函数性质),即该项恒为正数;
(平方项非负);
- 因此,求和结果
,即 Hessian 矩阵半正定。
四、总结
- 构造过程:从单个样本的概率建模出发,通过联合似然函数、对数似然函数,最终定义 “负平均对数似然” 为损失函数(交叉熵损失),其本质是最大化观察数据的概率。
- 物理意义:损失函数衡量 “模型预测概率与真实标签的匹配度”—— 单个样本损失反映单次预测的误差(错判越严重损失越大),整体损失反映模型对所有样本的平均误差;损失最小化等价于 “让已观察到的数据最可能发生”。
- 凸性证明:通过推导 Hessian 矩阵,证明其对任意向量的二次型非负(半正定),因此损失函数是凸函数。这保证了逻辑回归的优化过程(如梯度下降)能找到全局最优解,无需担心局部最优问题。



















暂无评论内容