Loss

L1 / L2

1. L1 Loss(绝对值损失,Mean Absolute Error, MAE)

L1 Loss 计算的是预测值和真实值之间的绝对差值之和

\[L_1 = \frac{1}{N} \sum_{i=1}^N |y_i - \hat{y}_i|\]
  • 梯度不连续
    • 在 $y_i - \hat{y}_i = 0$ 时,梯度不可导(通常用 0 近似)
    • 这可能会导致在模型优化时收敛速度较慢

2. L2 Loss(平方损失,Mean Squared Error, MSE)

L2 Loss 计算的是预测值和真实值之间的误差的平方和

\[L_2 = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2\]

对比

特性 L1 Loss L2 Loss
对异常值的影响 鲁棒,不易受异常值影响 敏感,异常值会导致较大惩罚
梯度性质 不连续,收敛慢 平滑,收敛快
用途 需要对异常值鲁棒 需要对误差敏感,拟合更精确
优化结果 倾向于稀疏解 倾向于均匀解

Smooth L1 Loss

用于回归任务中,常常用来平衡对小误差和大误差的敏感性。它的设计目标是结合 L2 损失(对小误差更敏感)和 L1 损失(对大误差更稳定)的优点,同时避免 L2 损失对异常值(outliers)的过度敏感

\[\text{Smooth L1}(x) =\begin{cases} 0.5 \cdot x^2, & \text{if } |x| < \delta \\\delta \cdot (|x| - 0.5 \cdot \delta), & \text{if } |x| \geq \delta\end{cases}\]
  • x 是预测值和目标值之间的差异
  • $\delta$ 是一个可调节的阈值(超参数). 当 $\delta = 1$ 时, 是一个常见的默认值.

Smooth L1 Loss 的特点:

  1. 当误差 $∣x∣$ 很小时,使用二次损失 $0.5x^2$,类似于 L2 Loss,对小误差惩罚更大
  2. 当误差 $∣x∣$ 很大时,使用线性损失 $\delta \cdot (abs(x) - 0.5 \delta)$,类似于 L1 Loss,对大误差的惩罚较轻,减轻了异常值的影响

为什么 Smooth L1 Loss 有用?

  1. 对异常值鲁棒
    • L2 损失(如 MSE)在误差很大时会平方,惩罚很重,因此容易被异常值主导
    • L1 损失(如 MAE)对误差采取线性惩罚,对异常值较稳定,但对小误差敏感性不足
    • Smooth L1 Loss 在 $∣x∣$ 小时采用二次形式,有较高的灵敏度,而在 $∣x∣$ 大时转为线性形式,减小异常值的影响
  2. 平滑性
    • 相比于 L1 损失(在 $∣x∣=0$ 处不可导),Smooth L1 Loss 在整个区间上是连续且可导的,因此在优化过程中更加平滑,有利于模型收敛
  3. 平衡性
    • 结合了 L1 和 L2 的优点,适用于需要在异常值和小误差之间找到平衡的场景

MLE / MAP

MAP(Maximum A Posteriori, 最大后验估计)MLE(Maximum Likelihood Estimation, 最大似然估计) 是两种常见的统计方法, 用于参数估计


1. 最大似然估计(MLE)

MLE 的目标是找到参数 θ\thetaθ 使得在这些参数下, 观测数据的似然函数 \(P(X\|\theta)\) 最大化

\[\hat{\theta}_{\text{MLE}} = \arg\max_\theta P(X|\theta)\]
  • X: 观测数据
  • $\theta$: 模型的参数

核心思想:

MLE 只基于观测数据 X, 不考虑参数的先验知识. 它寻找的参数是最可能生成这些观测数据的参数

步骤:

  1. 写出观测数据的似然函数 $$P(X \theta)$$
  2. 取对数得到对数似然函数 $$\log P(X \theta)$$(通常更易处理)
  3. 对 θ 求导并取极值,得到参数估计 \(\hat{\theta}_{\text{MLE}}\)

特点:

  • 优势:直观且依赖数据,无需假设先验分布。
  • 劣势:对数据量敏感,当数据不足时,可能会导致不稳定的估计。
  • 常用场景:MLE 广泛用于回归模型、分类模型等的参数估计。

2. 最大后验估计(MAP)

MAP 的目标是找到参数 $\theta$ 使得给定观测数据 X 的后验概率 \(P(\theta\|X)\) 最大化。公式如下:

\[\hat{\theta}_{\text{MAP}} = \arg\max_\theta P(\theta|X)\]

根据贝叶斯公式:

\[P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)}\]

因为 P(X) 与 $\theta$ 无关,简化为:

\[\hat{\theta}_{\text{MAP}} = \arg\max_\theta P(X|\theta)P(\theta)\]
  • $P(X \theta)$: 似然函数(数据对参数的支持)。
  • $P(\theta)$: 参数的先验分布(反映对参数的已有知识)。

核心思想:

MAP 不仅依赖观测数据,还结合了对参数的先验知识 $P(\theta)$。它通过综合观测数据和先验分布来估计参数。

特点:

  • 优势:适用于数据稀少或不确定性较高的场景,通过先验分布提高估计的稳定性。
  • 劣势:先验分布可能需要人为假设,不一定准确。
  • 常用场景:在贝叶斯统计中,MAP 是核心方法,广泛用于贝叶斯分类器、生成模型等。



    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • NeRF
  • 3DGS
  • SDS
  • Pretrain Diffusion
  • Latent Diffusion