智能聊天机器人(Chatbots)是交互的新趋势,Google、Facebook、Microsoft、百度、阿里等众多公司已加入此阵列,就等你了!我们会定期发布聊天机器人的各种信息,其中使用的机器学习/深度学习技术、产品、分享活动等等 |
Home [1] | GitHub [2] | Twitter [3] | Youtube [4] | Bilibili [5]
最近看 DeepSeek 论文和 GRPO 时,发现他们用了一种很有意思的 KL 散度近似预估形式,就深入了解了下其来源。本文对其来源做个简单的说明。
在概率建模和强化学习中, KL散度 ( Kullback-Leibler Divergence )是衡量两个概率分布差异的常用指标。其定义为:
当解析解难以计算时(如高维空间或复杂分布),我们常借助蒙特卡洛方法对其值进行估计。本文将探讨 的三种不同估计量,揭示它们在偏差与方差间的精妙权衡。
📌 一个好的估计量应该是 无偏(具有正确的均值)且方差低的 。
直接从定义出发,使用单样本对数比值的期望:
引入新的统计量:
具有低偏差 :其期望是一个 -散度。 -散度定义为 ,其中 是一个凸函数且 。KL 散度以及其他各种著名的概率距离都是 -散度。
现在这里有一个关键的非显而易见的事实:当 接近 时,所有具有可微 的 -散度在二阶近似下都类似于 KL 散度。具体来说,对于一个参数化分布 ,
其中 是 的 Fisher 信息矩阵,在 处计算。
下面做个推导。
其中 是 Fisher 信息矩阵,可以通过以下步骤完成:
(1). 参数化分布与对数展开
假设 是参数化分布,且当 时 。将 在 处进行泰勒展开:
其中:
(2).
近似分布比值
通过指数化对数展开式,得到
取倒数并展开到二阶:
(3).
计算
将上述近似代入平方差:
保留至二阶项(忽略高阶小量):
(4). 计算期望值
对近似后的平方差取期望
逐项分析:
(a) 第一项 :
(b)
第二项
:由于
因此,主要贡献来自第一项:
是否有可能写出一个无偏且方差低的 KL 散度估计量呢?降低方差的一般方法是使用控制变量。即,
在
注意,由于对数函数是凹函数,
通过引入期望为零的调节项
实验代码:
import torch.distributions as dis
# 设置分布
p = dis.Normal(loc=0, scale=1)
q = dis.Normal(loc=0.1, scale=1)
# 生成样本
x = q.sample(sample_shape=(10_000_000,))
truekl = dis.kl_divergence(p, q).item()
# 计算各估计量
logr = p.log_prob(x) - q.log_prob(x)
k1 = -logr
k2 = logr**2 / 2
k3 = (logr.exp() - 1) - logr
# 输出结果
print(f"真实KL值: {truekl:.4f}")
for name, k inzip(["k1", "k2", "k3"], [k1, k2, k3]):
bias_ratio = (k.mean().item() - truekl)/truekl
std_ratio = k.std().item()/truekl
print(f"{name} : 偏差={bias_ratio:.3%} 标准差={std_ratio:.2f}")
假设
|
|
|
|
|
|
|
|
|
|
|
|
假设
|
|
|
|
|
|
|
|
|
|
|
|
关键发现 :
通过理论分析与实验验证,我们展示了KL散度估计中的权衡艺术。 k₃ 估计量的提出,为需要精确评估概率分布差异的场景提供了可靠的工具。在实际应用中,建议根据具体需求选择合适的估计量,在计算效率与估计精度间取得最佳平衡。
本文系统探讨了三种KL散度的蒙特卡洛估计方法,揭示了 KL 估计量设计中的核心矛盾—— 偏差与方差的权衡 :
|
|
|
|
k₃ |
|
|
|
|
|
|
|
[1]
Home
:
https://www.breezedeus.com
[2]
GitHub
:
https://github.com/breezedeus
[3]
Twitter
:
https://twitter.com/breezedeus
[4]
Youtube
:
https://www.youtube.com/@breezedeus
[5]
Bilibili
:
https://space.bilibili.com/509307267
[6]
Approximating KL Divergence from John Schulman:
http://joschu.net/blog/kl-approx.html
|
读史 · 拆字做人,精辟! 7 年前 |
|
深圳百事通 · 深圳这些让人“吓破胆”的地方,听说酷的人都玩过一半以上! 7 年前 |
|
公主岭帮 · 女人最易让男人朝思暮想的特点,你有吗? 7 年前 |
|
武汉大学学生会 · 毕业不散伙,开启新的旅程 7 年前 |
|
物流沙龙 · 未来智能物流市场1600亿,究竟怎样的企业可以成为主流 7 年前 |