参数估计

事实上,概率模型的训练过程就是参数估计(parameter estimation)过程。对于参数估计,统计学界的两个学派分别提供了不同的解决方案:

  • 频率主义学派(Frequentist)认为模型参数虽然未知,但却是客观存在的固定常数。因此,可通过优化似然函数等准则来确定参数值;
  • 贝叶斯学派(Bayesian)则认为模型参数是未观察到的随机变量,并且服从某种先验分布。可基于观测到的数据来计算参数的后验分布。

对于一个未知参数的分布我们往往可以采用生成一批观测数据,通过这批观测数据做参数估计的做法来估计参数。最常用的有最大似然估计、矩估计、最大后验估计、贝叶斯估计等。

极大似然估计

基本形式

极大似然估计(Maximum Likelihood Estimate, MLE) 是根据数据采样来估计概率分布参数的经典方法。MLE认为当前发生的事件是概率最大的事件。因此就可以给定的数据集,使得该数据集发生的概率最大来求得模型中的参数。

给定包含 NN 个样本的数据集

D={x1,x2,,xN}D=\{\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_N\}

假设这些样本是独立同分布的,分布函数为 P(x;θ)\mathbb P(\mathbf x;\theta)。样本的联合概率,即似然函数(likelihood)

L(θ;D)=P(Dθ)=i=1NP(xiθ)L(\theta;D)=\mathbb P(D|\theta)=\prod_{i=1}^N \mathbb P(\mathbf x_i|\theta)

MLE认为参数是一个常数,希望在 θ\theta 的所有可能的取值中,找出最大化产生观测数据的参数。似然函数中的连乘操作易造成下溢,通常使用对数似然(log-likelihood)

logL(θ;D)=i=1NlogP(xiθ)\log L(\theta;D)=\sum_{i=1}^N \log\mathbb P(\mathbf x_i|\theta)

此时参数 θ\theta 的极大似然估计为

θMLE=argmaxθi=1NlogP(xiθ)\theta_{MLE}=\arg\max_{\theta}\sum_{i=1}^N \log\mathbb P(\mathbf x_i|\theta)

KL散度

KL 散度:极大似然估计也可看作最小化数据集上的经验分布 P(xθ^)\mathbb P(\mathbf x|\hat\theta)和实际分布间 P(xθ)\mathbb P(\mathbf x|\theta)的差异。两者之间的差异程度可以通过 KL 散度度量

KL(PP^)=i=1NP(xiθ)logP(xiθ)P(xiθ^)=i=1NP(xiθ)[logP(xiθ)logP(xiθ^)]\begin{aligned} KL(P\|\hat P)&=\sum_{i=1}^N \mathbb P(\mathbf x_i|\theta)\log\frac{\mathbb P(\mathbf x_i|\theta)}{\mathbb P(\mathbf x_i|\hat\theta)} \\ &=\sum_{i=1}^N \mathbb P(\mathbf x_i|\theta)[\log\mathbb P(\mathbf x_i|\theta)-\log\mathbb P(\mathbf x_i|\hat\theta)] \end{aligned}

由于实际概率分布 P(xθ)\mathbb P(\mathbf x|\theta) 是个确定值。于是最小化 KL 散度

θ^=argminθKL(PP^)=argminθi=1NlogP(xiθ)=argmaxθi=1NlogP(xiθ)\begin{aligned} \hat\theta &=\arg\min_{\theta} KL(P\|\hat P) \\ &=\arg\min_{\theta}\sum_{i=1}^N-\log\mathbb P(\mathbf x_i|\theta) \\ &=\arg\max_{\theta}\sum_{i=1}^N\log\mathbb P(\mathbf x_i|\theta) \end{aligned}

这等价于极大似然估计。

正态分布

假设 x\mathbf x 为连续特征,服从正态分布。概率密度函数

N(x;μ,Σ)=1(2π)pdetΣexp(12(xμ)TΣ1(xμ))\mathcal N(\mathbf x;\mu,\mathbf\Sigma)=\frac{1}{\sqrt{(2\pi)^p\det\mathbf\Sigma}}\exp\left(-\frac{1}{2}(\mathbf x-\mathbf\mu)^T\mathbf\Sigma^{-1}(\mathbf x-\mathbf\mu)\right)

则参数的对数似然函数

lnL(μ,Σ)=i=1NlnN(xi;μ,Σ)=12i=1N(xiμ)TΣ1(xiμ)12ln(2π)pdetΣ\begin{aligned} \ln L(\mu,\mathbf\Sigma)&=\sum_{i=1}^N \ln\mathcal N(\mathbf x_i;\mu,\Sigma) \\ &=-\frac{1}{2}\sum_{i=1}^N(\mathbf x_i-\mathbf\mu)^T\mathbf\Sigma^{-1}(\mathbf x_i-\mathbf\mu)-\frac{1}{2}\ln(2\pi)^p\det\mathbf\Sigma \end{aligned}

首先对 μ\mu 求导,并取值为零

lnL(μ,Σ)μ=i=1NΣ1(xiμ)=Σ1(i=1NxiNμ)=0\frac{\partial \ln L(\mu,\mathbf\Sigma)}{\partial\mu}=\sum_{i=1}^N\mathbf\Sigma^{-1}(\mathbf x_i-\mathbf\mu)=\mathbf\Sigma^{-1}(\sum_{i=1}^N\mathbf x_i-N\mathbf\mu)=0

再对 Σ\mathbf\Sigma 求导,并取值为零

lnL(μ,Σ)Σ=12i=1NΣ1(xiμ)(xiμ)TΣ112NΣ1=0\frac{\partial \ln L(\mu,\mathbf\Sigma)}{\partial\mathbf\Sigma}=\frac{1}{2}\sum_{i=1}^N\mathbf\Sigma^{-1}(\mathbf x_i-\mathbf\mu)(\mathbf x_i-\mathbf\mu)^T\mathbf\Sigma^{-1}-\frac{1}{2}N\mathbf\Sigma^{-1}=0

则参数 μ\muΣ\mathbf\Sigma 的极大似然估计为

μ^=xˉ=1Ni=1NxiΣ^=1Ni=1N(xixˉ)(xixˉ)T\hat\mu=\bar{\mathbf x}=\frac{1}{N}\sum_{i=1}^N\mathbf x_i \\ \hat\Sigma=\frac{1}{N}\sum_{i=1}^N(\mathbf x_i-\bar{\mathbf x})(\mathbf x_i-\bar{\mathbf x})^T

也就是说,通过极大似然法得到的正态分布均值和方差是一个符合直觉的结果。对于离散特征,也可通过类似的方式估计。

伯努利分布

假设二分类特征 x{0,1}x\in\{0,1\},服从伯努利分布

P(xθ)=θx(1θ)1x={θ,if x=11θ,if x=0\mathbb P(x|\theta)=\theta^x(1-\theta)^{1-x}=\begin{cases} \theta, &\text{if }x=1 \\ 1-\theta, &\text{if }x=0 \end{cases}

则参数 θ\theta 的对数似然函数

logL(θ)=i=1Nlogθxi(1θ)1xi=i=1Nxilogθ+i=1N(1xi)log(1θ)\begin{aligned} \log L(\theta)&=\sum_{i=1}^N \log \theta^{x_i}(1-\theta)^{1-x_i} \\ &=\sum_{i=1}^N x_i\log \theta+\sum_{i=1}^N(1-x_i)\log(1-\theta) \end{aligned}

对数似然函数求导,并取值为零

logL(θ)θ=1θi=1Nxi11θi=1N(1xi)=0\frac{\partial \log L(\theta)}{\partial\theta}=\frac{1}{\theta}\sum_{i=1}^Nx_i-\frac{1}{1-\theta}\sum_{i=1}^N(1-x_i)=0

则参数 θ\theta 的极大似然估计为

θ^=1Ni=1Nxi=xˉ\hat\theta=\frac{1}{N}\sum_{i=1}^Nx_i=\bar x

即为 x=1x=1 的频率。

离散特征分布率

假离散特征有 KK 个可能值 x{c1,c1,,cK}x\in\{c_1,c_1,\cdots,c_K\},分布率为

P(x=ckθ)=θk,k=1,2,,Ks.t. k=1Kθk=1\mathbb P(x=c_k|\theta)=\theta_k,\quad k=1,2,\cdots,K \\ \text{s.t. }\sum_{k=1}^K\theta_k=1

假设 x=ckx=c_k 出现的次数为 NkN_k,即k=1KNk=N\sum_{k=1}^KN_k=N。则参数向量的对数似然函数

logL(θ)=logk=1KθkNk=k=1KNklogθk\log L(\theta)=\log \prod_{k=1}^K\theta_k^{N_k} =\sum_{k=1}^KN_k\log\theta_k

考虑约束条件,拉格朗日函数为

L(θ)=k=1KNklogθk+α(1k=1Kθk)\mathcal L(\theta)=\sum_{k=1}^KN_k\log\theta_k+\alpha(1-\sum_{k=1}^K\theta_k)

先对 θk\theta_k 求导

L(θ)θk=Nkθkα=0\frac{\partial\mathcal L(\theta)}{\partial\theta_k}=\frac{N_k}{\theta_k}-\alpha=0

于是

θk=Nkα\theta_k=\frac{N_k}{\alpha}

考虑

k=1Kθk=k=1KNkα=Nα=1\sum_{k=1}^K\theta_k=\sum_{k=1}^K\frac{N_k}{\alpha}=\frac{N}{\alpha}=1

所以参数 θk\theta_k 的极大似然估计为

θ^k=NkN\hat\theta_k=\frac{N_k}{N}

即为特征 x=ckx=c_k 的频率。

贝叶斯估计

贝叶斯派认为被估计的参数是一个随机变量,服从某种分布。在获得观测数据之前,我们设定一个先验概率分布,在有观测数据之后,由贝叶斯公式计算出一个后验概率分布,这样估计出来的结果往往会更合理。

最大后验估计

最大后验估计(Maximum A Posteriori,MAP)认为最优参数为后验概率最大的参数。

给定包含 NN 个样本的数据集

D={x1,x2,,xN}D=\{\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_N\}

假设这些样本是独立同分布的,分布函数为 P(x;θ)\mathbb P(\mathbf x;\theta)。引入贝叶斯定理:

(1) 若θ\theta 为离散变量,分布率为

P(θiD)=P(Dθi)P(θi)jP(Dθj)P(θj)\mathbb P(\theta_i|D)=\frac{\mathbb P(D|\theta_i)\mathbb P(\theta_i)}{\sum_j\mathbb P(D|\theta_j)\mathbb P(\theta_j)}

(2) 若θ\theta 为连续变量,概率密度函数为

p(θD)=p(Dθ)p(θ)Θp(Dθ)p(θ)dθp(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int_{\Theta}p(D|\theta)p(\theta)\mathrm d\theta}

预估的参数为 θ\theta,条件概率 p(θD)p(\theta|D) 为参数 θ\theta后验概率(posterior probability)密度,p(θ)p(\theta) 为引入的先验概率(prior probability)密度,在给定参数的前提下,观测数据的概率分布为p(Dθ)p(D|\theta),也就是似然函数(likelihood)。

后续统一考虑θ\theta 为连续变量的情况。由于分母为边缘分布

p(D)=Θp(Dθ)p(θ)dθp(D)=\int_{\Theta}p(D|\theta)p(\theta)\mathrm d\theta

该值不影响对 θ\theta的估计,在求最大后验概率时,可以忽略分母。

p(θD)p(Dθ)p(θ)=i=1Np(xiθ)p(θ)p(\theta|D)\propto p(D|\theta)p(\theta)=\prod_{i=1}^N p(\mathbf x_i|\theta)p(\theta)

于是参数 θ\theta 的最大后验估计为

θMAP=argmaxθi=1Np(xiθ)p(θ)\theta_{MAP}=\arg\max_{\theta} \prod_{i=1}^N p(\mathbf x_i|\theta)p(\theta)

同样为了便于计算,对两边取对数

logp(θD)i=1Nlogp(xiθ)+logp(θ)\log p(\theta|D)\propto \sum_{i=1}^N \log p(\mathbf x_i|\theta)+\log p(\theta)

于是参数 θ\theta 的最大后验估计为

θMAP=argmaxθ{i=1Nlogp(xiθ)+logp(θ)}\theta_{MAP}=\arg\max_{\theta} \left\{\sum_{i=1}^N \log p(\mathbf x_i|\theta)+\log p(\theta)\right\}

与极大似然估计比较发现,当先验概率为均匀分布时,最大后验估计也就是极大似然估计。

贝叶斯估计

贝叶斯估计(Bayesian Estimation)是最大后验估计的进一步扩展,同样假定参数是一个随机变量,但贝叶斯估计并不是直接估计出参数的某个特定值,而是通过贝叶斯定理估计参数的后验概率分布。

p(θD)=p(Dθ)p(θ)Θp(Dθ)p(θ)dθp(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int_{\Theta}p(D|\theta)p(\theta)\mathrm d\theta}

从上面的公式中可以看出,贝叶斯估计的求解非常复杂,因此选择合适的先验分布就非常重要。一般来说,计算积分 Θp(Dθ)p(θ)dθ\int_{\Theta}p(D|\theta)p(\theta)\mathrm d\theta 是不可能的,如果使用共轭先验分布,就可以更好的解决这个问题。

后验概率分布确定后,可以通过后验风险最小化获得点估计。一般常使用后验分布的期望作为最优估计,称为后验期望估计,它也被简称为贝叶斯估计

假设 L(θ^,θ)L(\hat\theta,\theta) 是估计值为 θ^\hat\theta 的损失函数,则样本为 xx 下的条件风险(期望损失)为

R(θ^x)=ΘL(θ^,θ)p(θx)dθR(\hat\theta|x)=\int_\Theta L(\hat\theta,\theta)p(\theta|x)\mathrm d\theta

则整个样本空间 xXx\in\mathcal X 的风险为

R=XR(θ^x)p(x)dxR=\int_{\mathcal X} R(\hat\theta|x)p(x)\mathrm dx

由于 R(θ^x)>0R(\hat\theta|x)>0,求 RR 最小即求 R(θ^x)R(\hat\theta|x) 最小。所以,最优估计

θBE=argminθ^R(θ^x)\theta_{BE}=\arg\min_{\hat{\theta}}R(\hat\theta|x)

通常采用平方误差损失函数

L(θ^,θ)=12(θθ^)2L(\hat\theta,\theta)=\frac{1}{2}(\theta-\hat\theta)^2

对条件风险求导,并置为0 [^int]

dR(θ^x)dθ^=ddθ^Θ12(θθ^)2p(θx)dθ=Θ(θ^θ)p(θx)dθ=θ^Θp(θx)dθΘθp(θx)dθ=θ^xE(θx)=0\begin{aligned} \frac{\mathrm dR(\hat\theta|x)}{\mathrm d\hat\theta}=&\frac{\mathrm d}{\mathrm d\hat\theta}\int_\Theta \frac{1}{2}(\theta-\hat\theta)^2p(\theta|x)\mathrm d\theta \\ =&\int_\Theta (\hat\theta-\theta)p(\theta|x)\mathrm d\theta \\ =&\hat\theta\int_\Theta p(\theta|x)\mathrm d\theta-\int_\Theta \theta p(\theta|x)\mathrm d\theta \\ =&\hat\theta|x-\mathbb E(\theta|x) \\ =&0 \end{aligned}

可得到最优估计

θ^x=E(θx)=Θθp(θx)dθ\hat\theta|x=\mathbb E(\theta|x)=\int_\Theta \theta p(\theta|x)\mathrm d\theta

同理可得,在给定样本集 DD 下,θ\theta 的贝叶斯估计

θ^D=E(θD)=Θθp(θD)dθ\hat\theta|D=\mathbb E(\theta|D)=\int_\Theta \theta p(\theta|D)\mathrm d\theta

概率分布的核:如果数据 DD 和参数 θ\theta 的联合概率密度正比于概率密度g(θ;τ)g(\theta;\tau) 的核 κ(θ;τ)\kappa(\theta;\tau)

p(Dθ)p(θ)g(θ;τ)k(θ;τ)p(D|\theta)p(\theta)\propto g(\theta;\tau)\propto k(\theta;\tau)

θ\theta 的后验概率密度

p(θD)=g(θ;τ)p(\theta|D)=g(\theta;\tau)

证明:假设联合概率密度

p(Dθ)p(θ)=h(D)g(θ;τ)=Ch(D)κ(θ;τ)p(D|\theta)p(\theta)=h(D)g(\theta;\tau)=Ch(D)\kappa(\theta;\tau)

其中 Ch(D)Ch(D)θ\theta 无关, g(θ;τ)g(\theta;\tau) 是由参数 τ\tau 控制的概率密度函数,即

Θg(θ;τ)dθ=1\int_{\Theta}g(\theta;\tau)\mathrm d\theta=1

由于边缘分布为

p(D)=Θp(Dθ)p(θ)dθ=ΘCh(D)κ(θ;τ)dθ=h(D)Θg(θ;τ)dθ=h(D)\begin{aligned} p(D)&=\int_{\Theta}p(D|\theta)p(\theta)\mathrm d\theta \\ &=\int_{\Theta}Ch(D)\kappa(\theta;\tau)\mathrm d\theta \\ &=h(D)\int_{\Theta}g(\theta;\tau)\mathrm d\theta \\ &=h(D) \end{aligned}

因此

p(θD)=p(Dθ)p(θ)p(D)=h(D)g(θ;τ)h(D)=g(θ;τ)\begin{aligned} p(\theta|D)&=\frac{p(D|\theta)p(\theta)}{p(D)} \\ &=\frac{h(D)g(\theta;\tau)}{h(D)} \\ &=g(\theta;\tau) \end{aligned}

共轭分布

先验分布的选择通常是需要有一些技巧性的。在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布(conjugate distribution),而先验分布被称为似然函数的共轭先验(conjugate prior)。

共轭先验可以简化计算。因为后验分布和先验分布形式相近,只是参数有所不同,这意味着当我们获得新的观察数据时,我们就能直接通过参数更新,获得新的后验分布,此后验分布将会在下次新数据到来的时候成为新的先验分布。如此一来,我们更新后验分布就不需要通过大量的计算,十分方便。

常用的共轭先验分布如下:

(1) 当样本来自正态分布,方差已知时,估计均值的共轭先验是正态分布,记为 XN(μ,σ2)X\sim N(\mu,\sigma^2)。概率密度函数为

f(x;μ,σ2)=12πσexp((xμ)22σ2)f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

数学特征如下

E(X)=μ;var(X)=σ2;mode(X)=μ\mathbb E(X)=\mu;\quad \text{var}(X)=\sigma^2;\quad \text{mode}(X)=\mu

(2) 当样本来自正态分布,均值已知时,估计方差的共轭先验是逆Gamma分布(Inverse Gamma),记为XIGamma(α,β)X\sim IGamma(\alpha,\beta),定义域为 x>0x>0。概率密度函数为

f(x;α,β)=βαΓ(α)(1x)α+1eβ/xf(x;\alpha,\beta)=\frac{\beta^\alpha}{\Gamma(\alpha)}(\frac{1}{x})^{\alpha+1}e^{-\beta/x}

其中

Γ(α)=0+tα1etdt\Gamma(\alpha)=\int_0^{+\infty} t^{\alpha-1}e^{-t}\mathrm dt

数学特征如下

E(X)=βα1;var(X)=β2(α1)2(α2);mode(X)=βα+1\mathbb E(X)=\frac{\beta}{\alpha-1};\quad \text{var}(X)=\frac{\beta^2}{(\alpha-1)^2(\alpha-2)};\quad \text{mode}(X)=\frac{\beta}{\alpha+1}

(3) 当样本来自正态分布,方差和均值均未知时,共轭先验分布为Normal-Inverse Gamma分布,形式过于复杂。

(4) 当样本来自伯努利分布B(1,θ)B(1,\theta),共轭先验是Beta分布,记为 XBeta(α,β)X\sim Beta(\alpha,\beta),定义域为 [0,1][0,1]。概率密度函数为

f(x;α,β)=1B(α,β)xα1(1x)β1f(x;\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}

其中 B(α,β)B(\alpha,\beta) 为Beta函数

B(α,β)=01tα1(1t)β1dt=Γ(α)Γ(β)Γ(α+β)B(\alpha,\beta)=\int_0^1 t^{\alpha-1}(1-t)^{\beta-1}\mathrm dt=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

数学特征如下

E(X)=αα+β;var(X)=αβ(α+β+1)(α+β)2;mode(X)=α1α+β2\mathbb E(X)=\frac{\alpha}{\alpha+\beta};\quad \text{var}(X)=\frac{\alpha\beta}{(\alpha+\beta+1)(\alpha+\beta)^2};\quad \text{mode}(X)=\frac{\alpha-1}{\alpha+\beta-2}

(5) 当样本来自离散分布,共轭先验是狄利克雷分布(Dirichlet Distribution),是Beta分布的多元推广。表示为 XD(α1,,αK)\mathbf X\sim \mathcal D(\alpha_1,\cdots,\alpha_K),随机变量 X=(X1,,XK)\mathbf X=(X_1,\cdots,X_K)xk>0x_k>0且满足 k=1Kxk=1\sum_{k=1}^Kx_k=1。概率密度函数为

f(x1,,xK;α1,,αK)=1B(α1,,αK)k=1Kxkαk1f(x_1,\cdots,x_K;\alpha_1,\cdots,\alpha_K)=\frac{1}{B(\alpha_1,\cdots,\alpha_K)}\prod_{k=1}^K x_k^{\alpha_k-1}

其中

B(α1,,αK)=k=1KΓ(αk)Γ(k=1Kαk)B(\alpha_1,\cdots,\alpha_K)=\frac{\prod_{k=1}^K\Gamma(\alpha_k)}{\Gamma(\sum_{k=1}^K\alpha_k)}

数学特征如下

E(Xk)=αkα0;var(Xk)=αk(α0αk)α02(α0+1);mode(Xk)=αk1α0K\mathbb E(X_k)=\frac{\alpha_k}{\alpha_0};\quad \text{var}(X_k)=\frac{\alpha_k(\alpha_0-\alpha_k)}{\alpha_0^2(\alpha_0+1)};\quad \text{mode}(X_k)=\frac{\alpha_k-1}{\alpha_0-K}

其中α0=k=1Kαk\alpha_0=\sum_{k=1}^K\alpha_k

(6) 当样本来自Poisson分布 P(λ)P(\lambda),估计参数 λ\lambda 的共轭先验是Gamma分布,记为XGamma(α,β)X\sim Gamma(\alpha,\beta),定义域为 x>0x>0。概率密度函数为

f(x;α,β)=βαΓ(α)xα1eβxf(x;\alpha,\beta)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}

其中

Γ(α)=0+tα1etdt\Gamma(\alpha)=\int_0^{+\infty} t^{\alpha-1}e^{-t}\mathrm dt

数学特征如下

E(X)=αβ;var(X)=αβ2;mode(X)=α1β\mathbb E(X)=\frac{\alpha}{\beta};\quad \text{var}(X)=\frac{\alpha}{\beta^2};\quad \text{mode}(X)=\frac{\alpha-1}{\beta}

(7) 当样本来自指数分布 Exp(λ)Exp(\lambda),估计参数 λ\lambda 的共轭先验是Gamma分布,记为XGamma(α,β)X\sim Gamma(\alpha,\beta),定义域为 x>0x>0

(8) 当样本来自均匀分布 U(0,θ)U(0,\theta),估计参数 θ\theta 的共轭先验是帕累托分布(Pareto distribution),记为XPareto(α,β)X\sim Pareto(\alpha,\beta),定义域为 x>β>0x>\beta>0​。概率密度函数为

f(x;α,β)=αβαxα+1f(x;\alpha,\beta)=\frac{\alpha\beta^\alpha}{x^{\alpha+1}}

数学特征如下

E(X)=βα1;var(X)=αβ2(α1)(α2);mode(X)=β\mathbb E(X)=\frac{\beta}{\alpha-1};\quad \text{var}(X)=\frac{\alpha\beta^2}{(\alpha-1)(\alpha-2)};\quad \text{mode}(X)=\beta

正态分布

假设连续特征 XX 服从正态分布 XN(μ,σ2)X\sim N(\mu,\sigma^2)。概率密度函数

p(xμ,σ2)=12πσexp((xμ)22σ2)p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

似然函数

p(Dμ,σ2)=(12πσ)Ni=1Nexp((xiμ)22σ2)p(D|\mu,\sigma^2)=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^N\prod_{i=1}^N\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right)

(1) 若方差 σ2\sigma^2 已知,均值的共轭先验分布为正态分布μN(μ0,τ02)\mu\sim N(\mu_0,\tau_0^2),则

p(μ)exp((μμ0)22τ02)p(\mu)\propto \exp\left(-\frac{(\mu-\mu_0)^2}{2\tau_0^2}\right)

联合概率密度

p(μ)p(Dμ)exp((μμ0)22τ02)i=1Nexp((xiμ)22σ2)=exp((μμ0)22τ02i=1N(xiμ)22σ2)exp(12((1τ02+Nσ2)μ22(μ0τ02+Nxˉσ2)μ))exp((μμ1)22τ12)\begin{aligned} p(\mu)p(D|\mu)&\propto \exp\left(-\frac{(\mu-\mu_0)^2}{2\tau_0^2}\right)\prod_{i=1}^N\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ &= \exp\left(-\frac{(\mu-\mu_0)^2}{2\tau_0^2}-\sum_{i=1}^N\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ &\propto\exp\left(-\frac{1}{2}\left((\frac{1}{\tau_0^2}+\frac{N}{\sigma^2})\mu^2-2(\frac{\mu_0}{\tau_0^2}+\frac{N\bar x}{\sigma^2})\mu\right)\right) \\ &\propto\exp\left(-\frac{(\mu-\mu_1)^2}{2\tau_1^2}\right) \\ \end{aligned}

其中 μ1=Nxˉτ02+σ2μ0Nτ02+σ2,τ12=σ2τ02Nτ02+σ2\mu_1=\dfrac{N\bar x\tau_0^2+\sigma^2\mu_0}{N\tau_0^2+\sigma^2},\quad\tau_1^2=\dfrac{\sigma^2\tau_0^2}{N\tau_0^2+\sigma^2}

于是得到均值的后验分布服从正态分布

μDN(Nxˉτ02+σ2μ0Nτ02+σ2,σ2τ02Nτ02+σ2)\mu|D\sim N(\dfrac{N\bar x\tau_0^2+\sigma^2\mu_0}{N\tau_0^2+\sigma^2},\dfrac{\sigma^2\tau_0^2}{N\tau_0^2+\sigma^2})

均值的最大后验估计和贝叶斯估计均为

μ^=Nxˉτ02+σ2μ0Nτ02+σ2\hat\mu=\dfrac{N\bar x\tau_0^2+\sigma^2\mu_0}{N\tau_0^2+\sigma^2}

注意到后验均值

μ^=σ2Nτ02+σ2μ0+Nτ02Nτ02+σ2xˉ\hat\mu=\dfrac{\sigma^2}{N\tau_0^2+\sigma^2}\mu_0+\dfrac{N\tau_0^2}{N\tau_0^2+\sigma^2}\bar x

是先验均值和样本均值的加权平均。后验精度(后验方差的倒数) Nτ02+σ2N\tau_0^2+\sigma^2 是先验精度与样本精度之和,因为精度大于0,后验整合了先验和样本的信息,提高了精度(降低了方差)。

(2) 若均值 μ\mu 已知,方差的共轭先验分布为逆Gamma分布 σ2IGamma(α,β)\sigma^2\sim IGamma(\alpha,\beta),则

p(σ2)(1σ2)α+1exp(βσ2)p(\sigma^2)\propto (\frac{1}{\sigma^2})^{\alpha+1}\exp(-\frac{\beta}{\sigma^2})

联合概率密度

p(μ)p(Dμ)(1σ2)α+1exp(βσ2)(1σ2)N/2i=1Nexp((xiμ)22σ2)=(1σ2)α+N/2+1exp(1σ2(β+12i=1N(xiμ)2))\begin{aligned} p(\mu)p(D|\mu)&\propto (\frac{1}{\sigma^2})^{\alpha+1}\exp(-\frac{\beta}{\sigma^2})(\frac{1}{\sigma^2})^{N/2}\prod_{i=1}^N\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) \\ &=(\frac{1}{\sigma^2})^{\alpha+N/2+1}\exp\left(-\frac{1}{\sigma^2}(\beta+\frac{1}{2}\sum_{i=1}^N(x_i-\mu)^2)\right) \end{aligned}

于是得到方差的后验分布服从逆Gamma分布

σ2DIGamma(α+N2,β+12i=1N(xiμ)2)\sigma^2|D\sim IGamma(\alpha+\frac{N}{2},\beta+\frac{1}{2}\sum_{i=1}^N(x_i-\mu)^2)

方差的最大后验估计为

σMAP2=2β+i=1N(xiμ)22α+N+2\sigma^2_{MAP}=\frac{2\beta+\sum_{i=1}^N(x_i-\mu)^2}{2\alpha+N+2}

方差的贝叶斯估计为

σBE2=σMAP2=2β+i=1N(xiμ)22α+N2\sigma^2_{BE}=\sigma^2_{MAP}=\frac{2\beta+\sum_{i=1}^N(x_i-\mu)^2}{2\alpha+N-2}

伯努利分布

假设二分类特征 x{0,1}x\in\{0,1\},服从伯努利分布

P(xθ)=θx(1θ)1x={θ,if x=11θ,if x=0\mathbb P(x|\theta)=\theta^x(1-\theta)^{1-x}=\begin{cases} \theta, &\text{if }x=1 \\ 1-\theta, &\text{if }x=0 \end{cases}

参数 θ\theta 的似然函数为

p(Dθ)=i=1Nθxi(1θ)1xip(D|\theta)=\prod_{i=1}^N \theta^{x_i}(1-\theta)^{1-x_i}

参数 θ\theta 的共轭先验为Beta分布,θBeta(α,β)\theta\sim Beta(\alpha,\beta),则

p(θ)θα1(1θ)β1p(\theta)\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}

联合概率密度

p(θ)p(Dθ)θα1(1θ)β1i=1Nθxi(1θ)1xiθα+N11(1θ)β+N01\begin{aligned} p(\theta)p(D|\theta)&\propto \theta^{\alpha-1}(1-\theta)^{\beta-1}\prod_{i=1}^N \theta^{x_i}(1-\theta)^{1-x_i} \\ &\propto \theta^{\alpha+N_1-1}(1-\theta)^{\beta+N_0-1} \end{aligned}

其中N1=i=1NxiN_1=\sum_{i=1}^Nx_i为正类x=1x=1的样本数,N0=NN1N_0=N-N_1为负类x=0x=0的样本数。

于是得到参数 θ\theta 的后验分布同样服从Beta分布

θDBeta(α+N1,β+N0)\theta|D\sim Beta(\alpha+N_1,\beta+N_0)

最大后验估计

θMAP=N1+α1N+α+β2\theta_{MAP}=\frac{N_1+\alpha-1}{N+\alpha+\beta-2}

贝叶斯估计

θBE=E(θD)=N1+αN+α+β\theta_{BE}=\mathbb E(\theta|D)=\frac{N_1+\alpha}{N+\alpha+\beta}

离散分布

假设离散特征有 KK 个可能值 x{c1,c1,,cK}x\in\{c_1,c_1,\cdots,c_K\},分布率为

P(x=ckθ)=θk,k=1,2,,Ks.t. k=1Kθk=1\mathbb P(x=c_k|\theta)=\theta_k,\quad k=1,2,\cdots,K \\ \text{s.t. }\sum_{k=1}^K\theta_k=1

x=ckx=c_k 出现的次数为 NkN_k,即k=1KNk=N\sum_{k=1}^KN_k=N。则参数向量的似然函数

p(Dθ)=k=1KθkNkp(D|\theta)=\prod_{k=1}^K\theta_k^{N_k}

参数 θ\theta 的共轭先验为狄利克雷分布,θD(α1,,αK)\theta\sim \mathcal D(\alpha_1,\cdots,\alpha_K),则

p(θ)k=1Kθkαk1p(\theta)\propto \prod_{k=1}^K \theta_k^{\alpha_k-1}

联合概率密度

p(θ)p(Dθ)k=1Kθkαk1k=1KθkNk=k=1Kθkαk+Nk1\begin{aligned} p(\theta)p(D|\theta) &\propto \prod_{k=1}^K \theta_k^{\alpha_k-1}\prod_{k=1}^K\theta_k^{N_k} \\ &=\prod_{k=1}^K \theta_k^{\alpha_k+N_k-1} \end{aligned}

后验分布同样服从狄利克雷分布

θDD(α1+N1,,αK+NK)\theta|D\sim \mathcal D(\alpha_1+N_1,\cdots,\alpha_K+N_K)

(1) 联合概率对数形式为

logp(θ)p(Dθ)=C+k=1K(αk+Nk1)logθk\log p(\theta)p(D|\theta)=C+\sum_{k=1}^K(\alpha_k+N_k-1)\log\theta_k

考虑约束条件,拉格朗日函数为

L(θ)=C+k=1K(αk+Nk1)logθk+λ(1k=1Kθk)\mathcal L(\theta)=C+\sum_{k=1}^K(\alpha_k+N_k-1)\log\theta_k+\lambda(1-\sum_{k=1}^K\theta_k)

对上式求导,并置为0

L(θ)θk=1θk(αk+Nk1)λ=0\frac{\partial\mathcal L(\theta)}{\partial\theta_k}=\frac{1}{\theta_k}(\alpha_k+N_k-1)-\lambda=0

于是

θk=Nk+αk1λ\theta_k=\frac{N_k+\alpha_k-1}{\lambda}

考虑

k=1Kθk=k=1KNk+αk1λ=NK+k=1Kαkλ=1\sum_{k=1}^K\theta_k=\sum_{k=1}^K\frac{N_k+\alpha_k-1}{\lambda}=\frac{N-K+\sum_{k=1}^K\alpha_k}{\lambda}=1

所以参数 θk\theta_k 的最大后验估计

θkMAP=Nk+αk1NK+k=1Kαk\theta_k^{MAP}=\frac{N_k+\alpha_k-1}{N-K+\sum_{k=1}^K\alpha_k}

(2) 对 θ\theta 的后验分布求期望可获得贝叶斯估计

θkBE=Nk+αkk=1K(Nk+αk)=Nk+αkN+k=1Kαk\theta_k^{BE}=\frac{N_k+\alpha_k}{\sum_{k=1}^K(N_k+\alpha_k)}=\frac{N_k+\alpha_k}{N+\sum_{k=1}^K\alpha_k}

如果先验分布中我们预先认为每个类别出现的概率是一致的,即 α1=α2==αK=α\alpha_1=\alpha_2=\cdots=\alpha_K=\alpha,此时有

θ^k=Nk+αN+Kα\hat\theta_k=\frac{N_k+\alpha}{N+K\alpha}

α>0\alpha>0 为先验平滑因子。

  • α=0\alpha=0 时,就是极大似然估计;
  • α=1\alpha=1 时,称为拉普拉斯平滑(Laplaces moothing),也意味着参数服从的是均匀分布 U(0,1)U(0,1),也是狄利克雷分布的一种情况。
  • α<1\alpha<1 时,称为Lidstone平滑。

在贝叶斯分类算法中,类条件概率常使用贝叶斯估计。假设特征 xjx_jSjS_j个可能值 xj{aj1,aj2,,ajSj}x_j\in\{a_{j1},a_{j2},\cdots,a_{jS_j}\} ,则类条件概率的贝叶斯估计为

P^α(xj=ajsck)=Nks+αNk+αSj\hat P_{\alpha}(x_j=a_{js}|c_k)=\frac{N_{ks}+\alpha}{N_k+\alpha S_j}

其中 Nks=i=1NI(xij=ajs,yi=ck)N_{ks}=\sum_{i=1}^N\mathbb I(x_{ij}=a_{js},y_i=c_k) 是类别为ckc_k 样本中特征值 ajsa_{js} 出现的次数。NkN_k为类别为ckc_k的样本个数。如果数据集中类别 ckc_k没有样本,即Nk=0N_k=0,则 P^(xj=ajsck)=1/Sj\hat P(x_j=a_{js}|c_k)=1/S_j ,即假设类别 ckc_k中的样本均匀分布。

显然,先验平滑因子避免了因训练集样本不充分而导致概率估值为零的问题, 并且在训练集变大时,修正过程所引入的先验知识的影响也会逐渐变得可忽略,使得估值渐趋向于实际概率值。

泊松分布

假设特征 xx 服从泊松分布

P(xλ)=λxx!eλ\mathbb P(x|\lambda)=\frac{\lambda^x}{x!} e^{-\lambda}

参数 λ\lambda 的似然函数为

p(Dλ)=exp(Nλ)i=1Nλxixi!p(D|\lambda)=\exp(-N\lambda)\prod_{i=1}^N \frac{\lambda^{x_i}}{x_i!}

参数 λ\lambda 的共轭先验为Gamma分布,λGamma(α,β)\lambda\sim Gamma(\alpha,\beta),则

p(λ)λα1exp(βλ)p(\lambda)\propto\lambda^{\alpha-1}\exp(-\beta \lambda)

联合概率密度

p(λ)p(Dλ)=λα1exp(βλ)exp(Nλ)i=1Nλxixi!λα+Nxˉ1exp((β+N)λ)\begin{aligned} p(\lambda)p(D|\lambda)&= \lambda^{\alpha-1}\exp(-\beta \lambda)\exp(-N\lambda)\prod_{i=1}^N \frac{\lambda^{x_i}}{x_i!} \\ &\propto \lambda^{\alpha+N\bar x-1}\exp(-(\beta+N)\lambda) \end{aligned}

其中xˉ=1Ni=1Nxi\bar x=\frac{1}{N}\sum_{i=1}^Nx_i为样本均值。于是得到参数 λ\lambda 的后验分布同样服从Gamma分布

λDGamma(α+Nxˉ,β+N)\lambda|D\sim Gamma(\alpha+N\bar x,\beta+N)

最大后验估计

λMAP=α+Nxˉ1β+N\lambda_{MAP}=\frac{\alpha+N\bar x-1}{\beta+N}

贝叶斯估计

λBE=E(λD)=α+Nxˉβ+N\lambda_{BE}=\mathbb E(\lambda|D)=\frac{\alpha+N\bar x}{\beta+N}

指数分布

假设特征 xx 服从指数分布

P(xλ)=λeλx\mathbb P(x|\lambda)=\lambda e^{-\lambda x}

参数 λ\lambda 的似然函数为

p(Dλ)=λNi=1Nexp(λxi)p(D|\lambda)=\lambda^N\prod_{i=1}^N \exp(-\lambda x_i)

参数 λ\lambda 的共轭先验为Gamma分布,λGamma(α,β)\lambda\sim Gamma(\alpha,\beta),则

p(λ)λα1exp(βλ)p(\lambda)\propto\lambda^{\alpha-1}\exp(-\beta \lambda)

联合概率密度

p(λ)p(Dλ)=λα1exp(βλ)λNi=1Nexp(λxi)=λα+N1exp((β+Nxˉ)λ)\begin{aligned} p(\lambda)p(D|\lambda)&= \lambda^{\alpha-1}\exp(-\beta \lambda)\lambda^N\prod_{i=1}^N \exp(-\lambda x_i) \\ &= \lambda^{\alpha+N-1}\exp(-(\beta+N\bar x)\lambda) \end{aligned}

其中xˉ=1Ni=1Nxi\bar x=\frac{1}{N}\sum_{i=1}^Nx_i为样本均值。于是得到参数 λ\lambda 的后验分布同样服从Gamma分布

λDGamma(α+N,β+Nxˉ)\lambda|D\sim Gamma(\alpha+N,\beta+N\bar x)

最大后验估计

λMAP=α+N1β+Nxˉ\lambda_{MAP}=\frac{\alpha+N-1}{\beta+N\bar x}

贝叶斯估计

λBE=E(λD)=α+Nβ+Nxˉ\lambda_{BE}=\mathbb E(\lambda|D)=\frac{\alpha+N}{\beta+N\bar x}

均匀分布

假设特征 xx 服从均匀分布

p(xθ)=1θ,x[0,θ]p(x|\theta)=\frac{1}{\theta},\quad x\in[0,\theta]

参数 θ\theta 的似然函数为

p(Dθ)=θNp(D|\theta)=\theta^{-N}

参数 θ\theta 的共轭先验为Pareto分布,θPareto(α,β)\theta\sim Pareto(\alpha,\beta),则

p(θ)θ(α+1)p(\theta)\propto\theta^{-(\alpha+1)}

联合概率密度

p(θ)p(Dθ)θ(α+1)θNθ(α+N+1)\begin{aligned} p(\theta)p(D|\theta)&\propto \theta^{-(\alpha+1)}\theta^{-N} \\ &\propto \theta^{-(\alpha+N+1)} \end{aligned}

于是得到参数 θ\theta 的后验分布同样服从Pareto分布

θDPareto(α+N,β)\theta|D\sim Pareto(\alpha+N,\beta')

注意 β=max{x1,,xN,β}\beta'=\max\{x_1,\cdots,x_N,\beta\}

最大后验估计

θMAP=β\theta_{MAP}=\beta'

贝叶斯估计

θBE=E(θD)=βN+α1\theta_{BE}=\mathbb E(\theta|D)=\frac{\beta'}{N+\alpha-1}