专栏名称: Nefelibatas

在此记录自己的算法工程师学习之路，生活修行感...

机器学习中的数学

Nefelibatas · 简书 · · 2022-02-24 20:36

正文

数学理论的主要内容

机器学习的各种角度和建模流程

概率论和统计学基础概念复习

极大似然体系和 EM 算法

贝叶斯体系和 Variational Bayes 算法

矩阵代数：基本概念复习和 Tensor 求导

证明的过程：把已知的公式写出来，寻找和需要证明的公式的联系

log单变

交叉熵损失函数 L = -[ y log y* + (1-y) log (1 - y*) ]

log 运算并不会影响函数本身的单调性

极大似然

HMM：需要背诵推导过程

贝叶斯：用后验更新先验

似然函数定义：θ是固定的，但是在贝叶斯里，θ 是随机的，所以写成 P(x|θ) 但还是似然函数。

概率论

概率论是描述随机的语言，分为朴素概率论和公理性概率论。

主要讲朴素概率论。

$随机变量： \Omega → R的函数$

$CDF累积分布函数 = \int PDF 概率密度函数\\ 已知CDF，直接求导即可得到PDF \\ 已知PDF，对其微分可得CDF$

基础知识

一维离散：

一维离散可以直接讨论概率

一维离散可以假设概率取值只是整数

$P(X ≤ x) = \sum_{i≤x}^{} p(X = i), 或者用更标准的写法 P(X ≤ t) = \sum_{i≤t}^{}P(x）$

连续变量：

连续意味着可能性至少不是有限的还是可以定义 P(X ≤ x)

但是定义 p(x) 的时候就有问题

PDF与CDF：

在给定一个连续变量时，只能定义

$P(X ≤ m) = \int_{-\infty}^{m}p(x)dx$

虽然离散和连续的定义有所不同，但是积分本身就是一种非常复杂的加法

$F_X(t) := P(X ≤ t) 就是Cumulative Distribution Function（累积分布函数）$

p(x) 就是Probability Density Function(概率密度函数)，不是概率值

多维情况下：

以二维为例：

$P(X ≤ m, Y ≤ n) = \int_{-\infty}^{m}\int_{-\infty}^{n}p(x，y)dxdy$

对于边际分布 p(x) = ∫ p(x, y)dy ( 只关心x的趋势所以对y积分 )同理p(y)也是

条件概率 p(x|y) = p(x, y) / p(y)

注意：在连续的情况下，PDF可以大于1，离散不行

数学期望

给定一个概率密度函数p(x),再给定一个函数f(x)，定义数学期望(Expectation)为：

$E_p[f(x)] = \int f(x)p(x)dx$

条件数学期望:

给定一个条件概率密度函数 p(x|y), 再给定一个函数 f(x)，定义其的条件数学期望（Conditional Expectation）为：

$E_p[f(X)|Y=y]:=\int f(x)p(x|y)dx$

正态分布

若随机变量X服从一个数学期望为μ、方差为σ^2 的正态分布，记为N(μ，σ^2)。

其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度，当μ = 0,σ = 1时的正态分布是标准正态分布。

一维正态分布

若随机变量X服从一个位置参数为 µ、尺度参数为σ的概率分布，且其概率密度函数为：

$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{-(x,\mu)^2}{2\sigma^2}}$

则这个随机变量就称为正态随机变量，正态随机变量服从的分布就称为正态分布，记作X~(μ,σ ^{2),读作X服从N(μ,σ} 2) ，或X服从正态分布。

条件概率

$P(A|B) = \frac{P(AB)}{P(B)}$

贝叶斯公式

$P(A|B) = \frac{P(B|A)P(B)}{P(B)}\\ P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_j P(B|A_j)P(A_j)}$

在贝叶斯法则中，每个名词都有约定俗成的名称： P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。 P(A|B) 是已知B发生后A的条件概率，也由于得自B的取值而被称作 A的后验概率 。 P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。 P(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。

手推贝叶斯公式

$p(y|x) = \frac{p(y)p(x|y)}{∫ p(x|y)p(y)dy}$

前置条件：

$p(x|y)=p(x,y)/p(y)$

$p(x)=\int p(x,y)dy$

推导过程：

$\because p(x|y)=p(x,y)/p(y),$

$\therefore p(y|x) =p(x,y)/p(x),p(x,y)=p(y)p(x|y)$

$\therefore p(y|x)=\frac{p(y)p(x|y)}{p(x)}$

$\because p(x)=\int p(x,y)dy，结合p(x,y)=p(y)p(x|y)$

$\therefore p(x)=\int p(x|y)p(y)dy$

证毕。

重点部分

$Multinomial：P(X = xi) = pi$

正态分布：

$p(x) = {\frac{1}{ σ\sqrt{2π}} }{e(^-{\frac{(x-\mu)^2}{2\sigma^2}})}\\ 或者\\ p(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{{-\frac{1}{2}}({\frac{x-\mu}{\sigma})^2}}$