概率论

发表于 2025-01-01 更新于 2025-02-06

概率论

1. 泊松分布

$\hspace{1cm}$ 定义为$P(x=k) = \frac{\lambda ^k}{k!}e^{-\lambda}$，$\lambda > 0$，也可以记作$X$ ~ $P(\lambda)$

$\hspace{1cm}$ 对于一个二项分布$B(n,p)$，如果$n$比较大，$np$适中（$n \ge 100， np \le 10$）那么可以把二项分布$B(n,p)$近似为$P(np)$

2. 超几何分布

$\hspace{1cm}$ 定义为$H(N,M,n)$，表示从有限$N$个物品中（其中包含$M$个指定种类的物件）中抽出$n$个物件，成功抽出该指定种类的物件的次数（不放回）

3. 均匀分布

$\hspace{1cm}$ 即在$[a,b]$范围内等概率分布的情况，记作$X$ ~ $U(a,b)$

4. 指数分布

$\hspace{1cm}$ 其概率密度函数为
$$
f(x) = \begin{cases}\lambda e^{-\lambda x}\ \ \ \ x > 0\ 0 \ \ \ \ \ \ \ \ \ \ \ \ x \le 0 \end{cases}
$$
$\hspace{1cm}$ 记作$X$ ~ $Exp(\lambda)$

5. 几何分布

$\hspace{1cm}$ 定义为$P(X = k) = (1 - p)^{k - 1} \times p$，也可记作$X$ ~ $G(p)$，表示第$k$次刚好第一次发生概率为$p$的事

6. 正态分布

$\hspace{1cm}$ 其密度函数记为
$$
\varphi(x) = \frac 1{\sqrt{2\pi} \sigma}e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$
$\hspace{1cm}$ 记作$X$ ~ $N(\mu, \sigma^2)$

$\hspace{1cm}$ 其分布函数记为$\Phi(x) = \int_{-\infty}^x \phi(t) dt$

$\hspace{1cm}$ 当$\mu = 0, \sigma = 1$时，认为是标准正态分布，其概率密度函数记为$\varphi_0(x)$，分布函数记为$\Phi_0(x)$

$\hspace{1cm}$ 对于任何任意一个$\varphi(x)$，有$\varphi(x) = \frac 1 \sigma \varphi_0(\frac {x - \mu}{\sigma})$，以及$\Phi(x) = \Phi_0(\frac{x - \mu}{\sigma})$

多维随机变量相关

1.多维随机变量的联合分布函数，以及边缘分布函数（对于离散型和连续型均适用）

$\hspace{1cm}$ 仿照单元模式，我们有如下定义：$F(x,y) = P(X \le x, Y \le y)$ 为$(X,Y)$的联合分布函数

$\hspace{1cm}$ 根据定义，容易证明

$$
P(x_1 < X \le x_2, y_1 < Y \le y_2) = F(x_2,y_2) - F(x_1,y_2) - F(x_2,y_1) + F(x_1,y_1)
$$

$\hspace{1cm}$ 注意到$F(x,y)$有如下性质：

$$
F(-\infty,y) = F(x, -\infty) = 0
$$

$$
F(-\infty,-\infty) = 0, F(+\infty,+\infty) = 1
$$

$\hspace{1cm}$ 定义边缘分布函数：称$F_X(x),F_Y(y)$分别为$(X,Y)$关于$X$和$Y$的边缘分布函数，其中$F_X(x) = F(x,+\infty)$，$F_Y(y) = F(y, +\infty)$。

2. 多维随机变量的联合概率密度以及边缘概率密度（连续型）

$\hspace{1cm}$ 若存在二元函数$f(x,y)$使得$\int_{-\infty}^x \int_{-\infty}^y f(u,v)dudv = F(x,y)$，则称$f(x,y)$为联合概率密度

$\hspace{1cm}$ 定义边缘概率密度函数：称$f_X(x), f_Y(y)$分别为$(X,Y)$关于$X$和$Y$的边缘密度函数，其中$f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy$, $f_Y(y) = \int_{-\infty}^{+\infty}f(x,y)dx$

3. 多维随机变量的联合分布列以及边缘分布列（离散型）

$\hspace{1cm}$ 若$(X,Y)$均是离散的，那么定义$p_{ij} =P(X = x_i, Y = y_i)$为联合分布列

$\hspace{1cm}$ 同时定义$p_{i·} = \sum_j p_{ij}$为$(X,Y)$关于$X$的边缘分布列，$p_{·j} =\sum i p{ij}$ 为$(X,Y)$关于$Y$的边缘分布列

4. 多维变量的分布

$\hspace{1cm}$ 设$Z = \frac XY$，且$f(x,y)$表示变量$X,Y$的联合概率密度函数，则有：
$$
f_Z(z) = \int_{-\infty}^{+\infty} |y| f(yz,y)dy
$$

期望，方差，协方差

常见分布的期望和方差：

类型	E:期望	D：方差
$U(a,b)$	$\frac {a + b}2$	$\frac{(b - a)^2}{12}$
$P(\lambda)$	$\lambda$	$\lambda$
$E(\lambda)$	$\frac 1\lambda$	$\frac 1{\lambda^2}$
$G(p)$	$\frac 1p$	$\frac q{p^2}$
$N(\mu, \sigma^2)$	$\mu$	$\sigma^2$
$B(n,p)$	$np$	$npq$

注：$E(\lambda)$为指数分布，$G(p)$为几何分布，$q = 1 - p$

切比雪夫不等式：对于一切分布$X$，有：
$$
P(|X - EX| > \varepsilon) \le \frac {DX}{\varepsilon^2}
$$
注意：如果随机变量$X,Y$满足$E(XY) = E(X)E(Y)$那么不能说明$X$和$Y$是独立的！
对于任意随机变量$X_1,X_2,…,X_n$以及任意常数$k_0,k_1,…,k_n$，我们有：
$$
D(k_0 + k_1X_1+ k_2X_2 + … + k_nX_n) = \sum_{i = 1}^n{k_i}^2DX_i + 2 \sum_{1 \le i < j \le n}k_ik_jCov(X_i,X_j)
$$
Cauchy-schwarz inequation:
$$
EX^2 \times EY^2 \ge (E[XY])^2
$$
最小二乘法拟合：对于随机变量$X,Y$，尝试用$y = \hat{a}x + \hat{b}$拟合，那么最好的拟合直线中:
$$
\hat{a} = \rho_{XY} \sqrt{\frac {DY}{DX} }, \hat{b} = EY - \hat{a}EX
$$
若$(X,Y)$服从二维正态分布$N(\mu_1,\mu_2,{\sigma_1}^2,{\sigma_2}^2,\rho)$，那么$Cov(X,Y) = \sigma_1\sigma_2\rho$
条件期望的概念：书p69开始，注意：$E(X|Y)$是一个关于$Y$的函数，也是一个随机变量，而$E(X|Y = y)$是一个常数。全期望公式：
$$
E(X) = E[E(X|Y)]
$$

数理统计部分

样本方差的定义：设有$n$个样本$X_1,X_2,…,X_n$，则定义样本方差
$$
S^2 = \frac 1{n - 1} \sum_{i = 1}^n(X_i - \bar{X})^2
$$
其中：
$$
\bar{X} = \frac 1n \sum_{i = 1}^nX_i
$$
设$n$个样本都是独立同分布的，且每个样本作为随机变量均值为$\mu$,方差为$\sigma^2$，则：
$$
ES^2 =E(\frac 1{n - 1} \sum_{i = 1}^n(X_i - \bar{X})^2) = \frac 1{n - 1} \sum_{i = 1}^n(E^2(X_i) - 2E(X_i\bar{X}) + E^2(\bar{x}))\ = \frac 1{n - 1} \sum_{i = 1}^n(\mu^2 + \sigma^2 + \mu^2 + \frac 1n \sigma^2 - 2E(X_i\bar{X}))\
\because E(X_i\bar{X}) = \frac 1nE(\sum_{1 \le j\le n, j \neq i}X_iX_j) + \frac 1nE({X_i}^2) = \frac 1n\sum_{1 \le j\le n, j \neq i}E(X_i)E(X_j) + \frac 1nE({X_i}^2)\ = \mu^2 + \frac 1n \sigma^2\
\therefore ES^2 = \frac 1{n - 1} \times n \times \frac{n - 1}n\sigma^2 = \sigma^2
$$
设$\chi^2$ ~ $\chi^2(n)$，则当$n$足够大时，$\sqrt{2\chi^2}$近似服从正态分布$N(\sqrt{2n-1},1)$
t分布：若$X$ ~ $N(0,1)$, $Y$ ~ $\chi^2(N)$，且$X$和$Y$相互独立，那么定义$T$ ~ $t(n) = \frac{X}{\sqrt{Y/n}}$为t分布.

当$n \to +\infty$时，$t(n)$ 可近似为 $N(0,1)$
F分布：若$X$ ~ $\chi^2(n_1)$， $Y$ ~ $\chi^2(n_2)$，且$X$和$Y$相互独立，那么定义$F(n_1,n_2) = \frac{X/{n_1}}{Y/_{n_2}}$为F分布

若$F$ ~ $F(n_1,n_2)$,则有$\frac 1F $ ~ $F(n_2,n_1)$。同时我们有：$F_{\alpha}(n_2,n_1) = \frac 1{F_{1 - \alpha}(n_1,n_2)}$
假设$X_1,X_2,…,X_n$均服从$N(\mu,\sigma^2)$且相互独立，设$\bar{X} = \frac 1n \sum_{i = 1}^n {X_i}$，$S^2 = \frac 1n \sum_{i = 1}^n(X_i - \bar{X})^2$，那么：
- $ \frac 1{\sigma^2}\sum_{i = 1}^n (X_i - \mu)^2$ ~ $\chi^2(n)$
- $\frac 1{\sigma^2}\sum_{i = 1}^n (X_i - \bar{X})^2 $ ~ $\chi^2 (n - 1)$ 这条等价为$(n - 1)\frac {S^2}{\sigma^2}$ ~ $\chi^2(n - 1)$
- $\frac{\bar{X} - \mu} {\sigma}\sqrt{n}$ ~ $N(0,1)$；
- $\frac{\bar{X} - \mu}{S}\sqrt{n}$ ~ $t(n - 1)$；（这里的S表示标准差，即$\sqrt{S^2}$，同时我们可以比较上下发现，当$n \to \infty$时，$t(n - 1) \to N(0,1)$）
p96 推论6.3 考前看一下，难记
在正态分布中，不相关和独立是等价的，这是一条很强的结论
正态分布随机抽样得到$X_1,X_2,…,X_n$。那么有$S^2$与$\overline{X}$独立，且有$\tilde{S}$与$\overline{X}$独立。

参数估计部分

$\hspace{1cm}$ 这部分主要用于处理已经知道一系列样本，要用这些样板来估计分布函数里面的一些参数的问题。

矩估计：
- 若只有一个参数要估计，那只需要用一阶矩来估计即可；如果有n个参数要估计，那么用前n阶矩来估计
- 用第$k$阶矩来估计的方法：
  - 首先计算出总体的$k$阶原点矩，这等于$E(X^k)$，这应该是一个关于待估计参数的函数
  - 然后计算出样本的$k$阶原点矩，这等于$\frac 1n \sum_{i = 1}^n {X_i}^k$ ，这算出来是一个确定的数
  - 令样本的$k$阶原点矩等于总体的$k$阶原点矩，得到一个方程用来解待估计的参数
- 更加一般化地说，就是我们可以用样本的$k$阶原点矩作为总体的$k$阶原点矩。例如，我们知道样本的$1$阶原点矩是$a$，样本的$2$阶原点矩是$b$，现在要求样本的标准差的矩估计。
  
  那么，我们就可以认为$EX = a$, $EX^2 = b$，于是$D = EX^2 -(EX)^2 = b - a^2$，所以我们就认为$\sqrt{b - a^2}$是样本的标准差的矩估计。
- 我们有如下记号约定：对于一个样本$(X_1,X_2,…,X_n)$，令 $\tilde{S}^2 = \frac 1n \sum_{i = 1}^n (X_i - \overline{X})^2$
- 在矩估计法中，认为$DX = \tilde{S}^2$
  
  证明如下：
  $$
  \tilde{S}^2 =\frac 1n \sum_{i = 1}^n (X_i - \overline{X})^2 \ =
  \frac 1n \sum_{i = 1}^n{X_i}^2 - \frac 2n \sum_{i = 1}^n{X_i}\overline{X} + \overline{X}^2\ = \frac 1n \sum_{i = 1}^n{X_i}^2 - 2\overline{X}^2 + \overline{X}^2 = \frac 1n \sum_{i = 1}^n{X_i}^2 - \overline{X}^2\ = EX^2 - (EX)^2 = DX
  $$
最大似然估计

即为要让参数取该估计值时，样本发生的概率最大
设$\hat{\theta} = \hat{\theta}(X_1,X_2,…,X_n)$是参数$\theta$的估计量，若对于任意的$\theta \in \Theta$，都有：
$$
E(\hat{\theta}) = \theta
$$
那么称$\hat{\theta}$是$\theta$的无偏估计。

设总体方差$DX=\sigma^2$存在，那么$S^2 = \frac 1{n - 1} \sum_{i = 1}^n (X_i - \overline{X})^2$是$\sigma^2$的无偏估计，而$\tilde{S}^2 = \frac 1n \sum_{i = 1}^n(X_i - \overline{X})^2$是$\sigma^2$的有偏估计。

概率论好题整理

若$X,Y$独立，且$X$ ~ $P(\lambda_1)$,$Y$ ~ $P(\lambda_2)$。

(1) 证明$X + Y$ ~ $P(\lambda_1 + \lambda_2)$; （2）求在已知$X + Y = m$的条件下$X$的分布
已知随机变量$X$和$Y$相互独立，且都服从$N(0,1)$，求$E[max{X,Y}]$
已知$X$ ~ $N(\mu, \sigma ^2)$，求$DX$

首先$EX = \mu$, 然后：

$$
DX = E((X - EX)^2) = E((X - \mu)^2) = \int_{-\infty}^{+\infty} \frac 1 {\sqrt{2\pi}\sigma}e^{-\frac {(x - \mu)^2}{2\sigma ^2}}\times (x - \mu)^2 dx\ = \int_{-\infty}^{+\infty} \frac 1 {\sqrt{2\pi}\sigma} e^{\frac{-x^2}{2\sigma^2} }\times x^2 dx = \int_{-\infty}^{+\infty} \frac 1 {\sqrt{2\pi}\sigma} e^{-(\frac x{\sqrt 2 \sigma})^2} \times (\frac x{\sqrt 2 \sigma})^2d(\frac {x}{\sqrt 2 \sigma}) \times 2\sqrt 2 \sigma ^3\ = \frac{2\sigma ^2}{\sqrt{\pi}} \int_{-\infty}^{+\infty} e^{-x^2} x^2dx
$$

考察积分$\int_{-\infty}^{+\infty}e^{-x^2}x^2dx$：
$$
\int_{-\infty}^{+\infty} e^{-x^2}dx = \left. xe^{-x^2}\right|{-\infty}^{+\infty} + 2\int{-\infty}^{+\infty}e^{x^2}x^2 dx = \sqrt{\pi}
$$
于是：
$$
\int_{-\infty}^{+\infty}e^{x^2}x^2 dx =\frac {\sqrt \pi}2
$$
所以:
$$
DX = \sigma^2
$$

已知$X$ ~ $N(0,\sigma^2)$, $Y$ ~ $N(0,\sigma ^2)$，求证：$X + Y$ ~ $N(0, 2\sigma^2)$， $X - Y$ ~ $N(0, 2\sigma^2)$。

**超级强的一个结论：**若$X$ ~ $N(\mu_1,{\sigma_1}^2)$，$Y$ ~ $N(\mu_2,{\sigma_2}^2)$，则$X + Y$ ~ $N(\mu_1+\mu_2，{\sigma_1}^2+{\sigma_2}^2 )$，

$X - Y$ ~ $N(\mu1 - \mu 2,{\sigma_1}^2+{\sigma_2}^2 )$

设随机变量$X$与$Y$相互独立，且都服从$N(0, \frac 12)$分布，求$E|X - Y|$以及$D|X-Y|$
$$
E|X-Y| = \sqrt{\frac 2 \pi}\ \ \ \ \ \ \ D|X-Y| = 1 - \frac 2 \pi
$$
设随机变量$x$具有概率密度：
$$
f(x) = \begin{cases} \frac{x^m}{m!} e^{-x}\ \ \ \ \ \ \ \ x \ge 0\
0 \ \ \ \ \ \ \ \ \ \ \ \ \ else\end{cases}
$$
其中$m$为正整数。请证明：$P(0 \le X \le 2(m + 1)) \ge \frac m{m + 1}$

hint: 实际上这个概率密度函数和欧拉给出的 x! 的连续函数的被积函数很像
设随机变量$X,Y$独立，且分别服从参数为$\lambda$和$\mu$的泊松分布，求$E(X|X + Y = m)$

$ans:\frac{m\lambda}{\lambda + \mu}$
假设随机变量$X_1$在$[0,1]$上有均匀分布,$X_i$在$[X_{i-1},X_{i-1}+1]$上有均匀分布，其中$i = 2,3,…,n$，求$EX_n$

解：首先$E(X_i|X_{i - 1}) = X_{i - 1} + \frac 12$，根据全期望公式，有

$$
E(X_i) = E(E(X_i|X_{i - 1})) = E(x_{i - 1} + \frac 12) = EX_{i - 1} + \frac 12
$$
而$E_1 = \frac 12$，所以$E_n = \frac n2$
已知$X$ ~ $N(0,1)$，求$E(X^2),D(X^2)$
$$
E(X^2) = E^2(X) + D(X) = 1\
E(X^4) = \int_{-\infty}^{+\infty}\frac 1{\sqrt{2\pi}}e^{-\frac{x^2}2}x^4dx\
while\ \ \ \int_{-\infty}^{+\infty}e^{-x^2}x^4dx = \frac 34 \sqrt{\pi}\ \ (This \ \ is \ \ similar \ \ to \ \ calculating \ \ \int_{-\infty}^{+\infty}e^{-x^2}x^2 dx)\
\therefore E(X^4) = 3\
\therefore D(X^2) = E(X^4)-E^2(X^2) = 3 - 1 = 2
$$
设总体$B$ ~ $B(1,p)$,$p$为未知参数，$(X_1,X_2,X_3,…,X_n)$ 为来自总体$X$的样本，求$p$的极大似然估计

第一种做法是$L(\theta) = \prod(X_ip + (1-X_i)(1-p))$，这种后续取对然后求驻点是做不下去的

需要写成$L(\theta) = \prod(p^{X_i}(1 - p)^{1 - X_i})$，然后后续取对然后求驻点可以做
设总体$X$的密度函数为：
$$
f(x) = \begin{cases}\frac 1 \theta e^{-\frac{x - \mu}\theta}\ \ \ \ x \ge \mu \ 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x < \mu \ \end{cases}
$$
其中$\theta > 0$，求未知参数$\mu, \theta$的矩估计量

注意到：$X - \mu$ ~ $E(\frac 1\theta)$，

所以：$E(X - \mu)$ = $\theta$, $D(X - \mu) = \theta^2$，
所以：$EX = \theta + \mu, DX = \theta ^2$，
所以：$\overline{X} = \theta + \mu, \tilde{S}^2 = \theta^2$
所以：$\theta = \tilde{S}, \mu = \overline{X} - \tilde{S}$

若$X$与$Y$不相关，是否有$f(X)$与$g(Y)$不相关？
若$X_1,X_2,…,X_n$独立同分布，是否有$\overline{X}$与$S^2$不相关？