感觉要长脑子了

随便记录一下之前的一些零碎的非常 trivial 的想法,简称正确的废话,经由我破碎的叙述之后正常人应该是理解不了。翻翻书上的批注还是能感觉到每次想到这些的时候,都有一种要长脑子了的,喜悦感(

虽然我 tag 打的是概率和统计,但是我感觉这其实又是一篇实分析(挠头

Lebesgue's Decomposition Theorem

在读 Radon-Nikodym Theorem 的时候看到过 mutually singular 的定义:

Two measures \(\mu_1,\mu_2\) are said to be mutually singular if there is a set \(A\) with \(\mu_1 (A) = \mu_2 (A^c)=0\). In this case we also write \(\mu_1 \perp \mu_2\).

在刚开始学概率论,只是学到概率测度的时候也接触过一个让我有点摸不着头脑的定义,叫做奇异连续:

A function \(F\) is called singular continuous if it is continuous, not identically zero and \(F'\) (exists and) equals zero a.e. .

如果说得再粗暴一点的话,奇异连续分布函数就是一个增长点在 Lebesgue 零测集里的函数,我一般都会形象地记成“所有的重量落在一个零测集里”。它只在分布函数的 Lebesgue decomposition 里出现过一次,我还以为有什么大用处,但是后面就没再出现过。

哦对,它还在一个很有意思的计算题里出现过一次,是 lzx 布置的作业题,期中考前我和助教对线了一晚上最后发现大家都有点问题(,还在 2023.04.21 的日记里记过一笔。

跑题:虽然有些跑题,但是那个计算题长这样:

随机变量 \(X,Y\) 分别服从 \([0,1]\) 区间上的均匀分布,其联合分布函数为

\[F(x,y) = \begin{cases} x^{1-\alpha} y & x^\alpha \geq y ^\beta \\ xy^{1-\beta} & x^\alpha < y^\beta \end{cases} \quad \forall (x,y) \in [0,1]^2\]

其中 \(\alpha,\beta \in (0,1)\) 为参数,\(F\) 的支撑为 \([0,1]^2\),但 \(F\) 既不是纯绝对连续的也不是纯奇异连续的,这是因为;

\[\frac{\partial^2}{\partial x \partial y} F(x,y) = \begin{cases} (1-\alpha)x^{-\alpha} & x^\alpha > y^\beta \\ (1-\beta) y^{-\beta} & x ^\alpha < y^\beta \end{cases} \quad \forall (x,y) \in (0,1)^2\]

因此可以将 \(F\) 分解为奇异连续部分和绝对连续部分之和,也即 \(F = F_{ac} +F_s\)。计算可知读者自证

\[F_{ac}(x,y) = \begin{cases} xy^{1-\beta} - \frac{\beta}{\alpha+\beta - \alpha \beta} x^{\frac{\alpha + \beta - \alpha \beta}{\beta}} & x^\alpha < y^\beta \\ x^{1-\alpha}y - \frac{\alpha}{\alpha+\beta - \alpha \beta} y ^{\frac{\alpha + \beta - \alpha \beta}{\alpha}} & x^\alpha > y^\beta \end{cases} \quad \forall (x,y) \in (0,1)^2\]

\[F_s(x,y) =\begin{cases} \frac{\alpha \beta}{\alpha+\beta - \alpha \beta} x^{\frac{\alpha+\beta - \alpha \beta}{\beta}} & x^\alpha = y^\beta \\ \frac{\beta}{\alpha+\beta - \alpha \beta} x^{\frac{\alpha + \beta - \alpha \beta}{\beta}} & x^\alpha < y^\beta \\ \frac{\alpha}{\alpha+\beta - \alpha \beta} y ^{\frac{\alpha + \beta - \alpha \beta}{\alpha}} & x^\alpha > y^\beta \end{cases} \quad \forall (x,y)\in [0,1]^2\]

另外可以注意到 \(P(X^\alpha = Y^\beta) = F_s(1,1) = \frac{\alpha \beta}{\alpha+\beta - \alpha \beta}\)

再注:中科大那本书上说这道题来自 Nelsen 老爷子 2006 年著作的第 45 页,我猜他想说的是那本 An Introduction to Copulas,虽然我并没有找到这道题,而且浅看了一下也没太明白单独定义一个 copulas 是干什么的(悲

直到看到 mutually singular 的定义(之后很久)才想起来,singular continuous function \(F_s\) 定义了一个在 \(\mathbb R\) 上的测度 \(\mu_s (-\infty , a] = F_s(a)\),相对于 \(\mathbb R\) 上的 Lebesgue measure \(m\),实际上有 \(\mu_s \perp m\)。如果不介意舍弃 continuous 的条件,将其和 discrete function \(F_d\) 合在一起定义测度 \(\mu' (-\infty,a] = F_s(a)+F_d(a)\),同样有 \(\mu' \perp m\)

对应最原始的 Lebesgue decomposition theorem(也就是在 Radon-Nikodym theorem 证明里看到的版本):

Let \(\mu, \upsilon\) be two \(\sigma-\)finite measures on a measurable space \((\Omega, \Sigma)\), there exist two \(\sigma-\)finite measures \(\upsilon_s,\upsilon_r\) such that:

  • \(\upsilon = \upsilon_s + \upsilon_r\)
  • There exists \(g \geq 0\) such that \(\upsilon_r (E) =\int_E g d\mu\) (actually means \(v_r \ll \mu\))
  • \(v_s \perp \mu\)

进行一个 refinement:取 \(\mu\)\(\mathbb R\) 上的 Lebesgue 测度,定义 \(F_c(a) = \upsilon_r (-\infty, a]\) 即为一个 absolutely continuous function,再将 \(F'(a) = \upsilon_s(-\infty, a]\) 拆分为离散部分和连续部分则有 \(F'(a) = F_d(a) +F_s(a)\)。所以,对于由 \(\upsilon\) 定义的 \(F(a) = \upsilon(-\infty, a]\),有:

\(F = F_s + F_c + F_d\)

where

  • \(F_s\) is the singular continuous part
  • \(F_c\) is the absolutely continuous part
  • \(F_d\) is the discrete part

这和分布函数仍然相差一个数值上的标准化。取 \(V(F) = F(+\infty) - F(-\infty)\) 作为一个全变差,\(F' = \frac{1}{V(F)} F\) 即为 \(F\) 对应的分布函数。同样定义分布函数 \(F'_s,F'_d,F'_c\) 且显然有 \(V(F) = V(F_s) +V(F_c) + V(F_d)\),于是:

\[F' = \frac{V(F_s)}{V(F_s) + V(F_d) + V(F_c)} F'_s + \frac{V(F_d)}{V(F_s) + V(F_d) + V(F_c)} F'_d+ \frac{V(F_c)}{V(F_s) + V(F_d) + V(F_c)}F'_c\]

即为熟知的分布函数的 Lebesgue decomposition,也给出了线性组合形式系数的来历。

查了下 wiki 发现的确是正确的废话,另外还有个随机过程的类似推广但我现在看不懂,前面的区域下次再来探索吧

Four Steps Procedure in Integration

本质上来说,是一些我经常弄混的东西的换个角度的翻来覆去的梳理。

For Nonnegative Function

在实分析中熟知的是,对一般可测函数的积分有一个四步构造法,简单复习一个:

  • Simple functions
  • Bounded and finitely supported functions
  • Nonnegative functions
  • General functions

相信这四行字就足够了

第三步对于 nonnegative function \(f \geq 0\),定义 \(\int f d\mu = \sup \{\int h \,\mathrm d \mu : 0 \leq h \leq f, h \text{ is bounded and finitely supported} \}\),这显然 well-defined;与此同时还有一个 lemma:

Let \(E_n \uparrow \Omega\) have \(\mu(E_n) < +\infty\), then \(\int _{E_n} (f \wedge n) \,\mathrm d \mu \uparrow \int f \,\mathrm d \mu\) as \(n \to +\infty\)

某天想起这个 lemma 的时候突然想到,其实完全可以看成 \(\int f d\mu\) 的另一个定义,即作为这一类序列的极限,轻微有别于 \(\sup \int h d\mu\) 的定义。但这个看起来有比较大的操作空间,可测集序列 \(\{E_n \} \uparrow \Omega\) 可以自取,就能用截断构造出各种趋于 \(f\) 的可测函数列。

听起来很有用!但稍微试了下除了证明一些基本的性质(比如\(\int (f +g) d\mu= \int f d\mu + \int g d\mu\) 的半边不等式,以及法图引理)之外还没见过太多的用法(,只不过证出来这个之后我也一下子觉得自己要长脑子了(

Who is Dense on \(L^1\) Space

首先复习一下什么叫做 \(A\) is dense on \(L^1\) space,我感觉这种东西真的是学了之后不用就会变成名词党。类比 \(\mathbb Q\)\(\mathbb R\) 上稠密就是对任意的 \(g \in L^1\) 存在 \(A\) 中序列 \(\{\psi_n \} \stackrel{L^1}{\rightarrow} g\),也就是 \(\| \psi_n - g \|_{L^1}=\int |\psi_n -g | \,\mathrm d \mu \to 0\);或者说,对任意的 \(\varepsilon >0\) 都存在 \(\varphi \in A\),使得 \(\| \varphi - g \|_{L^1} = \int |\varphi - g| \,\mathrm d\mu < \varepsilon\)

Stein 告诉我们应该熟知以下三种 density:

  • simple function
  • step function
  • compactly supported continuous function

另外一个(一组)我会弄混的结论是这样的,实质上是一个 convergence sequence,只有第一条是重要的:

  • For any nonnegative measurable function \(f\), there exists a sequence of increasing nonnegative simple function \(\{\varphi_k \}_{k=1}^{+\infty}\) which converges to \(f\) pointwise.
  • For any measurable function \(f\), there exists a sequence of simple function \(\{\varphi_k \}_{k=1}^{+\infty}\) which converges to \(f\) pointwise, and \(|\varphi_k (x) | \leq |\varphi_{k+1} (x)|\).
  • For any measurable function \(f\), there exists a sequence of step function \(\{\varphi_k \}_{k=1}^{+\infty}\) which converges to \(f\) pointwise.

How to Apply Four Steps Procedure Elegently

我写证明其实很口胡,这样不好。如果是遇到 four steps procedure 可以搞定的问题(指的是 simple function/step function 可以 work,然后直接能从 density/convergent sequence 推出 general function works 或者至少是 nonnegative function works 的情况)会非常开心。然而这听起来就很口胡,也不可能是一个万能的方法,稍有不慎真的口胡了的话后果很严重。

举两个我比较喜欢用来复习和脑内提示的例子,分别代表了 density 和 convergent sequence 两种方法,对应上一个标题下的两组结论,我个人认为至少对我是稍微有点指导意义的(怎么这也要叠甲呢

Riemann-Lebesgue lemma

If \(g\) is integrable then \(\lim_{n \to \infty} \int g(x) \cos nx \,\mathrm d x =0\)

Proof: It's easy to prove that the conclusion holds for step functions. For any integrable function \(g\) and any \(\varepsilon >0\), there exists a step function \(f\) that \(\| f-g \|_{L^1} = \int |f-g| \,\mathrm dx < \varepsilon\).(density)

Note that:

\[|\int g(x) \cos nx \,\mathrm d x | =|\int( g(x)-f(x))\cos nx \,\mathrm d x| \leq \int|( g(x)-f(x))||\cos nx |\,\mathrm d x \leq \int|( g(x)-f(x))|\,\mathrm d x < \varepsilon\]

Lemma in Conditional Expectation

If \(X \in \mathcal F\) and \(\mathbb E|Y|, \mathbb E|XY| < +\infty\) then \(\mathbb E(XY|\mathcal F) = X \mathbb E(Y|\mathcal F)\)

Proof: It's easy to prove that the conclusion holds for \(X = \mathbb 1_A\), where \(A \in \mathcal F\), thus it holds for simple random variables.

Take \(X = X^+ - X^-\), there exist two increasing simple random variable sequences \(\{X_k^+\}\uparrow X^+\) and \(\{X_k^-\}\uparrow X^-\). According to the monotone convergence theorem,

\[X^+\mathbb E(Y|\mathcal F)=\lim_{k \to \infty} X_k^+ \mathbb E(Y|\mathcal F) =\lim_{k \to \infty} \mathbb E(X_k^+ Y|\mathcal F) = \mathbb E(X^+ Y|\mathcal F)\]

\[X^-\mathbb E(Y|\mathcal F)=\lim_{k \to \infty} X_k^- \mathbb E(Y|\mathcal F) =\lim_{k \to \infty} \mathbb E(X_k^- Y|\mathcal F) = \mathbb E(X^- Y|\mathcal F)\]

Littlewood's Three Principles

学的时候也不知道是因为 Stein 的翻译逆天还是因为什么,总之觉得这个本来应该很形象的东西是真的抽象。

  • Every measurable set is nearly a finite sum of intervals;
  • Every function (of class \(L^p\)) is nearly continuous;
  • Every convergent sequence of functions is nearly uniformly convergent.

第一条代入外测度和开覆盖就挺好理解的,第三条到现在我其实也不是很能直观上理解,只知道一个 Egorov 定理,脑子长了一半还没完全长出来。

第二条当时也是嗯记了 Lusin 定理,其实也不是非常明白为什么要倒退一步取 bounded and finitely supported function 来做,或许就只是为了说明 \(m(E-F_\varepsilon) < \varepsilon\) 吗。看了 Durrett Ex.1.4.3 上对 \(q\) 进行一些 linearly round 的操作得到 \(r\) 的这道题才想起来其实就是一个关于 \(f\) 的近似,直观上就所谓 \(f\) is nearly continuous。虽然很显然但还是要长脑子了((

Miscellaneous Topics in Convergence Theorems

关于实分析中一些收敛定理(有界收敛、单调收敛、法图引理和控制收敛)的杂谈,大多数是解决 Stein 带来的困惑

Bounded Convergence Theorem

有一个因为不是很常用所以我都快忘记了的收敛定理叫做有界收敛,它是对于 bounded and finitely supported function(事实上函数列的支撑比这更严格一些,要求全体函数的支撑的并集有限)特化的。

Convergence Type

在 Durrett 上这一定理的叙述是:

Let \(E\) be a set with \(\mu (E) < \infty\). Suppose \(f_n\) vanished on \(E^c\), \(|f_n| \leq M\) and \(f_n \to f\) in measure.

Then \(\int f \, \mathrm d \mu = \lim \limits_{n \to \infty} \int f_n \, \mathrm d \mu\).

我感觉到有点不对是因为知识太贫乏,Stein 并没有教过我什么叫做 converge in measure,还是概率论学到 converge in probability 的时候当场补课的。如果在 bounded convergence theorem 的时候就学过那我就把 Stein 吃下去(

于是查了一下 Stein 的叙述,的确是 a.e. 收敛,幸免于吃书:

Let \(E\) be a set with \(\mu (E) < \infty\). Suppose \(f_n\) vanished on \(E^c\), \(|f_n| \leq M\) and \(f_n \to f\) a.e. .

Then \(\int f \, \mathrm d \mu = \lim \limits_{n \to \infty} \int f_n \, \mathrm d \mu\).

虽然 converge a.e. 比 converge in measure 更强,但是这个问题在 converge in measure 的时候其实更好证,不需要用到 Egorov Theorem 就可以完成。所以说其实 Durrett 又给出了一个更强的结论。

Refinement in Probability

解决了 convergence type 的问题之后,因为 converge in measure 这件事情戳到了 DNA,所以我突然开始思考把 Durrett 上这个 bounded convergence theorem 推广成随机变量列的形式的问题。它会变成:

Let \(E\) be a set with \(\mathbb P (E) < \infty\). Suppose \(X_n\) vanished on \(E^c\), \(|X_n| \leq M\) and \(X_n \to X\) in probability.

Then \(\mathbb E X = \lim \limits_{n \to \infty} \mathbb EX_n\).

事实上 \(\mathbb P (E) < \infty\) 这个条件完全没必要存在,也不需要再考虑所有随机变量的支撑之并可能测度无限这样的危险。

\(|X_n| \leq M\) and \(X_n \to X\) in probability, then \(\mathbb E X = \lim \limits_{n \to \infty} \mathbb EX_n\).

哦,这不就是弱化的 DCT 吗(

翻了下 Durrett 发现列举 four step 的时候说的是 bounded function,我读的时候还煞有介事地补了个 with finite support,如果是在概率测度下确实没必要但他这里其实也不是,凡是随机变量都 finitely supported。源头其实只是概率测度多出了一个 \(\mathbb P(\Omega) =1\) 的条件,感觉要长脑子了。或许 free probability 也会带有类似的性质吗?我第一次接触 free probability 这个概念是在 ypk 给我的论文里,看起来似乎除了不是归一化的测度之外没有太多区别。

还有个讨论映射的收敛定理,因为稍微复杂所以快忘了,随手记一下好了。证明留作习题(什么东西(其实我也不会证

Suppose \(X_n \to X\) a.s.. Let \(g,h\) be continuous functions with:

  • \(g \geq 0\) and \(g(x) \to \infty\) as \(|x| \to \infty\)
  • \(|h(x)| / g(x) \to 0\) as \(|x| \to \infty\)
  • \(\mathbb Eg(X_n) \leq K < + \infty\) for all \(n\)

Then \(\mathbb Eh(X_n) \to \mathbb Eh(X)\).

Misunderstanding of Fatou's Lemma

在读 Stein 学法图引理的时候给出的形式是这样的:

If \(f_n \geq 0\) and \(f_n \to f\) a.e., then \(\lim \limits_{n \to \infty} \inf \int f_n \, \mathrm d x \geq \int f \, \mathrm d x\).

我当时非常摸不着头发头脑,为什么会想出来这么一个形式,用一个 \(\lim \inf\) 来控制 \(\int f \, \mathrm dx\),是为了显示这个控制实际上已经很紧了吗?直到某次读 Durrett Chapter 1 的时候才知道原始的结论是这样的:

If \(f_n \geq 0\), then \(\lim \limits_{n \to \infty} \inf \int f_n \, \mathrm d x \geq \int \lim \limits_{n \to \infty} \inf f_n \, \mathrm d x\).

这就非常好看以及非常能够理解了,实际上是处理了一个积分号和下极限的交换问题,而 Stein 上面的形式是一个自然的推广。在这一问题的证明里,非常有幸,又看到了一个当初让我觉得长脑子了的技巧(指路 Four Steps Procedure in Integration - For Nonnegative Function),然后就觉得更长脑子了(

Proof:

Let \(g_n = \inf_{m \geq n} f_m(x) \leq f_n(x)\) and as \(n \uparrow \infty\), \(g_n (x) \uparrow g(x) = \lim \limits_{n \to \infty} \inf f_n(x)\)

Since \(\int f_n \, \mathrm d \mu \geq \int g_n \, \mathrm d \mu\), there is \(\lim \limits_{n \to \infty} \inf \int f_n \mathrm d \mu \geq \lim \limits_{n \to \infty} \inf \int g_n \mathrm d \mu\).

It suffices then to show that \(\lim \limits_{n \to \infty} \inf \int g_n \mathrm d \mu \geq \int g \, \mathrm d \mu\).

Let \(E_m \uparrow \Omega\) be sets of finite measure. Since \(g_n \geq 0\) and for fixed \(m\), \((g_n \wedge m ) \cdot \mathbb 1_{E_m} \to (g \wedge m ) \cdot \mathbb 1_{E_m} a.e.\).

The bounded convergence theorem implies \(\lim \limits_{n \to \infty} \inf \int g_n \, \mathrm d \mu \geq \int_{E_m} (g_n \wedge m ) \, \mathrm d \mu \to \int_{E_m} (g \wedge m ) \, \mathrm d \mu\),

and the second definition of the integration of nonnegative function implies \(\int_{E_m} (g \wedge m ) \, \mathrm d \mu \uparrow \int g \, \mathrm d \mu\).

Take sup over \(m\) and the desired result follows.

Random Variable

遇到复杂的随机变量组合(尤其是下标里带 stopping time 的那种),其实把 \(X_n\) 当成 \(X_n(\omega)\) 来想的话就好很多。

举一个 Dubin's Inequality 的例子:啊没举呢,简单记一笔下次写(

我很可爱 请给我钱(?)

欢迎关注我的其它发布渠道