另一个视角深度看随机过程

如何从深刻地理解随机过程的含义?

Stochastic Process

常规的说,在有一定的了解下,打算要深入理解的话,那自然是需要从测度论开始Step by Step的去理解啦,那么好好看书是必不可少的哈!

不过,测度是个好东西,但并非所有人都可以轻易领略到其中的妙。所以这里我想抛开教材中严谨的陈述,换个角度来“深入的”理解一下随机过程。

其实在谈到随机过程之前,大概率的情况下,我相信大家会首先听到一个概念,随机变量Random variable与其分布distribution。

随机变量与其分布

什么是随机变量呢?

这是个好问题,相信大多数的小伙伴一定知道这个概念,但是又不彻底知道这个概念,并且绝大多数情况下应该只记得一些例子,比如投硬币的实验。

一枚硬币投起来!

正面?反面?

虽说投硬币是个简单的操作,不过我们可以关注的点其实也不少,比如投硬币需要的时间,比如硬币在空中翻转的次数,等等,不过的不过,正常情况下,我们只会关注其落下后哪个面朝上,对吧?

所以在投硬币实验中,我们会将硬币落下哪个面朝上这个结果看做是随机变量。之所以说是变量(variable)是因为结果是存在变数的(not constant),正面或者反面;之所以说是随机(random)的是因为只要你不作弊,那么下一次到底是正面还是反面你是无法事先知道或者说100%预测到的。

既然这个结果存在变数且又无法被事先知道,那么我们有什么办法可以去刻画发生正面后者反面的可能性呢?

概率(或者实际情况中我们通常是用频率去估计的概率,当然这是后话)!

完整的表述是“我们可以用概率去刻画投硬币后落下哪个面朝上的结果这个随机变量”。

再仔细思考一下这个表述,其实还是有点问题,事实上,应该是说,

“我们可以用一个概率A去刻画投硬币后落下正面朝上的可能性,用另一个概率B去刻画投硬币落下后反面朝上的可能性”。

所以,本质上来说,真正刻画投硬币后落下哪个面朝上的结果这个随机变量的概率A和概率B的联合。当然只不过现在这个问题非常特殊,所以A+B = 1。

什么是概率A?是投硬币落下后的一种“可能发生的情况”所对应的“可能性”。同理概率B也是一样。

那么,现在我们可以稍稍抽象一下上面的表述, 即

*我们可以用随机变量其所有可能发生的情况与其所对应的可能性的联合去刻画一个随机变量!*

因此“所有可能发生的情况与其所对应的可能性”才是随机变量的本质,而这里“所有可能发生的情况与其所对应的可能性的联合”就是我们常说的“分布Distribution”。在这个投硬币的实验中,其结果就是所谓的Bernoulli distribution,中文的话可以叫伯努利分布,当然也可以两点分布或者0-1分布。名字不少,但是其实都是一个意思,

$P(投币结果=正面) = A$, $P(投币结果=反面)=B$

不过由于正面反面互斥,即一个发生另一个就一定不发生,所以A + B = 1。所以也就是说其实我们只要知道A后者B两者之一就可以完整的刻画投硬币结果这个随机变量的哈!

当然更大事实是,只要你不作弊,A=B=1/2!

Okay,现在我们稍稍总结一下刚才的例子,并且抽象一下。

什么是随机变量?

随机的变量!

什么是随机的变量?

可能发生的情况与可能性之间的对应关系!

用什么来刻画随机变量呢?

分布!

Bingo!

当然如果上面的实验有两枚硬币呢?那其实无非就是结果复杂一些罢了,比如

$P(投币1结果=正面, 投币2的结果=正面) = A$,

$P(投币1结果=反面, 投币2的结果=正面) = B$,

$P(投币1结果=正面, 投币2的结果=反面) = C$,

$P(投币1结果=反面, 投币2的结果=反面) = D$,

事实上,我们仍然可以用分布去刻画,只不过现在的分布我们称之为联合分布!而对应的两个随机变量放在一起,我们称之为随机向量

随机过程

看了上面关于随机变量(随机向量)与其分布(联合分布)的解释是不是觉得还少了点什么呀?

对,时间!

刚才我们说到投硬币的试验是完全不care时间哈,随时投,随时看!可现实是,我们不得不考虑时间呀!因为在只有一个硬币的情况下,我们不可能在同一个时间投两次硬币呀!

所以现实是,我们在第一分钟投了一次硬币,第二分钟投了一次硬币, 第N分钟投了一次硬币,第。。。投了一次硬币。

刚才我们已经讨论了,投一次硬币的结果是个随机变量,并且由A或者B刻画(不作弊的情况下,A=B=1/2),或者更为确切的说,尤其分布刻画!

现在算上了时间,如果单单还是用分布刻画是不是少了点什么呀?

少了对于时间的刻画呀!而考虑到这个时间因素后,我们采用“随机过程Stochastic Process”去考虑这个新的投硬币看结果的试验。

对比一下这前后两个试验,前者虽然有多种对应关系,但是始终只有一个随机变量,而后者由于时间项的加入,对应不同时间下的对应关系即可视作是不同的随机变量,即后者具有多个随机变量!

继续抽象一下的话,这个“时间”项可以是“虚拟的时间”项,只要其可以使得一个随机变量可以区别于另一个随机变量即可。

所以,究其核心“过程Process”其实就是对“分布Distribution”的拓展或者“升维”。

分布是对一个随机变量的刻画,而过程是对一族随机变量的刻画!

举一个不太恰当的例子,你每天的心情可以看做是一个随机变量的话,那么你这有限一生每一天的心情放在一起就可以看做是某一个随机过程的一个有限抽样! (PS:确切的是应该是“实现Realisation”而不是“Sampling抽样”,原因这里就先不展开了哈)

现在既然是一族随机变量的刻画,自然里面少不了对于“这一族”中随机变量的相互关系了解。

比如,上面那个投硬币试验,最强的要求:

每一分钟的投硬币试验都是独立,且每一分钟的投硬币试验的结果满足同一个分布,identical independent distributed, iid.

这个就是所谓的伯努利过程,Bernoulli process!这个要求其实想要说明的“这一族”随机变量之间的关系是同分布,但没啥关系(独立)!

除此之外,其实这里投币试验还有其他的奇奇怪怪的可能, 比如

每一次投硬币的时候,你都会瞬间失忆,只会记得前一次投硬币的时候的信息,这包括投硬币的时候的力度,投硬币的时候的心情等等。

由于每一次投硬币的时候只记得上一次的情况,并做出相应的随机反应,因而就造成这样的投币试验所对应的随机变量的分布可能每分钟都不一样,但是,具体其分布长什么样子,仅仅只会依赖于上一次的分布!

这就是大名鼎鼎的马尔科夫性质,Markov property,或者这样的process可以成为是Markov Process。 而马尔科夫性质的核心就是memorynessless, 无记忆性。换言之就是,

在已知目前状况下(如果木有目前状况,那么是上一个状况),你的未来将与你的过去无关!

从某种意义上来说,马尔科夫性质有点类似于大家高中学的数列里面的一阶递推公式, 即已知$x_{n-1}$,我们就可以去算$x_{n}$,所以自然不需要$x_{n-2}$以及之前的各项。

在这个例子特别的投硬币试验中,这“一族”随机变量之间的关系是一种递推式的刻画,而非之前那种全局式刻画(类似于数列中的通项概念)。

再者,这里还可以有一种更加奇怪的投硬币试验,

你开始了一个神奇的投硬币试验,每一个时刻的投硬币结果是正面的概率是A。但是对于两次时间间隔为 $\Delta t$的投硬币试验结果,他们的相关性(协方差)是一个只依赖于 $\Delta t$的函数。

听上去这个投硬币试验是非常非常的奇怪,但是这里提出了另外一种刻画“一族”随机变量的关系,即相距一定时间距离的两个随机变量,他们的之间的相关性(协方差)是固定的。这就是随机过程中所谓的“弱平稳Weak Stationarity”也叫做“ 协方差平稳”。

虽然这个例子非常的奇怪,在实际生活中,不知道能不能真正的如此投硬币,但是不可否认的是,平稳性stationarity是随机过程中极其重要的一个概念。

从最开始的iid,到Markov,到现在的Stationarity,人们一步一步试图去利用一些特殊的假设,然后去刻画或者了解随机过程中的这“一族”随机变量!当然在stationarity之后还有更多更为复杂的刻画,这里就不做展开啦!

回头再细细看看这一路走来,最开始的iid, 一个全局的假设,各个随机变量之前的关系是同分布但是独立!

到后来的Markov, 一个递推的假设,各个随机变量各自分布什么样不知道,只知道相邻之间有关系,其他都没有关系!

再到后来的Stationarity(weak), 一个高阶递推的假设,各个随机变量各自分布是什么样子不知道,只知道这一系列的随机变量的均值要固定,并且相邻一个固定距离的两个随机变量的协方差是固定的。

当然与weak对应的stationarity还有strong, 一个局部的联合假设,即各个随机变量各自的分布什么样子不知道,只知道随便找N个不同时刻的随机变量,他们的联合分布是一样的。

总的来说,stationarity都是在这一族随机变量中的联合分布的特征,只不过weak版本侧重于通过mean与covariance来刻画联合分布,而strong版本通过联合分布自身来刻画。

继续上一节那个不那么恰当的例子,你每天的心情可以看做是一个随机变量的话,那么你这有限一生每一天的心情放在一起就可以看做是某一个随机过程的一个有限抽样(实现), 那么这些后来的iid,Markov,stationarity都是试图对你不同天心情情况的联系做出假设,从而更好的研究这整个随机过程!

随机过程与随机向量有什么不同?

最后我们再来比较一下两个概念:之前说到,随机过程中的时间或许知识虚拟的时间,本质可以其他,而时间的不同导致了其有多个随机变量,而随机向量不就是多个随机变量排排坐吗,有何不同呢?

简单的来说,随机向量是指有限个随机变量放在一起,我们用会用联合分布去刻画!而随机过程往往是对无穷个随机变量的刻画。

你有再多的硬币也是个有限数,但投币试验却真的可以做到地老天荒!

这就是所谓的有限到无限的“升维”!

举个例子来说,就是在统计中大家熟悉的不能再熟悉的高斯分布,N个高斯的向量放在一起,多维高斯分布,对吧?要是无穷个高斯变量放在一起呢?

高斯过程!

蓦风星吟
蓦风星吟
文艺小资的数学PhD/助理教授

Mathematics + Data + Me = Magic

comments powered by Disqus

相关