tesi di laurea il teorema ergodico - matapp.unimib.itfcaraven/download/other/timini.pdf · legge...

of 47/47
Facolt` a di Scienze Matematiche, Fisiche, Naturali Corso di Laurea Triennale in Matematica a. a. 2009/10 Tesi di Laurea Il teorema ergodico Candidato Relatore Mauro Timini Francesco Caravenna

Post on 17-Feb-2019

219 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

Facolta di Scienze Matematiche, Fisiche, NaturaliCorso di Laurea Triennale in Matematica

a. a. 2009/10

Tesi di Laurea

Il teorema ergodico

Candidato RelatoreMauro Timini Francesco Caravenna

Indice

Introduzione 1

1 Il teorema ergodico 31.1 Richiami di probabilita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Impacchettamenti e ricoprimenti . . . . . . . . . . . . . . . . . . . . . . . 81.3 Trasformazioni stazionarie ed ergodiche . . . . . . . . . . . . . . . . . . . 101.4 Il teorema ergodico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.4.1 Enunciato del teorema ergodico . . . . . . . . . . . . . . . . . . . . 161.4.2 Il teorema ergodico : caso binario . . . . . . . . . . . . . . . . . . . 171.4.3 Il teorema ergodico: caso generale . . . . . . . . . . . . . . . . . . 20

2 Applicazioni ed esempi 312.1 Strumenti tecnici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.3 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

iii

Introduzione

In questa tesi dimostriamo un risultato importante relativo al calcolo della probabilita:il teorema ergodico. La teoria ergodica ha le sue origini nella meccanica statistica: piuprecisamente, venne introdotta da Boltzmann (1844-1906) verso la fine dellOttocento,in riferimento ai sistemi meccanici complessi ai quali era attribuita la proprieta di assu-mere, nella loro evoluzione spontanea, tutti gli stati dinamici microscopici compatibilicon il loro stato macroscopico. In base a tale teoria, la media temporale di ogni osser-vabile del sistema doveva coincidere con la media spaziale di tale osservabile rispettoa unopportuna distribuzione di probabilita sullo spazio delle configurazioni del sistema.Una formulazione piu tecnica di questidea venne fornita poco piu tardi da Josiah Wil-lard Gibbs (1839-1903) ed, in seguito, tale teoria venne sviluppata da un punto di vistamatematico, considerandone gli aspetti probabilistici.

La nostra trattazione riguarda proprio questultimo approccio. Il risultato fonda-mentale di questa teoria e costituito dal teorema ergodico, dimostrato da George DavidBirkhoff (1884-1944). Tale teorema afferma che, data una trasformazione T definita suuno spazio di probabilita ed a valori nel medesimo, se tale applicazione soddisfa determi-nate proprieta, allora la media temporale di ogni osservabile calcolata lungo la traiettoria{x, Tx, T 2x, . . .} (dove x e un punto dello spazio) coincide, facendo tendere allinfinitoil numero di iterazioni, con lintegrale dellosservabile rispetto alla misura di probabilitafissata sullo spazio. In particolare, questo teorema fornisce una generalizzazione dellalegge dei grandi numeri per unampia classe di processi stocastici (ad esempio, per lecatene di Markov), al di la del caso classico di variabili indipendenti ed identicamentedistribuite.

La dimostrazione del teorema ergodico che forniremo non e quella classica, ma si basasu alcuni argomenti di tipo combinatorio e discreto, sviluppati in [1, Sez.I.3]. La dimo-strazione e strutturata in due parti: dapprima consideriamo il caso di processi discreti epoi estendiamo la trattazione a processi stocastici a valori in uno spazio generico.

La tesi e organizzata nel modo seguente:

- Nel Capitolo 1 richiamiamo alcuni concetti di base, sviluppiamo alcuni strumentirelativi ai ricoprimenti aleatori ed, infine, forniamo la dimostrazione del teoremaergodico.

- Nel Capitolo 2 presentiamo alcuni modi operativi di dimostrare lergodicita (inparticolare definendo le proprieta di mescolanza e di mescolanza debole) ed appli-chiamo tali metodi a due casi importanti: i processi i.i.d. e la Catene di Markov.

1

Capitolo 1

Il teorema ergodico

1.1 Richiami di probabilita

In questo paragrafo richiameremo alcuni concetti di base della teoria del calcolo delleprobabilita che ci saranno utili in seguito. Sia X un insieme. Definiamo -algebra su Xun sottoinsieme di P(X) tale che :

i) X ,

ii) A X \A , A ,

iii) Se {An}nN e una successione di elementi di , alloranNAn .

Si puo verificare facilmente che, comunque si scelga X, esistono sempre almeno due-algebre su X : 1 = {, X} (-algebra banale) e 2 = P(X) (-algebra discreta). Datoun insieme X, pertanto, e sempre possibile associarvi una -algebra : si definisce spaziomisurabile la coppia (X,). Sia, dunque, (X,) uno spazio misurabile. Consideriamoora unapplicazione

: [0,+]

tale che:

i) () = 0.

ii) Se {An}nN e una successione di elementi a due a due disgiunti di (cioe tali cheAn Am = , m,n N tali che m 6= n), allora

(nN

An) =nN

(An).

Tale funzione viene detta misura su (X,). Uno spazio di misura e una terna (X,, ),dove X e un insieme, e una -algebra su X e e una misura su . Se, inoltre,supponiamo valga lipotesi aggiuntiva (X) = 1, allora si dice che e una probabilita su ed (X,, ) e detto spazio di probabilita. Ora consideriamo due proprieta fondamentalidella misura che risulteranno utili in seguito.

3

4 CAPITOLO 1. IL TEOREMA ERGODICO

Lemma 1 (Continuita dal basso). Sia (X,, ) uno spazio di misura. Data una succes-sione {An}nN di elementi di tale che An An+1, n 0, si ha che:

(nN

An

)= lim

n(An)

Dimostrazione. Definiamo la successione {Bm}mN in questo modo:

B0 := A0 e Bm := Am \Am1,m 1.

Si puo osservare facilmente che, dato n N, An =nm=0Bm e che, quindi,

n=0An =

n=0

nm=0Bm =

m=0Bm. Pertanto, in virtu delle proprieta della misura si ha che

( n=0

An

)=

( m=0

Bm

)=m=0

(Bm)

= limn

nm=0

(Bm) = limn

( nm=0

Bm

)= lim

n(An).

Lemma 2 (Continuita dallalto). Sia (X,, ) uno spazio di misura. Data una succes-sione {An}nN di elementi di tale che An An+1, n 0, si ha che:

(nN

An

)= lim

n(An)

Dimostrazione. Innanzitutto osserviamo che, dato n N, se An An+1, allora Anc An+1

c. Utilizzando la proprieta di continuita dal basso, quindi, possiamo concludere che

(X) (nN

An

)=

(X \

nN

An

)=

(( nN

An

)c)=

(nN

Anc

)= lim

n(An

c)

= limn

(X \An) = limn

((X) (An)) = (X) limn

(An).

Dunque

(nN

An

)= lim

n(An).

Un risultato fondamentale che si puo derivare dalla proprieta di continuita dal bassodi una misura e che ci sara di estrema utilita in seguito e dato dal Lemma di Borel-Cantelli, che ora enunceremo.

1.1. RICHIAMI DI PROBABILITA 5

Lemma 3 (Borel-Cantelli). Sia (X,, P ) uno spazio di probabilita. Se {Cn}nN e unasuccessione di elementi di tale che

P (Cn)

6 CAPITOLO 1. IL TEOREMA ERGODICO

Lemma 4 (Diseguaglianza di Markov). Sia f una funzione nonnegativa ed integrabilesu uno spazio di probabilita (X,, ) e siano , > 0. Se

f d , allora f(x) ,

eccetto che per un insieme di misura al piu .

Dimostrazione. Sia D := {x X tali che f(x) > }. Consideriamo la funzione caratte-ristica

D(x) =

{1 se f(x) > 0 se f(x)

ed osserviamo che chiaramente D(x) f(x) , x X. Dunque

(D) =

XD(x)d(x)

X

f(x)

d(x)(x) =

1

Xf(x)d(x) 1

= .

Ricordiamo, ora, che, dato uno spazio di misura (X,, ), si definisce L1 linsiemedi tutte le funzioni f misurabili su tale spazio e tali che

|f |d < +. Si prova che tale

insieme e uno spazio vettoriale normato completo.Ora enunciamo i teoremi di passaggio al limite sotto il segno di integrale: tali teoremiindicano alcune condizioni necessarie per cui, data una successione convergente di fun-zioni misurabili, sia possibile ottenere informazioni riguardo il limite degli integrali dellasuccessione stessa.

Teorema 1 (Teorema di convergenza monotona). Sia (X,, ) uno spazio di misura esia {fn}nN una successione di funzioni misurabili tale che:

i) fn(x) 0, x X, n N

ii) fn(x) fn+1(x), x X, n N

iii) Esiste una funzione f misurabile nonnegativa tale che

f(x) = limn

fn(x), x X.

Allora fd = lim

n

fnd.

Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, 5.3 (pag. 49)]

Ora, data una generica successione {fn}nN di funzioni definite su uno spazio mi-surabile (X,, ), definiamo, per ogni elemento x X, il limite inferiore ed il limitesuperiore rispettivamente in questo modo:

lim infnN fn(x) = supmN infnm fn(x)

1.1. RICHIAMI DI PROBABILITA 7

lim supnN fn(x) = infmN supnm fn(x).

Ora che abbiamo a disposizione questi concetti, possiamo procedere enunciando un lem-ma dimostrabile facilmente utilizzando il teorema precedente e la proprieta di monotonadegli integrali.

Lemma 5 (Lemma di Fatou). Sia (X,, ) uno spazio di misura e sia {fn}nN unasuccessione di funzioni misurabili nonnegative. Allora

lim infnN

fnd lim infnN

fnd.

Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, 5.4 (pag. 52)]

Un altro risultato importante e fondamentale per la nostra trattazione e dato dalseguente teorema.

Teorema 2 (Teorema di convergenza dominata). Sia (X,, ) uno spazio di misura esia {fn}nN una successione di funzioni misurabili tali che :

i) fn L1,n N

ii) Esiste una funzione misurabile f tale che, dato x X,

limn

fn(x) = f(x)

iii) Esiste una funzione nonnegativa g L1 tale che |fn(x)| g(x), x X, n N

Sotto queste ipotesi, si ha che allora f L1 e che limn|fn f |d = 0, dunque

limnfnd =

fd.

Dimostrazione. Anche in questo caso, si consiglia di vedere [2, 5.9 (pag. 54)].

Questo teorema ci permette di dimostrare un lemma importante che dovremo utiliz-zare in seguito e che ci apprestiamo ad enunciare.

Lemma 6 (Integrabilita uniforme). Sia (X,, ) uno spazio di probabilita e sia f L1(X,, ). Allora, per ogni > 0, esiste > 0 tale che, comunque si scelga A , siha che, se (A) < , allora

A |f(x)|d(x) .

Dimostrazione. Osserviamo innanzitutto che, per il teorema di convergenza dominata,si ha che

limM

{xX:|f(x)|>M}

|f(x)|d(x) =

= limM

X|f(x)|{xX:|f(x)|>M}(x)d(x) = 0.

8 CAPITOLO 1. IL TEOREMA ERGODICO

Dunque questo significa che

> 0, M0 tale che{xX:|f(x)|>M0}

|f(x)|d(x) 2.

Sia ora A , osserviamo cheA|f(x)|d(x)

=

A{xX:|f(x)|>M0}

|f(x)|d(x) +A{xX:|f(x)|M0}

|f(x)|d(x)

2

+M0P (A {x X : |f(x)| M0})

2

+M0P (A). (1.1)

Definiamo, quindi, := 2M0 : se A e tale che (A) < , dunque, dalla (1.1) otteniamoche

A|f(x)|d(x) .

1.2 Impacchettamenti e ricoprimenti

In questa sottosezione lasciamo momentaneamente in disparte la probabilita per con-centrarci su alcuni risultati di combinatoria necessari nella dimostrazione del teoremaergodico.

In particolare, consideriamo linsieme N dei numeri naturali e tutti e soli gli intervallidel tipo [n,m] = {j N|n j m}.

Definizione 1. Si dice ricoprimento forte di N un insieme C definito da una funzionea valori interi n 7 m(n) (ove m(n) n, n N) e formato da tutti gli intervalli nellaforma [n,m(n)], n N (il termine forte sta ad indicare il fatto che ogni numero naturaledebba essere estremo sinistro di un intervallo appartenente a C).

Osserviamo che ogni ricoprimento forte ammette un sottoricoprimento C formato daelementi disgiunti di C : e sufficiente, ad esempio, definire tale sottoinsieme come C :={[ni,m(ni)], dove n1 = 1 e ni+1 = 1+m(ni)}, i 1.Il problema che ci poniamo, dunque,e il seguente : dato un ricoprimento forte C, e possibile ottenere un sottoricoprimentoC di C, formato da intervalli disgiunti, appartenenti ad [1,K] e tali che la loro unionegeneri tutto lintervallo? In generale, la risposta e negativa: tuttavia e possibile ottenereun sottoricoprimento che ci permetta di ricostruire la maggior parte di tale intervallo.

Iniziamo da un caso particolare che ci permetta di verificare immediatamente ed inmaniera diretta laffermazione appena fatta, cos da fissare bene le idee: supponiamo

1.2. IMPACCHETTAMENTI E RICOPRIMENTI 9

che gli intervalli in C abbiano tutti la stessa lunghezza, sia L. In tal caso, definiamo ilsottoricoprimento C in questo modo:

C ={

[iL+ 1, (i+ 1)L] : 0 i (K L)L

}.

Si puo osservare facilmente che questo insieme, per come e definito ed essendo costituitoda intervalli consecutivi e disgiunti di lunghezza L, ricopre tutto lintervallo [1,K] fattaeccezione per, al massimo, gli ultimi L 1 elementi.

Inoltre, osserviamo che, dato > 0, se K ed L sono tali che K > L , allora la porzionedi intervallo che non viene ricoperta ha cardinalita al massimo L1 < L < K e pertantoil rapporto tra la sua lunghezza e quella di [1,K] e strettamente minore di .

Ora consideriamo un caso piu generale: sia [1,K] un dato intervallo e sia C unricoprimento forte i cui elementi abbiano lunghezza variabile.

Il nostro obiettivo e far vedere che, se la maggior parte degli intervalli di C aventiestremo sinistro in [1,K] ha lunghezza non superiore ad L, allora e possibile estrarre unsottoricoprimento C incluso interamente in [1,K] e tale che lunione dei suoi elementiricostruisca quasi completamente tale intervallo, a meno di una frazione di esso, la qualenon supera comunque un certo valore stimabile. Innanzitutto, e opportuno introdurrealcune definizioni, al fine di tradurre in termini rigorosi cio che intendiamo provare e,quindi, fornire una dimostrazione valida.

Definizione 2. Sia C un ricoprimento forte di N. Un intervallo [1,K] e detto (L, )-fortemente ricoperto se, dati L > 0, > 0,

|{n [1,K] : m(n) n+ 1 > L}|K

.

Definizione 3. Una collezione C di intervalli inclusi in un dato intervallo [1,K] e detta(1 )-impacchettamento di [1,K] se gli intervalli di C sono disgiunti e se la loro unioneha cardinalita maggiore od uguale a (1 )K.

Ora abbiamo a disposizione tutti gli elementi per dimostrare il lemma principale diquesta sottosezione.

Lemma 7 (Lemma di impacchettamento). Sia C un ricoprimento forte di N e sia > 0 dato. Se K > L e se [1,K] e (L, )-fortemente coperto da C, allora esiste unsottoricoprimento C C che e un (1 2)-impacchettamento di [1,K].

Dimostrazione. Innanzitutto, per ipotesi sappiamo che K > L e che |{n [1,K] :m(n) n + 1 > L}| K. Ora cerchiamo di costruire un (1 2)-impacchettamentodellintervallo [1,K]. Lidea e quella di procedere iterativamente da sinistra a destra,selezionando ad ogni passo il primo intervallo di lunghezza non superiore ad L e chesia disgiunto da quello selezionato in precedenza, fermandoci quando lestremo destrodellultimo intervallo estratto dista da K per una quantita minore di L.Piu precisamente,poniamo m(0) = n0 = 0 e definiamo per induzione:

ni = min{j [1 +m(ni1),K L] : m(j) j + 1 L}, i 1,

10 CAPITOLO 1. IL TEOREMA ERGODICO

fermandoci quando la condizione non e piu soddisfatta. Se I e linsieme degli indici jche selezioniamo, osserviamo che chiaramente m(nj) nj + 1 L,j I e che quindim(n|I|) K. Il procedimento si arresta quando si verifica uno dei seguenti casi:

I e tale che m(n|I|) > K L : osserviamo che 1 + m(n|I|) > K L, pertantonon possiamo selezionare ulteriori intervalli disgiunti dai precedenti e di lunghezzainferiore ad L poiche, anche qualora ve ne fossero, non siamo sicuri che questi sianoinclusi completamente in [1,K], essendo la distanza del loro estremo sinistro da Kinferiore di L

Non esiste j [1 + m(n|I|),K L], tale che m(j) j + 1 L : anche se esistes-sero degli intervalli disgiunti dai precedenti ed aventi estremo sinistro a distanzamaggiore di L da K, tuttavia, siccome tali intervalli hanno tutti lunghezza stret-tamente maggiore di L, in generale non e detto che siano completamente inclusi in[1,K].

Ora vogliamo provare che linsieme C = {[ni,m(ni)] : 1 i |I|} sia effettivamenteun (1 2)-impacchettamento di [1,K]. Innanzitutto, osserviamo che gli elementi diC sono tra loro disgiunti per costruzione e, in virtu delle osservazioni fatte, sono tuttiinclusi in [1,K]. Resta da provare, pertanto, che la loro unione U abbia lunghezza almeno(1 2)K.Osserviamo che lintervallo (K L,K] ha lunghezza massima L 1 < L < K. dunquesicuramente

|(K L,K] \ U| K.

Ora consideriamo lintervallo [1,K L]. Per come abbiamo definito C (e per comeabbiamo costruito U), si ha che:

Se j [1,K L] \ U , allora m(j) j + 1 > L.

Ma allora, se applichiamo lipotesi di (L, )-ricoprimento forte, posso concludere che

|[1,K L] \ U| K.

Quindi si ha sicuramente che

|[1,K] \ U| = |([1,K L] \ U) ((K L,K] \ U)| == |[1,K L] \ U|+ |(K L,K] \ U| K + K = 2K

e cos facendo abbiamo dimostrato la tesi.

1.3 Trasformazioni stazionarie ed ergodiche

In questa sezione consideriamo le funzioni definite su un generico spazio di probabilita(X,, ) ed a valori nel medesimo. In particolare, definiamo in maniera rigorosa i concettidi trasformazione stazionaria e di trasformazione ergodica, insieme ad alcune proprietache saranno necessarie in seguito.

1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 11

Definizione 4 (Trasformazione stazionaria). Sia (X,, ) uno spazio di probabilita.Unapplicazione T : X X si dice trasformazione stazionaria se e misurabile e se

(T1B) = (B), B .

Definizione 5 (Trasformazione ergodica). Una trasformazione stazionaria T si diceergodica se, dato B ,

T1B = B (B) = 0 o (B) = 1.

Lemma 8 (Definizioni equivalenti di ergodicita). Sia (X,, ) uno spazio di probabilita.Data una trasformazione stazionaria T : X X, sono equivalenti :

a) T e ergodica.

b) T1B B (B) = 0 o (B) = 1.

c) T1B B (B) = 0 o (B) = 1.

d) (T1BB) = 0 (B) = 0 o (B) = 1,ove AB = (A B) \ (A B) e la differenza simmetrica tra A e B.

e) Se f(Tx) = f(x) quasi certamente, allora f e costante quasi certamente.

f) Se f(Tx) f(x) quasi certamente (oppure f(Tx) f(x) quasi certamente), alloraf e costante quasi certamente.

Dimostrazione. Dimostriamo, inizialmente, lequivalenza di a) e b). Osserviamo che b)a) e ovvia : basta notare che, se T : X X e unapplicazione tale che, dato B ,T1B = B, allora in particolare T1B B. In virtu delle ipotesi assunte, quindi, si hache (B) = 0 o (B) = 1 e dunque abbiamo dimostrato lergodicita di T .Procediamo ora con la dimostrazione dellimplicazione inversa : sia T una trasformazioneergodica e sia B tale che T1B B. Siccome lapplicazione inversa T1 preservale relazioni insiemistiche, osserviamo che

T1B B T(n+1)B Tn(B), n N. (1.2)

Prima di proseguire con la dimostrazione osserviamo chen1 T

nB =n0 T

nB. Sipuo verificare facilmente, infatti, che

n1 T

nB n0 T

nB.: tale disuguaglianza ebanale poiche il secondo membro corrisponde al primo intersecato con un nuovo evento.La relazione

n1 T

nB n0 T

nB., invece, e facilmente ottenibile a partire da(1.2).

In base a queste osservazioni, quindi, se definiamo linsieme C :=n0 T

nB, si puonotare che

T1C = T1(n0

TnB

)=n0

T1(TnB) =

=n0

T(n+1)B =n1

TnB =n0

TnB = C.

12 CAPITOLO 1. IL TEOREMA ERGODICO

Poiche T e per ipotesi ergodica, devessere per forza (C) = 0 oppure (C) = 1.Osserviamo che per la continuita dallalto si ha che

(C) =

(n0

TnB

)= lim

n(TnB) = lim

n(B) = (B).

Dunque (B) = 0 oppure (B) = 1 ed abbiamo dimostrato anche questa implicazione.

Lequivalenza di b) e c) e immediata. Basta considerare, infatti, che

T1B B (T1B)c = T1(Bc) Bc.

Supponendo, pertanto, che valga b), se T1B B, allora, in virtu dellosservazionefatta sopra, (Bc) = 0 oppure (Bc) = 1, ossia (B) = 1 oppure (B) = 0 e quindi c)e verificata. Supponiamo, ora, che valga c) e che T1B B: questultimo fatto equiva-le ad affermare che T1Bc Bc. Avendo supposto valida c), dunque, concludiamo che(Bc) = 0 oppure (Bc) = 1, ovvero (B) = 1 oppure (B) = 0 e dunque b) e verificata.

Dimostriamo ora che b) e equivalente a d). Innanzitutto, dimostrare d)b) e semplice:osserviamo che, se T1B B, allora

(T1BB) = (B \ T1B) = (B) (T1B) = (B) (B) = 0.

Se supponiamo valga d), dunque, (B) = 0 oppure (B) = 1.Ora proviamo la validita dellimplicazione inversa: supponiamo, dunque, che valga b).Definiamo C :=

n0 T

nB ed osserviamo che

T1C = T1

(n0

TnB

)=n1

TnB n0

TnB = C,

questo implica che (C) = 0 oppure (C) = 1. Ora notiamo che, per come abbiamodefinito C e per la proprieta di continuita dallalto, si ha che

(C) = limN

(Nn=0

(TnB)

). (1.3)

Sia CN :=Nn=0(T

nB). Ora consideriamo i seguenti risultati che ci saranno utili nelproseguimento della dimostrazione:

i) Dati due insiemi A e B,

(A) (B) = (A B) + (A \B) ((B A) + (B \A))= (A \B) (B \A).

Dunque |(A) (B)| (A \B) + (B \A) = (AB).

1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 13

ii) Dati n insiemi A1, A2, . . . , An ed un insieme B, si puo verificare che(Nn=1

An

)B

Nn=1

(AnB).

iii) Dati due insiemi A e B, si verfica facilmente che

AB (AC) (CB).

Ora osserviamo che, essendo T stazionaria e poiche linversa di unapplicazione preservale relazioni insiemistiche, in base alle nostre ipotesi possiamo notare che

0 = (T1BB) = (T1(T1BB)) = (T2BT1B)

= (T1(T2BT1B)) = . . . = (T(n1)BTnB), n N

In base ad i) e ii), dunque, possiamo notare che

|(CN ) (B)| (CNB)

(Nn=0

(TnBB)

)

Nn=0

(TnBB). (1.4)

Ora osserviamo che, in base a iii), dato n N,

TnBB (TnBT(n1)B) (T(n1)BB).

Otteniamo, dunque, la seguente diseguaglianza

(TnBB) (TnBT(n1)B) + (T(n1)BB)= (T(n1)BB).

Osserviamo che tale maggiorazione puo essere ripetuta per tutti gli n N, cos daottenere la catena di diseguaglianze:

(TnBB) = (T(n1)BB) (T(n2)BB) . . . (T1BB).

Siccome, per ipotesi, (T1BB) = 0, allora, in base allosservazione precedente, de-vessere (TnBB) = 0, n N. Ma allora osserviamo che, per la (1.4), si ha che|(CN ) (B)| = 0, N N. Dunque (CN ) = (B), N N e, tornando alla (1.3),otteniamo che

(C) = limN

(CN ) = limN

(B) = (B).

Dunque possiamo concludere, in quanto, se (C) = (B), segue che (B) = 1 oppure(B) = 0. La validita di d) a partire da b) e quindi dimostrata.

14 CAPITOLO 1. IL TEOREMA ERGODICO

Ora completiamo la dimostrazione provando che d) ed e) sono equivalenti. Innanzituttosupponiamo che valga d) e consideriamo una generica funzione semplice

f(x) =ni=1

aiBi(x), ove ai 6= aj e Bi Bj = , i 6= j, i, j {1, . . . , n}

(ricordiamo che ogni funzione semplice puo essere espressa in questa forma). Supponiamoche f(x) = f(Tx) quasi certamente. Osserviamo che

f(Tx) =ni=1

aiBi(Tx) =ni=1

aiT1(Bi)(x). (1.5)

Dato i {1, . . . , n}, se x (BiT1(Bi)), cio significa che x non puo apparteneresia a Bi che a T

1(Bi): in altre parole, non puo verificarsi che x e Tx appartenganoentrambi allinsieme Bi. Questo fatto implica, in base alla (1.5), che sicuramente f(x) 6=f(Tx). Possiamo affermare, dunque, che BiT

1Bi {x : f(x) 6= f(Tx)} e che, avendosupposto f(x) = f(Tx) quasi certamente, si ha dunque:

(BiT1(Bi)) ({x : f(x) 6= f(Tx)}) = 0 i {1, . . . , n}

(BiT1(Bi)) = 0 i {1, . . . , n}.

Siccome abbiamo supposto che d) sia vera, segue che (Bi) = 0 oppure (Bi) = 1,i {1, . . . , n}. Tuttavia, essendo gli insiemi Bi a due a due disgiunti, questo significa cheesiste al piu un solo indice j {1, . . . , n} tale che (Bj) = 1 e (Bi = 0),i 6= j. Questorisultato implica che la funzione semplice f , per come e definita, e quasi certamentecostante. Dunque il risultato vale per le funzioni semplici. Sia ora f una funzione genericaper cui supponiamo che f(Tx) = f(x) quasi certamente. Definiamo, per ogni numeronaturale n, la funzione

fn(x) :=

+n2nk=n2n

k

2n{

x:f(x)(k12n

, k2n

]}(x).Osserviamo che si tratta di una funzione semplice e che, per ogni n N, il valore cheassume fn in ciascun x X dipende dal valore assunto da f in tale punto. In particolare,dato n N e dato x X, se f(Tx) = f(x) allora

fn(Tx) =

+n2nk=n2n

k

2n{

x:f(Tx)(k12n

, k2n

]}(x)=

+n2nk=n2n

k

2n{

x:f(x)[k12n

, k2n

]}(x) = fn(x).Dunque, se f(Tx) = f(x) quasi certamente, allora fn(Tx) = fn(x) quasi certamente,n N. Pertanto, in virtu del risultato ottenuto per le funzioni semplici, possiamo

1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 15

affermare che, per ogni numero naturale n, fn(x) = cn R , x An, ove An e uninsieme tale che (An) = 1. Notiamo, inoltre, che, fissato x X, limn fn(x) =f(x). Definiamo, quindi, linsieme A :=

n0An ed osserviamo che (A) = 1. Infatti

osserviamo che Ac =n0An

c, quindi (Ac)

n0 (Anc) = 0, pertanto (Ac) = 0,

ovvero (A) = 1. Dunque, se x A, allora la successione {fn(x)}nN e una successione dinumeri reali {cn}nN convergente ad f(x). Poiche questo fatto vale per ogni x A, alloraper forza f(x) devessere costante su tutto A, altrimenti si avrebbe che la successione{cn}nN converge a piu valori, il che e assurdo. Pertanto f e costante su A, dunque ameno di un insieme di misura nulla.Supponiamo ora che e) sia valida e sia B tale che (T1BB) = 0. Osserviamo che

0 = (T1BB) =

|T1B(x) B(x)|d(x),

da cui segue facilmente che

|T1B(x) B(x)| = 0, q.c. T1B(x) = B(x) q.c. B(Tx) = B(x) q.c. .

Dunque, supponendo e) vera, segue che B(x) e quasi certamente costante. Siccometale funzione puo assumere i soli valori 0 ed 1, allora o B(x) = 1 q.c. (ed in tal caso(B) = 1), oppure B(x) = 0 q.c. (ed in tal caso (B) = 0). Dunque abbiamo provatola validita di d).Ora dimostriamo che e) ed f) sono equivalenti. Limplicazione f) e) e ovvia poichebasta notare che f(Tx) = f(x) quasi certamente f(Tx) f(x) (oppure f(Tx) f(x)) quasi certamente.Ora dimostriamo che e) implica f). Supponiamo, dunque, che valga e) che f(Tx) f(x) quasi certamente (nel caso in cui f(Tx) f(x) quasi certamente, si procede inmaniera analoga). Definiamo la funzione g(x) := f(Tx) f(x) : osserviamo che, in virtudellipotesi, g(x) 0 quasi certamente. Notiamo che, in virtu della stazionarieta di T

g(x)d(x) =

f(Tx)d(x)

f(x)d(x) = 0.

In base a queste due proprieta, dunque, devessere g(x) = 0 quasi certamente, ma alloraf(Tx) = f(x) quasi certamente, dunque f e costante quasi certamente.

Sia ora (E, E) uno spazio misurabile e sia (EN, EN) lo spazio prodotto definito apartire da E (costituito dagli elementi (x1, x2, ..., xn, ...) tali che xn E, n N) emunito della -algebra prodotto EN. Definiamo, quindi, loperazione di shift

T : EN EN(x1, x2, . . . xn, . . .) 7 (x2, x3, . . . , xn, . . .).

Consideriamo ora un processo stocastico {Xn}nN a valori in E, cioe

Xn : (X,, P ) (E, E), n N,

16 CAPITOLO 1. IL TEOREMA ERGODICO

ove (X,, P ) e uno spazio di probabilita. Definiamo, su (EN, EN), la misura di Kolmo-gorov per il processo {Xn}nN in questo modo:

(A1 A2 . . .An . . .) :=P (X1 A1, X2 A2, . . . , Xn An, . . .), {Ai}iN, Ai E

( e detta legge della successione {Xn}nN). Tale processo, dunque, si dice ergodico seloperazione di shift e ergodica rispetto alla misura di Kolmogorov associata al processo{Xn}nN.

1.4 Il teorema ergodico

1.4.1 Enunciato del teorema ergodico

Teorema 3 (Teorema ergodico). Sia T una trasformazione stazionaria su uno spazio diprobabilita (X,, ) e sia f una funzione integrabile, allora la media 1n

ni=1 f(T

i1x)converge quasi certamente ed in L1, per n , verso una funzione T -invariantef(x).

Corollario 1. Se T e una trasformazione ergodica, allora f(x) =fd, x X.

Dimostrazione. Sia fn(x) :=1n

ni=1 f(T

i1x).

Siccome fn converge in L1 ad f, allora fnd fd= (fn f)d |fn f|d 0, per n,

dunquefnd

fd, per n.

Inoltre, notiamo che, n N,fn(x)d =

1

n

ni=1

f(T i1x)d =1

n

ni=1

f(T i1x)d =

f(x)d,

poiche, essendo T una trasformazione stazionaria,f(Tn(x))d =

f(x)d, n N.

Dunque devesserefd =

fd.

Inoltre, se supponiamo che T sia una trasformazione ergodica, essendo f Tinvariante,allora, in virtu del Lemma 4, f(x) e costante su tutto il dominio, pertanto f(x) = c R,x X, dunque :

f(x)d =

f(x)d =

cd = (X)c = c,

pertanto, nel caso in cui T sia anche ergodica la funzione f(x) (media temporale) ecostante su tutto il dominio ed ha valore pari a

fd (media spaziale).

1.4. IL TEOREMA ERGODICO 17

1.4.2 Il teorema ergodico : caso binario

Teorema 4 (Teorema ergodico: caso binario). Se {Xn} e un processo ergodico tale che{Xn} {0, 1}, n N, allora la media X1+X2+...+Xnn converge quasi certamente al valorecostante E(X1) = (1) = ({x : x1 = 1}).

Dimostrazione. Il nostro obiettivo e provare che :

limn

1

n

ni=1

xi = (1) quasi ovunque, (1.6)

ove, ricordiamo, (1) = {x : x1 = 1} = E(X1) e 1 e la legge di X su {0, 1}N.Supponiamo, per assurdo, che (1.6) sia falsa.Piu precisamente, supponiamo che linsieme

B =

{x : lim sup

n

1

n

ni=1

xi > (1) +

}sia tale che (B) > 0 (il caso complementare, in cui si considera linsieme degli x Xtali che lim infn

1n

ni=1 xi < (1) , si tratta in modo analogo). Osserviamo che

lim supn

x1 + x2 + ...+ xnn

= lim supn

x2 + x3 + ...+ xn+1n

.

Infatti, notiamo che

x2 + x3 + ...+ xn+1n

=x1 + x2 + ...+ xn

n+xn+1n x1

n.

Inoltre, poiche xn {0, 1}, n N, si ha che limn xn+1n x1n = 0, dunque

lim supn

x2 + x3 + ...+ xn+1n

=

lim supn

x1 + x2 + ...+ xnn

+ limn

xn+1n x1

n=

= lim supn

x1 + x2 + ...+ xnn

Pertanto, se la sequenza (x1, x2, ..., xn, ..) B, allora la sequenza, ottenuta tramite unoshift, (x2, x3, .., xn, ..) B e questo fatto vale anche per tutte le operazioni di shiftsuccessive : abbiamo provato, quindi, che linsieme B e T -invariante e, poiche abbiamoassunto che sia ergodica rispetto a T e che (B) > 0, allora deve valere (B) = 1.Supponiamo ora che x = (x1, x2, .., xn, ..) B : essendo B un insieme T -invariante,allora

(xn, xn+1, .., xn+m, ..) B, n N,

lim supm

1

m

n+m1k=n

xk > (1) + , n N,

18 CAPITOLO 1. IL TEOREMA ERGODICO

dunque per ogni intero n esiste un intero m(n) n tale che

xn + xn+1 + ...+ xm(n)

m(n) n+ 1> (1) + .

Definiamo, pertanto, la collezione di intervalli

C(x) := {[n,m(n)] : n N} : (1.7)

tale insieme e un ricoprimento forte di N. Osserviamo, inoltre, che tale insieme e deter-minato in modo casuale, al variare dei valori assunti dalla sequenza (x1, x2, .., xn, ..), iquali, appunto, sono determinati da una sequenza di variabili casuali . Osserviamo che,poiche (B) = 1, allora

lim supn

1

n

ni=1

xi > (1) + , quasi certamente,

ovvero ad eccezione di un sottoinsieme di {0, 1}N avente misura nulla. Dunque possiamoaffermare che quasi certamente esiste un m(1) N tale che

x1 + x2 + ...+ xm(1)

m(1)> (1) + ,

questo significa che la variabile casuale m(1) (il cui valore varia al variare dei valoriassunti dal processo ergodico {Xn}nN) assume quasi certamente un valore finito in Ne, pertanto, e limitata a meno di un sottoinsieme di {0, 1}N avente probabilita piccolaa piacere. Piu precisamente, dato > 0, esiste un numero L tale che se D := {x =(x1, x2, .., xn, ..) : m(1) > L} allora (D) < 2.Definiamo la funzione

gK(x) :=1

K

Ki=1

D(Ti1(x)),

ove D(x) =

{1 se x D0 se altrimenti.

Ora vogliamo calcolare lintegrale di questa funzione.Innanzitutto osserviamo che, poiche T e una trasformazione stazionaria, = T .Dunque

gK(x)d =

1

K

Ki=1

D(T

i1x)d =

=1

K

Ki=1

D(x)d =

1

KK(D) = (D).

Poiche, quindi,gK(x)d = (D) <

2, per la Diseguaglianza di Markov si ha che lin-sieme GK := {x : gK(x) } e tale che (GK) (1 ).

1.4. IL TEOREMA ERGODICO 19

Supponiamo x GK , allora:

gK(x) =1

K

Ki=1

D(Ti1x) .

Ora osserviamo questo fatto importante: per definizione dellinsieme D, sia x = (x1, x2, ..., xn, ...),allora

Tn1(x) = (xn, xn+1, .., ..) D m(n) n+ 1 > L |[n,m(n)]| > L.

Se x GK , dunque, possiamo scrivere

gk(x) =1

K

Ki=1

D(Ti1(x)) =

=|{n [1,K] : m(n) n+ 1 > L}|

K=|{n [1,K] : |[n,m(n)]| > L}|

K .

Dunque abbiamo provato che, se x GK , allora linsieme C(x), definito in (1.7), e un(L, )-ricoprimento forte dellintervallo [1,K].In virtu del Lemma di impacchettamento, quindi, esiste un sottoinsieme

C(x) = {[ni,m(ni)] : i I(x)} C(x),

il quale e un (1 2)-impacchettamento di [1,K]. Poiche le xi sono nonnegative, gliintervalli di C(x) sono disgiunti e sono tutti contenuti in [1,K], allora:

Kj=1

xj I(x)i=1

m(ni)j=ni

I(x)i=1

(m(ni) ni + 1)[(1) + ] =

[(1) + ]

I(x)i=1

|[ni,m(ni)]| [(1) + ](1 2)K.

Ora osserviamo che, poiche ovviamenteK

j=1 xj (K

j=1 xj)Gk(x), si ha:

E

( Kj=1

xj

) E

(( Kj=1

xj)Gk(x)

)

E([(1) + ](1 2)KGk(x)) = [(1) + ](1 2)KE(Gk(x)) == [(1) + ](1 2)K(Gk) [(1) + ](1 2)K(1 ),

20 CAPITOLO 1. IL TEOREMA ERGODICO

cosicche:

(1) = E

(1

K

Kj=1

xj

) [(1) + ](1 2)(1 ), > 0.

Questo fatto e chiaramente assurdo, poiche, per 0, dovrebbe aversi, per la perma-nenza del segno,

(1) (1) + > (1)

In questo modo, quindi, abbiamo provato che la (1.6) e vera e, pertanto, abbiamodimostarto il teorema.

1.4.3 Il teorema ergodico: caso generale

In questa sottosezione dimostriamo la validita del teorema ergodico nella sua forma piuastratta. Prima di procedere con la dimostrazione vera e propria, tuttavia, e necessarioprovare alcuni lemmi.

Lemma 9. Consideriamo uno spazio di probabilita (X,, ). Siano f L1(X,, ),T : X X una trasformazione stazionaria ed un numero reale arbitrario. Definiamogli insiemi

B =

{x X : lim sup

n

1

n

ni=1

f(T i1x) >

}

D =

{x X : lim

n

f(Tnx)

n= 0

},

allora (D) = 1 e B D = TnB D, n N.

Dimostrazione. Osserviamo innanzitutto che, siccome f L1, si ha, > 0 :

>|f |d =

+0

({x X : |f(x)| > t})dt =

=nN

n(n1)

({x X : |f(x)| > t})dt nN

({x X : |f(x)| > n})

(la prima uguaglianza segue da unapplicazione del Teorema di Fubini, mentre lultimadiseguaglianza segue dal fatto che il valore ({x X : |f(x)| > t}) decresce allaumentaredi t [(n 1), n]). Dunque si ha che

nN({x X : |f(x)| > n}) < +.

1.4. IL TEOREMA ERGODICO 21

Osserviamo che, essendo T una trasformazione stazionaria, allora devessere

({x X : |f(x)| > n}) == (Tn({x X : |f(x)| > n})) =

({x X : |f(Tnx)| > n}).

DunquenN

({x X : |f(Tnx)| > n}) =nN

({x X : |f(x)| > n}) < +.

Per il lemma di Borel-Cantelli, quindi, possiamo affermare che

(n1

mn{x X : |f(Tmx)| > m}

)=

= ({x X : n N, m n tale che |f(Tmx)| > m}) = 0

Pertanto

1 = ({x X : N = N(x) tale che |f(Tnx)| n, n N}) =

= ({x X : N = N(x) tale che |f(Tnx)|n

, n N}).

Ricordiamo che questo risultato vale per > 0 fissato. Definiamo, quindi, linsieme

G := {x X : N = N(x) tale che|f(Tnx)|

n , n N}.

Finora abbiamo provato che (G) = 1, > 0. Si puo notare facilmente che, dati1, 2 > 0, se 1 < 2, allora G1 G2 . Osserviamo, inoltre, che

>0

G = {x X : > 0, N = N(x) tale che|f(Tnx)|

n , n N}

= {x X : limn

f(Tnx)

n= 0} = D.

Osserviamo, dunque, che per continuita dallalto si ha che

(D) =

(>0

G

)= lim

0(G) = 1.

Sia ora x B D, ovvero, ricordiamo, sia x X tale che :

lim supn

1

n

ni=1

f(T i1x) > e limn

f(Tnx)

n= 0.

22 CAPITOLO 1. IL TEOREMA ERGODICO

Innanzitutto proviamo che T (x) B. Osserviamo che

1

n

ni=1

f(T i1(T (x))) =1

n

n+1i=2

f(T i1x) =

=1

n

ni=1

f(T i1x) +1

n

n+1i=2

f(T i1x) 1n

ni=1

f(T i1x) =

=1

n

ni=1

f(T i1x) +

(f(Tnx)

n f(x)

n

). (1.8)

Notiamo che, per come abbiamo definito linsieme D e poiche, per ogni x fissato, si hachiaramente limn

f(x)n = 0, allora se x B D si ha che

limn

f(Tnx)

n f(x)

n= lim

n

f(Tnx)

n lim

n

f(x)

n= 0 + 0 = 0.

Dunque, in virtu della (1.8) e del fatto che x B, abbiamo

lim supn

1

n

ni=1

f(T i1(T (x))) =

= lim supn

(1

n

ni=1

f(T i1x) +

(f(Tnx)

n f(x)

n

))=

= lim supn

ni=1

f(T i1x) + limn

(f(Tnx)

n f(x)

n

)=

= lim supn

ni=1

f(T i1x) > . (1.9)

Dunque T (x) B. Osserviamo che, inoltre, T (x) D, poiche, siccome per ipotesix B D, si ha

limn

f(Tn(T (x)))

n= lim

n

f(Tn+1x)

n= lim

n

f(Tnx)

n= 0 (1.10)

Dunque x B D T (x) B D. Osserviamo che, inoltre, per la (1.9) e la (1.10)vale anche limplicazione inversa, dunque x B D T (x) B D. DunqueBD = T1(BD) = (T1B)(T1D) = T1BD, poiche, per la (1.10), D = T1D.Osserviamo che, iterando questa proprieta, otteniamo che

B D = T1(B D) = T1(T1(B D)) = T2(B D)= T2B T2D =T2B D = . . . = TnB D = . . .

dunque B D = TnB D, n N.

1.4. IL TEOREMA ERGODICO 23

Lemma 10. Sia T una trasformazione stazionaria su uno spazio di probabilita (X,, ),sia f L1(X,, ) e sia un numero reale arbitrario. Se definiamo linsieme

B =

{x : lim sup

n

1

n

ni=1

f(T i1x) >

},

allora Bf(x)d(x) (B). (1.11)

Dimostrazione. Se (B) = 0, il lemma e banalmente verificato. Consideriamo, dunque,il caso in cui (B) > 0. Definiamo linsieme

D =

{x X : lim

n

f(Tnx)

n= 0

}.

Sappiamo, dal lemma precedente, che (D) = 1, dunque (B D) = (B). Inoltre,definiamo la misura condizionata

B(A) :=(A B)(B)

, A

(ricordiamo che abbiamo supposto (B) > 0). Osserviamo che, in base a tale definizioneed alla definizione di integrale, si puo concludere facilmente che

Bf(x)dB(x) =

1

(B)

Bf(x)d(x).

Siccome nella (1.11) lintegrale e calcolato sullinsieme B, in virtu delle affermazioniprecedenti osserviamo che

Bf(x)d(x) =

BD

f(x)d(x) = (B)

BD

f(x)dB(x).

Al fine di dimostrare il lemma, dunque, sara sufficiente far vedere cheBD

f(x)dB(x) .

Ricordiamo, in base al lemma precedente, che B D = TnB D, n N. Cio equivaleesattamente ad affermare che, dato x B D, per ogni numero naturale n esistem(n) N tale che m(n) n e chem(n)

i=n f(Ti1x)

m(n) n+ 1> .

Dunque, per x BD, e sempre definito il ricoprimento forte C(x) = {[n,m(n)] : n N}.Osserviamo che, dato x B, esiste sempre m(1) N tale chem(1)

i=1 f(Ti1x)

m(1)> .

24 CAPITOLO 1. IL TEOREMA ERGODICO

Questo significa che la variabile aleatoria m(1) e sempre finita, per x B, dunque elimitata, a meno di un insieme avente misura B piccola a piacere. Pertanto possiamoaffermare che, dato > 0, esiste L > 0 tale che linsieme E := {x B : m(1) > L} etale che B(E) <

2. Definiamo, per ogni K > 0, K N, linsieme

GK =

{x B D : 1

K

Ki=1

ED(Ti1x)

}.

Osserviamo che, se definiamo gK(x) :=1K

Ki=1 ED(T

i1x), allora, per la proprieta dilinearita dellintegrale e poiche T e stazionaria e B D e T -invariante, abbiamo che

BD

gK(x)dB(x) =1

K

Ki=1

BD

ED(Ti1x)dB(x) =

=1

K

Ki=1

BD

ED(x)dB(x) =1

KK

BD

ED(x)dB(x) =

=1

KKB(E D) = B(E).

Per la diseguaglianza di Markov, dunque, si ha che B(GK) 1 .Supponiamo di scegliere K > 0 tale che K L : sotto queste ipotesi possiamo appli-care il lemma di impacchettamento al ricoprimento forte C. Piu precisamente, esisteun sottoricoprimento C(x) = {[ni,m(ni)] : i I(x)} C(x), il quale e un (1 2)-impacchettamento dellintervallo [1,K], e pertanto ricordiamo che si ottiene la seguentediseguaglianza :

I(x)i=1

|[ni,m(ni)]| (1 2)K.

Osserviamo che, per x GK

Kj=1

f(T j1(x))

j[1,K]\

[ni,m(ni)]

f(T j1(x)) +

I(x)i=1

m(ni)j=n(i)

f(T j1(x))

j[1,K]\

[ni,m(ni)]

f(T j1(x)) +

I(x)i=1

(m(ni) ni + 1) =

=

j[1,K]\

[ni,m(ni)]

f(T j1(x)) +

I(x)i=1

|[ni,m(ni)]|

j[1,K]\

[ni,m(ni)]

f(T j1(x)) + K(1 2).

1.4. IL TEOREMA ERGODICO 25

Ora, nel caso in cui f sia limitata, supponiamo |f(x)| < M , M > 0, in base al risultatoottenuto dal lemma di impacchettamento posso affermare che

j[1,K]\

[ni,m(ni)]

f(T j1(x))

j[1,K]\

[ni,m(ni)]

(M)

2MK.

Pertanto, in tale situazione si ha che, per x GK ,

Kj=1

f(T j1(x)) 2MK + K(1 2)

, mentre, per x / GK , si ha chee quindi

BD

Kj=1

f(T j1(x))dB(x) =

BD

f(x)dB(x) 2MK + K(1 2).

Dunque, facendo tendere a 0, otteniamo il risultato desiderato.Se, invece, f non e limitata, allora osserviamo che

BD

f(x)dB(x) =

BD

1

K

Kj=1

f(T j1(x))dB(x) =

=

GK

1

K

I(x)i=1

m(ni)j=ni

f(T j1(x))dB(x) +

(BD)\GK

1

K

Kj=1

f(T j1(x))dB(x)+

+

GK

1

K

j[1,KL]\

[ni,m(ni)]

f(T j1(x))dB(x)+

+

GK

1

K

j[KL,K]\

[ni,m(ni)]

f(T j1(x))dB(x).

Innanzitutto notiamo che, per il lemma di impacchettamento e poiche x B D, si ha

GK

1

K

I(x)i=1

m(ni)j=ni

f(T j1(x))dB(x)

GK

1

K

I(x)i=1

(m(ni) ni + 1)dB(x) 1

K

GK

(1 2)KdB(x)

=1

K(1 2)KB(GK) = (1 2)B(GK).

26 CAPITOLO 1. IL TEOREMA ERGODICO

Sia ora

I1 :=

(BD)\GK

1

K

Kj=1

f(T j1(x))dB(x).

Osserviamo che

|I1| 1

K

(BD)\GK

Kj=1

|f(T j1(x))|dB(x) =

=1

K

Kj=1

(BD)\GK

|f(T j1(x))|dB(x) =1

K

Kj=1

T 1j((BD)\GK)

|f(x)|dB(x).

Osserviamo che, poiche f L1, allora |I1| < +. Inoltre notiamo che, poiche (GK) 1 , allora

B((B D) \GK) = B(B D) B(GK) 1 (1 ) = .

Essendo per ipotesi T stazionaria, dunque, si ha che

(T 1j((B D) \GK)) = ((B D) \GK) .

Dunque gli insiemi T 1j((B D) \ GK), al variare di j {1, ...,K}, hanno la stessamisura, la quale e limitata superiormente da . Ricordiamo che la scelta di > 0, da cuidipende la definizione dellinsieme GK , e arbitraria. Dunque, per il Lemma 6, scegliamo > 0 tale che, se ((B D) \ Gk) < , allora e possibile stimare |I1| con una quantitaarbitrariamente piccola. Sia ora

I2 :=

GK

1

K

j[1,KL]\

[ni,m(ni)]

f(T j1(x))dB(x).

Osserviamo che, per il lemma di impacchettamento, se j [1,K L] \

[ni,m(ni)], allora

m(j) j + 1 > L. Sotto queste ipotesi, dunque, se x GK B D, allora T j1(x) E D, per come abbiamo definito linsieme E. Dunque, ricordando che T e stazionaria,si ha che

|I2| 1

K

GK

j[1,KL]\

[ni,m(ni)]

|f(T j1(x))|dB(x) =

=1

K

BD

Kj=1

ED(Tj1(x))|f(T j1(x))|dB(x) =

=1

K

Kj=1

BD

ED(Tj1(x))|f(T j1(x))|dB(x) =

=1

KK

BD

ED(x)|f(x)|dB(x) =ED|f(x)|dB(x).

1.4. IL TEOREMA ERGODICO 27

Osserviamo che, in questo caso, allaumentare di L, B(E) = B(E D) e una quantitasempre minore, dunque per L grande, |I2| e arbitrariamente piccolo.Sia ora

I3 :=

GK

1

K

j[KL,K]\

[ni,m(ni)]

f(T j1(x))dB(x).

Tale valore puo essere facilmente maggiorato se osserviamo che, poiche GK B D

|I3| 1

K

j(KL,K]

GK

|f(T j1(x))|dB(x)

1K

j(KL,K]

BD

|f(T j1(x))|dB(x) =

=1

K

j(KL,K]

BD

|f(x)|dB(x)

1KL

BD

|f(x)|dB(x).

Dunque, per L fissato, se K e sufficientemente grande, I3 e piccolo. Ora ricordiamo chevale la relazione

BDf(x)dB(x) (1 2)B(GK) + I1 + I2 + I3

(1 2)(1 ) + I1 + I2 + I3

Ora fissiamo > 0. In base a tale valore ed alle stime ottenute, pertanto, siano :

- 0 tale che, 0, (1 2)(1 ) > 4 ;

- 1 tale che 1 < 0 e che |I1| < 4 ;

- L0 sufficientemente grande e tale che |I2| < 4 ;

- K0 sufficientemente grande e tale cheL0K0

< 1 e |I3| < 4 .

Per tali valori di 1, L0,K0, dunque, otteniamo cheBD

f(x)dB(x)

4

4

4

4= .

Ma questo significa che BD f(x)dB(x) , > 0.

Per 0, dunque, e per la permanenza del segno otteniamo cheBD

f(x)dB(x) ,

quindi possiamo concludere.

28 CAPITOLO 1. IL TEOREMA ERGODICO

Ora disponiamo di tutti gli strumenti necessari per dimostrare il teorema ergodico,di cui riportiamo lenunciato.

Teorema 5 (Teorema ergodico). Sia T una trasformazione stazionaria su uno spazio diprobabilita (X,, ) e sia f una funzione integrabile, allora la media 1n

ni=1 f(T

i1x)converge quasi certamente ed in L1, per n , verso una funzione T -invariantef(x).

Dimostrazione. Ricordiamo che affermare che la successione 1nn

i=1 f(Ti1x) sia con-

vergente per n equivale ad affermare che

lim infn

1

n

ni=1

f(T i1x) = lim supn

1

n

ni=1

f(T i1x).

Osserviamo, innanzitutto, che il risultato del lemma precedente rimane vero per qualsiasisottoinsieme C D B D, purche tale insieme sia T -invariante: si puo notare, infatti,che tutti i passaggi utilizzati nel suddetto lemma rimangono validi qualora si restringalinsieme B D allinsieme C D. Definiamo pertanto linsieme

C :=

{x : lim inf

n

1

n

ni=1

f(T i1x) < < < lim supn

1

n

ni=1

f(T i1x)

}.

Si noti che C D e T-invariante. In base al lemma precedente, dunque, osserviamoinnanzitutto che

CDf(x)d(x) (C)

Notiamo inoltre che

lim infn

1

n

ni=1

f(T i1x) < lim infn

1

n

ni=1

f(T i1x) >

lim supn

1

n

ni=1

(f(T i1x)) > .

Sempre in virtu del lemma precedente, quindi, concludiamo che

C f(x)d(x) (C)

C f(x)d(x) (C).

Dunque

(C) Cf(x)d(x) (C).

Siccome < , pertanto, la diseguaglianza ottenuta puo essere vera se e soltanto se(C)=0. Osserviamo che linsieme C, per come e definito, dipende dai parametri e, dunque sia C = C,. Notiamo, sempre in virtu della definizione di C, che vale laseguente inclusione: {

x : limn

1

n

ni=1

f(T i1x)

}c

,Q,

1.4. IL TEOREMA ERGODICO 29

Dunque possiamo concludere che la successione 1nn

i=1 f(Ti1x) converge quasi certa-

mente per n.Ora dobbiamo provare che la successione converge in L1. Definiamo, innanzitutto,

loperatore f 7 UT (f) in questo modo:

UT (f)(x) := f(Tx), x X, f L1.

Tale operatore e lineare, infatti, date f e g in L1, per ogni x X si ha che

UT (f + g)(x) = (f + g)(Tx) = f(Tx) + g(Tx) = UT (f)(x) + UT (g)(x).

Inoltre osserviamo che, essendo T stazionaria,

UT fL1 =|f(Tx)|d(x) =

|f(x)|d(x) = fL1 .

Dunque, se definiamo, x X, la media temporale

Anf(x) :=1

n

ni=1

U i1T f(x)

osserviamo che la linearita di An segue facilmente dalla linearita delloperatore UT .Inoltre, notiamo che

AnfL1 =1

n

|ni=1

U i1T f(x)|d(x) 1

n

ni=1

|U i1T f(x)|d(x)

=1

n

ni=1

|f(x)|d(x) = fL1 . (1.12)

Supponiamo f sia limitata, cioe esista M > 0 tale che |f(x)| M . Osserviamo che,allora,

|Anf(x)| 1

n

ni=1

|U i1T f(x)| =1

n

ni=1

|f(T i1x)| 1nnM = M.

Siccome abbiamo provato che Anf converge quasi certamente, dunque, poiche |Anf | elimitata, per il teorema di convergenza dominata si ha che Anf converge in L

1. Dunqueil teorema e provato se f e limitata.Consideriamo ora il caso generale: sia f L1, in generale non limitata. Dato > 0,dunque, sia g unapprossimazione limitata di f , tale che f g 3 (si puo scegliere,ad esempio, g(x) = f(x){|f(x)|M}, prendendo M = M sufficientemente grande). Oraosserviamo che

f AnfL1 f gL1 + g AngL1 + Ang AnfL1 .

Ora notiamo che, in virtu di quanto osservato nella (1.12),

Ang AnfL1 = An(g f)L1 g fL1 .

30 CAPITOLO 1. IL TEOREMA ERGODICO

Osserviamo inoltre che, poiche, essendo g limitata, Ang g in L1, allora, per > 0,esiste n N tale che g AngL1 3 , n n. Dunque possiamo concludere che,fissato > 0, per ogni n n si ha che

f Anf 2g fL1 + Ang gL1 2

3+

3= ,

ovvero Anf f in L1.

Capitolo 2

Applicazioni ed esempi

In questo capitolo utilizzeremo la teoria sviluppata finora al fine di dimostrare lergodicitadi alcuni prarticolari processi stocastici.

2.1 Strumenti tecnici

In questa sezione richiamiamo alcuni concetti di calcolo delle probabilita necessari alnostro scopo. Sia, innanzitutto, (X,, ) uno spazio di misura e consideriamo un appli-cazione T : X X. Tale funzione e detta mescolante se

limn

(TnC D) = (C)(D), C,D . (2.1)

Un processo stocastico, dunque, si dice mescolante se loperazione di shift e mescolanterispetto alla misura di Kolmogorov associata a tale processo.

Lemma 11. Sia (X,, ) uno spazio di misura e sia T : X X unapplicazione. Se Te mescolante, allora T e ergodica.

Dimostrazione. Sia C tale che T1C = C: osserviamo che, poiche C = T1C =. . . = TnC = . . ., allora TnC D = C D, D , n N. Essendo T mescolante,quindi, in virtu della (2.9) otteniamo che (C D) = (C)(D), D . Se poniamoC = D, quindi, otteniamo che (C) = (C)2 e questo e vero se e soltanto se (C) = 0oppure (C) = 1.

Introduciamo ora il concetto di mescolanza debole. Unapplicazione T : X X edetta debolmente mescolante se

limN

1

N

Nj=1

(TjC D) = (C)(D), C,D .

Vediamo che, in questo caso, la condizione di mescolanza debole non solo implica lacondizione di ergodicita, ma e anche del tutto equivalente a questultima.

31

32 CAPITOLO 2. APPLICAZIONI ED ESEMPI

Lemma 12. Sia (X,, ) uno spazio di misura. Allora T : X X una trasformazionedebolmente mescolante T e ergodica.

Dimostrazione. Consideriamo separatamente le due implicazioni.[=]Sia C tale che T1C = C, osserviamo che allora C = T1C = . . . = TnC, . . .,dunque la condizione di mescolanza debole implica che

limN

1

N

Nj=1

(TjC D) = limN

1

N

Nj=1

(C D)

= limN

1

NN(C D) = (C D) = (C)(D) D .

Se, quindi, poniamo D = C, otteniamo che (C) = (C)2, ovvero (C) = 0 oppure(C) = 1.[=]Supponiamo che T sia una trasformazione ergodica. In virtu del teorema ergodico,quindi, si ha che per ogni funzione integrabile f deve vale

limn

1

n

nj=1

f(T jx) =

fd,

quasi certamente ed in L1. Ora siano C,D e poniamo f(x) = C(x). In virtudellosservazione precedente si ha che

limn

1

n

nj=1

C(Tjx) = lim

n

1

n

nj=1

TjC(x) =

C(x)d = (C), (2.2)

quasi certamente ed in L1. Osserviamo ora che

1

N

Nj=1

(TjC D) = 1N

Nj=1

TjCD(x)d(x) =

1

N

Nj=1

TjCD(x)d(x)

=

1

N

Nj=1

TjC(x)D(x)d(x).

Ora, in base alla (2.2) ed osservando che, ovviamente, |TjC(x)| 1, j, e che, quindi,1N

Nj=1 TjC(x)D(x) e limitata, in base al teorema di convergenza dominata si ha

che

limN

1

N

Nj=1

(TjC D)D(x) = limN

D

1

N

Nj=1

TjC(x)d(x)

=

D(C)d(x)D(x) = (C)(D).

Dunque abbiamo provato che, se T e una trasformazione ergodica, allora e debolmentemescolante.

2.1. STRUMENTI TECNICI 33

A questo punto, disponiamo di ulteriori strumenti che possono essere utili nel de-terminare se una data applicazione sia ergodica (e, nel caso della mescolanza debole,possiamo anche verificare che non lo sia). Ai fini pratici, tuttavia, la verifica delle pro-prieta di mescolanza e di mescolanza debole puo essere complicata, dato che deve valereper una coppia generica di elementi appartenenti alla -algebra che stiamo considerando.A tal proposito, un aiuto notevole per la verifica di tali proprieta e fornito da un risultato,la cui dimostrazione richiede la conoscenza di alcune definizioni di base e dellenunciatodel lemma di Dynkin.

Definizione 6 (Base di una -algebra). Sia X un insieme e sia una -algebra. Unsottoinsieme I e detto base di se

e generata da I

A B I, A,B I

Definizione 7. Sia X un insieme. Un sottoinsieme D X e detto classe monotona suX se soddisfa le seguenti condizioni:

X D.

Se A,B D ed A B, allora B \A D.

Se {An}nN e una successione di elementi di D tale che An An+1, n 1, alloranNAn D.

Ora che disponiamo di queste definizioni, possiamo procedere enunciando il seguentelemma.

Lemma 13 (Lemma di Dynkin). Sia X un insieme, sia una -algebra su X e sia Iuna base di . Ogni classe monotona D su X contenente I contiene anche .

Dimostrazione. Si veda, ad esempio, [2, A1.3 (pag. 193)].

Ora, grazie a questi strumenti, possiamo enunciare e dimostrare un teorema cherisultera molto utile al fine di dimostrare lergodicita di alcuni tipi di processi stocastici.

Teorema 6. Sia (X,, ) uno spazio di misura e sia T : X X unapplicazione stazio-naria. Se la condizone di mescolanza (rispettivamente di mescolanza debole) e soddisfattaper ogni C,D appartenenti ad una base di , allora tale condizione (rispettivamente lacondizione di mescolanza debole) e valida per ogni C,D .

Dimostrazione. Dimostriamo il teorema relativamente alla proprieta di mescolanza: laproprieta di mescolanza debole si tratta in modo analogo.Sia, dunque, I una base di : dobbiamo provare che se, per ogni C,D I,

limn

(TnC D) = (C)(D), (2.3)

34 CAPITOLO 2. APPLICAZIONI ED ESEMPI

allora tale proprieta e valida per ogni C,D .Innanzitutto dimostriamo che la (2.3) vale per ogni coppia C,D,con C I e D .Sia, pertanto, C I fissato e definiamo linsieme

C :={D : lim

n(TnC D) = (C)(D)

}.

Dimostriamo che C e una classe monotona. Chiaramente X C , poiche T e staziona-ria, dunque

limn

(TnC X) = limn

(TnC) = limn

(C) = (C) = (C)(X).

Innanzitutto, siano D1, D2 C tali che D1 D2, osserviamo che, dalla definizione diC , segue che

limn

(TnC (D2 \D1)) = limn

((TnC D2) \ (TnC D1))

= limn

(TnC D2) limn

(TnC D1) = (C)(D2) (C)(D1)

= (C)((D2) (D1)) = (C)(D2 \D1)

dunque D2 \D1 C .Sia, ora, {Dm}mN una successione di elementi di C tale che Dm Dm+1, n 1e sia D :=

mNDm: proviamo che D C . Ricordiamo che, per la continuita dal

basso, si ha che limm (Dm) = (D). Sia, dunque, > 0 e sia m N tale che|(D) (Dm)| < . Osserviamo che, per ogni n N,

|(TnC D) (TnC Dm)| = |(TnC (D \Dm)| (D \Dm) = (D) (Dm) <

dunque

(TnC Dm) (TnC D) (TnC Dm) + .

Osserviamo che, poiche Dm C , per ipotesi

limn

(TnC Dm) = (C)(Dm),

dunque

lim supn

(TnC D) (C)(Dm) + (C)(D) + 2

lim infn

(TnC D) (C)(Dm) (C)(D) 2.

Questo fatto vale per ogni > 0 (e per il corrispondente n), dunque, facendo tendere a 0, otteniamo che

(C)(D) lim infn

(TnC D) lim supn

(TnC D) (C)(D).

2.2. PROCESSI STAZIONARI 35

Quindi esiste limn (TnC D) = (D)(C) e dunque D C . Dunque abbiamo

provato che C e una classe monotona: in virtu del lemma di Dynkin, dunque, C ,ovvero la relazione (2.3) e soddisfatta per ogni C I e per ogni D . Viceversa, se,fissato D , definiamo linsieme

D :={C : lim

n(TnC D) = (C)(D)

}.

Si noti che D I. Si dimostra in maniera simile che D e una classe monotona: bastaosservare che, per ogni n N, lapplicazione Tn preserva le relazioni insiemistiche ed echiusa rispetto allunione ed allintersezione, dunque si procede analogamente a quantofatto prima. Quindi D e la relazione (2.3) e valida per ogni coppia C,D tale cheC e D .

Ora che disponiamo di tutti gli strumenti necessari, possiamo procedere con alcuniesempi concreti di processi ergodici.

2.2 Processi stazionari

Sia (X,, P ) uno spazio di probabilita e sia {Xn}nN un processo stocastico a valori inuno spazio di misurabile (E, E), ossia tale che

Xn : (X,, P ) (E, E), n N.

Supponiamo che tale sequenza sia costituita da variabili casuali indipendenti ed identi-camente distribuite, ovvero:

P (Xn An|Xn1 An1, . . . , X1 A1) = P (Xn An) . . . P (X1 A1),n 1,A1, . . . , An E

Notiamo che un processo stocastico i.i.d. e stazionario, infatti, dati Am, Am+1, . . . , An E , ove m,n N, m < n, si ha che

P (Xm Am, Xm+1 Am+1, . . . , Xn An)= P (Xm Am) P (Xm+1 Am+1) . . . P (X1 A1)

= P (Xm+1 Am) P (Xm+2 Am+1) . . . P (X2 A1)= P (Xm+1 Am, Xm+2 Am+1, . . . , X2 A1).

Consideriamo ora loperazione di shift definita sullo spazio prodotto En, munito della-algebra prodotto En

T : EN EN(x1, x2, . . . xn, . . .) 7 (x2, x3, . . . , xn, . . .).

Il nostro obiettivo e dimostrare che la trasformazione di shift e ergodica rispetto allamisura di Kolmogorov associata al processo {Xn}nN. Innanzitutto, proviamo a vedere

36 CAPITOLO 2. APPLICAZIONI ED ESEMPI

se tale operazione gode della proprieta di mescolanza. Si dimostra che una base della-algebra prodotto En e data dallinsieme costituito dagli elementi del tipo

A1 . . .An := {(x1, . . . , xn, . . .) : xm Am, . . . , xn An},ove m,n N,m n, Am, . . . , An E

(a tal proposito, si legga [1, pag.2]. Siano, quindi

C := A1 . . .AnD = B1 . . .Bn.

Osserviamo che, dato N N tale che N > n,

TNC = {(x1, . . . , xn, . . .) : xN+1 A1, . . . , xN+n An}.

Dunque

TNC D = {(x1, . . . , xn, . . .) : x1 B1, . . . , xn Bn, xN+1 A1, . . . , xN+n An},

pertanto, in virtu dellindipendenza delle Xn e dalla proprieta di stazionarieta del pro-cesso stocastico

(TNC D) = P (X1 B1, . . . , Xn Bn, XN+1 A1, . . . , XN+n An)= P (X1 B1, . . . , Xn Bn) P (XN+1 A1, . . . , XN+n An)

= (D)(TNC) = (D)(C)

Dunque la proprieta di mescolanza e soddisfatta e, pertanto, le successioni di variabilicasuali indipendenti ed identicamente distribuite sono processi ergodici.

2.3 Catene di Markov

Sia (X,, P ) uno spazio di probabilita e sia A un insieme di cardinalita finita.Consideriamo un processo stocastico {Xn}nN, definito su (X,, P ) ed a valori in E esupponiamo che per ogni naturale n 2 e per ogni sequenza an, an1, an2, ..., a1 dielementi di E (per cui entrambi i membri siano ben definiti) si abbia che

P (Xn = an|Xn1 = an1)= P (Xn = an|Xn1 = an1, Xn2 = an2, ..., X1 = a1) :

(2.4)

tale processo si dice catena di Markov.

Supponendo, inoltre, che il processo considerato sia tale che, comunque presi a, b E,P (Xn = a|Xn1 = b) non dipenda dalla scelta di n N, diciamo che la catena di Markovconsiderata e omogenea.

2.3. CATENE DI MARKOV 37

Sotto queste ipotesi, ricordiamo innanzitutto che E e un insieme finito, dunque pos-siamo supporre che, se |E| = n, E = {a1, a2, ..., an}, n N.

Definiamo, quindi, la matrice :

A =

Ma1a1 Ma1a2 . . . Ma1anMa2a1 Ma2a2 . . . Ma2an

......

......

Mana1 . . . . . . Manan

(2.5)tale che :

Maiaj := P (Xn = aj |Xn1 = ai),

per ogni i, j {1, 2, ..,m 1,m}.

Ricordiamo che, nelle ipotesi fatte, il valore di ciascun elemento della matrice e lo stessoal variare di n N.

Osserviamo che la matrice, detta matrice di transizione, per come labbiamo definita,soddisfa le seguenti proprieta :

Maiaj [0, 1], ai, aj E;

ajEMaiaj =

ajE P (Xn = aj |Xn1 = ai) = 1, ai E.

Definiamo, ora, per ogni a E, la funzione

1(a) := P (X1 = a) = P ({ X : X1() = a}).

Il vettore cos ottenuto

1 :=(1(a1), 1(a2), . . . 1(an)

)e detto distribuzione iniziale del processo stocastico {Xn}nN.

La distribuzione iniziale si dice stazionaria se, per ogni ai E,

1(ai) = P (X1 = ai) = P (Xj = ai),j. (2.6)

Osserviamo che tale proprieta e soddisfatta se e solo se si ha che 1M = 1.Infatti, consideriamo a titolo desempio la prima entrata del vettore ottenuto moltipli-cando 1 per M , il suo valore e dato da:

38 CAPITOLO 2. APPLICAZIONI ED ESEMPI

(1M)a1 = 1(a1)Ma1a1 + 1(a2)Ma2a1 + 1(a3)Ma3a1 + ...+ 1(an)Mana1

= P (X1 = a1)P (X2 = a1|X1 = a1) + P (X1 = a2)P (X2 = a1|X1 = a2)+ P (X1 = a3)P (X2 = a1|X1 = a3) + ...+ P (X1 = an)P (X2 = a1|X1 = an)

= P (X1 = a1, X2 = a1) + P (X1 = a2, X2 = a1)

+ P (X1 = a3, X2 = a1) + ...+ P (X1 = an, X2 = a1) = P (X2 = a1) (2.7)

Dunque se 1M = 1 si ha P (X2 = a1) = P (X1 = a1). Dunque, e sufficiente tenereconto di questo risultato e della proprieta di omogeneita della catena di Markov persostituire le occorrenze della variabile X1 con la variabile X2 e quelle della variabile X2con la variabile X3, ottenendo P (X2 = a1) = P (X3 = a1) ed iterare il procedimento finoad ottenere P (X1 = a1) = P (Xj = a1), j {1, ..., n}.Lo stesso discorso puo essere fatto per tutti gli altri valori del vettore risultante, cosicchesi puo verificare direttamente che la (2.6) e equivalente a 1M = 1.

Ora che abbiamo definito le proprieta di una catena di Markov, individuiamo, nellaproposizione seguente, le condizioni necessarie e sufficienti affinche tale processo sia sta-zionario.

Proposizione 1. Una catena di Markov {Xn}nN, le cui variabili sono definite su unospazio di probabilita (X,, P ) ed assumono valori in un insieme finito E, e un processostazionario se e solo se e omogenea e la sua distribuzione iniziale 1 e stazionaria.

Dimostrazione. Dimostriamo separatamente le due implicazioni:

Supponiamo che valga la condizione di stazionarieta, ossia, ricordiamo,

P (Xi = ai,m i n) = P (Xi+1 = ai,m i n), m,n N, am, ..., an E.

Osserviamo che la validita dellaffermazione precedente implica che

1(a) = P (X1 = a) = P (X2 = a) = ... = P (Xn = a), .., a E

e cio, per quanto visto in precedenza, corrisponde esattamente ad affermare che ladistribuzione iniziale e stazionaria.Per quanto riguarda, invece, lomogeneita della catena di Markov considerata, bastaosservare che, dati n N ed a, b E, la stazionarieta comporta che :

P (Xn = a|Xn1 = b) =P (Xn = a,Xn1 = b)

P (Xn1 = b)

=P (Xn+1 = a,Xn = b)

P (Xn = b)

= P (Xn+1 = a|Xn = b),

2.3. CATENE DI MARKOV 39

dunque, in generale, P (Xn = a|Xn1 = b) e indipendente da n.

Supponiamo che valga la proprieta di omogeneita e che la distribuzione inizialesia stazionaria. Sotto queste ipotesi, dunque, e possibile osservare che, dato n N ed a1, ..., an E :

P (Xi = ai,m i n)= 1(a1)P (X2 = a2|X1 = a1) P (X3 = a3|X2 = a2)

... P (Xn = an|Xn1 = an1)= P (X2 = a1) P (X3 = a2|X2 = a1) P (X4 = a3|X3 = a2)

. . . P (Xn+1 = an|Xn = an1)= P (Xi+1 = ai,m i n)

Sia ora {Xn}nN una catena di Markov omogenea ed avente distribuzione inizialestazionaria e sia A Mnn la corrispondente matrice di transizione, Tale matrice edetta irriducibile se, per ogni coppia di indici (i, j), ove i, j {1 . . . , n}, esiste unasequenza i0, i1, . . . , il di elementi appartenenti ad {1 . . . , n} tale che i0 = i, il = j ed

Aimim+1 > 0, per m = 0, 1, . . . , l 1.

Osserviamo che, in virtu delle ipotesi fatte e della definizione di Catena di Markov,supporre che valga tale condizione equivale ad affermare che, se ad un dato istante lacatena di Markov assume il valore ai, allora la probabilita che, in un istante futuro, lacatena possa assumere il valore aj e strettamente positiva. Infatti assumiamo che, datok N, P (Xk = ai) > 0, allora

P (Xk+1 = ai1 , Xk = ai) = P (Xk+1 = ai1 |Xk = ai)P (Xk = ai)= Ai0i1P (Xk = ai) > 0.

Dunque

P (Xk+2 = ai2 , Xk+1 = ai1 , Xk = ai)

= P (Xk+2 = ai2 |Xk+1 = ai1 , Xk = ai)P (Xk+1 = ai1 , Xk = ai)= P (Xk+2 = ai2 |Xk+1 = ai1)P (Xk+1 = ai1 , Xk = ai)

Ai1i2P (Xk+1 = ai1 , Xk = ai) > 0

Iterando il procedimento e sfruttando la definizione di Catena di Markov, quindi, siottiene che

P (Xk+l = aj , Xk+l1 = ail1 , . . . , Xk = ai) > 0,

dunque P (Xk+l = aj) > 0. Ora vogliamo dimostrare che la condizione di ergodicita diuna catena di Markov omogenea ed avente distribuzione iniziale stazionaria equivale allacondizione di irriducibilita della corrispondente matrice di transizione.

40 CAPITOLO 2. APPLICAZIONI ED ESEMPI

Teorema 7. Sia {Xn}nN una catena di Markov definita su uno spazio di probabilita(X,, P ) ed a valori in uno spazio finito E, omogenea ed avente distribuzione inizialestazionaria e positiva in ogni punto di E. Allora tale catena e ergodica se e solo se lacorrispondente matrice di transizione A e irriducibile.

Dimostrazione. Dimostriamo entrambe le implicazioni separatamente.

Supponiamo innanzitutto che A sia irriducibile. Osserviamo che dalla condizionedi irriducibilita seguono due fatti fondamentali di algebra lineare, che ci limitiamoad elencare:

Esiste, a meno di multipli, uno ed un solo vettore tale che A = . Notiamoche, poiche abbiamo supposto che, se 1 e il vettore distribuzione iniziale,1A = 1, allora per lunicita di devessere per forza = 1.

Vale la seguente uguaglianza:

limN

1

N

N1k=0

Mk+1 = P, (2.8)

ove P e la matrice avente tutte le colonne uguali al vettore .

Proviamo che la catena di Markov soddifa la condizione di debole mescolanza,ovvero, dati due insiemi misurabili

C = [cm1 ] = {(x1, x2, . . . , xk, . . .) : x1 = c1, . . . , xm = cm}D = [dn1 ] = {(x1, x2, . . . , xk, . . .) : x1 = d1, . . . , xn = dn},

(ove m,n N e c1, . . . , cm, d1, . . . , dn E), dimostriamo che

limN

1

N

Nj=1

(TjC D) = (C)(D). (2.9)

Osserviamo che questo fatto equivale a dimostrare che

limN

1

N

N+n1j=n

(TjC D) = limN

1

N

N1k=0

(TknC D) = (C)(D)

Osserviamo che, dato k > 0,

TknC = [bn+k+mn+k+1 ], ove bn+k+i = ci, 1 i m.

Ora notiamo che

([dn1 ][bn+k+mn+k+1 ]) = P (X1 = d1, . . . , Xn = dn, Xn+k+1 = c1, . . . Xn+k+m = cm).

2.3. CATENE DI MARKOV 41

Utilizzando, dunque, la definizione di catena di Markov e facendo dei semplicicalcoli si puo osservare che

([dn1 ] [bn+k+mn+k+1 ]) = P (X1 = d1, . . . , Xn = dn, Xn+k+1 = c1, . . . Xn+k+m = cm)

=

(dn+1,...,dn+k)

P (X1 = d1, . . . , Xn+1 = dn+1, . . . , Xn+k = dn+k, . . . , Xn+k+m = cm)

=

(dn+1,...,dn+k)

(P (X1 = d1, . . . , Xn = dn)P (Xn+k+1 = c1, . . . , Xn+1 = dn+1|Xn = dn)

P (Xn+k+m = cm, . . . Xn+k+2 = c2|Xn+k+1 = c1))

= P (X1 = d1, . . . , Xn = dn)

(dn+1,...,dn+k)

P (Xn+k+1 = c1, . . . , Xn+1 = dn+1|Xn = dn)

P (Xn+k+m = cm, . . . Xn+k+2 = c2|Xn+k+1 = c1)

ove dn+1, . . . , dn+k E. Ora notiamo che, sempre utilizzando la definizione dicatena di Markov, possiamo facilmente osservare che

U := P (X1 = d1, . . . , Xn = dn) = (D)

= P (X1 = d1) P (X2 = d2|X1 = d1) . . . P (Xn = dn|Xn1 = dn1)

= 1(d1)Ad1d2 . . . Adn1dn = 1(d1)n1i=1

Adidi+1 .

V :=

(dn+1,...,dn+k)

P (Xn+k+1 = c1, Xn+k = dn+k, . . . , Xn+1 = dn+1|Xn = dn)

=

(dn+1,...,dn+k)

P (Xn+1 = dn+1|Xn = dn) . . . P (Xn+k+1 = c1|Xn+k = dn+k)

=

(dn+1,...,dn+k)

(n+k1i=n

Adidi+1

)Adn+kc1 .

Osserviamo che, tramite alcune operazioni di algebra lineare, si puo verificare chetale valore coincide con il termine in posizione (dn, c1) della matrice A

k, sia [Ak]dnc1 .

W := P (Xn+k+m = cm, . . . Xn+k+2 = c2|Xn+k+1 = c1)= P (Xn+k+2 = c2|Xn+k+1 = c1) . . . P (Xn+k+m = cm|Xn+k+m1 = cm1)

=mi=1

Acici+1

Dunque

([dn1 ] [bn+k+mn+k+1 ]) = (D)[Ak+1]dnc1

mi=1

Acici+1

42 CAPITOLO 2. APPLICAZIONI ED ESEMPI

Osserviamo che, in base a alla (2.8), si ha che

limN

1

N

Nk=1

[Ak+1]dnc1 = (c1) = (c1),

dunque, in virtu della (2.8)

limN

1

N

N1k=0

(TknD C) = limN

1

N

N1k=0

([dn1 ] [bn+k+mn+k+1 ])

= limN

1

N(D)

N1k=0

[Ak+1]dnc1

mi=1

Acici+1 = (D)(c1)mi=1

Acici+1 = (D)(C).

Dunque, essendo la condizione espressa dalla (2.9) soddisfatta, T e una trasforma-zione ergodica.

Supponiamo che la catena di Markov sia ergodica. Supponiamo che (aj) > 0, je sia Pi = {x : x1 = ai}. Osserviamo che, se B = T1Pj T2Pj . . ., alloraP (B) > 0 e T1B = T2Pj T3Pj . . . B. In virtu dellipotesi di ergodicita,quindi, (B) = 1, dunque (B Pj) > 0, j. Osserviamo che

(B Pi) = (nN

(TnPj Pi))> 0,

dunque n N tale che (TnPj Pi) > 0. Osserviamo che

(TnPj Pi) = ({(x1, . . . , xk, . . .) : xn = aj , x1 = ai})= P (Xn = aj , X1 = ai) = P (Xn = aj |X1 = ai)P (X1 = ai) > 0

Dunque P (Xn = aj |X1 = ai) > 0, pertanto devesserci una sequenza i0, i1, . . . , intale che i0 = i, in = j ed Aimim+1 = P (Xm+1 = aim+1|Xm = aim) > 0, m 0, . . . , n 1.

Bibliografia

[1] P. C. Shields, The Ergodic Theory of Discrete Sample Paths, American MathematicalSociety (1996).

[2] D.Williams, Probability with Martingales, Cambridge University Press (1991).

43

IntroduzioneIl teorema ergodicoRichiami di probabilitImpacchettamenti e ricoprimentiTrasformazioni stazionarie ed ergodicheIl teorema ergodicoEnunciato del teorema ergodicoIl teorema ergodico : caso binarioIl teorema ergodico: caso generale

Applicazioni ed esempiStrumenti tecniciProcessi stazionariCatene di Markov