Download - Tesi di Laurea Il teorema ergodico - matapp.unimib.itfcaraven/download/other/timini.pdf · legge dei grandi numeri per un’ampia classe di processi stocastici (ad esempio, per le

Facolta di Scienze Matematiche, Fisiche, NaturaliCorso di Laurea Triennale in Matematica

a. a. 2009/10

Tesi di Laurea

Il teorema ergodico

Candidato RelatoreMauro Timini Francesco Caravenna

Indice

Introduzione 1

1 Il teorema ergodico 31.1 Richiami di probabilita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Impacchettamenti e ricoprimenti . . . . . . . . . . . . . . . . . . . . . . . 81.3 Trasformazioni stazionarie ed ergodiche . . . . . . . . . . . . . . . . . . . 101.4 Il teorema ergodico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.4.1 Enunciato del teorema ergodico . . . . . . . . . . . . . . . . . . . . 161.4.2 Il teorema ergodico : caso binario . . . . . . . . . . . . . . . . . . . 171.4.3 Il teorema ergodico: caso generale . . . . . . . . . . . . . . . . . . 20

2 Applicazioni ed esempi 312.1 Strumenti tecnici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.3 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

iii

Introduzione

In questa tesi dimostriamo un risultato importante relativo al calcolo della probabilita:il teorema ergodico. La teoria ergodica ha le sue origini nella meccanica statistica: piuprecisamente, venne introdotta da Boltzmann (1844-1906) verso la fine dell’Ottocento,in riferimento ai sistemi meccanici complessi ai quali era attribuita la proprieta di assu-mere, nella loro evoluzione spontanea, tutti gli stati dinamici microscopici compatibilicon il loro stato macroscopico. In base a tale teoria, la media “temporale” di ogni osser-vabile del sistema doveva coincidere con la media “spaziale” di tale osservabile rispettoa un’opportuna distribuzione di probabilita sullo spazio delle configurazioni del sistema.Una formulazione piu tecnica di quest’idea venne fornita poco piu tardi da Josiah Wil-lard Gibbs (1839-1903) ed, in seguito, tale teoria venne sviluppata da un punto di vistamatematico, considerandone gli aspetti probabilistici.

La nostra trattazione riguarda proprio quest’ultimo approccio. Il risultato fonda-mentale di questa teoria e costituito dal teorema ergodico, dimostrato da George DavidBirkhoff (1884-1944). Tale teorema afferma che, data una trasformazione T definita suuno spazio di probabilita ed a valori nel medesimo, se tale applicazione soddisfa determi-nate proprieta, allora la media temporale di ogni osservabile calcolata lungo la traiettoria{x, Tx, T 2x, . . .} (dove x e un punto dello spazio) coincide, facendo tendere all’infinitoil numero di iterazioni, con l’integrale dell’osservabile rispetto alla misura di probabilitafissata sullo spazio. In particolare, questo teorema fornisce una generalizzazione dellalegge dei grandi numeri per un’ampia classe di processi stocastici (ad esempio, per lecatene di Markov), al di la del caso classico di variabili indipendenti ed identicamentedistribuite.

La dimostrazione del teorema ergodico che forniremo non e quella classica, ma si basasu alcuni argomenti di tipo combinatorio e discreto, sviluppati in [1, Sez.I.3]. La dimo-strazione e strutturata in due parti: dapprima consideriamo il caso di processi discreti epoi estendiamo la trattazione a processi stocastici a valori in uno spazio generico.

La tesi e organizzata nel modo seguente:

- Nel Capitolo 1 richiamiamo alcuni concetti di base, sviluppiamo alcuni strumentirelativi ai ricoprimenti aleatori ed, infine, forniamo la dimostrazione del teoremaergodico.

- Nel Capitolo 2 presentiamo alcuni modi operativi di dimostrare l’ergodicita (inparticolare definendo le proprieta di mescolanza e di mescolanza debole) ed appli-chiamo tali metodi a due casi importanti: i processi i.i.d. e la Catene di Markov.

1

Capitolo 1

Il teorema ergodico

1.1 Richiami di probabilita

In questo paragrafo richiameremo alcuni concetti di base della teoria del calcolo delleprobabilita che ci saranno utili in seguito. Sia X un insieme. Definiamo σ-algebra su Xun sottoinsieme Σ di P(X) tale che :

i) X ∈ Σ,

ii) A ∈ Σ⇒ X \A ∈ Σ, ∀A ∈ Σ,

iii) Se {An}n∈N e una successione di elementi di Σ, allora⋃n∈NAn ∈ Σ.

Si puo verificare facilmente che, comunque si scelga X, esistono sempre almeno dueσ-algebre su X : Σ1 = {∅, X} (σ-algebra banale) e Σ2 = P(X) (σ-algebra discreta). Datoun insieme X, pertanto, e sempre possibile associarvi una σ-algebra Σ : si definisce spaziomisurabile la coppia (X,Σ). Sia, dunque, (X,Σ) uno spazio misurabile. Consideriamoora un’applicazione

µ : Σ→ [0,+∞]

tale che:

i) µ(∅) = 0.

ii) Se {An}n∈N e una successione di elementi a due a due disgiunti di Σ (cioe tali cheAn ∩Am = ∅, ∀m,n ∈ N tali che m 6= n), allora

µ(⋃n∈N

An) =∑n∈N

µ(An).

Tale funzione viene detta misura su (X,Σ). Uno spazio di misura e una terna (X,Σ, µ),dove X e un insieme, Σ e una σ-algebra su X e µ e una misura su Σ. Se, inoltre,supponiamo valga l’ipotesi aggiuntiva µ(X) = 1, allora si dice che µ e una probabilita suΣ ed (X,Σ, µ) e detto spazio di probabilita. Ora consideriamo due proprieta fondamentalidella misura che risulteranno utili in seguito.

3

4 CAPITOLO 1. IL TEOREMA ERGODICO

Lemma 1 (Continuita dal basso). Sia (X,Σ, µ) uno spazio di misura. Data una succes-sione {An}n∈N di elementi di Σ tale che An ⊆ An+1, ∀n ≥ 0, si ha che:

µ

(⋃n∈N

An

)= lim

n→∞µ(An)

Dimostrazione. Definiamo la successione {Bm}m∈N in questo modo:

B0 := A0 e Bm := Am \Am−1,∀m ≥ 1.

Si puo osservare facilmente che, dato n ∈ N, An =⋃nm=0Bm e che, quindi,

⋃∞n=0An =⋃∞

n=0

⋃nm=0Bm =

⋃∞m=0Bm. Pertanto, in virtu delle proprieta della misura µ si ha che

µ

( ∞⋃n=0

An

)= µ

( ∞⋃m=0

Bm

)=∞∑m=0

µ(Bm)

= limn→∞

n∑m=0

µ(Bm) = limn→∞

µ

( n⋃m=0

Bm

)= lim

n→∞µ(An).

Lemma 2 (Continuita dall’alto). Sia (X,Σ, µ) uno spazio di misura. Data una succes-sione {An}n∈N di elementi di Σ tale che An ⊇ An+1, ∀n ≥ 0, si ha che:

µ

(⋂n∈N

An

)= lim

n→∞µ(An)

Dimostrazione. Innanzitutto osserviamo che, dato n ∈ N, se An ⊇ An+1, allora Anc ⊆

An+1c. Utilizzando la proprieta di continuita dal basso, quindi, possiamo concludere che

µ(X)− µ(⋂n∈N

An

)= µ

(X \

⋂n∈N

An

)= µ

(( ⋂n∈N

An

)c)= µ

(⋃n∈N

Anc

)= lim

n→∞µ(An

c)

= limn→∞

µ(X \An) = limn→∞

(µ(X)− µ(An)) = µ(X)− limn→∞

µ(An).

Dunque

µ

(⋂n∈N

An

)= lim

n→∞µ(An).

Un risultato fondamentale che si puo derivare dalla proprieta di continuita dal bassodi una misura e che ci sara di estrema utilita in seguito e dato dal Lemma di Borel-Cantelli, che ora enunceremo.

1.1. RICHIAMI DI PROBABILITA 5

Lemma 3 (Borel-Cantelli). Sia (X,Σ, P ) uno spazio di probabilita. Se {Cn}n∈N e unasuccessione di elementi di Σ tale che

∑P (Cn) <∞, allora

P

( ⋂n≥1

⋃m≥n

Cm

)= 0,

ossia per quasi tutti gli x ∈ X esiste un naturale N = N(x) tale che x /∈ Cn, ∀n ≥ N .

Dimostrazione. Sia Gn :=⋃m≥nCm. Osserviamo che Gn ⊃ Gn+1, ∀n ∈ N. Per conti-

nuita dal basso, si ha che

P

( ⋂n≥1

Gn

)= lim

n→∞P (Gn).

Notiamo cheP (Gn) = P (

⋃m≥n

Cm) ≤∑m≥n

P (Cm).

Osserviamo che, poiche per ipotesi la serie∑P (Cn) converge, allora dev’essere

limn→∞

∑m≥n

P (Cm) = 0,

quindi P

(⋂n≥1Gn

)= 0.

Siano, ora, (X,Σ) ed (Y,F) due spazi misurabili : una funzione f : X → Y sidice misurabile se f−1(A) ∈ Σ, ∀A ∈ F . Dato uno spazio di misura (X,Σ, µ), unafunzione misurabile f a valori reali e detta semplice se esistono a1, a2, . . . , an ∈ R edA1, A2, . . . , An ∈ Σ tali che f(x) =

∑ni=1 aiχAi(x), ∀x ∈ X. Se una funzione misurabile

e definita su uno spazio di probabilita (X,Σ, P ), allora tale funzione e detta variabilecasuale. Un processo stocastico a tempo discreto e una sequenza X1, X2, . . . , Xn, . . . divariabili casuali definite su uno spazio di probabilita (X,Σ, P ).Supponiamo ora che {Xn}n∈N sia un processo stocastico definito su uno spazio di pro-babilita (X,Σ, P ) ed a valori in uno spazio misurabile (E, E). Si dimostra che, datotale spazio misurabile, e ben definito lo spazio prodotto (EN, EN), ove EN e la σ-algebraprodotto. L’applicazione

X : (X,Σ, P ) → (EN, EN)ω 7→ (X1(ω), X2(ω), ..., Xn(ω), ..)

e misurabile se e solo se Xn e misurabile ∀n ∈ N.Alcuni dei risultati che ora ci apprestiamo a richiamare si basano principalmente sul con-cetto di integrale secondo Lebesgue di una funzione misurabile. Al fine di non discostarcitroppo dal nostro lavoro, tuttavia, diamo per scontata la definizione di tale nozione,essendo particolarmente laboriosa ed essendo facilmente reperibile nella maggior partedei testi di base riguardanti la teoria della probabilita (si consideri, a titolo di esempio,[2, pag. 49]).


Lemma 4 (Diseguaglianza di Markov). Sia f una funzione nonnegativa ed integrabilesu uno spazio di probabilita (X,Σ, µ) e siano δ, ε > 0. Se

∫f dµ ≤ εδ, allora f(x) ≤ ε,

eccetto che per un insieme di misura al piu δ.

Dimostrazione. Sia D := {x ∈ X tali che f(x) > ε}. Consideriamo la funzione caratte-ristica

χD(x) =

{1 se f(x) > ε0 se f(x) ≤ ε

ed osserviamo che chiaramente χD(x) ≤ f(x)ε , ∀x ∈ X. Dunque

µ(D) =

∫XχD(x)dµ(x)

≤∫X

f(x)

εdµ(x)(x) =

1

ε

∫Xf(x)dµ(x) ≤ 1

εεδ = δ.

Ricordiamo, ora, che, dato uno spazio di misura (X,Σ, µ), si definisce L1 l’insiemedi tutte le funzioni f misurabili su tale spazio e tali che

∫|f |dµ < +∞. Si prova che tale

insieme e uno spazio vettoriale normato completo.Ora enunciamo i teoremi di passaggio al limite sotto il segno di integrale: tali teoremiindicano alcune condizioni necessarie per cui, data una successione convergente di fun-zioni misurabili, sia possibile ottenere informazioni riguardo il limite degli integrali dellasuccessione stessa.

Teorema 1 (Teorema di convergenza monotona). Sia (X,Σ, µ) uno spazio di misura esia {fn}n∈N una successione di funzioni misurabili tale che:

i) fn(x) ≥ 0, ∀x ∈ X, ∀n ∈ N

ii) fn(x) ≤ fn+1(x), ∀x ∈ X, ∀n ∈ N

iii) Esiste una funzione f misurabile nonnegativa tale che

f(x) = limn→∞

fn(x), ∀x ∈ X.

Allora ∫fdµ = lim

n→∞

∫fndµ.

Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, §5.3 (pag. 49)]

Ora, data una generica successione {fn}n∈N di funzioni definite su uno spazio mi-surabile (X,Σ, µ), definiamo, per ogni elemento x ∈ X, il limite inferiore ed il limitesuperiore rispettivamente in questo modo:

• lim infn∈N fn(x) = supm∈N infn≥m fn(x)

1.1. RICHIAMI DI PROBABILITA 7

• lim supn∈N fn(x) = infm∈N supn≥m fn(x).

Ora che abbiamo a disposizione questi concetti, possiamo procedere enunciando un lem-ma dimostrabile facilmente utilizzando il teorema precedente e la proprieta di monotonıadegli integrali.

Lemma 5 (Lemma di Fatou). Sia (X,Σ, µ) uno spazio di misura e sia {fn}n∈N unasuccessione di funzioni misurabili nonnegative. Allora∫

lim infn∈N

fndµ ≤ lim infn∈N

∫fndµ.

Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, §5.4 (pag. 52)]

Un altro risultato importante e fondamentale per la nostra trattazione e dato dalseguente teorema.

Teorema 2 (Teorema di convergenza dominata). Sia (X,Σ, µ) uno spazio di misura esia {fn}n∈N una successione di funzioni misurabili tali che :

i) fn ∈ L1,∀n ∈ N

ii) Esiste una funzione misurabile f tale che, dato x ∈ X,

limn→∞

fn(x) = f(x)

iii) Esiste una funzione nonnegativa g ∈ L1 tale che |fn(x)| ≤ g(x), ∀x ∈ X, ∀n ∈ N

Sotto queste ipotesi, si ha che allora f ∈ L1 e che limn→∞∫|fn − f |dµ = 0, dunque

limn→∞∫fndµ =

∫fdµ.

Dimostrazione. Anche in questo caso, si consiglia di vedere [2, §5.9 (pag. 54)].

Questo teorema ci permette di dimostrare un lemma importante che dovremo utiliz-zare in seguito e che ci apprestiamo ad enunciare.

Lemma 6 (Integrabilita uniforme). Sia (X,Σ, µ) uno spazio di probabilita e sia f ∈L1(X,Σ, µ). Allora, per ogni η > 0, esiste δ > 0 tale che, comunque si scelga A ∈ Σ, siha che, se µ(A) < δ, allora

∫A |f(x)|dµ(x) ≤ η.

Dimostrazione. Osserviamo innanzitutto che, per il teorema di convergenza dominata,si ha che

limM→∞

∫{x∈X:|f(x)|>M}

|f(x)|dµ(x) =

= limM→∞

∫X|f(x)|χ{x∈X:|f(x)|>M}(x)dµ(x) = 0.


Dunque questo significa che

∀η > 0, ∃M0 tale che

∫{x∈X:|f(x)|>M0}

|f(x)|dµ(x) ≤ η

2.

Sia ora A ∈ Σ, osserviamo che∫A|f(x)|dµ(x)

=

∫A∩{x∈X:|f(x)|>M0}

|f(x)|dµ(x) +

∫A∩{x∈X:|f(x)|≤M0}

|f(x)|dµ(x)

≤ η

2+M0P (A ∩ {x ∈ X : |f(x)| ≤M0})

≤ η

2+M0P (A). (1.1)

Definiamo, quindi, δ := η2M0

: se A e tale che µ(A) < δ, dunque, dalla (1.1) otteniamoche ∫

A|f(x)|dµ(x) ≤ η.

1.2 Impacchettamenti e ricoprimenti

In questa sottosezione lasciamo momentaneamente in disparte la probabilita per con-centrarci su alcuni risultati di combinatoria necessari nella dimostrazione del teoremaergodico.

In particolare, consideriamo l’insieme N dei numeri naturali e tutti e soli gli intervallidel tipo [n,m] = {j ∈ N|n ≤ j ≤ m}.

Definizione 1. Si dice ricoprimento forte di N un insieme C definito da una funzionea valori interi n 7→ m(n) (ove m(n) ≥ n, ∀n ∈ N) e formato da tutti gli intervalli nellaforma [n,m(n)], n ∈ N (il termine forte sta ad indicare il fatto che ogni numero naturaledebba essere estremo sinistro di un intervallo appartenente a C).

Osserviamo che ogni ricoprimento forte ammette un sottoricoprimento C′ formato daelementi disgiunti di C : e sufficiente, ad esempio, definire tale sottoinsieme come C′ :={[ni,m(ni)], dove n1 = 1 e ni+1 = 1+m(ni)}, i ≥ 1.Il problema che ci poniamo, dunque,e il seguente : dato un ricoprimento forte C, e possibile ottenere un sottoricoprimentoC′ di C, formato da intervalli disgiunti, appartenenti ad [1,K] e tali che la loro unionegeneri tutto l’intervallo? In generale, la risposta e negativa: tuttavia e possibile ottenereun sottoricoprimento che ci permetta di ricostruire la maggior parte di tale intervallo.

Iniziamo da un caso particolare che ci permetta di verificare immediatamente ed inmaniera diretta l’affermazione appena fatta, cosı da fissare bene le idee: supponiamo

1.2. IMPACCHETTAMENTI E RICOPRIMENTI 9

che gli intervalli in C abbiano tutti la stessa lunghezza, sia L. In tal caso, definiamo ilsottoricoprimento C′ in questo modo:

C′ ={

[iL+ 1, (i+ 1)L] : 0 ≤ i ≤ (K − L)

L

}.

Si puo osservare facilmente che questo insieme, per come e definito ed essendo costituitoda intervalli consecutivi e disgiunti di lunghezza L, ricopre tutto l’intervallo [1,K] fattaeccezione per, al massimo, gli ultimi L− 1 elementi.

Inoltre, osserviamo che, dato δ > 0, se K ed L sono tali che K > Lδ , allora la porzione

di intervallo che non viene ricoperta ha cardinalita al massimo L−1 < L < Kδ e pertantoil rapporto tra la sua lunghezza e quella di [1,K] e strettamente minore di δ.

Ora consideriamo un caso piu generale: sia [1,K] un dato intervallo e sia C unricoprimento forte i cui elementi abbiano lunghezza variabile.

Il nostro obiettivo e far vedere che, se la maggior parte degli intervalli di C aventiestremo sinistro in [1,K] ha lunghezza non superiore ad L, allora e possibile estrarre unsottoricoprimento C′ incluso interamente in [1,K] e tale che l’unione dei suoi elementiricostruisca quasi completamente tale intervallo, a meno di una frazione di esso, la qualenon supera comunque un certo valore stimabile. Innanzitutto, e opportuno introdurrealcune definizioni, al fine di tradurre in termini rigorosi cio che intendiamo provare e,quindi, fornire una dimostrazione valida.

Definizione 2. Sia C un ricoprimento forte di N. Un intervallo [1,K] e detto (L, δ)-fortemente ricoperto se, dati L > 0, δ > 0,

|{n ∈ [1,K] : m(n)− n+ 1 > L}|K

≤ δ.

Definizione 3. Una collezione C′ di intervalli inclusi in un dato intervallo [1,K] e detta(1− δ)-impacchettamento di [1,K] se gli intervalli di C′ sono disgiunti e se la loro unioneha cardinalita maggiore od uguale a (1− δ)K.

Ora abbiamo a disposizione tutti gli elementi per dimostrare il lemma principale diquesta sottosezione.

Lemma 7 (Lemma di impacchettamento). Sia C un ricoprimento forte di N e siaδ > 0 dato. Se K > L

δ e se [1,K] e (L, δ)-fortemente coperto da C, allora esiste unsottoricoprimento C′ ⊂ C che e un (1− 2δ)-impacchettamento di [1,K].

Dimostrazione. Innanzitutto, per ipotesi sappiamo che K > Lδ e che |{n ∈ [1,K] :

m(n) − n + 1 > L}| ≤ δK. Ora cerchiamo di costruire un (1 − 2δ)-impacchettamentodell’intervallo [1,K]. L’idea e quella di procedere iterativamente da sinistra a destra,selezionando ad ogni passo il primo intervallo di lunghezza non superiore ad L e chesia disgiunto da quello selezionato in precedenza, fermandoci quando l’estremo destrodell’ultimo intervallo estratto dista da K per una quantita minore di L.Piu precisamente,poniamo m(0) = n0 = 0 e definiamo per induzione:

ni = min{j ∈ [1 +m(ni−1),K − L] : m(j)− j + 1 ≤ L}, ∀i ≥ 1,


fermandoci quando la condizione non e piu soddisfatta. Se I e l’insieme degli indici jche selezioniamo, osserviamo che chiaramente m(nj) − nj + 1 ≤ L,∀j ∈ I e che quindim(n|I|) ≤ K. Il procedimento si arresta quando si verifica uno dei seguenti casi:

• I e tale che m(n|I|) > K − L : osserviamo che 1 + m(n|I|) > K − L, pertantonon possiamo selezionare ulteriori intervalli disgiunti dai precedenti e di lunghezzainferiore ad L poiche, anche qualora ve ne fossero, non siamo sicuri che questi sianoinclusi completamente in [1,K], essendo la distanza del loro estremo sinistro da Kinferiore di L

• Non esiste j ∈ [1 + m(n|I|),K − L], tale che m(j) − j + 1 ≤ L : anche se esistes-sero degli intervalli disgiunti dai precedenti ed aventi estremo sinistro a distanzamaggiore di L da K, tuttavia, siccome tali intervalli hanno tutti lunghezza stret-tamente maggiore di L, in generale non e detto che siano completamente inclusi in[1,K].

Ora vogliamo provare che l’insieme C′ = {[ni,m(ni)] : 1 ≤ i ≤ |I|} sia effettivamenteun (1 − 2δ)-impacchettamento di [1,K]. Innanzitutto, osserviamo che gli elementi diC′ sono tra loro disgiunti per costruzione e, in virtu delle osservazioni fatte, sono tuttiinclusi in [1,K]. Resta da provare, pertanto, che la loro unione U abbia lunghezza almeno(1− 2δ)K.Osserviamo che l’intervallo (K − L,K] ha lunghezza massima L− 1 < L < δK. dunquesicuramente

|(K − L,K] \ U| ≤ δK.

Ora consideriamo l’intervallo [1,K − L]. Per come abbiamo definito C′ (e per comeabbiamo costruito U), si ha che:

Se j ∈ [1,K − L] \ U , allora m(j)− j + 1 > L.

Ma allora, se applichiamo l’ipotesi di (L, δ)-ricoprimento forte, posso concludere che

|[1,K − L] \ U| ≤ δK.

Quindi si ha sicuramente che

|[1,K] \ U| = |([1,K − L] \ U) ∪ ((K − L,K] \ U)| == |[1,K − L] \ U|+ |(K − L,K] \ U| ≤ δK + δK = 2δK

e cosı facendo abbiamo dimostrato la tesi.

1.3 Trasformazioni stazionarie ed ergodiche

In questa sezione consideriamo le funzioni definite su un generico spazio di probabilita(X,Σ, µ) ed a valori nel medesimo. In particolare, definiamo in maniera rigorosa i concettidi trasformazione stazionaria e di trasformazione ergodica, insieme ad alcune proprietache saranno necessarie in seguito.

1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 11

Definizione 4 (Trasformazione stazionaria). Sia (X,Σ, µ) uno spazio di probabilita.Un’applicazione T : X → X si dice trasformazione stazionaria se e misurabile e se

µ(T−1B) = µ(B), ∀B ∈ Σ.

Definizione 5 (Trasformazione ergodica). Una trasformazione stazionaria T si diceergodica se, dato B ∈ Σ,

T−1B = B ⇒ µ(B) = 0 o µ(B) = 1.

Lemma 8 (Definizioni equivalenti di ergodicita). Sia (X,Σ, µ) uno spazio di probabilita.Data una trasformazione stazionaria T : X → X, sono equivalenti :

a) T e ergodica.

b) T−1B ⊆ B ⇒ µ(B) = 0 o µ(B) = 1.

c) T−1B ⊇ B ⇒ µ(B) = 0 o µ(B) = 1.

d) µ(T−1B∆B) = 0⇒ µ(B) = 0 o µ(B) = 1,ove A∆B = (A ∪B) \ (A ∩B) e la differenza simmetrica tra A e B.

e) Se f(Tx) = f(x) quasi certamente, allora f e costante quasi certamente.

f) Se f(Tx) ≥ f(x) quasi certamente (oppure f(Tx) ≤ f(x) quasi certamente), alloraf e costante quasi certamente.

Dimostrazione. Dimostriamo, inizialmente, l’equivalenza di a) e b). Osserviamo che b)⇒a) e ovvia : basta notare che, se T : X → X e un’applicazione tale che, dato B ∈ Σ,T−1B = B, allora in particolare T−1B ⊆ B. In virtu delle ipotesi assunte, quindi, si hache µ(B) = 0 o µ(B) = 1 e dunque abbiamo dimostrato l’ergodicita di T .Procediamo ora con la dimostrazione dell’implicazione inversa : sia T una trasformazioneergodica e sia B ∈ Σ tale che T−1B ⊆ B. Siccome l’applicazione inversa T−1 preservale relazioni insiemistiche, osserviamo che

T−1B ⊆ B ⇒ T−(n+1)B ⊆ T−n(B), ∀n ∈ N. (1.2)

Prima di proseguire con la dimostrazione osserviamo che⋂n≥1 T

−nB =⋂n≥0 T

−nB. Sipuo verificare facilmente, infatti, che

⋂n≥1 T

−nB ⊇⋂n≥0 T

−nB.: tale disuguaglianza ebanale poiche il secondo membro corrisponde al primo intersecato con un nuovo evento.La relazione

⋂n≥1 T

−nB ⊆⋂n≥0 T

−nB., invece, e facilmente ottenibile a partire da(1.2).

In base a queste osservazioni, quindi, se definiamo l’insieme C :=⋂n≥0 T

−nB, si puonotare che

T−1C = T−1

(⋂n≥0

T−nB

)=⋂n≥0

T−1(T−nB) =

=⋂n≥0

T−(n+1)B =⋂n≥1

T−nB =⋂n≥0

T−nB = C.


Poiche T e per ipotesi ergodica, dev’essere per forza µ(C) = 0 oppure µ(C) = 1.Osserviamo che per la continuita dall’alto si ha che

µ(C) = µ

(⋂n≥0

T−nB

)= lim

n→∞µ(T−nB) = lim

n→∞µ(B) = µ(B).

Dunque µ(B) = 0 oppure µ(B) = 1 ed abbiamo dimostrato anche questa implicazione.

L’equivalenza di b) e c) e immediata. Basta considerare, infatti, che

T−1B ⊇ B ⇐⇒ (T−1B)c = T−1(Bc) ⊆ Bc.

Supponendo, pertanto, che valga b), se T−1B ⊇ B, allora, in virtu dell’osservazionefatta sopra, µ(Bc) = 0 oppure µ(Bc) = 1, ossia µ(B) = 1 oppure µ(B) = 0 e quindi c)e verificata. Supponiamo, ora, che valga c) e che T−1B ⊆ B: quest’ultimo fatto equiva-le ad affermare che T−1Bc ⊇ Bc. Avendo supposto valida c), dunque, concludiamo cheµ(Bc) = 0 oppure µ(Bc) = 1, ovvero µ(B) = 1 oppure µ(B) = 0 e dunque b) e verificata.

Dimostriamo ora che b) e equivalente a d). Innanzitutto, dimostrare d)⇒b) e semplice:osserviamo che, se T−1B ⊆ B, allora

µ(T−1B∆B) = µ(B \ T−1B) = µ(B)− µ(T−1B) = µ(B)− µ(B) = 0.

Se supponiamo valga d), dunque, µ(B) = 0 oppure µ(B) = 1.Ora proviamo la validita dell’implicazione inversa: supponiamo, dunque, che valga b).Definiamo C :=

⋃n≥0 T

−nB ed osserviamo che

T−1C = T−1

(⋃n≥0

T−nB

)=⋃n≥1

T−nB ⊆⋃n≥0

T−nB = C,

questo implica che µ(C) = 0 oppure µ(C) = 1. Ora notiamo che, per come abbiamodefinito C e per la proprieta di continuita dall’alto, si ha che

µ(C) = limN→∞

µ

(N⋃n=0

(T−nB)

). (1.3)

Sia CN :=⋃Nn=0(T−nB). Ora consideriamo i seguenti risultati che ci saranno utili nel

proseguimento della dimostrazione:

i) Dati due insiemi A e B,

µ(A)− µ(B) = µ(A ∩B) + µ(A \B)− (µ(B ∩A) + µ(B \A))= µ(A \B)− µ(B \A).

Dunque |µ(A)− µ(B)| ≤ µ(A \B) + µ(B \A) = µ(A∆B).


ii) Dati n insiemi A1, A2, . . . , An ed un insieme B, si puo verificare che(N⋃n=1

An

)∆B ⊆

N⋃n=1

(An∆B).

iii) Dati due insiemi A e B, si verfica facilmente che

A∆B ⊆ (A∆C) ∪ (C∆B).

Ora osserviamo che, essendo T stazionaria e poiche l’inversa di un’applicazione preservale relazioni insiemistiche, in base alle nostre ipotesi possiamo notare che

0 = µ(T−1B∆B) = µ(T−1(T−1B∆B)) = µ(T−2B∆T−1B)

= µ(T−1(T−2B∆T−1B)) = . . . = µ(T−(n−1)B∆T−nB), ∀n ∈ N

In base ad i) e ii), dunque, possiamo notare che

|µ(CN )− µ(B)| ≤ µ(CN∆B)

≤ µ

(N⋃n=0

(T−nB∆B)

)≤

N∑n=0

µ(T−nB∆B). (1.4)

Ora osserviamo che, in base a iii), dato n ∈ N,

T−nB∆B ⊆ (T−nB∆T−(n−1)B) ∪ (T−(n−1)B∆B).

Otteniamo, dunque, la seguente diseguaglianza

µ(T−nB∆B) ≤ µ(T−nB∆T−(n−1)B) + µ(T−(n−1)B∆B)

= µ(T−(n−1)B∆B).

Osserviamo che tale maggiorazione puo essere ripetuta per tutti gli n ∈ N, cosı daottenere la catena di diseguaglianze:

µ(T−nB∆B) ≤ = µ(T−(n−1)B∆B) ≤ µ(T−(n−2)B∆B)≤ . . . ≤ µ(T−1B∆B).

Siccome, per ipotesi, µ(T−1B∆B) = 0, allora, in base all’osservazione precedente, de-v’essere µ(T−nB∆B) = 0, ∀n ∈ N. Ma allora osserviamo che, per la (1.4), si ha che|µ(CN ) − µ(B)| = 0, ∀N ∈ N. Dunque µ(CN ) = µ(B), ∀N ∈ N e, tornando alla (1.3),otteniamo che

µ(C) = limN→∞

µ(CN ) = limN→∞

µ(B) = µ(B).

Dunque possiamo concludere, in quanto, se µ(C) = µ(B), segue che µ(B) = 1 oppureµ(B) = 0. La validita di d) a partire da b) e quindi dimostrata.


Ora completiamo la dimostrazione provando che d) ed e) sono equivalenti. Innanzituttosupponiamo che valga d) e consideriamo una generica funzione semplice

f(x) =n∑i=1

aiχBi(x), ove ai 6= aj e Bi ∩Bj = ∅, ∀i 6= j, i, j ∈ {1, . . . , n}

(ricordiamo che ogni funzione semplice puo essere espressa in questa forma). Supponiamoche f(x) = f(Tx) quasi certamente. Osserviamo che

f(Tx) =n∑i=1

aiχBi(Tx) =n∑i=1

aiχT−1(Bi)(x). (1.5)

Dato i ∈ {1, . . . , n}, se x ∈ (Bi∆T−1(Bi)), cio significa che x non puo appartenere

sia a Bi che a T−1(Bi): in altre parole, non puo verificarsi che x e Tx appartenganoentrambi all’insieme Bi. Questo fatto implica, in base alla (1.5), che sicuramente f(x) 6=f(Tx). Possiamo affermare, dunque, che Bi∆T

−1Bi ⊆ {x : f(x) 6= f(Tx)} e che, avendosupposto f(x) = f(Tx) quasi certamente, si ha dunque:

µ(Bi∆T−1(Bi)) ≤ µ({x : f(x) 6= f(Tx)}) = 0 ∀i ∈ {1, . . . , n}

⇒ µ(Bi∆T−1(Bi)) = 0 ∀i ∈ {1, . . . , n}.

Siccome abbiamo supposto che d) sia vera, segue che µ(Bi) = 0 oppure µ(Bi) = 1,∀i ∈ {1, . . . , n}. Tuttavia, essendo gli insiemi Bi a due a due disgiunti, questo significa cheesiste al piu un solo indice j ∈ {1, . . . , n} tale che µ(Bj) = 1 e µ(Bi = 0),∀i 6= j. Questorisultato implica che la funzione semplice f , per come e definita, e quasi certamentecostante. Dunque il risultato vale per le funzioni semplici. Sia ora f una funzione genericaper cui supponiamo che f(Tx) = f(x) quasi certamente. Definiamo, per ogni numeronaturale n, la funzione

fn(x) :=

+n2n∑k=−n2n

k

2nχ{

x:f(x)∈(k−12n

, k2n

]}(x).

Osserviamo che si tratta di una funzione semplice e che, per ogni n ∈ N, il valore cheassume fn in ciascun x ∈ X dipende dal valore assunto da f in tale punto. In particolare,dato n ∈ N e dato x ∈ X, se f(Tx) = f(x) allora

fn(Tx) =

+n2n∑k=−n2n

k

2nχ{

x:f(Tx)∈(k−12n

, k2n

]}(x)

=+n2n∑

k=−n2n

k

2nχ{

x:f(x)∈[k−12n

, k2n

]}(x) = fn(x).

Dunque, se f(Tx) = f(x) quasi certamente, allora fn(Tx) = fn(x) quasi certamente,∀n ∈ N. Pertanto, in virtu del risultato ottenuto per le funzioni semplici, possiamo


affermare che, per ogni numero naturale n, fn(x) = cn ∈ R , ∀x ∈ An, ove An e uninsieme tale che µ(An) = 1. Notiamo, inoltre, che, fissato x ∈ X, limn→∞ fn(x) =f(x). Definiamo, quindi, l’insieme A :=

⋂n≥0An ed osserviamo che µ(A) = 1. Infatti

osserviamo che Ac =⋃n≥0An

c, quindi µ(Ac) ≤∑

n≥0 µ(Anc) = 0, pertanto µ(Ac) = 0,

ovvero µ(A) = 1. Dunque, se x ∈ A, allora la successione {fn(x)}n∈N e una successione dinumeri reali {cn}n∈N convergente ad f(x). Poiche questo fatto vale per ogni x ∈ A, alloraper forza f(x) dev’essere costante su tutto A, altrimenti si avrebbe che la successione{cn}n∈N converge a piu valori, il che e assurdo. Pertanto f e costante su A, dunque ameno di un insieme di misura nulla.Supponiamo ora che e) sia valida e sia B ∈ Σ tale che µ(T−1B∆B) = 0. Osserviamo che

0 = µ(T−1B∆B) =

∫|χT−1B(x)− χB(x)|dµ(x),

da cui segue facilmente che

|χT−1B(x)− χB(x)| = 0, q.c. ⇒ χT−1B(x) = χB(x) q.c.

⇐⇒ χB(Tx) = χB(x) q.c. .

Dunque, supponendo e) vera, segue che χB(x) e quasi certamente costante. Siccometale funzione puo assumere i soli valori 0 ed 1, allora o χB(x) = 1 q.c. (ed in tal casoµ(B) = 1), oppure χB(x) = 0 q.c. (ed in tal caso µ(B) = 0). Dunque abbiamo provatola validita di d).Ora dimostriamo che e) ed f) sono equivalenti. L’implicazione f) ⇒ e) e ovvia poichebasta notare che f(Tx) = f(x) quasi certamente ⇒ f(Tx) ≥ f(x) (oppure f(Tx) ≤f(x)) quasi certamente.Ora dimostriamo che e) implica f). Supponiamo, dunque, che valga e) che f(Tx) ≥f(x) quasi certamente (nel caso in cui f(Tx) ≤ f(x) quasi certamente, si procede inmaniera analoga). Definiamo la funzione g(x) := f(Tx)− f(x) : osserviamo che, in virtudell’ipotesi, g(x) ≥ 0 quasi certamente. Notiamo che, in virtu della stazionarieta di T∫

g(x)dµ(x) =

∫f(Tx)dµ(x)−

∫f(x)dµ(x) = 0.

In base a queste due proprieta, dunque, dev’essere g(x) = 0 quasi certamente, ma alloraf(Tx) = f(x) quasi certamente, dunque f e costante quasi certamente.

Sia ora (E, E) uno spazio misurabile e sia (EN, EN) lo spazio prodotto definito apartire da E (costituito dagli elementi (x1, x2, ..., xn, ...) tali che xn ∈ E, ∀n ∈ N) emunito della σ-algebra prodotto EN. Definiamo, quindi, l’operazione di shift

T : EN → EN

(x1, x2, . . . xn, . . .) 7→ (x2, x3, . . . , xn, . . .).

Consideriamo ora un processo stocastico {Xn}n∈N a valori in E, cioe

Xn : (X,Σ, P )→ (E, E), ∀n ∈ N,


ove (X,Σ, P ) e uno spazio di probabilita. Definiamo, su (EN, EN), la misura di Kolmo-gorov per il processo {Xn}n∈N in questo modo:

µ(A1 ×A2 × . . .×An × . . .) :=

P (X1 ∈ A1, X2 ∈ A2, . . . , Xn ∈ An, . . .), ∀{Ai}i∈N, Ai ∈ E

(µ e detta legge della successione {Xn}n∈N). Tale processo, dunque, si dice ergodico sel’operazione di shift e ergodica rispetto alla misura di Kolmogorov associata al processo{Xn}n∈N.

1.4 Il teorema ergodico

1.4.1 Enunciato del teorema ergodico

Teorema 3 (Teorema ergodico). Sia T una trasformazione stazionaria su uno spazio diprobabilita (X,Σ, µ) e sia f una funzione integrabile, allora la media 1

n

∑ni=1 f(T i−1x)

converge quasi certamente ed in L1, per n −→ ∞, verso una funzione T -invariantef∗(x).

Corollario 1. Se T e una trasformazione ergodica, allora f∗(x) =∫fdµ, ∀x ∈ X.

Dimostrazione. Sia fn(x) := 1n

∑ni=1 f(T i−1x).

Siccome fn converge in L1 ad f∗, allora∣∣∣∣∫ fndµ−∫f∗dµ

∣∣∣∣= ∣∣∣∣∫ (fn − f∗)dµ∣∣∣∣≤ ∫ |fn − f∗|dµ −→ 0, per n→∞,

dunque∫fndµ −→

∫f∗dµ, per n→∞.

Inoltre, notiamo che, ∀n ∈ N,∫fn(x)dµ =

∫1

n

n∑i=1

f(T i−1x)dµ =1

n

n∑i=1

∫f(T i−1x)dµ =

∫f(x)dµ,

poiche, essendo T una trasformazione stazionaria,∫f(Tn(x))dµ =

∫f(x)dµ, ∀n ∈ N.

Dunque dev’essere∫fdµ =

∫f∗dµ.

Inoltre, se supponiamo che T sia una trasformazione ergodica, essendo f∗ T−invariante,allora, in virtu del Lemma 4, f∗(x) e costante su tutto il dominio, pertanto f∗(x) = c ∈ R,∀x ∈ X, dunque : ∫

f(x)dµ =

∫f∗(x)dµ =

∫cdµ = µ(X)c = c,

pertanto, nel caso in cui T sia anche ergodica la funzione f∗(x) (media temporale) ecostante su tutto il dominio ed ha valore pari a

∫fdµ (media spaziale).

1.4. IL TEOREMA ERGODICO 17

1.4.2 Il teorema ergodico : caso binario

Teorema 4 (Teorema ergodico: caso binario). Se {Xn} e un processo ergodico tale che{Xn} ∈ {0, 1}, ∀n ∈ N, allora la media X1+X2+...+Xn

n converge quasi certamente al valorecostante E(X1) = µ(1) = µ({x : x1 = 1}).

Dimostrazione. Il nostro obiettivo e provare che :

limn→∞

1

n

n∑i=1

xi = µ(1) quasi ovunque, (1.6)

ove, ricordiamo, µ(1) = µ{x : x1 = 1} = E(X1) e µ1 e la legge di X su {0, 1}N.Supponiamo, per assurdo, che (1.6) sia falsa.Piu precisamente, supponiamo che l’insieme

B =

{x : lim sup

n→∞

1

n

n∑i=1

xi > µ(1) + ε

}sia tale che µ(B) > 0 (il caso complementare, in cui si considera l’insieme degli x ∈ Xtali che lim infn→∞

1n

∑ni=1 xi < µ(1)− ε, si tratta in modo analogo). Osserviamo che

lim supn→∞

x1 + x2 + ...+ xnn

= lim supn→∞

x2 + x3 + ...+ xn+1

n.

Infatti, notiamo che

x2 + x3 + ...+ xn+1

n=x1 + x2 + ...+ xn

n+xn+1

n− x1

n.

Inoltre, poiche xn ∈ {0, 1}, ∀n ∈ N, si ha che limn→∞xn+1

n − x1n = 0, dunque

lim supn→∞

x2 + x3 + ...+ xn+1

n=

lim supn→∞

x1 + x2 + ...+ xnn

+ limn→∞

xn+1

n− x1

n=

= lim supn→∞

x1 + x2 + ...+ xnn

Pertanto, se la sequenza (x1, x2, ..., xn, ..) ∈ B, allora la sequenza, ottenuta tramite unoshift, (x2, x3, .., xn, ..) ∈ B e questo fatto vale anche per tutte le operazioni di shiftsuccessive : abbiamo provato, quindi, che l’insieme B e T -invariante e, poiche abbiamoassunto che µ sia ergodica rispetto a T e che µ(B) > 0, allora deve valere µ(B) = 1.Supponiamo ora che x = (x1, x2, .., xn, ..) ∈ B : essendo B un insieme T -invariante,allora

(xn, xn+1, .., xn+m, ..) ∈ B, ∀n ∈ N,

⇐⇒ lim supm→∞

1

m

n+m−1∑k=n

xk > µ(1) + ε, ∀n ∈ N,


dunque per ogni intero n esiste un intero m(n) ≥ n tale che

xn + xn+1 + ...+ xm(n)

m(n)− n+ 1> µ(1) + ε.

Definiamo, pertanto, la collezione di intervalli

C(x) := {[n,m(n)] : n ∈ N} : (1.7)

tale insieme e un ricoprimento forte di N. Osserviamo, inoltre, che tale insieme e deter-minato in modo casuale, al variare dei valori assunti dalla sequenza (x1, x2, .., xn, ..), iquali, appunto, sono determinati da una sequenza di variabili casuali . Osserviamo che,poiche µ(B) = 1, allora

lim supn→∞

1

n

n∑i=1

xi > µ(1) + ε, quasi certamente,

ovvero ad eccezione di un sottoinsieme di {0, 1}N avente misura nulla. Dunque possiamoaffermare che quasi certamente esiste un m(1) ∈ N tale che

x1 + x2 + ...+ xm(1)

m(1)> µ(1) + ε,

questo significa che la variabile casuale m(1) (il cui valore varia al variare dei valoriassunti dal processo ergodico {Xn}n∈N) assume quasi certamente un valore finito in Ne, pertanto, e limitata a meno di un sottoinsieme di {0, 1}N avente probabilita piccolaa piacere. Piu precisamente, dato δ > 0, esiste un numero L tale che se D := {x =(x1, x2, .., xn, ..) : m(1) > L} allora µ(D) < δ2.Definiamo la funzione

gK(x) :=1

K

K∑i=1

χD(T i−1(x)),

ove χD(x) =

{1 se x ∈ D0 se altrimenti.

Ora vogliamo calcolare l’integrale di questa funzione.Innanzitutto osserviamo che, poiche T e una trasformazione stazionaria, µ = µ ◦ T .Dunque

∫gK(x)dµ =

1

K

K∑i=1

∫χD(T i−1x)dµ =

=1

K

K∑i=1

∫χD(x)dµ =

1

KKµ(D) = µ(D).

Poiche, quindi,∫gK(x)dµ = µ(D) < δ2, per la Diseguaglianza di Markov si ha che l’in-

sieme GK := {x : gK(x) ≤ δ} e tale che µ(GK) ≥ (1− δ).


Supponiamo x ∈ GK , allora:

gK(x) =1

K

K∑i=1

χD(T i−1x) ≤ δ.

Ora osserviamo questo fatto importante: per definizione dell’insieme D, sia x = (x1, x2, ..., xn, ...),allora

Tn−1(x) = (xn, xn+1, .., ..) ∈ D ⇐⇒ m(n)− n+ 1 > L

⇐⇒ |[n,m(n)]| > L.

Se x ∈ GK , dunque, possiamo scrivere

gk(x) =1

K

K∑i=1

χD(T i−1(x)) =

=|{n ∈ [1,K] : m(n)− n+ 1 > L}|

K=|{n ∈ [1,K] : |[n,m(n)]| > L}|

K≤ δ.

Dunque abbiamo provato che, se x ∈ GK , allora l’insieme C(x), definito in (1.7), e un(L, δ)-ricoprimento forte dell’intervallo [1,K].In virtu del Lemma di impacchettamento, quindi, esiste un sottoinsieme

C′(x) = {[ni,m(ni)] : i ≤ I(x)} ⊂ C(x),

il quale e un (1 − 2δ)-impacchettamento di [1,K]. Poiche le xi sono nonnegative, gliintervalli di C′(x) sono disgiunti e sono tutti contenuti in [1,K], allora:

K∑j=1

xj ≥I(x)∑i=1

m(ni)∑j=ni

≥I(x)∑i=1

(m(ni)− ni + 1)[µ(1) + ε] =

[µ(1) + ε]

I(x)∑i=1

|[ni,m(ni)]| ≥ [µ(1) + ε](1− 2δ)K.

Ora osserviamo che, poiche ovviamente∑K

j=1 xj ≥ (∑K

j=1 xj)χGk(x), si ha:

E

( K∑j=1

xj

)≥ E

(( K∑j=1

xj)χGk(x)

)≥

≥ E([µ(1) + ε](1− 2δ)KχGk(x)) = [µ(1) + ε](1− 2δ)KE(χGk(x)) =

= [µ(1) + ε](1− 2δ)Kµ(Gk) ≥ [µ(1) + ε](1− 2δ)K(1− δ),


cosicche:

µ(1) = E

(1

K

K∑j=1

xj

)≥ [µ(1) + ε](1− 2δ)(1− δ),∀δ > 0.

Questo fatto e chiaramente assurdo, poiche, per δ → 0, dovrebbe aversi, per la perma-nenza del segno,

µ(1) ≥ µ(1) + ε > µ(1)

In questo modo, quindi, abbiamo provato che la (1.6) e vera e, pertanto, abbiamodimostarto il teorema.

1.4.3 Il teorema ergodico: caso generale

In questa sottosezione dimostriamo la validita del teorema ergodico nella sua forma piuastratta. Prima di procedere con la dimostrazione vera e propria, tuttavia, e necessarioprovare alcuni lemmi.

Lemma 9. Consideriamo uno spazio di probabilita (X,Σ, µ). Siano f ∈ L1(X,Σ, µ),T : X → X una trasformazione stazionaria ed α un numero reale arbitrario. Definiamogli insiemi

B =

{x ∈ X : lim sup

n→∞

1

n

n∑i=1

f(T i−1x) > α

}

D =

{x ∈ X : lim

n→∞

f(Tnx)

n= 0

},

allora µ(D) = 1 e B ∩D = T−nB ∩D, ∀n ∈ N.

Dimostrazione. Osserviamo innanzitutto che, siccome f ∈ L1, si ha, ∀ε > 0 :

∞ >

∫|f |dµ =

∫ +∞

0µ({x ∈ X : |f(x)| > t})dt =

=∑n∈N

∫ εn

ε(n−1)µ({x ∈ X : |f(x)| > t})dt ≥

∑n∈N

εµ({x ∈ X : |f(x)| > εn})

(la prima uguaglianza segue da un’applicazione del Teorema di Fubini, mentre l’ultimadiseguaglianza segue dal fatto che il valore µ({x ∈ X : |f(x)| > t}) decresce all’aumentaredi t ∈ [ε(n− 1), εn]). Dunque si ha che∑

n∈Nµ({x ∈ X : |f(x)| > εn}) < +∞.


Osserviamo che, essendo T una trasformazione stazionaria, allora dev’essere

µ({x ∈ X : |f(x)| > εn}) =

= µ(T−n({x ∈ X : |f(x)| > εn})) =

µ({x ∈ X : |f(Tnx)| > εn}).

Dunque∑n∈N

µ({x ∈ X : |f(Tnx)| > εn}) =∑n∈N

µ({x ∈ X : |f(x)| > εn}) < +∞.

Per il lemma di Borel-Cantelli, quindi, possiamo affermare che

µ

(⋂n≥1

⋃m≥n{x ∈ X : |f(Tmx)| > εm}

)=

= µ({x ∈ X : ∀n ∈ N, ∃m ≥ n tale che |f(Tmx)| > εm}) = 0

Pertanto

1 = µ({x ∈ X : ∃N = N(x) tale che |f(Tnx)| ≤ εn, ∀n ≥ N}) =

= µ({x ∈ X : ∃N = N(x) tale che|f(Tnx)|

n≤ ε, ∀n ≥ N}).

Ricordiamo che questo risultato vale per ε > 0 fissato. Definiamo, quindi, l’insieme

Gε := {x ∈ X : ∃N = N(x) tale che|f(Tnx)|

n≤ ε, ∀n ≥ N}.

Finora abbiamo provato che µ(Gε) = 1, ∀ε > 0. Si puo notare facilmente che, datiε1, ε2 > 0, se ε1 < ε2, allora Gε1 ⊆ Gε2 . Osserviamo, inoltre, che

⋂ε>0

Gε = {x ∈ X : ∀ε > 0, ∃Nε = Nε(x) tale che|f(Tnx)|

n≤ ε, ∀n ≥ Nε}

= {x ∈ X : limn→∞

f(Tnx)

n= 0} = D.

Osserviamo, dunque, che per continuita dall’alto si ha che

µ(D) = µ

(⋂ε>0

Gε

)= lim

ε→0µ(Gε) = 1.

Sia ora x ∈ B ∩D, ovvero, ricordiamo, sia x ∈ X tale che :

lim supn→∞

1

n

n∑i=1

f(T i−1x) > α e limn→∞

f(Tnx)

n= 0.


Innanzitutto proviamo che T (x) ∈ B. Osserviamo che

1

n

n∑i=1

f(T i−1(T (x))) =1

n

n+1∑i=2

f(T i−1x) =

=1

n

n∑i=1

f(T i−1x) +1

n

n+1∑i=2

f(T i−1x)− 1

n

n∑i=1

f(T i−1x) =

=1

n

n∑i=1

f(T i−1x) +

(f(Tnx)

n− f(x)

n

). (1.8)

Notiamo che, per come abbiamo definito l’insieme D e poiche, per ogni x fissato, si hachiaramente limn→∞

f(x)n = 0, allora se x ∈ B ∩D si ha che

limn→∞

f(Tnx)

n− f(x)

n= lim

n→∞

f(Tnx)

n− lim

n→∞

f(x)

n= 0 + 0 = 0.

Dunque, in virtu della (1.8) e del fatto che x ∈ B, abbiamo

lim supn→∞

1

n

n∑i=1

f(T i−1(T (x))) =

= lim supn→∞

(1

n

n∑i=1

f(T i−1x) +

(f(Tnx)

n− f(x)

n

))=

= lim supn→∞

n∑i=1

f(T i−1x) + limn→∞

(f(Tnx)

n− f(x)

n

)=

= lim supn→∞

n∑i=1

f(T i−1x) > α. (1.9)

Dunque T (x) ∈ B. Osserviamo che, inoltre, T (x) ∈ D, poiche, siccome per ipotesix ∈ B ∩D, si ha

limn→∞

f(Tn(T (x)))

n= lim

n→∞

f(Tn+1x)

n= lim

n→∞

f(Tnx)

n= 0 (1.10)

Dunque x ∈ B ∩ D ⇒ T (x) ∈ B ∩ D. Osserviamo che, inoltre, per la (1.9) e la (1.10)vale anche l’implicazione inversa, dunque x ∈ B ∩ D ⇐⇒ T (x) ∈ B ∩ D. DunqueB∩D = T−1(B∩D) = (T−1B)∩(T−1D) = T−1B∩D, poiche, per la (1.10), D = T−1D.Osserviamo che, iterando questa proprieta, otteniamo che

B ∩D = T−1(B ∩D) = T−1(T−1(B ∩D)) = T−2(B ∩D)

= T−2B ∩ T−2D =T−2B ∩D = . . . = T−nB ∩D = . . .

dunque B ∩D = T−nB ∩D, ∀n ∈ N.


Lemma 10. Sia T una trasformazione stazionaria su uno spazio di probabilita (X,Σ, µ),sia f ∈ L1(X,Σ, µ) e sia α un numero reale arbitrario. Se definiamo l’insieme

B =

{x : lim sup

n→∞

1

n

n∑i=1

f(T i−1x) > α

},

allora ∫Bf(x)dµ(x) ≥ αµ(B). (1.11)

Dimostrazione. Se µ(B) = 0, il lemma e banalmente verificato. Consideriamo, dunque,il caso in cui µ(B) > 0. Definiamo l’insieme

D =

{x ∈ X : lim

n→∞

f(Tnx)

n= 0

}.

Sappiamo, dal lemma precedente, che µ(D) = 1, dunque µ(B ∩ D) = µ(B). Inoltre,definiamo la misura condizionata

µB(A) :=µ(A ∩B)

µ(B), ∀A ∈ Σ

(ricordiamo che abbiamo supposto µ(B) > 0). Osserviamo che, in base a tale definizioneed alla definizione di integrale, si puo concludere facilmente che∫

Bf(x)dµB(x) =

1

µ(B)

∫Bf(x)dµ(x).

Siccome nella (1.11) l’integrale e calcolato sull’insieme B, in virtu delle affermazioniprecedenti osserviamo che∫

Bf(x)dµ(x) =

∫B∩D

f(x)dµ(x) = µ(B)

∫B∩D

f(x)dµB(x).

Al fine di dimostrare il lemma, dunque, sara sufficiente far vedere che∫B∩D

f(x)dµB(x) ≥ α.

Ricordiamo, in base al lemma precedente, che B ∩D = T−nB ∩D, ∀n ∈ N. Cio equivaleesattamente ad affermare che, dato x ∈ B ∩ D, per ogni numero naturale n esistem(n) ∈ N tale che m(n) ≥ n e che∑m(n)

i=n f(T i−1x)

m(n)− n+ 1> α.

Dunque, per x ∈ B∩D, e sempre definito il ricoprimento forte C(x) = {[n,m(n)] : n ∈ N}.Osserviamo che, dato x ∈ B, esiste sempre m(1) ∈ N tale che∑m(1)

i=1 f(T i−1x)

m(1)> α.


Questo significa che la variabile aleatoria m(1) e sempre finita, per x ∈ B, dunque elimitata, a meno di un insieme avente misura µB piccola a piacere. Pertanto possiamoaffermare che, dato δ > 0, esiste L > 0 tale che l’insieme E := {x ∈ B : m(1) > L} etale che µB(E) < δ2. Definiamo, per ogni K > 0, K ∈ N, l’insieme

GK =

{x ∈ B ∩D :

1

K

K∑i=1

χE∩D(T i−1x) ≤ δ}.

Osserviamo che, se definiamo gK(x) := 1K

∑Ki=1 χE∩D(T i−1x), allora, per la proprieta di

linearita dell’integrale e poiche T e stazionaria e B ∩D e T -invariante, abbiamo che

∫B∩D

gK(x)dµB(x) =1

K

K∑i=1

∫B∩D

χE∩D(T i−1x)dµB(x) =

=1

K

K∑i=1

∫B∩D

χE∩D(x)dµB(x) =1

KK

∫B∩D

χE∩D(x)dµB(x) =

=1

KKµB(E ∩D) = µB(E).

Per la diseguaglianza di Markov, dunque, si ha che µB(GK) ≥ 1− δ.Supponiamo di scegliere K > 0 tale che K ≥ L

δ : sotto queste ipotesi possiamo appli-care il lemma di impacchettamento al ricoprimento forte C. Piu precisamente, esisteun sottoricoprimento C′(x) = {[ni,m(ni)] : i ≤ I(x)} ⊂ C(x), il quale e un (1 − 2δ)-impacchettamento dell’intervallo [1,K], e pertanto ricordiamo che si ottiene la seguentediseguaglianza :

I(x)∑i=1

|[ni,m(ni)]| ≥ (1− 2δ)K.

Osserviamo che, per x ∈ GK

K∑j=1

f(T j−1(x)) ≥∑

j∈[1,K]\⋃

[ni,m(ni)]

f(T j−1(x)) +

I(x)∑i=1

m(ni)∑j=n(i)

f(T j−1(x)) ≥

≥∑

j∈[1,K]\⋃

[ni,m(ni)]

f(T j−1(x)) +

I(x)∑i=1

(m(ni)− ni + 1)α =

=∑

j∈[1,K]\⋃

[ni,m(ni)]

f(T j−1(x)) + α

I(x)∑i=1

|[ni,m(ni)]| ≥

≥∑

j∈[1,K]\⋃

[ni,m(ni)]

f(T j−1(x)) + αK(1− 2δ).


Ora, nel caso in cui f sia limitata, supponiamo |f(x)| < M , M > 0, in base al risultatoottenuto dal lemma di impacchettamento posso affermare che∑

j∈[1,K]\⋃

[ni,m(ni)]

f(T j−1(x)) ≥∑

j∈[1,K]\⋃

[ni,m(ni)]

(−M) ≥

≥ −2MKδ.

Pertanto, in tale situazione si ha che, per x ∈ GK ,

K∑j=1

f(T j−1(x)) ≥ −2MKδ + αK(1− 2δ)

, mentre, per x /∈ GK , si ha che

e quindi∫B∩D

K∑j=1

f(T j−1(x))dµB(x) =

∫B∩D

f(x)dµB(x) ≥ 2MKδ + αK(1− 2δ).

Dunque, facendo tendere δ a 0, otteniamo il risultato desiderato.Se, invece, f non e limitata, allora osserviamo che

∫B∩D

f(x)dµB(x) =

∫B∩D

1

K

K∑j=1

f(T j−1(x))dµB(x) =

=

∫GK

1

K

I(x)∑i=1

m(ni)∑j=ni

f(T j−1(x))dµB(x) +

∫(B∩D)\GK

1

K

K∑j=1

f(T j−1(x))dµB(x)+

+

∫GK

1

K

∑j∈[1,K−L]\

⋃[ni,m(ni)]

f(T j−1(x))dµB(x)+

+

∫GK

1

K

∑j∈[K−L,K]\

⋃[ni,m(ni)]

f(T j−1(x))dµB(x).

Innanzitutto notiamo che, per il lemma di impacchettamento e poiche x ∈ B ∩D, si ha

∫GK

1

K

I(x)∑i=1

m(ni)∑j=ni

f(T j−1(x))dµB(x)

≥∫GK

1

K

I(x)∑i=1

(m(ni)− ni + 1)αdµB(x) ≥ 1

K

∫GK

(1− 2δ)KαdµB(x)

=1

K(1− 2δ)KαµB(GK) = (1− 2δ)αµB(GK).


Sia ora

I1 :=

∫(B∩D)\GK

1

K

K∑j=1


Osserviamo che

|I1| ≤1

K

∫(B∩D)\GK

K∑j=1

|f(T j−1(x))|dµB(x) =

=1

K

K∑j=1

∫(B∩D)\GK

|f(T j−1(x))|dµB(x) =1

K

K∑j=1

∫T 1−j((B∩D)\GK)

|f(x)|dµB(x).

Osserviamo che, poiche f ∈ L1, allora |I1| < +∞. Inoltre notiamo che, poiche µ(GK) ≥1− δ, allora

µB((B ∩D) \GK) = µB(B ∩D)− µB(GK) ≤ 1− (1− δ) = δ.

Essendo per ipotesi T stazionaria, dunque, si ha che

µ(T 1−j((B ∩D) \GK)) = µ((B ∩D) \GK) ≤ δ.

Dunque gli insiemi T 1−j((B ∩ D) \ GK), al variare di j ∈ {1, ...,K}, hanno la stessamisura, la quale e limitata superiormente da δ. Ricordiamo che la scelta di δ > 0, da cuidipende la definizione dell’insieme GK , e arbitraria. Dunque, per il Lemma 6, scegliamoδ > 0 tale che, se µ((B ∩D) \ Gk) < δ, allora e possibile stimare |I1| con una quantitaarbitrariamente piccola. Sia ora

I2 :=

∫GK

1

K

∑j∈[1,K−L]\

⋃[ni,m(ni)]


Osserviamo che, per il lemma di impacchettamento, se j ∈ [1,K −L] \⋃

[ni,m(ni)], allora

m(j) − j + 1 > L. Sotto queste ipotesi, dunque, se x ∈ GK ⊂ B ∩D, allora T j−1(x) ∈E ∩D, per come abbiamo definito l’insieme E. Dunque, ricordando che T e stazionaria,si ha che

|I2| ≤1

K

∫GK

∑j∈[1,K−L]\

⋃[ni,m(ni)]

|f(T j−1(x))|dµB(x) =

=1

K

∫B∩D

K∑j=1

χE∩D(T j−1(x))|f(T j−1(x))|dµB(x) =

=1

K

K∑j=1

∫B∩D

χE∩D(T j−1(x))|f(T j−1(x))|dµB(x) =

=1

KK

∫B∩D

χE∩D(x)|f(x)|dµB(x) =

∫E∩D|f(x)|dµB(x).


Osserviamo che, in questo caso, all’aumentare di L, µB(E) = µB(E ∩D) e una quantitasempre minore, dunque per L grande, |I2| e arbitrariamente piccolo.Sia ora

I3 :=

∫GK

1

K

∑j∈[K−L,K]\

⋃[ni,m(ni)]


Tale valore puo essere facilmente maggiorato se osserviamo che, poiche GK ⊂ B ∩D

|I3| ≤1

K

∑j∈(K−L,K]

∫GK

|f(T j−1(x))|dµB(x) ≤

≤ 1

K

∑j∈(K−L,K]

∫B∩D

|f(T j−1(x))|dµB(x) =

=1

K

∑j∈(K−L,K]

∫B∩D

|f(x)|dµB(x) ≤

≤ 1

KL

∫B∩D

|f(x)|dµB(x).

Dunque, per L fissato, se K e sufficientemente grande, I3 e piccolo. Ora ricordiamo chevale la relazione∫

B∩Df(x)dµB(x) ≥ (1− 2δ)αµB(GK) + I1 + I2 + I3

≥ (1− 2δ)α(1− δ) + I1 + I2 + I3

Ora fissiamo ε > 0. In base a tale valore ed alle stime ottenute, pertanto, siano :

- δ0 tale che, ∀δ ≤ δ0, (1− 2δ)α(1− δ) > α− ε4 ;

- δ1 tale che δ1 < δ0 e che |I1| < ε4 ;

- L0 sufficientemente grande e tale che |I2| < ε4 ;

- K0 sufficientemente grande e tale che L0K0

< δ1 e |I3| < ε4 .

Per tali valori di δ1, L0,K0, dunque, otteniamo che∫B∩D

f(x)dµB(x) ≥ α− ε

4− ε

4− ε

4− ε

4= α− ε.

Ma questo significa che ∫B∩D f(x)dµB(x) ≥ α− ε, ∀ε > 0.

Per ε→ 0, dunque, e per la permanenza del segno otteniamo che∫B∩D

f(x)dµB(x) ≥ α,

quindi possiamo concludere.


Ora disponiamo di tutti gli strumenti necessari per dimostrare il teorema ergodico,di cui riportiamo l’enunciato.

Teorema 5 (Teorema ergodico). Sia T una trasformazione stazionaria su uno spazio diprobabilita (X,Σ, µ) e sia f una funzione integrabile, allora la media 1

n

∑ni=1 f(T i−1x)

converge quasi certamente ed in L1, per n −→ ∞, verso una funzione T -invariantef∗(x).

Dimostrazione. Ricordiamo che affermare che la successione 1n

∑ni=1 f(T i−1x) sia con-

vergente per n→∞ equivale ad affermare che

lim infn→∞

1

n

n∑i=1

f(T i−1x) = lim supn→∞

1

n

n∑i=1

f(T i−1x).

Osserviamo, innanzitutto, che il risultato del lemma precedente rimane vero per qualsiasisottoinsieme C ∩D ⊆ B ∩D, purche tale insieme sia T -invariante: si puo notare, infatti,che tutti i passaggi utilizzati nel suddetto lemma rimangono validi qualora si restringal’insieme B ∩D all’insieme C ∩D. Definiamo pertanto l’insieme

C :=

{x : lim inf

n→∞

1

n

n∑i=1

f(T i−1x) < α < β < lim supn→∞

1

n

n∑i=1

f(T i−1x)

}.

Si noti che C ∩ D e T-invariante. In base al lemma precedente, dunque, osserviamoinnanzitutto che ∫

C∩Df(x)dµ(x) ≥ βµ(C)

Notiamo inoltre che

lim infn→∞

1

n

n∑i=1

f(T i−1x) < α ⇐⇒ − lim infn→∞

1

n

n∑i=1

f(T i−1x) > −α

⇐⇒ lim supn→∞

1

n

n∑i=1

(−f(T i−1x)) > −α .

Sempre in virtu del lemma precedente, quindi, concludiamo che

−∫C f(x)dµ(x) ≥ −αµ(C) ⇐⇒

∫C f(x)dµ(x) ≤ αµ(C).

Dunque

βµ(C) ≤∫Cf(x)dµ(x) ≤ αµ(C).

Siccome α < β, pertanto, la diseguaglianza ottenuta puo essere vera se e soltanto seµ(C)=0. Osserviamo che l’insieme C, per come e definito, dipende dai parametri α eβ, dunque sia C = Cα,β. Notiamo, sempre in virtu della definizione di C, che vale laseguente inclusione: {

x : ∃ limn→∞

1

n

n∑i=1

f(T i−1x)

}c⊆

⋃α,β∈Q,α<β

Cα,β.


Dunque possiamo concludere che la successione 1n

∑ni=1 f(T i−1x) converge quasi certa-

mente per n→∞.Ora dobbiamo provare che la successione converge in L1. Definiamo, innanzitutto,

l’operatore f 7→ UT (f) in questo modo:

UT (f)(x) := f(Tx), ∀x ∈ X, f ∈ L1.

Tale operatore e lineare, infatti, date f e g in L1, per ogni x ∈ X si ha che

UT (f + g)(x) = (f + g)(Tx) = f(Tx) + g(Tx) = UT (f)(x) + UT (g)(x).

Inoltre osserviamo che, essendo T stazionaria,

‖UT f‖L1 =

∫|f(Tx)|dµ(x) =

∫|f(x)|dµ(x) = ‖f‖L1 .

Dunque, se definiamo, ∀x ∈ X, la media temporale

Anf(x) :=1

n

n∑i=1

U i−1T f(x)

osserviamo che la linearita di An segue facilmente dalla linearita dell’operatore UT .Inoltre, notiamo che

‖Anf‖L1 =1

n

∫|n∑i=1

U i−1T f(x)|dµ(x) ≤ 1

n

n∑i=1

∫|U i−1T f(x)|dµ(x)

=1

n

n∑i=1

∫|f(x)|dµ(x) = ‖f‖L1 . (1.12)

Supponiamo f sia limitata, cioe esista M > 0 tale che |f(x)| ≤ M . Osserviamo che,allora,

|Anf(x)| ≤ 1

n

n∑i=1

|U i−1T f(x)| = 1

n

n∑i=1

|f(T i−1x)| ≤ 1

nnM = M.

Siccome abbiamo provato che Anf converge quasi certamente, dunque, poiche |Anf | elimitata, per il teorema di convergenza dominata si ha che Anf converge in L1. Dunqueil teorema e provato se f e limitata.Consideriamo ora il caso generale: sia f ∈ L1, in generale non limitata. Dato ε > 0,dunque, sia gε un’approssimazione limitata di f , tale che ‖f − gε‖ ≤ ε

3 (si puo scegliere,ad esempio, gε(x) = f(x)χ{|f(x)|≤M}, prendendo M = Mε sufficientemente grande). Oraosserviamo che

‖f −Anf‖L1 ≤ ‖f − g‖L1 + ‖g −Ang‖L1 + ‖Ang −Anf‖L1 .

Ora notiamo che, in virtu di quanto osservato nella (1.12),

‖Ang −Anf‖L1 = ‖An(g − f)‖L1 ≤ ‖g − f‖L1 .


Osserviamo inoltre che, poiche, essendo g limitata, Ang → g in L1, allora, per ε > 0,esiste nε ∈ N tale che ‖g − Ang‖L1 ≤ ε

3 , ∀n ≥ nε. Dunque possiamo concludere che,fissato ε > 0, per ogni n ≥ nε si ha che

‖f −Anf‖ ≤ 2‖g − f‖L1 + ‖Ang − g‖L1 ≤ 2ε

3+ε

3= ε,

ovvero Anf → f in L1.

Capitolo 2

Applicazioni ed esempi

In questo capitolo utilizzeremo la teoria sviluppata finora al fine di dimostrare l’ergodicitadi alcuni prarticolari processi stocastici.

2.1 Strumenti tecnici

In questa sezione richiamiamo alcuni concetti di calcolo delle probabilita necessari alnostro scopo. Sia, innanzitutto, (X,Σ, µ) uno spazio di misura e consideriamo un’ appli-cazione T : X → X. Tale funzione e detta mescolante se

limn→∞

µ(T−nC ∩D) = µ(C)µ(D), ∀C,D ∈ Σ. (2.1)

Un processo stocastico, dunque, si dice mescolante se l’operazione di shift e mescolanterispetto alla misura di Kolmogorov associata a tale processo.

Lemma 11. Sia (X,Σ, µ) uno spazio di misura e sia T : X → X un’applicazione. Se Te mescolante, allora T e ergodica.

Dimostrazione. Sia C ∈ Σ tale che T−1C = C: osserviamo che, poiche C = T−1C =. . . = T−nC = . . ., allora T−nC ∩D = C ∩D, ∀D ∈ Σ, ∀n ∈ N. Essendo T mescolante,quindi, in virtu della (2.9) otteniamo che µ(C ∩D) = µ(C)µ(D), ∀D ∈ Σ. Se poniamoC = D, quindi, otteniamo che µ(C) = µ(C)2 e questo e vero se e soltanto se µ(C) = 0oppure µ(C) = 1.

Introduciamo ora il concetto di mescolanza debole. Un’applicazione T : X → X edetta debolmente mescolante se

limN→∞

1

N

N∑j=1

µ(T−jC ∩D) = µ(C)µ(D), ∀C,D ∈ Σ.

Vediamo che, in questo caso, la condizione di mescolanza debole non solo implica lacondizione di ergodicita, ma e anche del tutto equivalente a quest’ultima.

31

32 CAPITOLO 2. APPLICAZIONI ED ESEMPI

Lemma 12. Sia (X,Σ, µ) uno spazio di misura. Allora T : X → X una trasformazionedebolmente mescolante ⇐⇒ T e ergodica.

Dimostrazione. Consideriamo separatamente le due implicazioni.[=⇒]Sia C ∈ Σ tale che T−1C = C, osserviamo che allora C = T−1C = . . . = T−nC, . . .,dunque la condizione di mescolanza debole implica che

limN→∞

1

N

N∑j=1

µ(T−jC ∩D) = limN→∞

1

N

N∑j=1

µ(C ∩D)

= limN→∞

1

NNµ(C ∩D) = µ(C ∩D) = µ(C)µ(D) ∀D ∈ Σ.

Se, quindi, poniamo D = C, otteniamo che µ(C) = µ(C)2, ovvero µ(C) = 0 oppureµ(C) = 1.[⇐=]Supponiamo che T sia una trasformazione ergodica. In virtu del teorema ergodico,quindi, si ha che per ogni funzione integrabile f deve vale

limn→∞

1

n

n∑j=1

f(T jx) =

∫fdµ,

quasi certamente ed in L1. Ora siano C,D ∈ Σ e poniamo f(x) = χC(x). In virtudell’osservazione precedente si ha che

limn→∞

1

n

n∑j=1

χC(T jx) = limn→∞

1

n

n∑j=1

χT−jC(x) =

∫χC(x)dµ = µ(C), (2.2)

quasi certamente ed in L1. Osserviamo ora che

1

N

N∑j=1

µ(T−jC ∩D) =1

N

N∑j=1

∫χT−jC∩D(x)dµ(x) =

∫1

N

N∑j=1

χT−jC∩D(x)dµ(x)

=

∫1

N

N∑j=1

χT−jC(x)χD(x)dµ(x).

Ora, in base alla (2.2) ed osservando che, ovviamente, |χT−jC(x)| ≤ 1, ∀j, e che, quindi,1N

∑Nj=1 χT−jC(x)χD(x) e limitata, in base al teorema di convergenza dominata si ha

che

limN→∞

1

N

N∑j=1

µ(T−jC ∩D)χD(x) = limN→∞

∫D

1

N

N∑j=1

χT−jC(x)dµ(x)

=

∫Dµ(C)dµ(x)χD(x) = µ(C)µ(D).

Dunque abbiamo provato che, se T e una trasformazione ergodica, allora e debolmentemescolante.

2.1. STRUMENTI TECNICI 33

A questo punto, disponiamo di ulteriori strumenti che possono essere utili nel de-terminare se una data applicazione sia ergodica (e, nel caso della mescolanza debole,possiamo anche verificare che non lo sia). Ai fini pratici, tuttavia, la verifica delle pro-prieta di mescolanza e di mescolanza debole puo essere complicata, dato che deve valereper una coppia generica di elementi appartenenti alla σ-algebra che stiamo considerando.A tal proposito, un aiuto notevole per la verifica di tali proprieta e fornito da un risultato,la cui dimostrazione richiede la conoscenza di alcune definizioni di base e dell’enunciatodel lemma di Dynkin.

Definizione 6 (Base di una σ-algebra). Sia X un insieme e sia Σ una σ-algebra. Unsottoinsieme I ⊆ Σ e detto base di Σ se

• Σ e generata da I

• A ∩B ∈ I, ∀A,B ∈ I

Definizione 7. Sia X un insieme. Un sottoinsieme D ⊆ X e detto classe monotona suX se soddisfa le seguenti condizioni:

• X ∈ D.

• Se A,B ∈ D ed A ⊆ B, allora B \A ∈ D.

• Se {An}n∈N e una successione di elementi di D tale che An ⊆ An+1, ∀n ≥ 1, allora⋃n∈NAn ∈ D.

Ora che disponiamo di queste definizioni, possiamo procedere enunciando il seguentelemma.

Lemma 13 (Lemma di Dynkin). Sia X un insieme, sia Σ una σ-algebra su X e sia Iuna base di Σ. Ogni classe monotona D su X contenente I contiene anche Σ.

Dimostrazione. Si veda, ad esempio, [2, §A1.3 (pag. 193)].

Ora, grazie a questi strumenti, possiamo enunciare e dimostrare un teorema cherisultera molto utile al fine di dimostrare l’ergodicita di alcuni tipi di processi stocastici.

Teorema 6. Sia (X,Σ, µ) uno spazio di misura e sia T : X → X un’applicazione stazio-naria. Se la condizone di mescolanza (rispettivamente di mescolanza debole) e soddisfattaper ogni C,D appartenenti ad una base di Σ, allora tale condizione (rispettivamente lacondizione di mescolanza debole) e valida per ogni C,D ∈ Σ.

Dimostrazione. Dimostriamo il teorema relativamente alla proprieta di mescolanza: laproprieta di mescolanza debole si tratta in modo analogo.Sia, dunque, I una base di Σ : dobbiamo provare che se, per ogni C,D ∈ I,

limn→∞

µ(T−nC ∩D) = µ(C)µ(D), (2.3)


allora tale proprieta e valida per ogni C,D ∈ Σ.Innanzitutto dimostriamo che la (2.3) vale per ogni coppia C,D,con C ∈ I e D ∈ Σ.Sia, pertanto, C ∈ I fissato e definiamo l’insieme

ΓC :={D ∈ Σ : lim

n→∞µ(T−nC ∩D) = µ(C)µ(D)

}.

Dimostriamo che ΓC e una classe monotona. Chiaramente X ∈ ΓC , poiche T e staziona-ria, dunque

limn→∞

µ(T−nC ∩X) = limn→∞

µ(T−nC) = limn→∞

µ(C) = µ(C) = µ(C)µ(X).

Innanzitutto, siano D1, D2 ∈ ΓC tali che D1 ⊆ D2, osserviamo che, dalla definizione diΓC , segue che

limn→∞

µ(T−nC ∩ (D2 \D1)) = limn→∞

µ((T−nC ∩D2) \ (T−nC ∩D1))

= limn→∞

µ(T−nC ∩D2)− limn→∞

(T−nC ∩D1) = µ(C)µ(D2)− µ(C)µ(D1)

= µ(C)(µ(D2)− µ(D1)) = µ(C)µ(D2 \D1)

dunque D2 \D1 ∈ ΓC .Sia, ora, {Dm}m∈N una successione di elementi di ΓC tale che Dm ⊆ Dm+1, ∀n ≥ 1e sia D :=

⋃m∈NDm: proviamo che D ∈ ΓC . Ricordiamo che, per la continuita dal

basso, si ha che limm→∞ µ(Dm) = µ(D). Sia, dunque, ε > 0 e sia mε ∈ N tale che|µ(D)− µ(Dmε)| < ε. Osserviamo che, per ogni n ∈ N,

|µ(T−nC ∩D)− µ(T−nC ∩Dmε)| = |µ(T−nC ∩ (D \Dmε)|≤ µ(D \Dmε) = µ(D)− µ(Dmε) < ε

dunque

µ(T−nC ∩Dmε)− ε ≤ µ(T−nC ∩D) ≤ µ(T−nC ∩Dmε) + ε.

Osserviamo che, poiche Dmε ∈ ΓC , per ipotesi

limn→∞

µ(T−nC ∩Dmε) = µ(C)µ(Dmε),

dunque

lim supn→∞

µ(T−nC ∩D) ≤ µ(C)µ(Dmε) + ε ≤ µ(C)µ(D) + 2ε

lim infn→∞

µ(T−nC ∩D) ≥ µ(C)µ(Dmε)− ε ≥ µ(C)µ(D)− 2ε.

Questo fatto vale per ogni ε > 0 (e per il corrispondente nε), dunque, facendo tendere εa 0, otteniamo che

µ(C)µ(D) ≤ lim infn→∞

µ(T−nC ∩D) ≤ lim supn→∞

µ(T−nC ∩D) ≤ µ(C)µ(D).

2.2. PROCESSI STAZIONARI 35

Quindi esiste limn→∞ µ(T−nC ∩ D) = µ(D)µ(C) e dunque D ∈ ΓC . Dunque abbiamoprovato che ΓC e una classe monotona: in virtu del lemma di Dynkin, dunque, ΓC ⊇ Σ,ovvero la relazione (2.3) e soddisfatta per ogni C ∈ I e per ogni D ∈ Σ. Viceversa, se,fissato D ∈ Σ, definiamo l’insieme

ΓD :={C ∈ Σ : lim

n→∞µ(T−nC ∩D) = µ(C)µ(D)

}.

Si noti che ΓD ⊇ I. Si dimostra in maniera simile che ΓD e una classe monotona: bastaosservare che, per ogni n ∈ N, l’applicazione T−n preserva le relazioni insiemistiche ed echiusa rispetto all’unione ed all’intersezione, dunque si procede analogamente a quantofatto prima. Quindi ΓD ⊇ Σ e la relazione (2.3) e valida per ogni coppia C,D tale cheC ∈ Σ e D ∈ Σ.

Ora che disponiamo di tutti gli strumenti necessari, possiamo procedere con alcuniesempi concreti di processi ergodici.

2.2 Processi stazionari

Sia (X,Σ, P ) uno spazio di probabilita e sia {Xn}n∈N un processo stocastico a valori inuno spazio di misurabile (E, E), ossia tale che

Xn : (X,Σ, P )→ (E, E), ∀n ∈ N.

Supponiamo che tale sequenza sia costituita da variabili casuali indipendenti ed identi-camente distribuite, ovvero:

P (Xn ∈ An|Xn−1 ∈ An−1, . . . , X1 ∈ A1) = P (Xn ∈ An) · . . . P (X1 ∈ A1),

∀n ≥ 1,∀A1, . . . , An ∈ E

Notiamo che un processo stocastico i.i.d. e stazionario, infatti, dati Am, Am+1, . . . , An ∈E , ove m,n ∈ N, m < n, si ha che

P (Xm ∈ Am, Xm+1 ∈ Am+1, . . . , Xn ∈ An)

= P (Xm ∈ Am) · P (Xm+1 ∈ Am+1) · . . . · P (X1 ∈ A1)

= P (Xm+1 ∈ Am) · P (Xm+2 ∈ Am+1) · . . . · P (X2 ∈ A1)

= P (Xm+1 ∈ Am, Xm+2 ∈ Am+1, . . . , X2 ∈ A1).

Consideriamo ora l’operazione di shift definita sullo spazio prodotto En, munito dellaσ-algebra prodotto En

T : EN → EN

(x1, x2, . . . xn, . . .) 7→ (x2, x3, . . . , xn, . . .).

Il nostro obiettivo e dimostrare che la trasformazione di shift e ergodica rispetto allamisura di Kolmogorov associata al processo {Xn}n∈N. Innanzitutto, proviamo a vedere


se tale operazione gode della proprieta di mescolanza. Si dimostra che una base dellaσ-algebra prodotto En e data dall’insieme costituito dagli elementi del tipo

A1 × . . .×An := {(x1, . . . , xn, . . .) : xm ∈ Am, . . . , xn ∈ An},ove m,n ∈ N,m ≤ n, Am, . . . , An ∈ E

(a tal proposito, si legga [1, pag.2]. Siano, quindi

C := A1 × . . .×AnD = B1 × . . .×Bn.

Osserviamo che, dato N ∈ N tale che N > n,

T−NC = {(x1, . . . , xn, . . .) : xN+1 ∈ A1, . . . , xN+n ∈ An}.

Dunque

T−NC ∩D = {(x1, . . . , xn, . . .) : x1 ∈ B1, . . . , xn ∈ Bn, xN+1 ∈ A1, . . . , xN+n ∈ An},

pertanto, in virtu dell’indipendenza delle Xn e dalla proprieta di stazionarieta del pro-cesso stocastico

µ(T−NC ∩D) = P (X1 ∈ B1, . . . , Xn ∈ Bn, XN+1 ∈ A1, . . . , XN+n ∈ An)

= P (X1 ∈ B1, . . . , Xn ∈ Bn) · P (XN+1 ∈ A1, . . . , XN+n ∈ An)

= µ(D)µ(T−NC) = µ(D)µ(C)

Dunque la proprieta di mescolanza e soddisfatta e, pertanto, le successioni di variabilicasuali indipendenti ed identicamente distribuite sono processi ergodici.

2.3 Catene di Markov

Sia (X,Σ, P ) uno spazio di probabilita e sia A un insieme di cardinalita finita.Consideriamo un processo stocastico {Xn}n∈N, definito su (X,Σ, P ) ed a valori in E esupponiamo che per ogni naturale n ≥ 2 e per ogni sequenza an, an−1, an−2, ..., a1 dielementi di E (per cui entrambi i membri siano ben definiti) si abbia che

P (Xn = an|Xn−1 = an−1)

= P (Xn = an|Xn−1 = an−1, Xn−2 = an−2, ..., X1 = a1) :(2.4)

tale processo si dice catena di Markov.

Supponendo, inoltre, che il processo considerato sia tale che, comunque presi a, b ∈ E,P (Xn = a|Xn−1 = b) non dipenda dalla scelta di n ∈ N, diciamo che la catena di Markovconsiderata e omogenea.

2.3. CATENE DI MARKOV 37

Sotto queste ipotesi, ricordiamo innanzitutto che E e un insieme finito, dunque pos-siamo supporre che, se |E| = n, E = {a1, a2, ..., an}, n ∈ N.

Definiamo, quindi, la matrice :

A =

Ma1a1 Ma1a2 . . . Ma1an

Ma2a1 Ma2a2 . . . Ma2an...

......

...Mana1 . . . . . . Manan

(2.5)

tale che :

Maiaj := P (Xn = aj |Xn−1 = ai),

per ogni i, j ∈ {1, 2, ..,m− 1,m}.

Ricordiamo che, nelle ipotesi fatte, il valore di ciascun elemento della matrice e lo stessoal variare di n ∈ N.

Osserviamo che la matrice, detta matrice di transizione, per come l’abbiamo definita,soddisfa le seguenti proprieta :

• Maiaj ∈ [0, 1], ∀ai, aj ∈ E;

•∑

aj∈EMaiaj =∑

aj∈E P (Xn = aj |Xn−1 = ai) = 1, ∀ai ∈ E.

Definiamo, ora, per ogni a ∈ E, la funzione

µ1(a) := P (X1 = a) = P ({ω ∈ X : X1(ω) = a}).

Il vettore cosı ottenuto

µ1 :=(µ1(a1), µ1(a2), . . . µ1(an)

)e detto distribuzione iniziale del processo stocastico {Xn}n∈N.

La distribuzione iniziale si dice stazionaria se, per ogni ai ∈ E,

µ1(ai) = P (X1 = ai) = P (Xj = ai),∀j. (2.6)

Osserviamo che tale proprieta e soddisfatta se e solo se si ha che µ1M = µ1.Infatti, consideriamo a titolo d’esempio la prima entrata del vettore ottenuto moltipli-cando µ1 per M , il suo valore e dato da:


(µ1M)a1 = µ1(a1)Ma1a1 + µ1(a2)Ma2a1 + µ1(a3)Ma3a1 + ...+ µ1(an)Mana1

= P (X1 = a1)P (X2 = a1|X1 = a1) + P (X1 = a2)P (X2 = a1|X1 = a2)

+ P (X1 = a3)P (X2 = a1|X1 = a3) + ...+ P (X1 = an)P (X2 = a1|X1 = an)

= P (X1 = a1, X2 = a1) + P (X1 = a2, X2 = a1)

+ P (X1 = a3, X2 = a1) + ...+ P (X1 = an, X2 = a1) = P (X2 = a1) (2.7)

Dunque se µ1M = µ1 si ha P (X2 = a1) = P (X1 = a1). Dunque, e sufficiente tenereconto di questo risultato e della proprieta di omogeneita della catena di Markov persostituire le occorrenze della variabile X1 con la variabile X2 e quelle della variabile X2

con la variabile X3, ottenendo P (X2 = a1) = P (X3 = a1) ed iterare il procedimento finoad ottenere P (X1 = a1) = P (Xj = a1), ∀j ∈ {1, ..., n}.Lo stesso discorso puo essere fatto per tutti gli altri valori del vettore risultante, cosicchesi puo verificare direttamente che la (2.6) e equivalente a µ1M = µ1.

Ora che abbiamo definito le proprieta di una catena di Markov, individuiamo, nellaproposizione seguente, le condizioni necessarie e sufficienti affinche tale processo sia sta-zionario.

Proposizione 1. Una catena di Markov {Xn}n∈N, le cui variabili sono definite su unospazio di probabilita (X,Σ, P ) ed assumono valori in un insieme finito E, e un processostazionario se e solo se e omogenea e la sua distribuzione iniziale µ1 e stazionaria.

Dimostrazione. Dimostriamo separatamente le due implicazioni:

⇒ Supponiamo che valga la condizione di stazionarieta, ossia, ricordiamo,

P (Xi = ai,m ≤ i ≤ n) = P (Xi+1 = ai,m ≤ i ≤ n), ∀m,n ∈ N, ∀am, ..., an ∈ E.

Osserviamo che la validita dell’affermazione precedente implica che

µ1(a) = P (X1 = a) = P (X2 = a) = ... = P (Xn = a), .., ∀a ∈ E

e cio, per quanto visto in precedenza, corrisponde esattamente ad affermare che ladistribuzione iniziale e stazionaria.Per quanto riguarda, invece, l’omogeneita della catena di Markov considerata, bastaosservare che, dati n ∈ N ed a, b ∈ E, la stazionarieta comporta che :

P (Xn = a|Xn−1 = b) =P (Xn = a,Xn−1 = b)

P (Xn−1 = b)

=P (Xn+1 = a,Xn = b)

P (Xn = b)

= P (Xn+1 = a|Xn = b),


dunque, in generale, P (Xn = a|Xn−1 = b) e indipendente da n.

⇐ Supponiamo che valga la proprieta di omogeneita e che la distribuzione inizialesia stazionaria. Sotto queste ipotesi, dunque, e possibile osservare che, dato n ∈N ed a1, ..., an ∈ E :

P (Xi = ai,m ≤ i ≤ n)

= µ1(a1)P (X2 = a2|X1 = a1) · P (X3 = a3|X2 = a2)

· ... · P (Xn = an|Xn−1 = an−1)

= P (X2 = a1) · P (X3 = a2|X2 = a1) · P (X4 = a3|X3 = a2)

· . . . · P (Xn+1 = an|Xn = an−1)

= P (Xi+1 = ai,m ≤ i ≤ n)

Sia ora {Xn}n∈N una catena di Markov omogenea ed avente distribuzione inizialestazionaria e sia A ∈ Mn×n la corrispondente matrice di transizione, Tale matrice edetta irriducibile se, per ogni coppia di indici (i, j), ove i, j ∈ {1 . . . , n}, esiste unasequenza i0, i1, . . . , il di elementi appartenenti ad {1 . . . , n} tale che i0 = i, il = j ed

Aimim+1 > 0, per m = 0, 1, . . . , l − 1.

Osserviamo che, in virtu delle ipotesi fatte e della definizione di Catena di Markov,supporre che valga tale condizione equivale ad affermare che, se ad un dato istante lacatena di Markov assume il valore ai, allora la probabilita che, in un istante futuro, lacatena possa assumere il valore aj e strettamente positiva. Infatti assumiamo che, datok ∈ N, P (Xk = ai) > 0, allora

P (Xk+1 = ai1 , Xk = ai) = P (Xk+1 = ai1 |Xk = ai)P (Xk = ai)

= Ai0i1P (Xk = ai) > 0.

Dunque

P (Xk+2 = ai2 , Xk+1 = ai1 , Xk = ai)

= P (Xk+2 = ai2 |Xk+1 = ai1 , Xk = ai)P (Xk+1 = ai1 , Xk = ai)

= P (Xk+2 = ai2 |Xk+1 = ai1)P (Xk+1 = ai1 , Xk = ai)

Ai1i2P (Xk+1 = ai1 , Xk = ai) > 0

Iterando il procedimento e sfruttando la definizione di Catena di Markov, quindi, siottiene che

P (Xk+l = aj , Xk+l−1 = ail−1, . . . , Xk = ai) > 0,

dunque P (Xk+l = aj) > 0. Ora vogliamo dimostrare che la condizione di ergodicita diuna catena di Markov omogenea ed avente distribuzione iniziale stazionaria equivale allacondizione di irriducibilita della corrispondente matrice di transizione.


Teorema 7. Sia {Xn}n∈N una catena di Markov definita su uno spazio di probabilita(X,Σ, P ) ed a valori in uno spazio finito E, omogenea ed avente distribuzione inizialestazionaria e positiva in ogni punto di E. Allora tale catena e ergodica se e solo se lacorrispondente matrice di transizione A e irriducibile.

Dimostrazione. Dimostriamo entrambe le implicazioni separatamente.

⇐ Supponiamo innanzitutto che A sia irriducibile. Osserviamo che dalla condizionedi irriducibilita seguono due fatti fondamentali di algebra lineare, che ci limitiamoad elencare:

– Esiste, a meno di multipli, uno ed un solo vettore π tale che πA = π. Notiamoche, poiche abbiamo supposto che, se µ1 e il vettore distribuzione iniziale,µ1A = µ1, allora per l’unicita di π dev’essere per forza π = µ1.

– Vale la seguente uguaglianza:

limN→∞

1

N

N−1∑k=0

Mk+1 = P, (2.8)

ove P e la matrice avente tutte le colonne uguali al vettore π.

Proviamo che la catena di Markov soddifa la condizione di debole mescolanza,ovvero, dati due insiemi misurabili

C = [cm1 ] = {(x1, x2, . . . , xk, . . .) : x1 = c1, . . . , xm = cm}D = [dn1 ] = {(x1, x2, . . . , xk, . . .) : x1 = d1, . . . , xn = dn},

(ove m,n ∈ N e c1, . . . , cm, d1, . . . , dn ∈ E), dimostriamo che

limN→∞

1

N

N∑j=1

µ(T−jC ∩D) = µ(C)µ(D). (2.9)

Osserviamo che questo fatto equivale a dimostrare che

limN→∞

1

N

N+n−1∑j=n

µ(T−jC ∩D) = limN→∞

1

N

N−1∑k=0

µ(T−k−nC ∩D) = µ(C)µ(D)

Osserviamo che, dato k > 0,

T−k−nC = [bn+k+mn+k+1 ], ove bn+k+i = ci, 1 ≤ i ≤ m.

Ora notiamo che

µ([dn1 ]∩[bn+k+mn+k+1 ]) = P (X1 = d1, . . . , Xn = dn, Xn+k+1 = c1, . . . Xn+k+m = cm).


Utilizzando, dunque, la definizione di catena di Markov e facendo dei semplicicalcoli si puo osservare che

µ([dn1 ] ∩ [bn+k+mn+k+1 ]) = P (X1 = d1, . . . , Xn = dn, Xn+k+1 = c1, . . . Xn+k+m = cm)

=∑

(dn+1,...,dn+k)

P (X1 = d1, . . . , Xn+1 = dn+1, . . . , Xn+k = dn+k, . . . , Xn+k+m = cm)

=∑

(dn+1,...,dn+k)

(P (X1 = d1, . . . , Xn = dn)·P (Xn+k+1 = c1, . . . , Xn+1 = dn+1|Xn = dn)

· P (Xn+k+m = cm, . . . Xn+k+2 = c2|Xn+k+1 = c1))

= P (X1 = d1, . . . , Xn = dn)·∑

(dn+1,...,dn+k)

P (Xn+k+1 = c1, . . . , Xn+1 = dn+1|Xn = dn)

· P (Xn+k+m = cm, . . . Xn+k+2 = c2|Xn+k+1 = c1)

ove dn+1, . . . , dn+k ∈ E. Ora notiamo che, sempre utilizzando la definizione dicatena di Markov, possiamo facilmente osservare che

U := P (X1 = d1, . . . , Xn = dn) = µ(D)

= P (X1 = d1) · P (X2 = d2|X1 = d1) · . . . · P (Xn = dn|Xn−1 = dn−1)

= µ1(d1)Ad1d2 · . . . ·Adn−1dn = µ1(d1)n−1∏i=1

Adidi+1.

V :=∑

(dn+1,...,dn+k)

P (Xn+k+1 = c1, Xn+k = dn+k, . . . , Xn+1 = dn+1|Xn = dn)

=∑

(dn+1,...,dn+k)

P (Xn+1 = dn+1|Xn = dn) · . . . · P (Xn+k+1 = c1|Xn+k = dn+k)

=∑

(dn+1,...,dn+k)

(n+k−1∏i=n

Adidi+1

)·Adn+kc1 .

Osserviamo che, tramite alcune operazioni di algebra lineare, si puo verificare chetale valore coincide con il termine in posizione (dn, c1) della matrice Ak, sia [Ak]dnc1 .

W := P (Xn+k+m = cm, . . . Xn+k+2 = c2|Xn+k+1 = c1)

= P (Xn+k+2 = c2|Xn+k+1 = c1) · . . . · P (Xn+k+m = cm|Xn+k+m−1 = cm−1)

=m∏i=1

Acici+1

Dunque

µ([dn1 ] ∩ [bn+k+mn+k+1 ]) = µ(D)[Ak+1]dnc1

m∏i=1

Acici+1


Osserviamo che, in base a alla (2.8), si ha che

limN→∞

1

N

N∑k=1

[Ak+1]dnc1 = π(c1) = µ(c1),

dunque, in virtu della (2.8)

limN→∞

1

N

N−1∑k=0

µ(T−k−nD ∩ C) = limN→∞

1

N

N−1∑k=0

µ([dn1 ] ∩ [bn+k+mn+k+1 ])

= limN→∞

1

Nµ(D)

N−1∑k=0

[Ak+1]dnc1

m∏i=1

Acici+1 = µ(D)µ(c1)m∏i=1

Acici+1 = µ(D)µ(C).

Dunque, essendo la condizione espressa dalla (2.9) soddisfatta, T e una trasforma-zione ergodica.

⇒ Supponiamo che la catena di Markov sia ergodica. Supponiamo che µ(aj) > 0, ∀je sia Pi = {x : x1 = ai}. Osserviamo che, se B = T−1Pj ∪ T−2Pj ∪ . . ., alloraP (B) > 0 e T−1B = T−2Pj ∪ T−3Pj ∪ . . . ⊆ B. In virtu dell’ipotesi di ergodicita,quindi, µ(B) = 1, dunque µ(B ∩ Pj) > 0, ∀j. Osserviamo che

µ(B ∩ Pi) = µ

(⋃n∈N

(T−nPj ∩ Pi))> 0,

dunque ∃n ∈ N tale che µ(T−nPj ∩ Pi) > 0. Osserviamo che

µ(T−nPj ∩ Pi) = µ({(x1, . . . , xk, . . .) : xn = aj , x1 = ai})= P (Xn = aj , X1 = ai) = P (Xn = aj |X1 = ai)P (X1 = ai) > 0

Dunque P (Xn = aj |X1 = ai) > 0, pertanto dev’esserci una sequenza i0, i1, . . . , intale che i0 = i, in = j ed Aimim+1 = P (Xm+1 = aim+1|Xm = aim) > 0, ∀m ∈0, . . . , n− 1.

Bibliografia

[1] P. C. Shields, The Ergodic Theory of Discrete Sample Paths, American MathematicalSociety (1996).

[2] D.Williams, Probability with Martingales, Cambridge University Press (1991).

43

Download - Tesi di Laurea Il teorema ergodico - matapp.unimib.itfcaraven/download/other/timini.pdf · legge dei grandi numeri per un’ampia classe di processi stocastici (ad esempio, per le

Top Related