elementi di calcolo delle probabilit a - unitrentomazzucch/public_html/noteprobabilita16-17.pdf ·...

31
Elementi di calcolo delle probabilit` a Per un gran numero di fenomeni non ` e possibile, o non ` e conveniente, dare una descrizione deterministica, ovvero dare un insieme di leggi che, note certe premesse (condizioni iniziali) permettono di descrivere il fenomeno con certezza e precisione. Questo avviene ad esempio quando non si ha una conoscenza completa di come si sviluppa il fenomeno, ad esempio a causa di un numero eccessivo di variabili da tenere in considerazione, oppure a causa dell’incertezza introdotta dagli apparati di misura delle grandezze in gioco. Per descrivere tali problemi ` e dunque necessario introdurre un approccio probabilistico, cercando di stimare la probabilit` a con cui si verifica un dato evento. La branca della matematica che si occupa di modellizzare problemi di predizione e derivare delle “regole di calcolo” che, nota la probabilit` a di eventi elementari, permettono di calcolare la probabilit`a di eventi complessi` e detta calcolo delle probabilit` a . La teoria nasce nel 17 secolo, applicata principalmente allo studio dei giochi d’azzardo. Le prime regole della probabilit`a e del calcolo combinatorio possono infatti essere trovate nella corrispondenza tra Pascal e Fermat, che discutevano un problema legato al gioco dei dadi. Nel 1713 viene pubblicato il trattato Ars conjectandi di J. Bernoulli, dove viene enunciata la legge dei grandi numeri. Verso l’inizio del 1800 si sviluppano le applicazioni della teoria delle probabilit` a a discipline diverse dalla teoria dei giochi, in particolare la fisica statistica. In quegli anni infatti Gauss, stu- diando la distribuzione degli errori di misura in astronomia, scopre la curva che in futuro prender` a il suo nome, mentre Laplace dimostra il teorema centrale del limite. Nel 1905 A. Einstein propone una teoria statistica del moto Browniano, fornendo inoltre una misurazione alternativa del numero di Avogadro e una conseguente ver- ifica sperimentale dell’ipotesi atomica. Per avere una formalizzazione matematica definitiva del calcolo delle probabilit` a` e necessario aspettare il XX secolo con l’opera Grundbegriffe der Wahrscheinlichkeitsrechnung di A.N. Kolmogorov, pubblicata nel 1933. Lo spazio campionario Ω La teoria della probabilit` a fornisce una modellizzazione matematica di una serie di fenomeni casuali che chiameremo esperimenti. Con il termine esperimento inten- deremo un qualsiasi fenomeno la cui descrizione non ` e di tipo deterministico, ad es il lancio di un dado, il risultato di un sondaggio, la misurazione dell’istante in cui decade un nucleo radioattivo. Rappresenteremo matematicamente un esperimento tramite l’insieme Ω dei suoi possibili esiti. Ad esempio se l’esperimento consiste nel lancio di un dado lo spazio

Upload: others

Post on 30-Jan-2021

8 views

Category:

Documents


0 download

TRANSCRIPT

  • Elementi di calcolo delle probabilità

    Per un gran numero di fenomeni non è possibile, o non è conveniente, dare unadescrizione deterministica, ovvero dare un insieme di leggi che, note certe premesse(condizioni iniziali) permettono di descrivere il fenomeno con certezza e precisione.Questo avviene ad esempio quando non si ha una conoscenza completa di come sisviluppa il fenomeno, ad esempio a causa di un numero eccessivo di variabili datenere in considerazione, oppure a causa dell’incertezza introdotta dagli apparati dimisura delle grandezze in gioco. Per descrivere tali problemi è dunque necessariointrodurre un approccio probabilistico, cercando di stimare la probabilità con cui siverifica un dato evento. La branca della matematica che si occupa di modellizzareproblemi di predizione e derivare delle “regole di calcolo” che, nota la probabilità dieventi elementari, permettono di calcolare la probabilità di eventi complessi è dettacalcolo delle probabilità .La teoria nasce nel 17 secolo, applicata principalmente allo studio dei giochi d’azzardo.Le prime regole della probabilità e del calcolo combinatorio possono infatti esseretrovate nella corrispondenza tra Pascal e Fermat, che discutevano un problemalegato al gioco dei dadi. Nel 1713 viene pubblicato il trattato Ars conjectandi di J.Bernoulli, dove viene enunciata la legge dei grandi numeri. Verso l’inizio del 1800si sviluppano le applicazioni della teoria delle probabilità a discipline diverse dallateoria dei giochi, in particolare la fisica statistica. In quegli anni infatti Gauss, stu-diando la distribuzione degli errori di misura in astronomia, scopre la curva che infuturo prenderà il suo nome, mentre Laplace dimostra il teorema centrale del limite.Nel 1905 A. Einstein propone una teoria statistica del moto Browniano, fornendoinoltre una misurazione alternativa del numero di Avogadro e una conseguente ver-ifica sperimentale dell’ipotesi atomica. Per avere una formalizzazione matematicadefinitiva del calcolo delle probabilità è necessario aspettare il XX secolo con l’operaGrundbegriffe der Wahrscheinlichkeitsrechnung di A.N. Kolmogorov, pubblicata nel1933.

    Lo spazio campionario Ω

    La teoria della probabilità fornisce una modellizzazione matematica di una serie difenomeni casuali che chiameremo esperimenti. Con il termine esperimento inten-deremo un qualsiasi fenomeno la cui descrizione non è di tipo deterministico, ad esil lancio di un dado, il risultato di un sondaggio, la misurazione dell’istante in cuidecade un nucleo radioattivo.Rappresenteremo matematicamente un esperimento tramite l’insieme Ω dei suoipossibili esiti. Ad esempio se l’esperimento consiste nel lancio di un dado lo spazio

  • Ω è l’insiemeΩ = {1, 2, 3, 4, 5, 6}.

    Se invece l’esperimento consiste nella misura del tempo impiegato dal un nucleoradioattivo a decadere lo spazio Ω sará l’insieme di tutti i numeri reali positivi,ovvero Ω = [0,+∞).L’insieme Ω verrà chiamato spazio campionario.

    Gli eventi

    Rappresenteremo le collezioni di possibili risultati dell’esperimento di cui calcol-eremo le rispettive probabilità con sottoinsiemi E di Ω detti eventi.Ad esempio nell’esperimento del lancio di un dado l’evento ”esce un numero pari”è rappresentato dal sottoinsieme E = {2, 4, 6} , mentre l’evento ”esce un numero≤ 3” è rappresentato dall’insieme F = {1, 2, 3}.Nell’esperimento sul decadimento del nucleo radioattivo l’evento “il nucleo decadedopo l’istante T1 e prima dell’istante T2” è rappresentato dall’insieme A = [T1, T2].

    Se l’esito dell’esperimento è un elemento dell’insiemeE allora diremo che ”l’eventoE si è verificato”.

    Tale modellizzazione degli eventi come insiemi dello spazio delle prove è utileperchè le operazioni di unione, di intersezione insiemistica e di passaggio al comple-mentare possono venire applicate il questo contesto.Dati due eventi A,B ⊆ Ω, l’evento unione A ∪B di A e B rappresenta l’evento incui “si verifica l’evento A oppure l’evento B”. L’evento intersezione A ∩ B di Ae B rappresenta l’evento in cui “si verificano sia l’evento A sia l’evento B”, mentrel’evento complementare di A, indicato con Ac = Ω \ A rappresenta l’evento in cui“non si verifica l’evento A”.

    Ad esempio, nel caso del lancio di un dado, se A = {1, 3, 5} rappresenta l’evento“esce un numero dispari” e B = {1, 2, 3, 4} rappresenta l’evento “esce un numerominore o uguale a 4” allora A ∪ B = {1, 2, 3, 4, 5} rappresenta l’evento “esce unnumero dispari o un numero minore o uguale a 4”, A ∩ B = {1, 3} rappresental’evento “esce un numero dispari minore di 4”, mentre Ac = {2, 4, 6} rappresental’evento “esce un numero pari”.

    Se due eventi A,B sono tali che A ∩ B = ∅ allora A e B sono detti disgiunti oincompatibili.

    La famiglia degli eventi. Definizione di σ-algebra

    indicheremo con F la collezione di tutti gli eventi di cui calcoleremo la probabilità. In molti esempi considerare come possibili eventi tutti i sottoinsiemi di Ω, cioé

  • identificare F con P(Ω) (l’insieme delle parti di Ω), porta a dei problemi. La famigliadei possibili eventi dovrà possedere determinate proprietà :

    1. Ω ∈ F . Dire che tutto lo spazio campionario è un evento significa che pren-diamo in considerazione il fatto che si verifichi almeno uno fra i possibili esitidell’esperimento.

    2. Se E ∈ F allora Ec ∈ F . Se possiamo prendere in considerazione il fatto cheE si verifichi, dobbiamo prendere in considerazione anche il fatto che E nonsi verifichi.

    3. Se E,F ∈ F allora E ∪ F ∈ F . Se E e F sono eventi, lo è anche la lorounione.

    4. Se E,F ∈ F allora E ∩ F ∈ F . Se E e F sono eventi, lo è anche la lorointersezione.

    Notiamo che la proprietà 4 deriva dalle proprietà 2 e 3 in quanto per le leggi diDe Morgan abbiamo che E ∩ F = (Ec ∪ F c)c quindi è sufficiente richiedere che lafamiglia F soddisfi 1,2 e 3 per avere che la proprietà 4 è automaticamente verificata.Di fatto si sostitiusce la proprietà 3, che implica che l’unione ∪ni=1Ei di un numerofinito di eventi E1, ..., En è un evento, con la seguente 3’ che ammette unioni diun’infinità numerabile di eventi:

    3’ Data una successione {En}n ⊂ F di eventi si ha che ∪∞n=1En ∈ F .

    É infatti limitativo considerare solo unioni di un numero finito di eventi, come mo-stra il seguente esempio.

    Esempio 1 Si consideri l’esperimento del lancio di una moneta per un numeroarbitrario di volte. Si consideri l’evento F ”esce testa per la prima volta dopo unnumero dispari di lanci”.Si indichi con Tn l’evento ”esce testa all’n− esimo lancio” , con Cn l’evento ”escecroce all’n− esimo lancio” e con En l’evento ”esce testa per la prima volta all’n−esimo lancio”. Avremo quindi:

    En = C1 ∩ C2... ∩ Cn−1 ∩ TnF = ∪∞n=1E2n

    Definizione 1 Una famiglia F ⊂ P(Ω) di sottoinsiemi di Ω che verifica le proprietà1, 2 e 3’ viene detta σ-algebra.

  • L’insieme P(Ω) di tutti i sottoinsiemi di Ω è sicuramete una σ-algebra, ma possiamoconsiderare anche altri esempi, come mostra il seguente.

    Definizione 2 Sia F̃ ⊂ P(Ω) una famiglia di sottoinsiemi di Ω (non necessaria-mente una σ-algebra). Si definisce σ-algebra generata da F̃ la più piccola σ algebracontenente F̃

    Ad esempio se F̃ = {E} è formata da un solo evento E, allora la σ-algebragenerata è F = {Ω, ∅, E, Ec}.Se Ω = R e consideriamo la famiglia F̃ degli intervalli della forma (a,+∞) e (−∞, b),con a, b ∈ R, la σ-algebra F generata è detta σ-algebra di Borel e contiene tutti gliintervalli (aperti o chiusi) della retta reale.

    Probabilità di eventi

    Definiamo ora la probabilità di un evento: ad ogni evento assegnamo un numero,compreso tra 0 e 1 che esprime intuitivamente quanto è verosimile che l’evento siverifichi.Nel corso dei secoli sono state proposte diverse definizioni del concetto di probabilità. Ognuna di queste non è completamente soddisfacente e presenta dei problemi.

    La prima definizione introdotta è la cosiddetta probabilità classica, secondola quale la probabilità di un evento è data dal rapporto

    NfavorevoliNpossibili

    tra il numero di

    casi favorevoli al verificarsi dell’evento ed il numero totale dei casi possibili.Ad esempio, nell’esperimento del lancio di un dado, la probabilità dell’evento “esceun numero pari “ è 1/2 in quanto il numero totale degli esiti possibili è 6, mentreil numero degli esiti favorevoli al verificarsi dell’evento è 3. Se invece consideriamol’evento elementare “esce il numero 2” la probabilità è 1/6 in quanto il numero dicasi possibili è ancora 6, ma il numero di casi favorevoli è 1.Tale definizione si applica bene ai vari problemi di teoria dei giochi ma ha fortilimitazioni. Prima di tutto può essere applicata solo nel caso in cui il numerototale di casi possibili, in altre parole il numero di elementi dello spazio campi-onario Ω è finito. Inoltre tale definizione implica implicitamente che i possibili esitidell’esperimento sono equiprobabili, in altre parole che gli eventi modellizzati da unsottoinsieme E ⊂ Ω contenente un unico elemento hanno tutti la stessa probabilitàpari a 1

    Npossibili.

    Si può considerare alternativamente la definizione frequentistica. Si consid-erano solamente esperimenti che possono venire ripetuti in condizioni analoghe unnumero arbitrario di volte e si definisce la probabilità di un evento come il lim-ite a cui tende il rapporto Nsuccessi

    Nprovefra il numero di esperimenti in cui l’evento si

  • è verificato (che indichiamo con Nsuccessi) ed il numero totale di esperimenti effet-tuati (che indichiamo con Nprove) nel limite in cui Nprove tende a infinito. Anchetale definizione non è esente da problemi, ad esempio perché si applica solo agliesperimenti ripetibili.

    Un’altra definizione alternativa è la definizione soggettiva secondo la qualela probabilità di un evento esprime il grado di fiducia che un individuo assegna alverificarsi dell’evento. Tale definizione ha il vantaggio di rispecchiare le nostre ideeintuitive sulla probabilità e di essere applicabile anche ad esperimenti non ripetibili,d’altra parte presenta dei problemi in quanto viene fondata sulle opinioni di singoliindividui e quindi manca delle caratteristiche di oggettività necessarie ad ogni teoriascientifica.

    Attualmente viene generalmente accettata la definizione assiomatica pro-posta da A.N. Kolmogorov nel 1933 secondo la quale la probabilità viene definitacome una funzione P : F → [0, 1] che assegna ad ogni evento un numero positivo e≤ 1 e che soddisfa un certo numero di proprietà possedute dalla definizione classicadi probabilità . L’approccio di Kolmogorov è minimale in quanto non si preoccupadi prescrivere come calcolare la probabilità di un evento, ma descrive solo qualiproprietà deve avere.

    Definizione 3 Dato uno spazio campionario Ω e una σ−algebra F ⊂ P(Ω), unaprobabilità P su (Ω,F) è un’applicazione P : F → [0, 1] che assegna ad ogni eventoA ∈ F un numero reale P (A), con le seguenti proprietà :

    1. 0 ≤ P (A) ≤ 1,

    2. P (Ω) = 1,

    3. data una successone {An}n di eventi a due a due disgiunti (cioé tali che Ai ∩Aj = ∅ ∀i 6= j) si ha che P (∪nAn) =

    ∑n P (An).

    Dall’ultima proprietà segue che P (∅) = 0.Ad esempio nell’esperimento del lancio di un dado, se questo non è truccato è

    verosimile supporre che tutti i 6 possibili risultati siano equiprobabili, assegnamoquindi

    P ({1}) = P ({2}) = P ({3}) = P ({4}) = P ({5}) = P ({6}) = 16

    La probabilità dei restanti eventi viene calcolata utilizzando la proprietà 3 di P , adesempio rappresentando l’evento {1, 2, 4} come unione di eventi disgiunti {1, 2, 4} ={1} ∪ {2} ∪ {4} abbiamo:

    P ({1, 2, 4}) = P ({1}) + P ({2}) + P ({4}) = 12.

  • Questo esempio è un caso particolare della probabilità uniforme. Dato unospazio delle prove Ω con un numero finito di elementi n allora la probabilità uniformesu Ω è quella che assegna ad ogni evento semplice di Ω, ovvero ad ogni sottoinsieme{ω} di Ω con un unico elemento, la stessa probabilità p. Il valore p può quindi venirecalcolato notando che

    1 = P (Ω) = P (∪ω∈Ω{ω}) =∑ω∈Ω

    P ({ω}) = np,

    da cui p = 1/n. Quindi la probabiltà di un sottoinsieme A ⊆ Ω con m elementi èdata da

    P (A) = m/n =#A

    #Ω.

    In tutti i casi in cui si suppone che su un insieme Ω sia definita una probabilitàuniforme, la probabilità di un evento A viene calcolata come rapporto tra il numerodi elementi di A ed il numero di elementi di Ω. Per calcolare queste quantità vengonoapplicate le regole del calcolo combinatorio.

    Una generalizzazione del caso precedente è la cosiddetta probabilità geomet-rica. Supponiamo che Ω sia un sottoinsieme di R oppure di R2 o di R3 rispettiva-mente di lunghezza, area o volume finito. Sia F ⊂ P(Ω) la σ algebra di Borel edefiniamo probabilità di un evento E ∈ Ω tramite il rapporto fra la misura di E lamisura di Ω, cioé:

    • Se Ω = I ⊂ R e E = (a, b) ⊂ I allora P (E) := (b−a)lunghezza(I)

    • Se Ω ⊂ R2 e E ∈ F allora P (E) = Area(E)Area(Ω)

    • Se Ω ⊂ R3 e E ∈ F allora P (E) = V olume(E)V olume(Ω)

    Esempio 2 La probabilità che scegliendo a caso un punto all’interno di un quadratoQ di lato L il punto cada all’interno del cerchio iscritto C è data da P = Area(C)

    Area(Q)=

    πL2

    4L2= π

    4

    Esempio 3 Una stanza è pavimentata con piastrelle di lato L. Calcolare la prob-abilità che lanciando una moneta di diametro d < L, la moneta cada a cavallo fradue piastrelle.L’esito dell’esperimento è univocamente determinato se conosciamo il punto xin cuicade il centro della moneta. In particolare se la distanda tra il punto x e il bordodella piastrella è maggiore di d/2 allora la moneta non tocca il bordo. Modellizzi-amo l’esperimento scegliendo come spazio campionario Ω l’insieme dei punti di una

  • piastrella e supponiamo che tali punti siano equiprobabili. Possiamo allora applicareun modello di probabilità geometrica e la probabilità che la moneta tocchi il bordo èdata dal rapporto Area(E)

    Area(Ω), dove Area(Ω) = L2, mentre E ⊂ Ω è l’insieme dei punti

    che distano dal perimetro della piastrella per meno di d/2. Tale insieme ha areaArea(E) = 2dL− d2. La probabilità cercata è quindi P = 2dL−d2

    L2.

    Esempio 4 Il seguente esempio mostra come spesso non è banale modellizzare unsemplice problema di tipo probabilistico e approcci diversi possono portare a risultatidiversi.Vogliamo calcolare la probabilità che tracciando a caso una corda di una circonferenzadi raggio 1, tale corda sia più lunga del la to del triangolo rettangolo inscritto, cioé√

    3. Presentiamo qui di seguito due modi diversi di soluzione.

    1. Fissiamo un punto A sulla circonferenza e decidiamo che questo sia il primoestremo della corda. Scegliamo poi un altro punto B sulla circonferenza esupponiamo che l’angolo θ individuato dalla corda AB e dalla tangente allacirconferenza nel punto A sia distribuito con probabilità geometrica uniformesull’intervallo [0, π]. La corda AB sarà più lunga del lato del triangolo equi-latero inscritto con vertice in A se θ ∈ (π/3, 2π/3). La probabilità di taleevento è data dunque da P = π/3

    π= 1

    3.

    2. Supponiamo che il centro della corda AB sia distribuito con probabilità geo-metrica uniforme nel cerchio. La lunghezza della corda è maggiore di

    √3 se il

    so centro cade all’interno della circonferenda di raggio 1/2: La probabilità di

    tale evento è dunque P = π/4π

    = 14.

    É possibile proporre anche differenti soluzioni per lo stesso problema, che conduconoa risultati di calcolo per P diversi. Dobbiamo riflettere sul fatto che il particolarerisultato che si ottiene deriva sul significato che assegnamo all’affermazione “cordatracciata a caso”.

    Alcune regole di calcolo per P

    • P (Ac) = 1− P (A), infatti A e Ac sono disgiunti e P (A ∪ Ac) = P (Ω) = 1.

    • Dati due eventi A,B, non necessariamente disgiunti, la probabilità della lorounione è data da:

    P (A ∪B) = P (A) + P (B)− P (A ∩B) (1)

  • Esempio 5 Consideriamo l’esperimento in cui si lancia due volte un dado. Lospazio delle prove è l’insieme Ω delle coppie (n1, n2), dove n1, n2 = 1, 2, 3, 4, 5, 6.In tutto ha 6 ∗ 6 = 36 elementi. Se il dado non è truccato, possiamo supporreche ogni singolo evento sia equiprobabile, ovvero che su Ω sia definita la probabilitàuniforme.Supponiamo di voler calcolare la probabilità dell’evento “esce almeno una volta ilnumero 6”. Tale evento è rappresentato dall’insieme

    E = {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6), (1, 6), (2, 6), (3, 6), (4, 6), (5, 6)}.

    Tale evento può essere rappresentato anche come unione dell’evento A “al primolancio esce il numero 6” e dell’evento B “al secondo lancio esce il numero 6”.Abbiamo che P (A) = 1/6, P (B) = 1/6, mentre P (A ∩B) = P ({(6, 6)}) = 1/36. Siha dunque

    P (A ∪B) = 1/6 + 1/6− 1/36 = 11/36.

    La formula 1 può essere generalizzata al caso in cui vogliamo calcolare la prob-abilità dell’unione di più di due eventi. Ad esempio, se consideriamo tre eventiA,B,C ∈ F abbiamo:

    P (A∪B∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (A∩C)−P (B∩C)+P (A∩B∩C)

    Esempio 6 (Il problema delle concordanze) Consideriamo due gruppi di 3 oggetti,associati a due a due, ad esempio tre coppie lettera-busta. Supponiamo che si mescol-ino gli elementi di ogni gruppo e si riformino le coppie in modo casuale. Calcolarela probabilita degli eventi:E3 =” si riformano esattamente le 3 coppie originali”;E0 =” non si riforma alcuna delle 3coppie originali”;(E0)

    c =” si riforma almeno una delle 3 coppie originali”.

    Contrassegnamo le buste e le rispettive lettere con i numeri 1, 2, 3. Modelliziamol’esprimento tramite lo spazio campionario Ω formato dalle terne ordinate (k1, k2, k3)dove kj = 1, 2, 3, j = 1, 2, 3, indica quale lettera va a finire nella j-esima busta. Adesempio l’esito (2, 3, 1) significa che il secondo biglietto viene accoppiato alla busta1, il terzo biglietto alla busta 2 ed il primo biglietto alla busta 3.Supporremo che questo esperimento sia modellizzabile con uno spazio di probabilitàuniforme, cioè che tutte le singole terne (k1, k2, k3) siano equiprobabili e che quindila probabilità di un evento E ⊂ P(Ω) sia data da P (E) = #E

    #Ω.

    Notiamo che il numero di elementi di Ω è pari al numero di possibili modi di ordinarei numeri 1,2,3 cioé 3 ∗ 2 = 6. L’evento E3 è rappresentato dall’insieme E3 =

  • {(1, 2, 3)}, che ha un unico elemento, quindi P (E3) = 1/6. Per quanto riguardal’evento (E0)

    c, questo può essere riguardato come unione degli eventi F1=”si formala prima coppia”, F2=”si forma la seconda coppia” , F3=”si forma la terza coppia”.Abbiamo dunque:

    P ((E0)c) = P (F1 ∪ F2 ∪ F3)

    = P (F1) + P (F2) + P (F3)− P (F1 ∩ F2)− P (F1 ∩ F3)− P (F2 ∩ F3) + P (F1 ∩ F2 ∩ F3)

    =2

    6+

    2

    6+

    2

    6− 1

    6− 1

    6− 1

    6+

    1

    6=

    2

    3

    Inoltre

    P (E0) = 1− P ((E0)c) = 1−2

    3=

    1

    3

    Elementi di calcolo combinatorio

    Il calcolo combinatorio fornisce una serie di regole di calcolo per calcolare il numerodi elementi di un insieme.É basato sul principio di fattorizzazione:Se si devono compiere k scelte e per la i− scelta abbiamo ni possibilità, allora ilnumero totale di alternative possibili è

    n1 ∗ n2 ∗ .... ∗ nk

    Esempio Se abbiamo 6 camice, 2 pantaloni, 5 paia di calzini e 3 paia di scarpe, ilnumero totale di modi in cui ci si può vestire è 6 ∗ 2 ∗ 5 ∗ 3 = 180.Esempio Considerando le 21 lettere dell’alfabeto italiano il numero totale di parole(sensate o meno) composte da 4 lettere è 21 ∗ 21 ∗ 21 ∗ 21 = (21)4Esempio Un’urna contiene 90 palline, numerate da 1 a 90. Si effettuano 4 estrazionie dopo ogni estrazione la pallina estratta viene reinserita nell’urna. Allora il numerototale di sequenze di numeri estratti è 90 ∗ 90 ∗ 90 ∗ 90 = (90)4.

    Disposizioni

    Definizione 4 Sia N un insieme con n elementi N = {x1, x2, ..., xn}. Una dispo-sizione di k elementi di N è una k-upla ordinata (xi1 , xi2 , ..., xik) di elementi di Ntutti distinti fra loro.

    In numero totale delle possibili disposizioni di k elementi di un insieme con n ele-menti è

    n(n− 1)(n− 2) · · · (n− k + 1) = n!(n− k)!

  • Esempio Considerando le 21 lettere dell’alfabeto italiano il numero totale di parole(sensate o meno) composte da 4 lettere distinte è 21 ∗ 20 ∗ 19 ∗ 18 = 21!

    17!

    Esempio Un’urna contiene 90 palline, numerate da 1 a 90. Si effettuano 4 estrazionie dopo ogni estrazione la pallina estratta non viene reinserita nell’urna. Allora ilnumero totale di sequenze di numeri estratti è 90 ∗ 89 ∗ 88 ∗ 87 = 90!/86!.

    Permutazioni

    Definizione 5 Sia N un insieme con n elementi N = {x1, x2, ..., xn}. Una dispo-sizione di n elementi di N , ovvero una n-upla ordinata (xi1 , xi2 , ..., xink) di elementidistinti di N , è detta permutazione di N .

    Il numero totale di permutazioni di un insieme con n elementi è n!Esempio Una classe è composta da 20 studenti. Il numero totale di modi in cuipossono venire ordinati (es ordine alfabetico...) è 20!

    Combinazioni

    Definizione 6 Sia N un insieme con n elementi N = {x1, x2, ..., xn}. Una com-binazione di k elementi di N è un sottoinsieme di N composto da k elementi{xi1 , xi2 , ..., xik}

    Il numero totale delle possibili combinazioni di k elementi di un insieme con nelementi è

    n!

    (n− k)!k!Esempio Una classe è composta da 20 studenti. Il numero totale di gruppi formatida tre studenti è 20!

    3!17!.

    Notiamo che selezionare un sottoinsieme di k elementi da un insieme N con nelementi equivale a scegliere un particolare modo di dividere N in 2 gruppi, il primocon k elementi ed il secondo con n − k elementi. Il numero totale di suddivisionipossibili è dunque n!

    (n−k)!k! .Più in generale, dato un insieme N con n elementi, possiamo chiederci in quantimodi può essere suddiviso in k sottoinsiemi, dove il numero di elementi dell’i-esimosottoinsieme è ni, con i = 1, ..., k, e

    ∑ki=1 ni = n. Possiamo ragionare come segue.

    Per selezionare il primo sottoinsieme abbiamo n!(n−n1)!n1! possibilità ; per selezionare il

    secondo sottoinsieme di n2 elementi scelti fra i restanti n−n1, abbiamo (n−n1)!(n−n1−n2)!n2! ;per selezionare il terzo sottoinsieme di n3 elementi scelti fra i restanti n− n1 − n2,abbiamo (n−n1−n2)!

    (n−n1−n2−n3)!n3! ; infine, scelti gli elementi dei primi k − 1 sottoinsiemi,

  • gli elementi dell’ultimo sottoinsieme sono obblicatoriamente i restanti nk elementi eabbiamo quindi un’unica scelta possibile. Complessivamente il numero delle possibiliscelte è

    n!

    (n− n1)!n1!(n− n1)!

    (n− n1 − n2)!n2!· · · (n− n1 − n2...− nk−2)!

    (n− n1 − n2 − ...− nk−1)!nk−1!

    =n!

    (n− n1)!n1!(n− n1)!

    (n− n1 − n2)!n2!· · · (n− n1 − n2...− nk−2)!

    nk!nk−1!

    =n!

    n1!n2! · · ·nk!

    Un esempio

    Calcoliamo la probabilità che in un’aula con k studenti, almeno 2 compiano gli annilo stesso giorno.

    Indichiamo con N l’insieme dei 365 giorni giorni dell’anno (per semplicità esclu-diamo il 29 febbraio). Numeriamo i giorni dell’anno da 1 a 365:

    N = {1, 2, 3, ...., 365}

    Rappresentiamo i compleanni dei k studenti della classe con un k−pla ordinata dielementi di N e indichiamo con Ω l’insieme di tali k−ple ordinate:

    Ω = {ω = (ω1, ω2, ..., ωk), ωi ∈ N}.

    L’insieme Ω ha (365)k elementi distinti.Se supponiamo per semplicità che tutti i giorni dell’anno siano equiprobabili,

    ovvero che ci sia una distribuzione uniforme delle nascite (cosa di fatto non comple-tamente vera), allora ogni elemento di Ω è equiprobabile e su Ω possiamo considerarela probabilità uniforme P . La probabilità di un generico sottoinsieme A ⊂ Ω è quindi

    P (A) =#A

    #Ω=

    #A

    (365)k

    Vogliamo ora calcolare la probabilità dell’evento ”almeno due persone compionogli anni lo stesso giorno”, rappresentato dall’insieme A ⊂ Ω delle k−ple ordinate(ω1, ω2, ..., ωk) in cui almeno due elementi sono uguali. Di fatto è più semplicecalcolare la probabilità dell’evento complementare Ac e poi trovare la probabilità diA tramite la formula

    P (A) = 1− P (Ac).

  • L’evento complementare di A è l’evento ”tutte le persone compiono gli anni in giornidiversi”, rappresentato dall’insieme AC ⊂ Ω delle k−ple ordinate (ω1, ω2, ..., ωk) incui tutti gli elementi elementi sono distinti. AC è quindi l’insieme delle diposizionidi k elementi dell’insieme N ed il numero totale di tali disposizioni è n!/(n− k)! =365!/(365− k)!. La probabilità di Ac è dunque

    P (Ac) =365!

    (365− k)!(365)k

    e la probabilità di A è quindi

    P (A) = 1− P (AC) = 1− 365!(365− k)!(365)k

    Ad esempio, per k=23 otteniamo P (A) = 0.507 > 1/2.Esempio Una moneta non truccata viene lanciata n volte. Qual è la probabilità

    che si ottenga testa k volte?Modelliziamo lo spazio campionario Ω come lo spazio dell n-ple (n1, n2, ..., nn) conni = T,C, i = 1...n. Il simbolo ni indica cioé il risultato dell’i-esimo lancio.Nell’ipotesi che tutti gli esiti siano equiprobabili, consideriamo la probabilità uni-forme su F = P(Ω). Il numero di tutti i casi possibili è dato da #Ω = 2n, mentreil numero dei casi favorevoli è dato dal numero delle n−ple che contengono k volteil simbiolo T . Ogni n−pla siffatta può essere individuata dando k numeri distintiscelti nell’insieme degli indici {1, 2, ..., n}, che indicano le posizioni nell’n-upla deisimboli T (equivalentemente indicano in quali lanci esce “testa”). Il numero dunquedei casi possibili è pari al numero di sottoinsiemi di k elementi scelti da un insiemecon n elementi e quindi n!

    k!(n−k)! . La probabilità cercata è dunque pari an!

    k!(n−k)!1

    2n.

    Probabilità condizionata

    Sia (Ω,F , P ) uno spazio di probabilità . Fissiamo un evento E ∈ F , tale cheP (E) > 0, e definiamo una nuova probabilità su (Ω,F) che indicheremo con P ( · , |E)detta Probabilità condizionata al verificarsi dell’evento E oppure Probabilità con-dizionata dato E, tale per cui, per ogni A ∈ F , il valore P (A|E) esprima il grado diverosimiglianza che ha l’evento A di verificarsi sapendo che si è verificato l’eventoE.Consideriamo, a titolo di esempio l’esperimento del lancio di due dadi (non truc-cati). Supponiamo che l’evento E sia “il risultato del primo lancio è 4” e l’eventoA “la somma dei risultati dei due lanci è 6”. Vogliamo calcolare la probabilitàche la somma dei risultati dei due lanci dia 6 sapendo che il risultato del primolancio è 4, ovvero P (A|E) la probabilità condizionata di A dato E. Applicando

  • la definizione classica di probabilità , P (A|E) viene calcolata come rapporto franumero di casi favorevoli e numero di casi possibili. Dato che sappiamo che il risul-tato del primo lancio è 4, allora per il lancio dei due dadi si presentano le seguentipossibilità {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}. L’unico caso favorevole è (4, 2) equindi P (A|E) = 1/6. Notiamo che E = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)} eA ∩ E = {(4, 2)} e quindi

    P (A|E) = NfavorevoliNpossibili

    =#(A ∩ E)

    #E

    Moltiplicando numeratore e denominatore per #Ω otteniamo

    P (A|E) = #(A ∩ E)#Ω

    #Ω

    #E=P (A ∩ E)P (E)

    Generalizzando questa formula a un generico spazio di probabilità (Ω,F , P ) didefinisce probabilità condizionata ad un evento E ∈ F con P (E) 6= 0 la seguenteapplicazione P ( · , |E) : F → R data da:

    P (A|E) = P (A ∩ E)P (E)

    , A ∈ F (2)

    Notiamo che P ( · , |E) na nuova misura di probabilità a tutti gli effetti, infatti verificale proprietà 1,2,3 della definizione 3:

    1. per ogni A ∈ F si ha che P (A|E) ∈ [0, 1], infatti P (A|E) è un valore positivo inquanto rapporto di due numeri positivi e P (A|E) ≤ 1 perché P (A∩E) ≤ P (e)in quanto A ∩ E ⊆ E.

    2. P (Ω|E) = 1, infatti P (Ω|E) = P (Ω∩E)P (E)

    = P (E)P (E)

    = 1.

    3. Data una successione {An}n∈N ⊂ F di eventi mutuamente disgiunti, Ai∩Aj =∅, si ha che P (∪nAn|E) =

    ∑n P (An|E), infatti:

    P (∪nAn|E) =P ((∪nAn) ∩ E)

    P (E)=P (∪n(An ∩ E))

    P (E)=

    ∑n P (An ∩ E)P (E)

    =∑n

    P (An|E),

    dove la prima uguaglianza deriva dalla definizione di probabilità condizionata,la seconda dall’identità insiemistica (∪nAn) ∩ E = ∪n(An ∩ E), la terza dallaproprietà 3 della probabilità P e dal fatto che dato che gli insiemi {An} sonodisgiunti a diue a due, tali sono anche gli insiemi {An ∩ E}.

  • Notiamo che la (2) fornisce la formula per la probabilità dell’intersezione fra dueeventi:

    P (A ∩ E) = P (E)P (A|E)la probabilità che si verifichi A e E è uguale al prodotto della probabilità di E perla probabilità di A condizionata al verificarsi di E.

    Tale formula può essere generalizzata all’intersezione di un numero arbitrario dieventi A1, a2, ..., An nel seguente modo (dimostrabile per induzione su n):

    P (A1∩A2∩ ...∩An) = P (A1)P (A2|A1)P (A3|A1∩A2) · · ·P (AN |A1∩ ...∩An−1) (3)

    Nel caso in cui n = 4, ad esempio, abbiamo:

    P (A1 ∩ A2 ∩ A3 ∩ A4) = P (A1)P (A2|A1)P (A3|A1 ∩ A2)P (A4|A1 ∩ A2 ∩ A3)

    Esempio 7 Un’urna contiene 90 palline (numerate dall1 al 90). Vengono effettuate4 estrazioni (senza reinbussolamento). Calcolare la probabilità che i primi tre numeriestratti siano pari e il quarto numero estratto sia dispari.Indichiamo con A1 l’evento “il primo estratto è pari”, con A2 l’evento “il secondoestratto è pari”, con A3 l’evento “il terzo estratto è pari” e con A4 l’evento “il quartoestratto è dispari”. Utilizzando la formula (3) con n = 4 abbiamo

    P (A1 ∩ A2 ∩ A3 ∩ A4) = P (A1)P (A2|A1)P (A3|A1 ∩ A2)P (A4|A1 ∩ A2 ∩ A3)

    =45

    90

    44

    89

    43

    88

    45

    87

    Eventi indipendenti

    Dato uno spazio di probabilità (Ω,F , P ) due eventi A,B ∈ F sono detti indipen-denti se

    P (A ∩B) = P (A)P (B).In altre parole A e B sono indipendenti se P (A|B) = P (A) (il verificarsi dell’eventoB non ha influenza sulla possibilità di verificarsi dell’evento A) e, analogamente,P (B|A) = P (B) (il verificarsi dell’evento A non ha influenza sulla possibilità diverificarsi dell’evento B).

    Ad esempio, se consideriamo il lancio di due dadi, indichiamo con A l’evento “lasomma dei risultati è 6” e con B l’evento “il risultato del lancio del primo dado è4”, allora si ha che

    P (A ∩B) = P ({(4, 2)}) = 1/36mentre P (B) = 1/6, P (A) = P ({(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}) = 5/36, quindi

    P (A)P (B) =1

    6

    5

    366= 1

    36= P (A ∩B)

  • quindi i due eventi non sono indipendenti.Consideriamo ora l’evento C “la somma dei risultati è 7” e con B l’evento “il risultatodel lancio del primo dado è 4”, allora si ha che

    P (C ∩B) = P ({(4, 3)}) = 1/36mentre P (B) = 1/6, P (C) = P ({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) = 6/36 =1/6, quindi

    P (C)P (B) =1

    6

    1

    6=

    1

    36= P (C ∩B)

    quindi i due eventi sono indipendenti.

    La definizione di indipendenza può essere estesa ad un numero arbitrario n dieventi. Dati n eventi A1, A2, ..., An, questi sono detti indipendenti se per ogni m ≤ n,scelto un sottoinsieme A1′ , A2′ , ..., Am′ di A1, A2, ..., An si ha che

    P (A1′ ∩ A2′ ∩ ... ∩ Am′) = P (A1′)P (A2′) · · ·P (Am′).Il seguente esempio mostra come in certe situazioni tre eventi non sono indipen-

    denti se considerati insieme, anche se sono a due a due indipendenti. Consideriamol’esperimento dell’estrazione di 4 palline, numerate da 1 a 4, da un’urna. Conside-riamo i tre eventi

    A1 = {1, 2}, A2 = {1, 3}, A3 = {1, 4}.Assumendo una probabilità uniforme su Ω = {1, 2, 3, 4} abbiamo che

    P (A1) = 1/2 P (A2) = 1/2, P (A3) = 1/2,

    P (A1 ∩ A2) = P ({1}) = 1/4 = P (A1)P (A2),P (A1 ∩ A3) = P ({1}) = 1/4 = P (A1)P (A3),P (A2 ∩ A3) = P ({1}) = 1/4 = P (A2)P (A3),

    però abbiamo che

    P (A1 ∩ A2 ∩ A3) = P ({1} = 1/4 6= P (A1)P (A2)P (A3) = 1/8.Esercizio 1 Dimostrare che se A e B sono indipendenti, allora anche Ac e B losono.Dobbiamo verificare che P (Ac ∩B) = P (Ac)P (B).Abbiamo:

    P (B) = P (A ∩B) + P (ac ∩B)e quindi

    P (Ac ∩B) = P (B)− P (A ∩B) = P (B)− P (A)P (B)= P (B)(1− P (A)) = P (B)P (Ac)

  • La formula delle probabilità totali

    Una famiglia di eventi A1, A2, ..., An è detta una partizione di Ω se sono disgiunti ela loro unione è l’insieme Ω:

    Ω = ∪ni=1Ai, Ai ∩ Aj = ∅, i 6= j

    dato un generico evento B, questo può essere rappresentato come unione disgiuntaB = ∪ni=1(Ai ∩B) e quindi la probabilità di B può essere ottenuta come

    P (B) =n∑i=1

    P (Ai ∩B) =n∑i=1

    P (B|Ai)P (Ai). (4)

    La formula (4) è chiamata formula delle probabilità totali.

    La formula di Bayes

    Dato uno spazio di probabilità (Ω,F , P ) e due eventi A,B ⊂ Ω tali che P (B) 6= 0e P (A) 6= 0, la formula di Bayes mette in relazione la probabilità condizionata di Adato B con la probabilità condizionata di B dato A:

    P (A|B) = P (B|A)P (A)P (B)

    .

    Tale formula si dimostra facilmente notando che la probabilità dell’evento inter-sezione di A e B può essere ottenuta sia come P (A ∩ B) = P (B|A)P (A), sia comeP (A ∩B) = P (A|B)P (B), da cui

    P (B|A)P (A) = P (A|B)P (B)

    Il seguente esempio mostra un’applicazione interessante della formula di Bayes.

    Esempio 8 Una popolazione è composta per il 40% da fumatori (F) e per il 60%da non fumatori (N). Il 25% dei fumatori e il 7% dei non fumatori siono affetti dauna malattia respiratoria cronica. Qual’è la probabilità che una persona affetta dallamalattia sia fumatore ? Qual’è la probabilità che una persona affetta dalla malattiasia non fumatore?Indichiamo con Ω l’insieme di tutti gli individui, con F l’insieme degli individui chefumano, con N l’insieme degli individui che non fumano e con M l’insieme degliindividui affetti dalla malattia. I dati in nostro possesso sono

    P (F ) = 0.4, P (N) = 0, 6, P (M |F ) = 0.25, P (M |N) = 0.07.

  • Vogliamo calcolare P (F |M) e P (N |M). Per utilizzare la formula di Bayes P (F |M) =P (M |F )P (F )

    P (M)dobbiamo prima calcolare P (M). Rappresentiamo l’insieme M come

    l’unione disgiunta di M ∩ F e di M ∩ N , quindi, per la formula delle probabilitàtotali

    P (M) = P (M ∩ F ) + P (M ∩N)= P (M |F )P (F ) + P (M |N)P (N) == 0.25 ∗ 0.4 + 0.07 ∗ 0.6 = 0.142

    Otteniamo dunque

    P (F |M) = P (M |F )P (F )P (M)

    =0.25 ∗ 0.4

    0.142= 0.704

    P (N |M) = P (M |N)P (N)P (M)

    =0.07 ∗ 0.6

    0.142= 0.296

    Il seguente esempio mostra una interessante applicazione della formula di Bayes nelvalutare l’attendibilità di un test diagnostico.

    Esempio 9 Una malattia ha un tasso di incidenza di 11000

    . Un test che permettedi individuarne la presenza ha un tasso di falsi positivi del 5% . Il tasso di falsinegativi è del 5%. Calcolare la probabilità che un individuo risultato positivo al testsia effettivamente malato.Indichiamo con Ω l’insieme di tutti gli individui della popolazione, F = P(Ω) e siaP la probabilità uniforme su (Ω,F). Sia M ∈ F l’insieme di individui malati e Sl’insieme di individui sani. Abbiamo che P (M) = 1

    1000e P (S) = 1−P (M) = 1− 1

    1000.

    Indicando co P ∈ F l’insieme degli individui positivi al test e con N ∈ F l’insiemedegli individui negativi al test, dai dati del problema possiamo ricavare le probabilitàcondizionate P (P |S) = 0.05 e P (N |M) = 0.05. Vogliamo calcolare la probabilitàcondizionata P (M |P ).Utilizzando la formula di Bayes:

    P (M |P ) = P (P |M)P (M)P (P )

    Dal fatto che P (P |M)+P (N |M) = 1 ricaviamo P (P |M) = 1−P (N |M) = 1−0.05.Per la formula delle probabilità totali abbiamo

    P (P ) = P (P |M)P (M) + P (P |S)P (S) = (1− 0.05) 11000

    + 0.05(1− 11000

    )

  • Inserendo nella formula di Bayes otteniamo P (M |P ) = 0.02 che è un valore decisa-mente basso che esprime il fatto che il test che stiamo utilizzando non è particolar-mente utile. Per capire meglio questo risultato indichiamo la probabilità di erroreP (P |S) = P (N |M) con pe e la probabilitità P (M) di essere malati con pm. Nelnostro caso pe = 0.05 e pm =

    11000

    .Con questa notazione abbiamo che

    P (M |P ) = (1− pe)pm(1− pe)pm + pe(1− pm)

    Nel caso in cui pe e pm sono valori piccoli (pe

  • Si usa distinguere tra variabili aleatori discrete, ovvero variabili aleatorie X chepossono assumere solo un numero discreto di valori, e variabili aleatorie continueovvero variabili aleatorie che assumono valori all’interno di un insieme continuo.Ad esempio nell’esperimento del lancio di un due dadi, scegliendo come variabilealeatoria X la somma dei risultati dei due lanci, abbiamo che X puó assumere ivalori 2,3,4,5,6,7,8,9,10,11,12 e dunque è una variabile aleatoria discreta.Nell’esperimento della misura del decadimento di un nucleo radioattivo, scegliendocome variabile aleatoria X l’instante in cui il nucleo decade, abbiamo che, in lineadi principio, X può assumere un qualsiasi valore all’interno dell’intervallo [0,+∞).X è dunque una variabile aleatoria continua.

    Data una variabile aleatoria X, possiamo introdurre, dato un insieme Boreliano2

    I ⊂ R, la probabilità che la variabile X assuma valori contenuti all’interno di i,ovvero

    P ({ω ∈ Ω, : X(ω) ∈ I})

    L’applicazione, che ad ogni insieme Boreliano I ⊂ R associa P ({ω ∈ Ω, : X(ω) ∈I}) è detta legge o distribuzione della variabile aleatoria X.

    Si definisce inoltre la funzione di distribuzione FX : R→ [0, 1], data da

    FX(t) := P ({ω ∈ Ω : X(ω) ≤ t}) = P (X ≤ t)

    per il suo significato, F è monotona crescente (in generale non strettamente). Si hache

    limt→−∞

    FX(t) = 0, limt→+∞

    FX(t) = 1

    inoltreP (a < X ≤ b) = FX(b)− FX(a)

    Densità di probabilità

    Consideriamo una variabile aleatoria discreta X, che può quindi assumere solo uninsieme discreto di valori {x1, x2, ....}. La distribuzione di X è completamente spec-ificata se conosciamo la probabilità degli insiemi

    {ω ∈ Ω : X(ω) = xi}, i = 1, 2, ...

    Indichiamo con p(xi) = P ({ω ∈ Ω : X(ω) = xi}). la funzione p è detta densità diprobabilità discreta e gode delle seguenti proprietà :

    2ricordiamo che la σ-algebra di Borel su R è definita come la σ algebra generata dagli intervalli(−∞t), con t ∈ R e i suoi elementi sono detti insiemi Boreliani

  • • p(xi) ≥ 0 per ogni i,

    •∑

    i p(xi) = 1.

    Nota la densità discreta p, allora per ogni I ⊆ R, si ha che

    P (X ∈ I) = P ({ω ∈ Ω : X(ω) ∈ I}) =∑xi∈I

    p(xi).

    Ad esempio, nel caso dell’esperimento del lancio di due dadi, scegliendo come vari-abile e aleatoria X la somma dei risultati dei due lanci, abbiamo che la distribuzionedi X è data da:

    P (X = 2) = P ({(1, 1)}) = 136

    = p(2)

    P (X = 3) = P ({(1, 2), (2, 1)}) = 236

    = p(3)

    P (X = 4) = P ({(1, 3), (2, 2), (3, 1)}) = 336

    = p(4)

    P (X = 5) = P ({(1, 4), (2, 3), (3, 2), (4, 1)}) = 436

    = p(5)

    P (X = 6) = P ({(1, 5), (2, 4), (3, 3), (2, 4), (1, 5)}) = 536

    = p(6)

    P (X = 7) = P ({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) = 636

    = p(7)

    P (X = 8) = P ({(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}) = 536

    = p(8)

    P (X = 9) = P ({(3, 6), (4, 5), (5, 4), (6, 3)}) = 436

    = p(9)

    P (X = 10) = P ({(4, 6), (5, 5), (6, 4)}) = 336

    = p(10)

    P (X = 11) = P ({(5, 6), (6, 5)}) = 236

    = p(11)

    P (X = 12) = P ({(6, 6)}) = 136

    = p(12)

    (5)

    Quindi, ad esempio,

    P (4 ≤ X ≤ 6) = p(4) + p(5) + p(6) = 336

    +4

    36+

    5

    36=

    12

    36

  • Nel caso di una variabile aleatoria continua X, si ha che P (X = x) = 0 e sidefinisce la densità di probabilità f , come quella funzione f : R→ R+ tale che

    FX(t) =

    ∫ t−∞

    f(u)du

    P (X ∈ [a, b]) =∫ ba

    f(u)du

    Notiamo che, per il teorema fondamentale del calcolo integrale, si ha che:

    f(t) = F ′X(t)

    Nel caso dell’esperimento della misura del tempo di decadimento di un nucleo ra-dioattivo si ha che

    P (X ≤ t) = 1− e−λt, t > 0 P (X ∈ [T1, T2]) = e−λT1 − e−λT2 .

    dove λ è una costante positiva che caratterizza l’elemento.La densità di probabilità f è data da

    f(t) = λe−λt t ≥ 0f(t) = 0 t < 0

    Media e varianza

    Nei problemi concreti, spesso non è conveniente e neppure necessario conoscerel’intera distribuzione della variabile aleatoria X, ma è sufficiente conoscere un nu-mero finito di parametri, che indicano il modo in cui X è distribuita.

    Media

    Si definisce media o speranza matematica o valore atteso di una variabile aleatoriaX, e si indica col simbolo E[X] o µX il numero

    µX = E[X] :={ ∑

    i xip(xi) per variabili aleatorie discrete∫ +∞−∞ xf(x)dx per variabili aleatorie continue

    nell’ipotesi la sommatoria (estesa a tutti i possibili valori che possono essere assuntidalla variabile aleatoria discreta) o l’integrale siano convergenti. In caso contrariola media non esiste.

  • Ad esempio, nel caso dell’esperimento del lancio di un due dadi, scegliendo comevariabile e aleatoria X la somma dei risultati dei due lanci, la media di X è data da

    µX = E[X] = 2p(2) + 3p(3) + 4p(4) + 5p(5) + 6p(6) + 7p(7) + 8p(8) + 9p(9) ++10p(10) + 11p(11) + 12p(12)

    = 21

    36+ 3

    2

    36+ 4

    3

    36+ 5

    4

    36+ 6

    5

    36+ 7

    6

    36+ 8

    5

    36+ 9

    4

    36+ 10

    3

    36+

    +112

    36+ 12

    1

    36

    =252

    36= 7

    Nel caso dell’esperimento della misura del tempo di decadimento di un nucleoradioattivo, dove la densità di probabilità f è data da

    f(t) = λe−λt t ≥ 0f(t) = 0 t < 0

    abbiamo che il valore medio è dato da

    µX = E[X] =∫ +∞

    0

    tλe−λtdt =1

    λ

    Varianza

    La varianza di una variabile aleatoria X, indicata con il simbolo σ2X , è definita comeil valore atteso del quadrato dello scarto tra il valore della variabile X e al sua mediaµX :

    σ2X = E[(X − µX)2].

    La varianza fornisce quindi una misura della ”dispersione” della variabile X rispettoalla sua media µX .Per una variabile aleatoria discreta si calcola come:

    σ2X =∑i

    (xi − µX)2p(xi),

    mentre per una variabile aleatoria continua si calcola come

    σ2X =

    ∫ +∞−∞

    (x− µX)2f(x)dx,

  • (nell’ipotesi che la sommatoria o l’integrale convergono, in caso contrario la varianzanon esiste).Si dimostra facilmente una formula alternativa per il calcolo della varianza:

    σ2X = E[X2]− (µX)2

    Per una variabile aleatoria discreta si calcola quindi come:

    σ2X =∑i

    x2i p(xi)− (µX)2,

    mentre per una variabile aleatoria continua si calcola come

    σ2X =

    ∫ +∞−∞

    x2f(x)dx− (µX)2.

    Ad esempio, nel caso dell’esperimento del lancio di un due dadi, scegliendo comevariabile e aleatoria X la somma dei risultati dei due lanci, abbiamo visto che lamedia µX vale µX = 7. Per calcolare la varianza, calcoliamo prima E[X2]

    E[X2] = 22p(2) + 32p(3) + 42p(4) + 52p(5) + 62p(6) + 72p(7) + 82p(8) + 92p(9) ++102p(10) + 112p(11) + 122p(12)

    = 41

    36+ 9

    2

    36+ 16

    3

    36+ 25

    4

    36+ 36

    5

    36+ 49

    6

    36+ 64

    5

    36+ 81

    4

    36+ 100

    3

    36+

    +1212

    36+ 144

    1

    36

    =1974

    36= 54.8

    Quindiσ2X = E[X2]− (µX)2 = 54.8− (7)2 = 5.8

    Nel caso dell’esperimento della misura del tempo di decadimento di un nucleoradioattivo, dove la densità di probabilità f è data da

    f(t) = λe−λt t ≥ 0f(t) = 0 t < 0

    abbiamo che il valore medio è dato da µX = 1/λ, mentre

    E[X2] =∫ +∞

    0

    t2λe−λtdt =2

    λ2.

    Quindi la varianza è data da

    σ2X = E[X2]− (µX)2 =2

    λ2− 1λ2

    =1

    λ2.

  • Funzione generatrice dei momenti

    Data una variabile aleatoria X, definiamo funzione generatrice dei momenti lafunzione fX : R→ R definita da

    fx(t) := E[etX ], t ∈ R.

    In particolare, per variabili aleatorie discrete è data da

    fx(t) =∑i

    etxip(xi) (6)

    mentre per una variabile aleatoria continua si calcola come

    fx(t) =

    ∫ +∞−∞

    etxf(x)dx (7)

    A rigore la funzione fx è definita solo per quie valori di t ∈ R per cui la sommatoriain (6) oppure l’integrale in (7) sono convergenti. Si può dimostrare che se fx èdefinita almeno su un intervallo aperto contenente l’origine, allora f è infinite voltederivabile e inoltre la sua derivata m-esima in 0 fornisce il momento m−esimo dellavariabile aleatoria X:

    dm

    dtmfx(0) = E[Xm]

    Modelli discreti

    Legge binomiale

    Supponiamo di lanciare n volte una moneta truccata, tale per cui la probabilità cheesca testa è pari a p, con p ∈ [0, 1], mentre la probabilità che esca croce è 1 − p.Vogliamo calcolare la probabilità di ottenere k volte testa su n lanci.Introduciamo lo spazio delle prove Ω := {(ω1, ω2, ..., ωn) : ωi = 0, 1, i = 1, ..., n},delle n−ple (ω1, ω2, ..., ωn), dove ωi, con i = 1, ..., n, può prendere solo i valori 0 e1. Se ωi = 1 allora il risultato dell’i−esimo lancio è testa, mentre se ωi = 0 allora ilrisultato dell’i−esimo lancio è croce.Introduciamo la variabile casuale discreta X : Ω→ R che associa ad ogni elemento(ω1, ω2, ..., ωn) ∈ Ω dello spazio delle prove, cioé ad ogni sequenza di risultati deilanci, il numero delle teste:

    X(ω1, ω2, ..., ωn) = ω1 + ω2 + ...+ ωn.

    Calcoliamo la probabilità P (X = k), con k = 0, ..., n. Nell’ipotesi che gli n lancisiano indipendenti, la probabilità di un evento semplice (ω1, ω2, ..., ωn) in cui ci sono

  • k teste e n − k croci è pari a pk(1 − p)n−k. La probabilità di ottenere quindi kteste su n-lanci è pari a pk(1− p)n−k moltiplicato per il numero di possibili n− ple(ω1, ω2, ..., ωn) contenenti k volte 1 e n − k volte 0, cioé n!k!(n−k)! . Otteniamo quindiche la probabilità di ottenere k teste su n lanci è

    P (X = k) =n!

    k!(n− k)!pk(1− p)n−k

    Questo tipo di ragionamento può essere applicato ad ogni situazione in cui ci sonon prove indipendenti, ognuna delle quali ha solo due possibili risultati: il primo,che chiameremo ”successo”, si verifica con probabilità p, mentre il secondo, chechiameremo ”insuccesso”, si verifica con probabilità 1 − p. Introdotta la variabilecasuale X che conta in numero dei ”successi”, si ha che la probabilità di ottenere ksuccessi con n prove è P (X = k) = n!

    k!(n−k)!pk(1− p)n−k.

    La densità di probabilità discreta data da

    p(k) =

    {n!

    k!(n−k)!pk(1− p)n−k k = 0, 1, ..., n

    0 altrimenti

    è detta legge binomiale. La media è data da

    E[X] =n∑k=0

    kp(k) =n∑k=0

    kn!

    k!(n− k)!pk(1−p)n−k =

    n∑k=0

    n!

    (k − 1)!(n− k)!pk(1−p)n−k = np

    mentre la varianza σ2X = np(1− p). La funzione generatrice dei momenti è

    fX(t) = E[etX ] =n∑k=0

    etkp(k) = (1− p+ pet)n

    Esempio 10 I bulloni prodotti da una ditta sono difettosi con una probabilità del20%. Vengono messi in commercio in confezioni di 3 pezzi. Qual è la probabilitàche in una confezione vi sia al più un bullone diffettoso?

    Utilizziamo lo schema successo-insuccesso, con n = 3 esperimenti, dove la prob-abilità di ”successo” (=trovare un bullone difettoso) è pari a p = 0.2. La probabilitàdi trovare al più un bullone difettoso è uguale alla somma della probabilità di trovare0 bulloni difettosi e della probabilità di trovare 1 bullone difettoso, date da

    3!

    0!3!(0.2)0(0.8)3 +

    3!

    1!2!(0.2)1(0.8)2 = 0.896

  • Esempio 11 Tenendo conto del fatto che circa il 30% dei passeggeri che ha acquis-tato un biglietto aereo non si presenta alla partenza, una compagnia aerea accetta 28prenotazioni per un volo con 24 posti. Qual è la probabilità che almeno un passeg-gero resti a terra?

    Utilizziamo lo schema ”successo” (=passeggero si presenta alla partenza)- ”in-successo” (=passeggero non si presenta alla partenza) su 28 ”prove” indipendenti,nell’ipotesi semplificativa che le scelte dei passeggeri siano indipendenti. In tal casola probabilità che si presentino k passeggeri è data dalla legge binomiale n!

    k!(n−k)!pk(1−

    p)n−k con n = 28 e p = 0.7. La probabilità di avere k ≥ 25 è quindi:

    p(25) + p(26) + p(27) + p(28)

    =28!

    25!(28− 25)!0.7250.33 +

    28!

    26!(28− 26)!0.7260.32 +

    28!

    27!(28− 27)!0.7270.31

    +28!

    28!(28− 28)!0.7280.30 = 0.0157

    Legge geometrica

    Riprendiamo l’esempio che ha portato alla costruzione della legge binomiale. Con-sideriamo una moneta truccata, tale per cui laprobabilità che esca testa è pari a p,con p ∈ [0, 1], mentre la probabilità che esca croce è pari a 1− p. Supponiamo chevenga lanciata più volte, fino a quando non si ottiene testa e vogliamo calcolare laprobabilità che servano esattamente k lanci, con k ≥ 1.Introduciamo la variabile aleatoria discreta T , data dal numero dei lanci necessariper ottenere testa. T può assumere tutti i valori interi positivi maggiori o uguali a1. La densità di probabilità di T è detta legge geometrica ed è data da:

    p(k) = P (T = k) = (1− p)k−1p, k = 1, 2, ..,+∞,

    calcolata usando l’indipendenza dei vari lanci. Infatti la probabilità che si ottengatesta esattamente al k−esimo lancio è data dal prodotto della probabilità che aiprimi k − 1 lanci esca croce, pari a (1 − p)1−k, per la probabilità che al k− esimolancio esca testa, pari a p. Notiamo che

    ∞∑k=1

    (1− p)k−1p = p∞∑k=1

    (1− p)k−1 = p∞∑k=0

    (1− p)k = p 11− (1− p)

    = 1

    Più in generale, T rappresenta il tempo di attesa del primo ”successo” nel modello”successo-insuccesso” descritto dalla legge binomiale.

  • Notiamo che per ottenere la densità di probabilità p(k) potevamo ragionare anchenel seguente modo. La probabilità che per ottenere un successo servano più dik− 1 lanci può essere ottenuta come la somma della probabilità che per ottenere unsuccesso servano più di k lanci e della probabilità che al k−esimo lancio si ottengaun successo:

    P (T > k − 1) = P (T = k) + P (T > k).D’altra parte P (T > k) è uguale alla probabilità di non avere successi nei primi klanci, cioé (1− p)k e, analogamente, P (T > k − 1) = (1− p)k−1. Abbiamo quindi

    P (T = k) = P (T > k − 1)− P (T > k) = (1− p)k−1 − (1− p)k = (1− p)k−1p

    La media e la varianza di tale variabile è data da:

    E[X] =∞∑k=1

    k(1− p)k−1p = 1p, σ2X =

    1− pp2

    La legge geometrica gode di un’interessante proprietà detta assenza di memoria.Se vogliamo stimare ad esempio la probabilità che dopo aver ottenuto k insuccessidobbiamo attendere ancora m esperimenti per avere il primo successo, cioé P (T =k +m|T > k), otteniamo il seguuente risultato:

    P (T = k +m|T > k) = P (T = k +m ∩ T > k)P (T > k)

    =P (T = k +m)

    P (T > k)=

    (1− p)k+m−1p(1− p)k

    = (1− p)m−1p = P (T = m)

    Possiamo concludere che la probabilità di dover attendere ancora m prove per avereil primo successo è la stessa che si avrebbe se i primi k esperimenti non avesseroavuto luogo.

    La distribuzione di Poisson

    Consideriamo la variabile aleatoria X descritta dalla legge binomiale, associata alnumero di successi in n esperimenti indipendenti:

    p(k) =

    {n!

    k!(n−k)!pk(1− p)n−k k = 0, 1, ..., n

    0 altrimenti

    +- e studiamo il limite in cui n → ∞ e p → 0, mantenendo però costante il valoremedio E[X] = np ≡ λ, con λ ∈ R, λ > 0. Ponendo quindi p = λ/n, si ha che

    limn→∞

    p(k) = limn→∞

    n!

    k!(n− k)!pk(1− p)n−k = lim

    n→∞

    n!

    k!(n− k)!

    n

    )k (1− λ

    n

    )n−k

  • = limn→∞

    λk

    k!

    n!

    nk(n− k)!

    (1− λ

    n

    )n(1− λ

    n

    )−k=

    λk

    k!e−λ

    La densità di probabilità discreta

    p(k) =

    {λk

    k!e−λ k = 0, 1, ...,∞

    0 altrimenti

    è detta distribuzione di Poisson di parametro λ > 0 La media e la varianza sonodate da:

    E[X] =∞∑k=0

    kλk

    k!e−λ = λ, σ2X = λ

    mentre la funzione generatrice dei momenti è data da:

    fx(t) = E[etX ] = e−λ+λet

    Il processo di Poisson. Eventi casuali in un continuo

    Abbiamo derivato la distribuzione di Poisson come limite della binomial per n→∞e p → 0 mantenendo costante il valor medio di “successi”np = a. Di fatto taledistribuzione si applica in un ampio numero di fenomeni casuali.Supponiamo di voler descrivere una successione di “fenomeni casuali” che avvengononel tempo, ad esempio le telefonate che arrivano ad un centralino, i veicoli cheattraversano un incrocio, i decadimenti degli atomi di una certa quantità di sostanzaradioattiva. Indichiamo con t la variabilte tempotale e indichiamo con Nt la variabilecasuale che indica il numero di accadimenti che avvengono nell’intervallo [0, t]. Più ingenerale, considerato un intervallo I = [t0, t1] indichiamo con NI la variabile casualeche indica il numero di accadimenti che avvengono nell’intervallo I. Supponiamoche siano verificate le seguenti ipotesi

    1. Le condizioni del fenomeno sono costanti nel tempo. Se due intervalli I e I ′

    hanno la stessa ampiezza allora Ni e NI′ hanno la stessa distribuzione. Intro-duciamo una costante λ caratteristica del fenomeno che esprime la frequenzadi accadimenti per unità di tempo in modo tale che il numero medio di ac-cadimenti in un intervallo temporale di ampiezza ∆T sia data da λ∆t.

    2. Avvenimenti che si verificano in intervalli temporali disgiunti non si influen-zano a vicenda. Se I ∩ I ′ = ∅ allora le variabili aleatorie NI e NI′ sonoindipendenti.

  • Sotto tali ipotesi è possibile mostrare che la distribuzione della variabile aleatoriaNt è di Poisson con parametro λt:

    P (Nt = k) =(λt)k

    k!e−λt.

    Esempio 12 Un centralino riceve in media 20 telefonate in un’ora. Calcolare laproibabilità di ricevere 2 telefonate in 15 minuti.In questo caso λ = 0, 33telefonate/minuto. La probabilità cercata è

    P (N15 = 2) =(5)2

    2!e−5 = 0, 08

    il ragionamento può essere esteso al caso di una distribuzione casuale di punti in unaregione dello spazio. Considerato un generico sottoinsieme A indichiamo con NA lavariabile aleatoria che conta il numero di punti che cadono all’interno dell’insiemeA. Assumiamo che:

    1. Le condizioni del fenomeno sono costanti nello spazio. Se due regioni A eA′ hanno lo stesso volume allora NA e NA′ hanno la stessa distribuzione.Introduciamo una costante λ caratteristica del fenomeno che esprime la densitàdi punti per unità di volume in modo tale che il numero medio di punti in uninsieme di volume V sia dato da λV .

    2. Insiemi disgiunti non si influenzano a vicenda. Se A∩A′ = ∅ allora le variabilialeatorie NA e NA′ sono indipendenti.

    Sotto tali ipotesi è possibile mostrare che la distribuzione della variabile aleatoriaNA è di Poisson con parametro λV ol(A):

    P (NA = k) =(λV ol(A))k

    k!e−λV ol(A).

    Tale modello descrive efficacemente, ad esempio, la distribuzione di: stelle nellospazio, uvette nel panettone, imperfezioni nei materiali, semi di piante infestantimescolati a semi di erba....

    La legge dei grandi numeri

    Supponiamo di lanciare n volte una moneta e di contare il numero di volte in cuiotteniamo “testa”. ci aspetteremmo che questo avvenga per circa la metà dei lanci.Di fatto non è improbabile che si verifichino delle sequenze di risultati in cui escesempre testa (oppure sempre croce) ma ci aspettiamo intuitivamente che se n cresce,

  • allora la situazione si riequilibri e nel limite n→∞ la frequenza relativa tenda a 1/2.In questo capitolo formalizzeremo questo ragionamento. Premettiamo il seguntelemma, che mette in luce il significato della varianza di una variabile aleatoria.

    Lemma 1 (Diseguaglianza di Chebyshev) Per ogni η > 0 vale la diseguaglianza

    P (|X − E[X]| > η) ≤ σ2X

    η2

    Dimostrazione: Fissato il valore di η > 0, consideriamo la variabile Y : Ω → Rdefinita da:

    Y (ω) :=

    {η2 se |X(ω)− E[X]| > η0 se |X(ω)− E[X]| ≤ η

    Dato che per ogni ω ∈ Ω abbiamo che Y (ω) ≤ (X(ω)− E[X])2 allora

    E[Y ] ≤ E[(X(ω)− E[X])2] = σ2XInoltre E[Y ] = η2P (|X − E[X]| > η), da cui otteniamo la tesi.

    Consideriamo una variabile aleatoria X e una successione {Xn}n di variabilealeatorie. Si dice che la successione Xn converge in probabilità alla variabile aleatoriaX se per ogni η > 0 fissato si ha :

    limn→∞

    P (|Xn −X| > η) = 0

    Tale concetto permette di formulare il seguente risultato

    Teorema 1 (Legge dei grandi numeri) Sia {Xn}n una successione di variabilealeatorie indipendenti ed equidistribuite, con media µ e varianza σ2 finita. Definitala successione {X̄n}n, con

    X̄n =X1 +X2 + ...+Xn

    n

    si ha che X̄n converge in probabilità a µ per n→∞.

    Dimostrazione: La variabile aleatoria X̄n ha media µ e varianza pari a σ2/n. Ap-

    plicando la diseguaglianza di Chebyshev a X̄n abbiamo, per ogni η > 0:

    P (|X̄n − µ| > η) ≤σ2

    nη2

    Mandando n→ +∞ si ottiene che per ogni η > 0:

    limn→+∞

    P (|X̄n − µ| > η) = 0.

  • Convergenza delle frequenze empiriche

    Consideriamo l’esperimento del lancio della moneta e introduciamo la successionedi variabile aleatorie {Xn}n costruite come segue. per ogni i ∈ N sia Xi la variabilealeatoria tale per cui Xi = 1 se il risultato dell’i-esimo lancio è testa e Xi = 0se il risultato dell’i-esimo lancio è croce. Nell’ipotesi di indipendenza dei lanci, lasuccessione {Xn}n soddisfa le ipotesi del teorema precedente in quanto sono in-dipendenti ed equidistribuite. La media è data da E[Xi] = 1/2, mentre la varianzaσ2 = E[X2i ] − E[Xi]2 = 1/4. Considerata la variabile aleatoria X̄n := X1+X2+...+Xnnche esprime il rapporto fra il numero di teste ottenute su n lanci ed il numero dilanci effettuati (cioé la frequenza relativa delle teste su n lanci), per la legge deigrandi numeri abbiamo che per ogni η > 0:

    limn→+∞

    P (|X̄n − 1/2| > η) = 0.

    Notiamo che la diseguaglianza di Chebyshev ci permette di ottenere una stima (difatto abbastanza rozza) del numero di prove n da effettuare affinché la probabilitàche la frequenza relativa delle teste differisca da 1/2 per più di un valore fissato�1 > 0 sia minore di un valore fissato �2. Vogliamo dunque stimare n affinché

    P (|X̄n − 1/2| > �1) < �2

    Dalla diseguaglianza di Chebyshev e abbiamo P (|X̄n − 1/2| > �1) < 14n�21 . Se1

    4n�21<

    �2, cioé se n >1

    4�21�2allora abbiamo che P (|X̄n − 1/2| > �1) < �2. Ad esempio, se

    �1 = 1/10 e �2 = 1/2, otteniamo n > 50.Più in generale, consideriamo una successione {Xn}n di variabili aleatorie in-

    dipendenti ed equidistribuite, che possono assumere solo m valori x1, x2, ..., xm conprobabilità rispettivamente p1, p2, ..., pm. Fissiamo un particolare valore, il k-esimoxk che ha probabilità pk e definiamo la successione di variabili aleatorie {Yn}n in-dipendenti ed equidistribuite con Yi = 1 se Xi = xk e Yi = 0 altrimenti. Notiamoche la media di Yi è data da E[Yi] = pkAd esempio se descriviamo i risultati dei lanci di un dado, allora m = 6 e se fissiamoun particolare risultato, ad esempio l’uscita del numero 2, allora la variabile Yi vale1 se il risultato dell’iesimo lancio è 2 e Yi = 0 se il risultato dell’iesimo lancio è unvalore diverso da 2.Se adesso consideriamo la variabile casuale Ȳn =

    Y1+Y2+...+Ynn

    che esprime la frequenzarelativa del valore xk, per la legge dei grandi numeri abbiamo che tale frequenza rel-ativa tende alla probabilità pk per n→∞ nel senso che per ogni η > 0:

    limn→+∞

    P (|Ȳn − pk| > η) = 0.