corso di laurea in statistica esame di statistica 2 prof

24
Corso di Laurea in Statistica Esame di Statistica 2 Prof. Bruno Chiandotto Testi delle prove scritte con risultati Elenco dei compiti 1. Compito del 07.06.2001 2. Compito del 26.06.2001 3. Compito del 17.07.2001 4. Compito del 05.09.2001 5. Compito del 17.12.2001 6. Compito del 09.01.2002 7. Compito del 12.02.2002 8. Compito del 11.06.2002 9. Compito del 16.07.2002 10. Compito del 05.09.2002 1

Upload: others

Post on 07-Jan-2022

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Corso di Laurea in Statistica

Esame di Statistica 2

Prof. Bruno Chiandotto

Testi delle prove scritte con risultati

Elenco dei compiti

1. Compito del 07.06.2001

2. Compito del 26.06.2001

3. Compito del 17.07.2001

4. Compito del 05.09.2001

5. Compito del 17.12.2001

6. Compito del 09.01.2002

7. Compito del 12.02.2002

8. Compito del 11.06.2002

9. Compito del 16.07.2002

10. Compito del 05.09.2002

1

Page 2: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 07.06.2001Note: Il punto tra cifre si deve interpretare come virgola.

(A) Nella produzione di una motrice di autotreno, siano definite le variabili casuali: X1 giorni di lavorazione,X2 ricavo dalla vendita. Siano definite le costanti a1 = −0.11, a3 = −4.4, rispettivamente pari al costoper giorno, e all’ammontare dei costi fissi per motrice prodotta. Si assuma che X1 ∼ N(µ1, 9.5), e cheX2 ∼ N(µ2, 21). Definito l’utile Y = a1X1 + X2 + a3:

(1) Calcolare la varianza di Y .(2) Effettuare la stima per intervallo del valore atteso di Y (livello conf. = 0.95) impiegando i dati relativi

ad un campione casuale di 4 osservazioni (Tabella1).Tabella 1: Giorni-costi fissi in un campione casuale di 4 autotreni.x1,i: 93.3 105.3 96 95.6x2,i: 321.8 321.3 311.7 316.4

(A - prob) Un camionista rinnova l’assicurazione del suo mezzo. La probabilita che l’assicurazione siaeffettuata con la compagnia NOSECUR e uguale a 0.21, che sia con LATOMA e 0.22. La probabilita cheil camionista effettui un incidente e uguale a 0.09 se il contratto e con NOSECUR, oppure 0.02 se conLATOMA o con altre compagnie. La probabilita che in tal caso il camionista sia prontamente rimborsato euguale a 0.81 se il contratto e con NOSECUR, mentre e 0.66 se con LATOMA oppure con altre compagnie.

(1) Quale la probabilita che il camionista si assicuri con LATOMA e non effettui incidenti?(2) Sapendo che il camionista e stato prontamente rimborsato, quale e la probabilita che abbia stipulato

un contratto con NOSECUR?

(B) L’azienda conserviera TOMAT dichiara che il coefficiente di variazione (non percentuale) relativo alcontenuto calorico di una scatola di pelati e pari a 0.172. Si assuma che la variabile casuale X ‘calorie perscatola’ sia normale con media 183.8. Valutando le calorie in un campione casuale di n=4 scatole sono statiottenuti i valori: 178,187,182,182.

(1) Saggiare statisticamente la dichiarazione della TOMAT (α = 0.01) in alternativa al valore di coeffi-ciente pari a 0.05.

(2) Calcolare la potenza del test.

(C) Al laboratorio ANACHEM, si effettua uno studio sulla presenza di metanolo in un campione casualedi 3 bottiglie di vino (Tabella 2). Il vino di ogni bottiglia viene esaminato con il metodo 1 (senza filtro) econ il metodo 2 (con filtro). Assumendo che la concentrazione di metanolo sia assimilabile ad una variabilecasuale gaussiana :

(1) Saggiare statisticamente l’ipotesi che i due metodi non comportino differenze (prob. errore I tipo =0.01) in alternativa a che la media per il metodo 2 sia maggiore a quella del metodo 1.

(2) Assumendo che la varianza delle differenze sia σ2 = 4, calcolare la potenza del test (α = 0.05) in cuil’alternativa prevede che la differenza tra media del metodo 2 e media del metodo 1 sia pari a 5.

Tabella 2: Contenuto di metanolo con due metodi.

Metodo 1: 21.4 19.4 20.3Metodo 2: 23.5 24.7 24.4

(D) La sezione “qualita” della TOMAT ha studiato la relazione esistente tra concentrazione di conservante(x2) , peso netto (x1) e calorie totali (y) in confezioni di zuppa in barattolo. La variabile casuale dipendenteY , calorie totali, si assume sia distribuita come una normale con valore atteso β0 + β1x1 + β2x2, varianzaσ2. Si assume inoltre che gli errori siano indipendenti e con valore atteso uguale a zero. I parametri sonostati stimati impiegando un campione casuale di n = 10 barattoli.

(1) Impiegando la Tabella 3 sull’ANOVA del modello, saggiare l’ipotesi che i coefficienti delle due variabiliindipendenti siano uguali a zero (prob. errore di primo tipo = 0.05).

(2) Saggiare le ipotesi riguardanti i contributi parziali dei coefficienti (prob. errore primo tipo = 0.05),e si scriva il modello risultante.

Tabella 3: ANOVA del modello.

2

Page 3: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Fonti di variazione Devianza(b0, b1, b2) 42.8(b1, b2 | b0) 5.619(b1 | b0, b2) 3.81(b2 | b0, b1) 1.809

(residui | b0, b1, b2) 1.41(y | b0) 6.693

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 07.06.2001Note: Il punto tra cifre si deve interpretare come virgola.

Esercizio (A)Varianza : 21.115Estremo inf: 298.17Estremo sup. : 307.17

Esercizio (A - prob)Pro1 = 0.2156Pro 2 = 0.5948

Esercizio (B)4 ∗ S2 : 50.36chi empirico: 0.05039chi critico: 0.2971potenza: 0.5245

Esercizio (C)Diff medie: 3.83333Varianza: 2.61333Dev.std: 1.61658t-empirico: 4.10714t-critico: 6.96456d-critico 1.64485potenza: 0.9964

Esercizio (D)F x1 x2 : 13.948F x1 : 18.915F x2 : 8.9809

3

Page 4: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 26.06.2001Note: Il punto tra cifre si deve interpretare come virgola.

(A) Una macchina per la preparazione della vernice miscela quantita di bianco (X1), rosso (X2) e nero (X3)secondo le proporzioni desiderate per ottenere una data tonalita di rosso. Il costruttore comunica che laquantita di componente erogata da ciascuno dei 3 ugelli si distribuisce normalmente con media pari al valorenominale e con coefficiente di variazione pari a 0.05 . Volendo preparare una miscela da 107 kg con 20 % dibianco, 31 % di rosso e 49 % di nero:

(1) Indicare come si distribuisce la quantita complessiva di vernice erogata.(2) Calcolare la probabilita che tale quantita sia almeno 101 kg.

(B) Per valutare il consumo di energia dovuto agli impianti di condizionamento nel periodo estivo, un’aziendautilizza i dati annuali relativi agli ultimi 5 anni, di cui alcune statistiche riassuntive sono presentate nellaseguente tabella.

Tabella: Temperature medie (dalle 8.00 alle 20.00 di ogni giorno nel periodo giugno-settembre) e consumidi energia elettrica per condizionamento nel periodo 1996-1999 (n = 5): Alcune statistiche riassuntive.

media(temperatura) 24.79 media(consumi) 1255.38dev(temperatura) 7.01 dev(consumi) 176623.19

codev(temperatura,consumi) 1099.18 σ2 1423.29

(1) Utilizzando una funzione lineare, valutare come i consumi elettrici sono legati alla temperatura.(2) Sottoporre a test l’ipotesi che la temperatura non abbia effetto sui consumi elettrici contro l’alternativa

che il suo effetto sia positivo.

(C) Sulla base dei dati dell’esercizio precedente:(1) Se la temperatura media dell’estate 2001 fosse di 27.9 Co, quale sarebbe il consumo elettrico stimato?(2) Quale sarebbe l’intervallo di confidenza al 90% per tale previsione?

(D) Una ASL ha raccolto dagli ospedali della propria area di competenza il numero di giorni di permanenzaX di ciascun paziente. Alcune statistiche riassuntive sono riportate nella seguente tabella.

Tabella: Permanenza ospedaliera: alcune statistiche riassuntive.Totale ricoveri 699

media(giorni permanenza) 6.11dev(giorni permanenza) 3950.17

Il ricorso al modello di Poisson, appare ragionevole; tuttavia, osservare un numero di giorni di permanenzapari a 0 e impossibile per come sono stati rilevati i dati.

(1) Modificare la distribuzione indicata in modo da renderla rispondente al tipo di fenomeno analizzato.(2) Dato lo spazio parametrico Λ = {6.08, 6.15, 6.2} derivare la stima di massima verosimiglianza del

parametro λ.(3) Se la probabilita a priori sui valori dello spazio parametrico sono rispettivamente pari a 0.58 , 0.21 e

0.2 , calcolare le probabilita a posteriori per il primo valore dello spazio parametrico.

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 26.06.2001Note: Il punto tra cifre si deve interpretare come virgola.

(A)

(1)µi = piq = 21.4 , 33.17 , 52.43σ2

i = (CV µi)2 = 1.1449 , 2.7506 , 6.8723

4

Page 5: Corso di Laurea in Statistica Esame di Statistica 2 Prof

µ =∑

µi = 107σ2 =

∑σ2

i = 10.7678

(2)P (X1 + X2 + X3 ≥ q1) = 0.9663

(B)

(1)β1 = 156.8017β0 = -2631.7344

(2)σ

β1= 14.2491

t(empirico) = 11.0043t(critico) = 2.3534

(C)

(1)y0 = 1743.0333

(2)σ

y0= 60.5949

z = 2.3534intervallo = [ 1600.4315 , 1885.6352 ]

(D)

(1)f1(x;λ) = f(x;λ)/[1− f(0;λ)] = (eλ − 1)−1λx/x! per x = 1, 2, . . .

(2)lnL(x;λj)− costante = 3460.6578 , 3460.5099 , 3460.0693

(3)P (λj |x) = 0.665 , 0.2077 , 0.1273

5

Page 6: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 17.07.2001Note: Il punto tra cifre si deve interpretare come virgola.

(A) Alla TECHNOSAMPLE e stata commissionata una rilevazione campionaria sulla spesa degli Italianiper le vacanze estive nel 2000. I risultati sintetici sono contenuti nella seguente tabella.

Tabella: Principali statistiche campionarie della rilevazione condotta nel 2000 sulla spesa per vacanzeestive (dati in migliaia di Euro).

n 1408 media 1.3281 mediana 1.3302 media geometrica 1.2954 devianza 0.1138

Supponendo che la variabile spesa per vacanze estive nel 2000 si distribusca normalmente:(1) Trovare l’intervallo di confidenza al 90% per la spesa media del 2000.(2) Determinare la dimensione del campione 2001 nella seguente situazione: a) si vuol ottenere un

intervallo di confidenza per la media al 90% che abbia la stessa ampiezza di quello ottenuto nel 2000;b) per la maggiore incertezza dell’attuale situazione economica, si stima prudenzialmente un aumento delcoefficiente di variazione (non espresso in percentuale) del 5 %.

(A - prob) GUESS e un’impresa specializzata in previsioni di mercato. Dall’esperienza passata risulta cheil 63 % dei titoli azionari che, ad un anno di distanza, hanno ottenuto una performance al disopra del terzoquartile, erano stati considerati da GUESS un buon acquisto; erano stati pero considerati un buon acquistoanche il 21 % dei titoli con performance tra il primo e il terzo quartile e il 11 % di quelli con performanceal disotto del primo quartile.

(1) Preso a caso un titolo azionario, qual e probabilita che esso abbia ottenuto una performance al disopradel terzo quartile e non sia stato precedentemente considerato da GUESS un buon acquisto?

(2) Se un titolo azionario e stato considerato da GUESS un buon acquisto, quale e la probabilita che lasua performance sia poi stata inferiore al terzo quartile?

(B) In un exit-poll relativo al ballottaggio fra PINCO e PALLINO per la carica a sindaco, sono statiintervistati 6089 elettori chiedendo loro per quale dei due avevano votato. Alla fine della rilevazione 3049elettori hanno indicato PINCO, 2729 hanno dichiarato PALLINO e gli altri hanno votato scheda bianca.

(1) Sottoporre a test l’ipotesi nulla che PINCO diventi sindaco (cioe riceva almeno il 50% dei voti).(2) Indicare quante persone sarebbe necessario intervistare per avere una potenza del test pari a 0.93 nel

caso in cui gli elettori a favore di PINCO siano il 48.7 %.

(C) A 144 studenti che hanno superato l’esame di statistica e stato chiesto quanto tempo e stato loronecessario per preparare l’esame. Nelle analisi e stato utilizzato un modello di regressione multipla matricialey = Xβ +u, in cui il voto dipende, oltre che dall’intercetta (β0), dal sesso (0 = M, 1 = F) (β1) e dal numerodi ore di studio (β2). La tabella seguente riporta il valore di alcune statistiche.

Tabella: Alcune statistiche riassuntive del modello di regressione lineare.(X ′X)−1 (valori moltiplicati per 10000) X ′y

∑u2

i

1281.2456 -109.6214 -3.0546 3456 1313.79-109.6214 320.5203 0.0169 1175-3.0546 0.0169 0.0079 1369263

(1) Stimare i parametri β0, β1, β2.(2) Le femmine hanno voti diversi dai maschi, tenuto conto del numero di ore? Sottoporre a test questo

quesito.

(D) Una catena alberghiera sottopone un questionario alla propria clientela. In una domanda si chiede diesprimere la percentuale della spesa extra-albergiera sul budget totale della vacanza. La tabella seguentecontiene alcune statistiche riassuntive della rilevazione effettuata.

Tabella: Alcune statistiche riassuntive sulla spesa extra-alberghiera (percentuale sul totale della spesadella vacanza) nel campione intervistato.

n 1823 media 0.3809 mediana 0.3731 media geometrica 0.3632 devianza 23.3118

Assumendo che la variabile analizzata sia distribuita come una Beta(α, β):

6

Page 7: Corso di Laurea in Statistica Esame di Statistica 2 Prof

(1) Stimare i parametri col metodo dei momenti.(2) Trovare le statistiche congiuntamente sufficienti per i parametri α e β.

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 17.07.2001Note: Il punto tra cifre si deve interpretare come virgola.

(A)

(1)tn(0.95) = 1.6459; S = 0.00899intervallo = [ 1.3277055 , 1.3284945 ]

(2)cv(old) = S/x = 0.00677; cv(new) = cv(old)(1 + r) = 0.00711S(new) = cv(new)x = 0.00944A = 0.00078898n = (2tn(0.95)S(new)/A)2 = 1552

(A - prob) Nota: E1 = {ris < Q1}, E2 = {Q1 ≤ ris ≤ Q3}, E3 = {ris > Q3}

(1)P (E3, B) = P (B|E3)P (E3) = [1− P (B|E3)]P (E3) = 0.0925

(2)P (B) = 0.29P (E3|B) = 1− P (E3|B) = 1− P (B|E3)P (E3)/P (B) = 0.4569

(B)

(1)zα = -1.6449z(empirico) = (x− p0)/

√p0q0/n = 0.1153 , dove p0 = 0.5

(2)c = p0 + zα

√p0q0/n, per cui

γ = P [Z < (p0 − p1 + zα

√p0q0)/n)/

√p1q1)/n = zγ |H1] implica

n = [(√

p1q1zγ −√

p0q0zα)/(p0− p1)]2 = 14405

(C)

(1)β = (X ′X)−1X ′y = 11.6629 , 2.09 , 0.028

(2)σ2 = 9.3177σ

β= 1.0926 , 0.5465 , 0.0027

t1−α/2(n− 3) = 1.9769

(D) Nota: E = x, V = S2

(1)α = E[(1− E)E/V − 1] = 6.6394β = α(1− E)/E = 10.7914

(2){∏

i xi,∏

i(1− xi)}; oppure {media geometrica delle xi, media geometrica delle (1− xi)}

7

Page 8: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 05.09.2001Note: Il punto tra cifre si deve interpretare come virgola.

(A) Un’impresa che commercializza frutta effettua tre tipi di controllo sulle arance da imballare: (C1)Dimensione (controllo meccanizzato); (C2) Colore (controllo meccanizzato); (C3) Tatto e aspetto estetico(controllo manuale). I tre controlli sono effettuati nella successione indicata e solo le arance che li passanotutti sono imballate. Sappiamo che, fra le arance che arrivano al rispettivo controllo, C1 ne scarta il 11.4 %,C2 il 8 %, C3 il 4.1 %.

(1) Calcolare la probabilita che un’arancia sia imballata.(2) Presa a caso un’arancia scartata, calcolare la probabilita che cio sia avvenuto al controllo C3.

(B) Un’impresa che produce acciai speciali sta testando una nuova tubazione per biciclette. L’ obiettivo equello di ottenere, a parita di peso, un carico di snervamento che sia maggiore del 40 % rispetto ai tubiattualmente in produzione. La tabella seguente mostra alcune statistiche riassuntive delle prove effettuate.

Tabella: Statistiche riassuntive dei carichi di rottura (in N/mm2) delle leghe testate.Numero prove Media Devianza

Vecchia tubazione 182 1031 270111Nuova tubazione 169 1610 261795

(1) Individuare la variabile test per sottoporre a verifica l’ipotesi nulla che la nuova tubazione non rispettigli obiettivi; specificare la distribuzione di tale variabile, sotto H0, da utilizzare per effettuare il test.

(2) Sottoporre a test l’ipotesi di cui al punto precedente (α = 5%).

(C) Da un settimanale di annunci economici sono stati raccolti alcuni dati relativi ad auto usate dello stessomodello (vedi tabella).

Tabella: Prezzo e km percorsi da auto usate dello stesso modello e per allestimenti confrontabili.Auto 1 2 3 4 5

Prezzo (in migliaia di Euro) 6.33 6.32 4.88 6.71 8.7Distanza percorsa (in migliaia di Km) 51 52 52 39 34

Utilizzando il modello semilogaritmico E(ln y) = β0 + β1x:(1) Stimare i parametri della componente sistematica.(2) Costruire l’intervallo di previsione (α = 10%) per il prezzo di un’auto che ha percorso 56 migliaia di

km.

(D) Una grossa impresa di abbigliamento ha stipulato un contratto con gli addetti al confezionamento deiprodotti in base al quale e corrisposto un premio se la percentuale di confezioni difettose non supera il 3 %.Per verificare se i dipendenti hanno diritto al premio la dirigenza seleziona un campione di 22 confezioni dicui 2 sono risultate difettose.

(1) Sottoporre a test l’ipotesi che i dipendenti abbiano diritto al premio (α = 0.027152 ).(2) Calcolare la potenza del test in corripondenza dell’ipotesi alternativa che la percentuale di confezioni

difettose sia 8 %.

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 05.09.2001Note: Il punto tra cifre si deve interpretare come virgola.

Note: 1) 4 cifre significative; 2) Il punto tra cifre si deve interpretare come virgola.

8

Page 9: Corso di Laurea in Statistica Esame di Statistica 2 Prof

(A)

(1)P (I) = 1− P (S) = 1− [P (S1) + P (S2) + P (S3)] = 0.7817dove Si = { scartata a Ci}P (S1) = P (S1| arrivato a C1) ∗ P ( arrivare a C1) = 0.114 ∗ 1 = 0.114P (S2) = P (S2| arrivato a C2) ∗ P ( arrivare a C2) = 0.08 ∗ [1− 0.114] = 0.07088P (S3) = P (S3| arrivato a C3) ∗ P ( arrivare a C3) = 0.041 ∗ [1− 0.18488] = 0.03342

(2)P (S3|S) = P (S|S3)P (S3)/P (S) = 1∗ 0.03342 /0.2183 = 0.153092

(B)X ∼ [µX , σ2

X ] e Y ∼ [µY , σ2Y ], dove X e la vecchia produzione e Y e la nuova produzione.

(1)Se p = 0.4 allora H0 : (µY − µX)/µX < p equivale a H0 : µY − (1 + p)µX < 0. La variabile test e

allora Y − (1 + p)X. Nelle ipotesi dell’esercizio ∼ [µY − (1 + p)µX , σ2Y /nY + (1 + p)2σ2

X/nX ] e, sotto H0,∼ N [0, σ2

Y /nY + (1 + p)2σ2X/nX ]. D’altra parte non si conoscono ne la distribuzione esatta ne σ2

Y e σ2X .

Tuttavia le dimensioni campionarie sufficientemente elevate autorizzano ad approssimare la distribuzionedella variabile test sotto H0 come N [0, S2

Y /nY + (1 + p)2S2X/nX ]

(2)S2

X = dev(X)/(nX − 1) = 1492.33S2

Y = dev(Y )/(nY − 1) = 1558.3S2 = S2

Y /nY + (1 + p)2S2X/nX = 25.29

y − (1 + p)x = 166.6Z(empirico) = [y − (1 + p)x]/S = 33.1271Z(critico) = 1.6449

(C)

(1)β0 = 2.77469 , β1 = -0.019879

(2)Poniamo v = ln(y)v0 = β0 + β1x0 = 1.6615y0 = exp(v0) = 5.2671σ2 = 0.018437

(2.1)σ2(v0) = σ2[1/n + (x0 − x)2/dev(x)] = 0.010583intervallo per v0 = [1.4194, 1.9036]intervallo per y0 = [4.1345, 6.7099](2.2)σ2(v0) = σ2[1 + 1/n + (x0 − x)2/dev(x)] = 0.02902intervallo per v0 = [1.2606, 2.0624]intervallo per y0 = [3.5274, 7.8647]

(D)Y = # confezioni difettose nel campione ∼ Bi(n, p). Usare il test esatto per i valori di n e p0.

(1)α = P (rif. H0|H0) = P (Y > c|H0) implica P (Y ≤ c|H0) = 1−α = 0.972848. Ma poiche la distribuzione

di Y e binomiale, per trovare c bisogna cumulare le masse di probabilita della binomiale Bi(n = 22, p0 = 0.03)a partire da c = 0 finche la cumulata non eguaglia (1− α).

c 0 1 2 3 4 5P (Y = c|H0) 0.511656 0.348137 0.113055 0.02331 0.003424 0.000381P (Y ≤ c|H0) 0.511656 0.859793 0.972848 0.996158 0.999583 0.999964

9

Page 10: Corso di Laurea in Statistica Esame di Statistica 2 Prof

allora c = 2. Bisogna poi accettare o rifiutare confrontando y = 2 del campione col c trovato.

(2)γ = P (rif. H0|H1) = P (Y > c|H1) = 1 − P (Y ≤ c|H1) = 1−cumulata della binomiale Bi(n = 22, p1 =

0.08) fino a c = 1− 0.744206 = 0.255794.

10

Page 11: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 17.12.2001Note: Il punto tra cifre si deve interpretare come virgola.

(A) La THERMOPLAST sta verificando la resistenza termica di due nuove pellicole per alimenti, menocostose di quelle attualmente commercializzate. I risultati di alcune prove su due campioni di materiali sonoriportati nella seguente tabella.

pellicola 1 71 79 72 78 65pellicola 2 77 91 77 70 79

(1) Sottoporre a test l’ipotesi che le due varianze siano uguali fra loro (α = 0.1) specificando le condizioniche giustificano la procedura adottata.

(2) Indicare quali conseguenze pratiche ha il risultato ottenuto al punto precedente sulla procedura ditest relativa al confronto fra le resistenze medie delle due pellicole.

(A - prob) Ad un concorso, in cui e prevista una prova scritta ed una orale, sono ammessi i laureati inEconomia e in Scienze Politiche. Il 67.9 % dei candidati e laureato in Economia e di essi il 43.1 % statoammesso all’orale; dei laureati in Scienze Politiche solo il 20.6 % ha superato lo scritto.

(1) Calcolare la probabilita che un candidato estratto a caso abbia superato lo scritto.(2) Se si estraggono a caso 34 candidati, qual e la probabilita che almeno 13 di essi abbiano superato lo

scritto? (si assuma che il numero dei candidati sia molto alto)(3) Preso a caso un candidato ammesso all’orale, calcolare la probabilita che esso provenga da scienze

politiche.

(B) La HAZARD-SIM ha studiato i rendimenti giornalieri dei titoli azionari di societa quotate appartenentia settori diversi nel 2000. Le principali statistiche riassuntive sono riportate nella tabella seguente.

Tabella: Statistiche riassuntive dei rendimenti relativi alle azioni di societa quotate nel 2000.Settore Assicurativo Bancario Editoriale Meccanica

Numero societa 26 38 21 24Media 13.84 16.27 18.92 11.55

Devianza 9012.89 17517.54 7249.43 9306.4

(1) Specificare un modello lineare opportuno e stimarne i parametri.(2) Sottoporre a test l’ipotesi che i rendimenti medi dei 4 settori considerati non siano significativamente

diversi fra loro (α = 0.01).

(C) La DSD ha fase di sperimentazione una nuova tecnologia per la produzione di cd che dovrebbe diminuire irischi di danneggiamento degli stessi durante l’uso. Alcune prove di resistenza hanno dato i seguenti risultati.

Tabella: Risultati delle prove di resistenza di alcuni cd prodotti con la nuova tecnologia.cd 1 2 3 4 5

Resistenza 128 105 115 131 131

Supponendo che Resistenza ∼ N(µ, σ2):(1) Sottoporre a test l’ipotesi che la resistenza media sia 120 (pari a quella dei cd prodotti con la vecchia

tecnologia) contro l’ipotesi alternativa che la resistenza media sia pari 126 (α = 0.05).(2) Nelle ipotesi del punto precedente, determinare la dimensione del campione che sarebbe necessaria

per avere una potenza pari a 0.9 .

(D) Nello studio della dimensione, in termini di fatturato, delle imprese USA operanti nella cosiddetta neweconomy e sono state rilevate le seguenti statistiche riassuntive (dati in milioni di dollari).

n minimo massimo media mediana media geometrica devianza423 0.2271 188187.5 837.6835 0.7339 1.3155 5.9174246e+010

Per studiare tali dati e stata utilizzata la distribuzione di Pareto, la cui funzione di densita di probabilita edata da

f(x; a, b) ={

abax−(a+1) per x ≥ b0 per x < b,

11

Page 12: Corso di Laurea in Statistica Esame di Statistica 2 Prof

dove a > 0 e b > 0. Sulla base delle informazioni campionarie:(1) Trovare le statistiche sufficienti.(2) Determinare le stime di massima verosimiglianza dei parametri.(3) Sottoporre a test l’ipotesi nulla H0: a = 0.56 mediante il test del rapporto di massima verisimiglianza

(α = 0.05).

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 17.12.2001Note: Il punto tra cifre si deve interpretare come virgola.

(A)

(1) Si assume che X ∼ N(µX , σ2X) e Y ∼ N(µY , σ2

Y ). Inoltre H0 : σ2X = σ2

Y = σ2.x = 73 ; y = 78.8S2

X = 32.5 ; S2Y = 58.2

F − campionario = S2X/S2

Y = 0.55842F − critici: F (0.05, 4, 4) = 0.15654 ; F (0.95, 4, 4) = 6.38823

(2) In caso di rifiuto non si puo ovviamente assumere σ2X = σ2

Y = σ2.

(A - prob)

(1) Poniamo: S = Scritto superato; SP = laureato in Scienze Politiche; E = laureato in EconomiaP (S) = P (S|E)P (E) + P (S|SP )P (SP ) = 0.35877

(2) Poniamo: x = 13 , n = 34 , p = P (S) = 0.35877 . Allora per l’approssimazione normaleP (X ≥ x;n, p) ' P (Z ≥ (x− np)/

√npq = 0.28663 ) = 0.3872

(3) P (SP |S) = P (S|SP )P (SP )/P (S) = 0.18431(B)

(1) ANOVA a 1 via: yir = µ + αi + εir dove εir ∼ N(0, σ2)µ = y. =

∑i yini/n = 15.1617

αi = yi − y. = -1.3217 , 1.1083 , 3.7583 , -3.6117

(2) Dev(B) =∑

i(yi − y.)2ni = 701.7819 Dev(W ) =∑

i Dev(i) = 43086.26F − campionario = [Dev(B)/(k − 1)]/[Dev(W )/(n− k)] = 0.5701F − critico = F (0.99; k − 1, n− k) = 3.9738

(C)

(1) Sotto H0, (X − µ0)/(S/√

n) ∼ T4 per cui, dato che µ1 > µ0,x = 122S = 11.5758t− campionario = 0.3863t− critico = 2.1318

(2) γ = P ((X − µ0)/(S/√

n) > c|H1) = P (T > (µ0 − µ1)/(S/√

n) + c|H1) dove c = t− critico e T ∼ T4.Dalle tavole della T4 si trova il valore di t = (µ0 − µ1)/(S/

√n) + c = -1.5332

dalla relazione precedente sostituendo i valori di c, µ0, µ1, S: n = [(t− c)S/(µ0 − µ1)]2 = 50

(D) Usiamo la funzione indicatore. L(a, b|x) =∏

i(abax−(a+1)i I(xi ≥ b)) = anban(

∏i xi)−(a+1)

∏i I(xi ≥ b)

Si puo osservare che: 1)∏

i xi = xng , dove xg e la media geometrica. 2)

∏i I(xi ≥ b) vale 1 solo se tutte le

xi ≥ b; questo significa che b deve essere minore della piu piccola delle xi, ovvero∏

i I(xi ≥ b) = I(b ≤ xmin).Quindi

L(a, b|x) = anban(xg)−n(a+1)I(b ≤ xmin)

12

Page 13: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Una volta fatto questo i tre punti richiesti erano abbastanza semplici.

(1) Criterio di fattorizzazione: la verosimiglianza dipende dal campione solo via xg, media geometrica, exmin, il minimo. Ovviamente ogni trasformazione 1-1 di queste e ancora congiuntamente sufficiente.

(2) Massimizzazione rispetto a b: si vede subito che la verosimiglianza cresce indefinitamente al cresceredi b; tuttavia b e obbligato ad essere ≤ xmin per cui b = xmin = 0.2271 . Massimizzazione rispetto ad a: sifa la logverosimiglianza e si deriva rispetto ad a:

∂l(a, b|x)/∂a = n[1/a + ln b− ln(xg)] = 0,da cui, sostituendo b = xmin, a = 1/(ln(xg))− ln(xmin)) = 0.569288

(3) Denominatore: il massimo non vincolato della verosimiglianza si ottiene sostituendo a e b trovati nellaverosimiglianza Numeratore: a e fissato da H0, mentre il b che massimizza la verosimiglianza con a fissato eidentico al precedente (stessi motivi). Quindi:

R− campionario = anban(xg)−n(a+1)/an0 ba0n(xg)−n(a0+1) = 0.94467745

−2 ln(R− campionario) = 0.113823χ1(0.95) = 3.841459

13

Page 14: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 09.01.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A) Una Camera di Commercio ha rilevato i prezzi di uno stesso capo di abbigliamento in 5 negozi prima edopo il passaggio all’Euro.

Tabella: Prezzi rilevati espressi in Euro.Negozio A B C D EPrima 71.7 82 70.6 64.3 69.1Dopo 78.6 72.8 91.4 76.3 70.7

(1) Sottoporre a test l’ipotesi nulla che i prezzi siano rimasti mediamente inalterati contro l’alternativache siano variati (α = 0.05). Esplicitare le assunzioni fatte.

(2) Calcolare il p-value.

(A-prob) Un dipendente di un servizio di polizia municipale, con riferimento ad un pericoloso snodo deltraffico, ha osservato che sono accaduti 44 incidenti non gravi prima di quello grave che ha spinto a modificarela circolazione nello snodo in questione. Si indichi con p la probabilita che un certo incidente sia definitograve. Sfruttando un database relativo agli incidenti in diversi snodi del traffico il dipendente ha sintetizzatoche, a priori, P (p = 0.01) = 0.433 , P (p = 0.03) = 0.19 , P (p = 0.05) = 0.377 . Sulla base di questi dati:

(1) Determinare la probabilita di un risultato pari a quello osservato.(2) Determinare la probabilita a posteriori dell’evento p = 0.05.

(B) Un medico sta cercando di misurare l’effetto dell’EPO su di un ciclista di cui si occupa sulla base deitempi di percorrenza di uno stesso tratto si strada. I dati sono riportati nella tabella seguente.

Tabella: Tempi di percorrenza e quantita di EPO.Ciclista A B C D E

Tempo percorrenza 59.86 55.71 54.01 47.51 42.75Quantita di EPO 0.05 0.1 0.15 0.2 0.25

Utilizzando un modello la cui parte sistematica e data da y = axb:(1) Procedere alla definizione di un adeguato modello statistico lineare specificando le opportune ipotesi

di base e procedere alla stima puntuale dei parametri.(2) Costruire l’intervallo di confidenza al 90% per a, specificando quali altre ipotesi e necessario aggiungere

al modello.

(C) Con riferimento all’esercizio precedente:

(1) Sottoporre a test l’ipotesi che l’EPO non abbia effetto sulle prestazioni del ciclista, contro l’alternativache il suo effetto sia negativo (cioe all’aumentare della quantita diminuisce il tempo di percorrenza).

(2) Costruire l’intervallo di previsione al 95% del tempo di percorrenza in corrispondenza di una quantitadi EPO somministrata pari a 0.31 .

(D) Un corso universitario ha radicalmente cambiato impostazione rispetto all’anno precedente nel tentativodi migliorare i risultati in termini di percentuale di promossi a ciascun appello. La tabella seguente riportale principali statistiche.

Tabella: Statistiche riassuntive al corso in termini di promossi/respinti.Promossi Respinti

Anno 1999 229 203Anno 2000 342 169

(1) Sottoporre a test (α = 0.01) l’ipotesi nulla che la percentuale di promossi non sia aumentata fra 1999e 2000.

(2) Calcolare la potenza del test nel caso in cui l’ipotesi alternativa sia la percentuale di promossi eaumentata di 9 punti.

14

Page 15: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 09.01.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A) Si assume che D = Y −X ∼ N(µD, σ2D) (dati appaiati) dove Y e dopo e X e prima.

(1)d = 6.42 ; σD = 11.2402t− campionario = 1.27716Regione accettazione [−2.77645, 2.77645]

(2)p− value = P (T < −1.27716|H0) + P (T > 1.27716|H0) = 0.27064

(A-prob) X = numero incidenti non gravi prima di quello grave. X ∼ BiNeg(r = 1, p). p assume valorinell’insieme {p1, p2, p3} = {0.01, 0.03, 0.05}

(1) x = 44 incidenti non gravi prima di quello gravePriori = P (p = pi) = 0.433 , 0.19 , 0.377Verosimiglianze = P (X = x|p = pi) = qx

i pi = 0.00642612 , 0.00785376 , 0.0052337P (X = x) =

∑3i=1 P (X = x|p = pi)P (p = pi) = 0.00624783

(2) P (p = p3|X = x) = P (X = x|p = p3)P (p = p3)/P (X = x) = 0.31580647

(B)

(1) Poniamo y∗i = lnyi, x∗i = lnxi, a∗ = ln a. Allora y∗i = a∗ + bx∗i + ui dove ui indipendenti ∼ [0, σ2]x∗ = -2.038234 ; y∗ = 3.943529Dev(x∗) = 1.615489 ; Dev(y∗) = 0.072226Codev(x∗, y∗) = -0.314068b = -0.194411 ; a∗ = 3.547275 ; a = exp(a∗) = 34.718575Dev(u) = 0.011168 ; σ2 = 0.003723

(2) Aggiungendo l’ipotesi di normalita dei residui abbiamo (a∗ − a∗)/σa∗∼ Tn−2, per cui

σ2

a= σ2[1/n + x∗2/Dev(x∗)] = 0.010318 , t(0.95, 3) = 2.353363

Intervallo al 90% per a∗: [3.308226 ,3.786323 ]Intervallo al 90% per a: [27.336601 ,44.093976 ]

(C)

(1) Sotto H0, b/σb∼ Tn−2 per cui,

σ2

b= σ2/Dev(x∗) = 0.0023044 ,

t− campionario = b/σb

= -4.0498695t− critico = -2.3533634

(2) x0 = 0.31 implica x∗0 = ln(x0) = -1.171183 , per cuiy∗(x∗0) = a∗ + bx∗0 = 3.7749654σ2

y∗(x∗0) = σ2[1/n + (x∗0 − x)∗2/Dev(x∗)] = 0.0024769Intervallo al 95% per y∗(x∗0): [3.6165785 ,3.9333523 ]Intervallo al 95% per y∗(x∗0): [37.210034 ,51.077918 ]

(D) Respinto = 0, Promosso = 1. Allora X ∼ Be(pX) nel 1999, Y ∼ Be(pY ) nel 2000. Si ipotizzano ledue popolazioni indipendenti. L’esercizio per essere risolto richiede una serie di approssimazioni, peraltrogiustificate dalla teoria e dalle dimensioni del campione. H0 : pY − pX = 0, H1 : pY − pX > 0.

Poiche X ≈ N(pX , pXqX/nX) e Y ≈ N(pY , pY qY /nY ) allora come v.c. test possiamo utilizzare[Y − X − (pY − pX)]/σ ≈ N(0, 1) dove σ =

√pX qX/nX + pY qY /nY . Come σ potrebbe essere anche

giustificato un prudenziale σ =√

0.25/nX + 0.25/nY .

15

Page 16: Corso di Laurea in Statistica Esame di Statistica 2 Prof

(1) Sotto H0, Z = (Y −X)/σ ≈ N(0, 1), per cuipX = x = 0.5300926py = y = 0.6692759σ =

√pX qX/nX + pY qY /nY = 0.0317769

z − empirico = c = 4.3800208z − critico = 2.3263479

(2) Sotto H1, Z = [Y −X − (pY − pX)]/σ ≈ N(0, 1), per cuiγ = P [(Y −X)/σ|H1] = P [Z > c− (pY − pX)/σ|H1] = P [Z > −0.5059012|H1] = 0.693537

16

Page 17: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 12.02.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A) La GO-ing produce suole in gomma. Per classificare la qualita dei suoi prodotti l’impresa utilizza l’indicedi impurita B99: I scelta se B99 < 168; II scelta se 168 ≤ B99 < 192.3; se B99 ≥ 192.3 la suola vienescartata. Test di resistenza intensivi hanno dato i seguenti risultati:

suole analizzate suole rotteI scelta 830 172II scelta 685 346

Sapendo che l’indice di impurita si distribuisce secondo una N(µ = 174.7, σ = 28.3):

(1) Calcolare la probabilita che, presa a caso una suola, questa non si rompa nel test di resistenza.(2) Sapendo che nel test una suola non si e rotta, calcolare la probabilita che questa sia di II scelta.

(B) La DEMOTEST sta progettando una rilevazione sulle imprese per chiedere se nei prossimi 6 mesi,rispetto ai 6 precedenti, si apettano un miglioramento oppure un peggioramento della situazione economica.Indicata con p la proporzione di imprese dell’universo che si aspetta un miglioramento:

(1) Determinare la dimensione del campione da intervistare per ottenere un intervallo di stima per p diampiezza 0.0427 (α = 0.05) nel caso in cui non si abbia alcuna informazione su p da sfruttare.

(2) Sulla base della dimensione calcolata al punto precedente, costruire l’intervallo di confidenza per p al95 % sapendo che, fra le imprese intervistate, il 54.1 % si aspetta un miglioramento.

(C) Una grossa compagnia che produce microprocessori, li mette sul mercato in lotti di 1000 pezzi. L’analisidi 15 lotti ha dato i seguenti risultati:

Tabella: Microprocessori difettosi per lotto.Lotto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Microprocessori difettosi 10 12 13 9 10 7 10 17 17 16 15 12 19 14 16

Ipotizzando che il numero di microprocessori difettosi si distribuisca secondo una Poisson(λ):(1) Procedere alla stima puntuale del parametro specificando il metodo di stima utilizzato.(2) Sottoporre a verifica l’ipotesi ”la percentuale di pezzi difettosi per lotto e inferiore al 1.2%” (α = 0.05).

(D) In uno studio antropologico relativo all’analisi di reperti fossili di ominidi adulti di sesso maschile, estata studiata statisticamente fra lunghezza del femore y, espressa in cm, e volume della scatola cranica x,espresso in cm3. Il modello utilizzato nello studio e E(ln y) = β0 + β1 lnx. Non sono stati diffusi i dati masolo le principali statistiche sintetiche:

Tabella: Studio antropologico: Risultati principali.β0 -11.0464 σ(β0) 3.7108β1 2.0819 σ(β1) 0.5314σ 0.1377 n 11

(1) Sottoporre a test l’ipotesi nulla che β1 = 0 (α = 0.05) specificando le ipotesi da aggiungere al modello.(2) Ricavare una stima della Cov(β0, β1).(3) Costruire l’intervallo di previsione al 95% per la lunghezza del femore di un ominide con scatola

cranica di 1230 cm3 precisando la tipologia di intervallo cui ci si riferisce.

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 12.02.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A) R = suola rotta; I = I scelta; II = II scelta.

17

Page 18: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Priori: P (I) = P [Z < (l1 − µ)/σ] = 0.4064, P (II) = P [Z < (l2 − µ)/σ]− P (I) = 0.733− P (I) = 0.3266dove l1 = 168, l2 = 192.3, µ = 174.7, σ = 28.3. Tuttavia poiche quelle scartate non sono considerate, le dueprobabilita devono essere rinormalizzate a sommare 1. In questo modo P (I) = 0.5545 , P (II) = 0.4455 .

Verosimiglianze: P (R|I) = 1-172 /830 = 0.7928 , P (R|II) = 1-346 /685 = 0.4949

(1) P (R) = P (R|I)P (I) + P (R|II)P (II) = 0.6601

(2) P (II|R) = P (R|II)P (II)/P (R) = 0.334

(B)

(1) Se a priori non si ha nessuna conoscenza di p, nella determinazione di n ci sono ragioni per approssi-mare p ≈ N(p, σ = 0.5/

√n). In tal caso si ottiene

n = [z1−α/2/A]2 = (1.96/0.0427)2 = 2107

(2) Ponendo p = 0.541, σ = σ(p) '√

pq/n = 0.01085607Intervallo di confidenza per p: [0.51972 ,0.56228 ]

(C)

(1) Stima di massima verosimiglianza: λ = x = 13.1333

(2) In termini del modello di Poisson, H0 : λ < 1000 ∗ 0.012 = 12. Cio significa ragionare sotto H0 : λ =λ0 = 12. Utilizzando l’approssimazione normale possiamo supporre che, sotto H0, X ≈ N(λ0, σ =

√λ0/n =

0.8944272). Di conseguenza:z − critico = 1.6449z − empirico = 1.2671

(D)

(1) Sotto le ipotesi consuete del modello:regione accettazione = [-2.26216 , 2.26216 ]t− empirico = 3.91776

(2) Poniamo X = lnx, Y = ln y. Sappiamo che Cov(β0, β1) = −Xσ2/Dev(X) = −XV (β1), percui occorre trovare solo X. Dalle formule di V (β0) e V (β1) si ricava che X

2= [V (β0) − σ2/n]/V (β1).

Estraendone la radice quadrata si trova |X|. Manca il segno di X. Tuttavia poiche i volumi cranici sonograndezze dell’ordine delle centinaia di cm3, anche i loro ln sono tutti > 0 e cosi X > 0. Quindi:

X =√

[σ(β0)2 − σ2/n]/σ2(β1) = 6.98263

Cov(β0, β1) = −Xσ2(β1)= -1.9718

(3) Poniamo Y ∗(X0) = β0 + β1X0, dove X0 = ln(x0) = 7.11477 . Allora:Y ∗(X0) = β0 + β1X0 = 3.76584σ(Y ∗(X0))2 = σ(β0)2 + X2

0 σ(β1)2 + 2X0Cov(β0, β1) = 0.00665471σ(Y (X0))2 = σ(Y ∗(X0))2 + σ2 = 0.025616t1−α/2(n− 2) = 2.26216Intervallo per il valore teorico di Y ∗(X0) = [3.5813 ,3.95038 ]Intervallo per il valore teorico di y∗(x0) = [35.92 ,51.95 ]Intervallo per il valore effettivo di Y (X0) = [3.40378 ,4.1279 ]Intervallo per il valore effettivo di y(x0) = [30.08 ,62.05 ]

18

Page 19: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 11.06.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A) Una catena di supermercati utilizza alcuni test standardizzati per la selezione del personale. Gli assuntiall’ultima selezione sono stati classificati, sulla base del punteggio riportato nei test, in tre categorie: A,assunti con punteggio superiore al 3o quartile; B, assunti con punteggio fra il 1o e il 3o quartile; C, assunticon punteggio inferiore al 1o quartile. Successivamente, l’osservazione del comportamento sul lavoro di questiassunti ha portato la direzione del personale a suddividerli in BRAVI e MEDI. Si sono rivelati BRAVI il 37% degli A, il 16 % dei B e il 5 % dei C.

(1) Preso a caso un assunto rivelatosi BRAVO, calcolare la probabilita che esso sia un C.(2) Estratti a caso 7 assunti, calcolare la probabilita che almeno 2 si rivelino BRAVI.

(B) In una indagine effettuata telefonicamente su un campione casuale semplice di intervistati e stato chiestoa questi se andranno in vacanza la prossima estate. Dei 1979 intervistati, 946 hanno dichiarato che andrannoin vacanza. Supponendo che ciascuna unita della popolazione abbia una probabilita p di andare in vacanza:

(1) Sottoporre a test l’ipotesi nulla che ”almeno meta degli italiani andranno in vacanza nell’estate del2002”.

(2) Determinare quale avrebbe dovuto essere la dimensione del campione per avere una potenza del testpari a 0.74 in corrispondenza di una ipotesi alternativa p = 0.47.

(C) Ad alcune persone, intervistate nell’ambito della rilevazione di cui all’esercizio precedente fra quelle cheandranno in vacanza, e stata chiesta la cifra che spenderanno nella vacanza stessa. I risultati sono stati iseguenti:

Tabella: Spesa per le vacanze estive 2002.Intervistato 1 2 3 4 5Spesa (Euro) 1116 1224 1633 995 877

Ipotizzando che il logaritmo naturale della spesa si distribuisca secondo una N(µ, σ2):(1) Indicare due qualsiasi statistiche congiuntamente sufficienti per i parametri calcolandone i valori.(2) Determinare l’intervallo di confidenza al 99 % per µ.

(D) Un ente pubblico ha effettuato un programma di aggiornamento professionale dei propri dipendenti.Questi sono stati suddivisi in 3 gruppi: A = senza aggiornamento; B = aggiornamento con corso interno;C = aggiornamento con corso presso terzi. Sulla base di un indicatore di produttivita sono state rilevate leseguenti statistiche (valori da 0 a 5 inclusi):

Tabella: Produttivita dei dipendenti a seconda del corso professionale effettuato (valori da 0 a 5 inclusi).A = senza corso 3.2 3.1 2.5 2.3

B = corso interno 2.7 2.7 2.7 3.3C = corso esterno 3.5 3.3 3.7 3 3.1

(1) Specificare un modello lineare opportuno. Discutere le ipotesi del modello alla luce dei dati disponibili.(2) Sottoporre a test l’ipotesi che non ci sia un effetto del tipo di corso effettuato.

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 11.06.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A)

(1) P (C|BRAV O) = P (BRAV O|C)P (C)/P (BRAV O) = 0.25 ∗ 0.05/0.185 = 0.067568dove

19

Page 20: Corso di Laurea in Statistica Esame di Statistica 2 Prof

P (BRAV O) = P (BRAV O|A)P (A) + P (BRAV O|B)P (B) + P (BRAV O|C)P (C) = 0.185

(2) Se X = ”numero BRAVI”, allora X ∼ Bi(n, p), dove p = P (BRAV O) = 0.185 e n = 7. QuindiP (X ≥ 2) = 1− P (X = 0)− P (X = 1) = 1− qn − npqn−1 = 1− 0.238838− 0.379503 = 0.381659

(B)

Se X = ”numero di coloro che andranno in vacanza”, allora X ∼ Bi(n, p). Inoltre H0 : p ≥ 0.5 eH1 : p < 0.5. Come noto si ragiona come se H0 fosse” H0 : p = p0 = 0.5. Allora

(1)zα = -1.64485 (α = 0.05)z − empirico = (x− p0)/

√p0q0/n = -1.95567

(2)c = p0 + zα

√p0q0/n per cui

γ = P [Z < (c− p1)/√

p1q1/n = zγ ] implica n = (zγ√

p1q1 − zα√

p0q0)2/(p0 − p1)2 = 1451

(C)

(1) µ = x = 7.040962, σ2 = s2 = 0.055485 (stimatore corretto). Va bene anche una qualsiasi trasfor-mazione 1-1 di questi due stimatori.

(2)intervallo = [x− zS/

√n, x + zS/

√n] = [6.769617, 7.312307], dove z = z(1−alpha)/2 = 2.575829

(D)

(1) ANOVA a 1 via: yir = µ + αi + εir dove εir ∼ N(0, σ2). Il fatto che i dato siano compresi fra 0 e 5puo far dubitare dell’ipotesi di normalita.

(2) yi. = 2.775, 2.85, 3.32, y.. =∑

i yi.ni/n = 3.007692Dev(B) =

∑i(yi. − y..)2ni = 0.803731

Dev(T ) =∑

i

∑r(yir − y..)2 = 1.989231

Dev(W ) = Dev(T )−Dev(B) = 1.1855F − empirico = [Dev(B)/(k − 1)]/[Dev(W )/(n− k)] = 3.389839F − critico = F (0.95; k − 1, n− k) = 4.102821

20

Page 21: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 16.07.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A) Una casa automobilistica, dopo un certo periodo dal lancio del modello ha modificato la frizione chenella versione precedente aveva dato alcuni problemi. Dalle informazioni a disposizione e stato calcolato chela durata di una frizione si distribuisce approssimativamente come una normale: la 1a versione con media81900 e deviazione standard 10300 , la 2a versione con media 126500 e deviazione standard 18200 . Sapendoche di auto ne sono state prodotte, rispettivamente, 555000 con la 1a versione di frizione e 1299000 con la2a versione:

(1) Presa a caso un’auto calcolare la probabilita che la frizione si rompa prima di 100000 km.(2) Sapendo che la frizione si e rotta prima di 100000 km calcolare la probabilita che l’auto disponga

della 2a versione di frizione.

(B) Due gruppi di topi sono stati sottoposti a due regimi alimentari diversi. Sempre mantenendo un certoequilibrio dal punto di vista dei nutrienti, il primo gruppo e stato alimentato con una dieta ”normale”,mentre il secondo con una dieta ”ipocalorica” (40% di calorie in meno rispetto alla dieta ”normale”). Dopoun periodo di tempo prefissato sono stati rilevati i seguenti dati di mortalita:

regime alimentare totale mortidieta ”normale” 92 51

dieta ”ipocalorica” 77 32(1) Sottoporre a test l’ipotesi nulla ”non vi sono differenze di mortalita” fra i due gruppi di topi.(2) Calcolare il p-value.

(C) E in fase di sperimentazione un nuovo materiale elastico. Sulla superficie del materiale viene gettatauna sfera di metallo e viene misurato il grado di restituzione dell’energia cinetica. Studi teorici indicano cheil coefficiente di restituzione y dipende da x, la distanza fra il punto in cui la sfera colpisce la superficie e ilcentro della stessa, secondo la relazione

ln y = a + b exp(−x2) + ε

dove ε ha media 0 e varianza σ2. I dati di alcune prove effettuate sono riportati in tabella.

Tabella: Risultati del test del nuovo materiale elastico.y 0.74 0.71 0.81 0.7 0.46x 0 0.1 0.2 0.4 0.8

(1) Stimare i coefficienti a e b specificando il metodo di stima utilizzato e il motivo per cui e stato scelto.(2) Stimare il coefficiente di restituzione y quando la sfera colpisce esattamente il centro del materiale.

(D) Con riferimento ai dati dell’esercizio precedente:

(1) Stimare la varianza σ2.(2) Determinare l’intervallo di confidenza al 95% per σ2 specificando quale ipotesi e necessario aggiungere

al modello per ottenere il risultato.

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 16.07.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A) X = v.c. durata della frizione

(1) P (X < 100000) = P (X < 100000|1a)P (1a) + P (X < 100000|2a)P (2a) = 0.960565 ∗ 0.299353 +0.07269 ∗ 0.700647 = 0.338478

21

Page 22: Corso di Laurea in Statistica Esame di Statistica 2 Prof

(2) P (2a|X < 100000) = P (X < 100000|2a)P (2a)/P (X < 100000) = 0.150468

(B) Sia Xi ∼ Bernoulli(pi) la v.c. ”topo morto” nelle due popolazioni, dove i = 1 indica la popolazione condieta ”normale” e i = 2 la popolazione con dieta ”ipocalorica”. Per sottoporre a test l’ipotesi H0 : p1 = p2

contro H1 : p1 6= p2 si puo utilizzare la variabile test X1−X2 che, in base alle condizioni dell’esercizio, sottoH0 si distribuisce approssimativamente come una N(0, pq(1/n1 +1/n2)) dove p e il valore comune (sotto H0)di p1 e p2. D’altra parte p non si conosce. Tuttavia si puo stimare (sotto H0) dai dati delle 2 popolazionimediante p = (n1X1 + n2X2)/(n1 + n2) e utilizzare quindi come distribuzione approssimata della variabiletest la N(0, pq(1/n1 + 1/n2)).

(1) x1 = 51/92 = 0.554348, x2 = 32/77 = 0.415584p = (n1x1 + n2x2)/(n1 + n2) = 0.491124regione accettazione (nella v.c. Z) = [-1.959964 , 1.959964 ]z(empirico) = 1.797088

(2) p− value = 2 ∗ P (Z > |z(empirico)||H0) = 2 ∗ 0.036161 = 0.072322

(C) Il modello e lineare nei parametri. Per semplicita utilizziamo le variabili trasformate y∗ = ln y ex∗ = exp(−x2) . I dati relativi alle variabili trasformate sono:

y∗ = ln y -0.301105 -0.34249 -0.210721 -0.356675 -0.776529x∗ = exp(−x2) 1 0.99005 0.960789 0.852144 0.527292

mentre le ”statistiche sufficienti” risultano:x∗ = 0.866055, y∗ = −0.397504dev(x∗) = 0.157244, dev(y∗) = 0.192534codev(x∗, y∗) = 0.16526

(1) Si utilizza il metodo dei minimi quadrati, sulla base del qualeb = codev(x∗, y∗)/dev(x∗) = 1.050975a = y∗ − bx∗ = −1.307707

(2) y(0) = exp(a + b) = 0.773576

(D) I residui della regressione precedente nelle variabili trasformate sono:y∗ -0.256731 -0.267189 -0.297941 -0.412124 -0.753535ε -0.044374 -0.075302 0.08722 0.05545 -0.022994

per cui:

(1) σ2 =∑

i ε2i /(n− 2) = 0.01884998 /3 = 0.00628333

(2) Aggiungendo l’ipotesi di normalita dei residui (n− 2)σ2/σ2 ∼ χ2(n− 2) per cuiintervallo al 95% = [(n− 2)σ2/χ2(1− α/2), (n− 2)σ2/χ2(α/2)] = [0.00201639 ,0.08735124 ]

22

Page 23: Corso di Laurea in Statistica Esame di Statistica 2 Prof

Statistica 2, Scienze Statistiche, Prova scritta del 05.09.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A) La banca BSP ha ricavato alcune statistiche dal database relativo alle imprese sue clienti. Su un totaledi 7586 imprese considerate 7028 hanno restituito il finanziamento. Andando poi a studiare l’indicatore dibilancio LEVA di tali imprese, l’analisi ha mostrato che il logaritmo naturale di questo indicatore ha unadistribuzione approssimativamente normale: per le imprese che hanno restituito il finanziamento con media-0.96 e deviazione standard 0.33 , per quelle che non l’hanno restituito con media -0.36 e deviazione standard0.3 .

(1) Calcolare la probabilita che, presa a caso una impresa, la sua LEVA sia maggiore di 0.85 .(2) Sapendo che la leva e maggiore di 0.85 , calcolare la probabilita che l’impresa non abbia restituito il

finanziamento.

(B) Alcuni punti vendita della catena di negozi di abbigliamento SFERA sono stati sottoposti a restyling.Per valutare se cio ha avuto effetto sulle vendite sono stati confrontati i volumi venduti prima e dopo ilrestyling. I dati sono riportati nella tabella seguente.

Tabella: Vendite di alcuni negozi della catena SFERA (in milioni di Euro)Punto vendita 1 2 3 4 5

Vendite ante-restyling 0.28 1.52 0.19 2.14 3.13Vendite post-restyling 0.3 1.94 0.19 2.58 4.07

Ipotizzando che il logaritmo naturale dei volumi di vendita si distribuisca come una normale:(1) Sottoporre a test l’ipotesi nulla che il restyling non abbia avuto effetto sulle vendite.(2) Calcolare la potenza del test in corrispondenza della seguente ipotesi alternativa: ”i logaritmi naturali

delle vendite post e ante restyling differiscono in media per 0.06 ” (N.B. si consideri la regione critica trovataal punto 1)

(C) I bambini di un asili nido sono stati sottoposti ad un’analisi per valutare la relazione fra capacitamanuali (X) e capacita verbali (Y ) (tali capacita sono misurate da appositi indici). I risultati dello studiosono sintetizzati nelle seguenti statistiche:

Tabella: Relazione capacita manuali, capacita verbali: alcune statistiche.Statistiche n

∑i xi

∑i yi

∑i x2

i

∑i y2

i

∑i xiyi

∑i x2

i y2i

Valori 89 3554.07 2593.46 151592.55 87551.04 110310.3 1.8195016e+008

(1) Ipotizzando che la relazione fra le due variabili sia di tipo lineare (Y variabile dipendente), stimare iparametri mediante il metodo dei minimi quadrati.

(2) Stimare il valore della capacita verbale in corrispondenza di una capacita manuale pari a 63 .

(D) Dai dati dell’esercizio precedente:

(1) Fornire una stima puntuale della varianza dell’errore ricavandola dalle statistiche riportate.(2) Costruire l’intervallo di previsione al 95% per la capacita verbale di cui al punto (2) dell’esercizio

precedente, precisando la tipologia di intervallo cui ci si riferisce.

Statistica 2, Scienze Statistiche, Soluzioni della prova scritta del 05.09.2002Note: Il punto tra cifre si deve interpretare come virgola.

(A)

R variabile indicatore: R = 1 = fin. restituito, R = 0 = fin. non restituito; X = LEVA.(lnX|R = 1) ∼ N(−0.96, 0.33); (lnX|R = 0) ∼ N(−0.36, 0.3); v = 0.85.

23

Page 24: Corso di Laurea in Statistica Esame di Statistica 2 Prof

(1) P (X > v) = P (X > v|R = 1)P (R = 1) + P (X > v|R = 0)P (R = 0) = 0.026027.InfattiP (X > v|R = 1) = P (lnX > ln v|R = 1) = P [Z > (ln v + 0.96)/0.33] = P (Z > 2.416609) = 0.007833P (X > v|R = 0) = P (lnX > ln v|R = 0) = P [Z > (ln v + 0.36)/0.3] = P (Z > 0.65827) = 0.255182P (R = 1) = 7586/7028 = 0.926443P (R = 0) = 1− 0.926443 = 0.073557

(2) P (R = 0|X > v) = P (X > v|R = 0)P (R = 0)/P (X > v) = 0.721185

(B)

X = vendite ante-restyling; Y = vendite post-restylingPunto vendita 1 2 3 4 5

lnx -1.27297 0.41871 -1.66073 0.76081 1.14103ln y -1.20397 0.66269 -1.66073 0.94779 1.40364

d = ln y − lnx 0.06899 0.24398 0 0.18698 0.26261D = ln Y − lnX ∼ N(µ, σ); H0 : µ = 0 vs H1 : µ 6= 0.

(1)Statistica test: T = D/(S/

√n) ∼ Tn−1 sotto H0

Statistiche campionarie: d = 0.15251, s = 0.11392A = regione accettazione = [−t, t] = [−2.77645, 2.77645]t-empirico = 2.99358

(2)γ = P (X ∈ R|H1) = 1− P (X ∈ A|H1) = 1− P (−t ≤ T ≤ t|H1)= 1− P (−ts/

√n ≤ D ≤ ts/

√n|H1) = 1− P [−t− µ1/(s/

√n) ≤ T ≤ t− µ1/(s/

√n)]

= 1− P [T ≤ t− µ1/(s/√

n)] + P [T ≤ −t− µ1/(s/√

n)]= 1− 0.9074384 + 0.0083798 = 0.1009414oppure 1− 0.945061 + 3.84e− 005 = 0.0549774 se i conti sono fatti utilizzando la normale.

(C)

(1) b = codev(x, y)/dev(x) = 0.697736 ; a = y − bx = 1.277063dovex = 39.933371, y = 29.14, dev(x) = 9666.5549, dev(y) = 11977.616, codev(x, y) = 6744.7002.

(2) y(63) = a + b63 = 45.23441

(D)

(1) σ2 = [dev(y)− b ∗ codev(x, y)]/(n− 1) = 82.6318.Per ottenerlo si parte da

∑i u2

i =∑

i(yi − a− bxi)2, si sostituisce ad a la sua espressione e si sviluppa.

(2) Intervallo per il valore teorico di y(63) = [40.5829, 49.8859]Intervallo per il valore effettivo di y(63) = [26.5775, 63.8913]

24