Lezioni di STATISTICA MATEMATICA - cdm.unimo.it

26 downloads 231 Views 1MB Size Report
Lezioni di. STATISTICA MATEMATICA. Docente: Prof. Valter Franceschini per i Corsi di Laurea in Ingegneria Meccanica e dei Materiali. - a.a. 2008/09 - ...
Universit` a di Modena e Reggio Emilia Facolt` a di Ingegneria - sede di Modena

Lezioni di STATISTICA MATEMATICA

Docente: Prof. Valter Franceschini

per i Corsi di Laurea in Ingegneria Meccanica e dei Materiali - a.a. 2008/09 -

INDICE 1

` CALCOLO DELLE PROBABILITA

1

1.1

Calcolo combinatorio

1

1.2

La probabilit` a matematica Spazi di probabilit`a finiti Spazi finiti equiprobabili

5 8 9

1.3

Probabilit` a condizionata Eventi indipendenti Formula di Bayes

14 16 19

1.4

Variabili aleatorie Variabili aleatorie discrete Variabili aleatorie continue

23 25 26

1.5

Media e varianza

31

1.6

Variabili aleatorie bidimensionali

37

1.7

Distribuzioni binomiale, di Poisson e di Gauss Distribuzione binomiale Distribuzione di Poisson Distribuzione di Gauss

46 46 49 51

1.8

Approssimazione normale

55

1.9

Altre distribuzioni Distribuzione esponenziale Distribuzione ipergeometrica Distribuzione geometrica

61 61 63 65

2

STATISTICA DESCRITTIVA

66

2.1 2.2 2.3

Introduzione Organizzazione e rappresentazione dei dati Grandezze che sintetizzano i dati

66 66 71

3

STATISTICA MATEMATICA

81

3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14

Popolazioni e campioni Stimatori Distribuzioni chi-quadro e di Student Intervalli di fiducia (o di confidenza) Stima della media di una popolazione normale Stima della varianza di una popolazione normale Stima della differenza delle medie di due popolazioni normali Stima di una proporzione Basi logiche dei test Formulazione di un test di ipotesi Test di significativit` a Test riguardanti la media di una popolazione normale Test riguardanti la differenza delle medie di due popolazioni normali Curve caratteristiche operative dei test

81 82 85 87 87 91 94 99 102 104 107 109 117 120

Tavole delle leggi N (0, 1), χ2n e Tn

125

Bibliografia

128

CAPITOLO

` 1: CALCOLO DELLE PROBABILITA

1.1 CALCOLO COMBINATORIO DISPOSIZIONI Definizione Una disposizione semplice di n oggetti dati presi k alla volta ` e una k¡upla ordinata di k oggetti distinti scelti tra gli n (ovviamente k · n) . Esempio 1.1.1 Le disposizioni semplici dei 3 oggetti dati a, b, c presi a coppie (per cui k = 2, n = 3), sono (a, b), (b, c), (c, a), (b, a), (c, b), (a, c) . Proposizione Il numero di disposizioni semplici di n oggetti presi k alla volta, che indichiamo con D(k; n), `e il prodotto dei k numeri naturali decrescenti a partire da n: D(k; n) = n(n ¡ 1) ¢ ¢ ¢ (n ¡ k + 1) =

n! . (n ¡ k)!

Infatti, se riempio k caselle in ordine, nella prima ho n possibilit`a di scelta, nella seconda (n ¡ 1) possibilit`a, ..., nella k¡esima (n ¡ k + 1). Definizione Una disposizione con ripetizione di n oggetti dati presi k alla volta `e una k¡upla ordinata i cui elementi, non necessariamente distinti, sono scelti fra gli n. Osservazione: differentemente dal caso delle disposizioni semplici, k pu`o anche essere maggiore di n. Esempio 1.1.2 Le diposizioni con ripetizione dei tre oggetti a, b, c a due a due (per cui n = 3, k = 2) sono (a, a), (a, b), (b, a), (b, b), (b, c), (c, b), (a, c), (c, a), (c, c) . Proposizione

Il numero di disposizioni con ripetizione di n oggetti presi k alla

volta `e D R (k; n) = nk . Infatti, se riempio k caselle in ordine, nella prima casella ho n possibilit`a di scelta, nella seconda ho ancora n possibilit`a, e cos`ı per tutte le altre caselle. Ottengo quindi il numero di oggetti elevato al numero di caselle. Il numero delle possibile schedine del totocalcio `e 313 ; questo `e infatti il numero di disposizioni con ripetizione dei 3 simboli 1, 2, x, in 13 caselle ordinate.

Esempio 1.1.3

Osservazione: Come si deduce da quanto appena visto, in questo contesto l’aggettivo 1

”semplice” significa ”senza ripetizioni”.

2

PERMUTAZIONI Definizione Una permutazione di n oggetti dati ` e una n¡upla ordinata i cui elementi sono tutti gli n oggetti. Detto altrimenti, una permutazione `e una disposizione semplice degli n oggetti dati quando sono presi tutti n (si tratta del caso k = n). Di conseguenza il numero P (n) delle possibili permutazioni di n oggetti vale P (n) = n(n ¡ 1) ¢ ¢ ¢ 3 ¢ 2 ¢ 1 ´ n! Il simbolo n! si legge “n fattoriale” e designa il prodotto dei primi n numeri naturali. Per convenzione si pone 0! = 1. Si `e dunque trovato che vale la seguente Proposizione

Il numero P (n) delle permutazioni di n oggetti `e uguale a n! .

Esempio 1.1.4

Le permutazioni di 5 clienti di banca (che rappresentano i possibili modi di metterli in ordine di attesa a uno sportello) sono 5!, ossia = 5 ¢ 4 ¢ 3 ¢ 2 ¢ 1 = 120.

COMBINAZIONI Definizione Una combinazione semplice di n oggetti dati presi k alla volta, k · n, ` e un sottoinsieme non ordinato di k oggetti distinti scelti tra gli n. Esempio 1.1.5

Le combinazioni dei 3 oggetti a, b, c, presi 2 alla volta sono

fa, bg, fb, cg, fa, cg . Si noti che fa, bg ´ fb, ag. Per gli insiemi astratti (per i quali si usa la parentesi graffa) non vige alcuna struttura d’ordine.

Proposizione Il numero di combinazioni semplici di n oggetti presi k alla volta, che indichiamo con C(k; n), vale   C(k; n) =

Ricordato che

n . k

  n n(n ¡ 1)...(n ¡ k + 1) n! := = , k k! k!(n ¡ k)!

dimostriamo la proposizione enunciata. Per ciascuna combinazione in cui sono presi k oggetti alla volta, esistono P (k) modi di metterli in ordine. Di conseguenza, fra il numero D(k; n) delle disposizioni e il numero C(k; n) delle combinazioni vale la seguente relazione D(k; n) = C(k; n) ¢ P (k) , da cui C(k; n) =

D(k; n) . P (k)

Da questa segue immediatamente la tesi della proposizione. 3

Esempio 1.1.6 Il numero di comitati di 4 persone che si possono formare da un gruppo di 9 `e

  9¢8¢7¢6 9 C(4; 9) = = 9!/[4!(9 ¡ 4)!] = = 126 . 4 4¢3¢2¢1

Definizione Una combinazione con ripetizione di n oggetti dati presi k alla volta `e un insieme non ordinato di k oggetti, non necessariamente distinti, scelti tra gli n. Osservazione: come per le disposizioni con ripetizione, e differentemente dal caso delle combinazioni semplici, k pu` o anche essere maggiore di n. Esempio 1.1.7 Le combinazioni con ripetizione dei 3 oggetti a, b, c, presi a coppie sono

fa, ag, fa, bg, fa, cg, fb, bg, fb, cg, fc, cg . Analogamente, le combinazioni con ripetizione dei 2 oggetti a e b presi a terne sono

fa, a, ag, fa, a, bg, fa, b, bg, fb, b, bg . Proposizione

Il numero di combinazioni con ripetizione di n oggetti presi k alla

volta `e C R (k; n) =



 n+k¡1 . k

Dimostrazione Si tratta di contare il numero di soluzioni (a1 , a2 , . . . , ak ), con gli ai numeri interi, soddisfacenti la relazione 1 · a1 · a2 · ¢ ¢ ¢ · ak · n . Questa relazione equivale alla seguente 0 < a1 < a2 + 1 < a3 + 2 < ¢ ¢ ¢ < ak + k ¡ 1 < n + k , che a sua volta equivale a 0 < b1 < b2 < ¢ ¢ ¢ < bk < n + k , con i bi interi. Ne consegue che il numero cercato `e uguale al numero di possibili scelte di k oggetti distinti presi dall’insieme f1, 2, . . . , n + k ¡ 1g, e quindi `e uguale a C(k; n + k ¡ 1). Applichiamo la formula che ci d` a C R (k; n) per verificare che il numero di combinazioni con ripetizione nei due casi visti nell’esempio 1.1.7 `e rispettivamente 6 e 4. Dobbiamo ovviamente calcolare C R (2, 3) e C R (3, 2). Si ha

Esempio 1.1.8

    3+2¡1 4 C (2, 3) = = = 6; 2 2     2+3¡1 4 C R (3, 2) = = = 4. 3 3 R

4

Esercizio 1.1.1 Si consideri un gruppo costituito da 20 persone. Ci si pone il seguente problema: qual `e la probabilit` a che queste persone compiano gli anni in giorni tutti diversi? Com’`e facilmente intuibile, la probabilit` a che ci interessa `e data dal rapporto fra il numero Ndist dei casi possibili di 20 compleanni tutti distinti e il numero totale Ntot dei casi possibili di 20 compleanni anche con coincidenze. Volendo formalizzare il problema in termini matematici, indichiamo con (c1 , c2 , ..., c20 ) la 20¡upla definita dai 20 compleanni, con ci giorno di compleanno della i-esima persona. Allora Ndist corrisponde al numero delle possibili 20¡uple di ci tutti distinti, con 1 · ci · 365, il che implica Ndist = D(20; 365). D’altra parte Ntot corrisponde al numero di tutte le possibili 20¡uple con 1 · ci · 365, ossia Ntot = D R (20; 365). Indicando con P la probabilit` a cercata si ha

P=

 346  D(20; 365) 365 ¢ 364 ¢ ¢ ¢ ¢ ¢ 346  365  364  Ndist = ¢ ¢ ¢ ¼ 59% . = R = Ntot D (20, 365) (365)20 365 365 365

Proposizione

Vale la seguente formula, detta formula binomiale di Newton:

        n n n n n n n−1 n−1 (a + b) = a + a b + ... + ab + b 0 1 n¡1 n n

ovvero, in notazione compatta,

(a + b)n =

n    n k=0

Dimostrazione

k

an−k bk .

(a + b)n = (a + b)(a + b)...(a + b) [n volte] `e una lunga somma che contiene pi` u volte l’addendo generico an−k bk . Fissiamo k, con k · n. Quante volte appare tale addendo? Tante quante le possibili scelte di k parentesi tra le n date, prendendo da ciascuna il fattore b (ottenendo cos`ı bk ), e conseguentemente prendendo da ciascuna delle rimanenti n ¡ k parentesi il fattore a (ottenendo cos`ı an−k ). In altre parole: il fattore an−k bk compare   tante volte quante n sono le combinazioni semplici di k oggetti tra gli n dati. Cio`e volte. Quindi tale k   n addendo va moltiplicato per e la somma va fatta rispetto a k come enunciato. k Esercizio 1.1.2 Provare la propriet`a dei coefficienti binomiali       n¡1 n¡1 n + = . k¡1 k k Procediamo con calcolo diretto:

    n¡1 n¡1 (n ¡ 1)! (n ¡ 1)! + = + = k¡1 k (k ¡ 1)! (n ¡ k)! k! (n ¡ 1 ¡ k)!   (n ¡ 1)! k + (n ¡ 1)! (n ¡ k) (n ¡ 1)! (k + n ¡ k) n = = = . k! (n ¡ k)! k! (n ¡ k)! k

Osserviamo che `e grazie a questa relazione che si costruisce il famoso “triangolo di Tartaglia”.

5

` MATEMATICA 1.2 LA PROBABILITA Definizione Si chiama spazio campionario l’insieme S di tutti i possibili esiti di un dato esperimento. Un evento `e un insieme di esiti, cio`e un sottinsieme dello spazio campionario S. Si dice poi classe di eventi, e la denoteremo con Ω,

ogni insieme non vuoto di eventi che risulti essere chiuso rispetto alle operazioni insiemistiche elementari, vale a dire: i) dati due eventi A, B 2 Ω, allora anche A [ B 2 Ω (A [ B `e l’evento che si verifica se si verifica almeno uno fra gli eventi A e B); ii) data una successione  numerabile di eventi Ai 2 Ω, allora anche la loro unione `e un evento, cio`e ∞ i=1 Ai 2 Ω;

iii) dato un evento A 2 Ω, allora anche il suo complementare AC ´ S ¡ A 2 Ω (AC `e l’evento che si verifica quando A non si verifica). Dai tre assiomi che caratterizzano una classe di eventi Ω seguono queste altre propriet`a: — Dati due eventi A e B , anche A \ B ` e un evento; A \ B = (AC [ B C )C

A \ AC = ;

=)

A\ B 2 Ω;

=)

— L’insieme vuoto ; e lo spazio S sono eventi; ; 2 Ω,

infatti:

infatti, preso A 2 Ω, si ha

A [ AC = S

=)

S 2 Ω.

L’evento ; `e detto evento impossibile e S `e detto evento certo. Definizione Due eventi A e B sono detti incompatibili se sono disgiunti, cio` e se A \ B = ;. A parole: due eventi sono incompatibili se non si possono mai verificare simultaneamente. Esempio 1.2.1

Si consideri il seguente esperimento: si getta un dado e si guarda il risultato della prova, vale a dire il numero che si presenta. Lo spazio campionario consiste nei sei numeri possibili:

S = f1, 2, 3, 4, 5, 6g .

Consideriamo i seguenti eventi: A:“il risultato `e un numero pari”; B :“il risultato `e un numero dispari”; C :“il risultato `e un numero primo”. In termini si sottinsiemi di S :

A = f2, 4, 6g ,

Si ha quindi, ad esempio:

B = f1, 3, 5g ,

C = f2, 3, 5g .

AC = f1, 3, 5g = B ; C C = f1, 4, 6g: `e l’evento “il risultato non `e un numero primo”; B \ C = f3, 5g: `e l’evento “il risultato `e un numero dispari e primo”; A [ C = f2, 3, 4, 5, 6g: `e l’evento “il risultato `e un numero pari o primo”. Si noti che gli eventi A e B , essendo A \ B = ;, sono incompatibili.

6

Osservazione: Come si evince dall’esempio, gli eventi sono definiti mediante proposizioni fatte nel linguaggio comune, e poi identificati con sottinsiemi di S . Sulla base di questa considerazione risulta molto pi` u appropriato parlare di eventi incompatibili piuttosto che di eventi disgiunti, e di sottinsiemi disgiunti piuttosto che di sottinsiemi incompatibili. Accade per` o spesso che i due aggettivi siano usati indifferentemente.

Definizione Sia S uno spazio campionario ed Ω una classe di eventi in S. Sia poi P una funzione definita su Ω a valori in [0, 1]: P : Ω ¡! [0, 1] .

Allora (S, Ω, P ) `e detto spazio di probabilit` a e P (A) ` e detta probabilit` a dell’evento A 2 Ω se valgono i seguenti tre assiomi: 1) P (S) = 1 ; 2) se A e B sono due eventi incompatibili, allora 3)

P (A [ B) = P (A) + P (B) ;

se fAn , n 2 N g `e una successione numerabile di eventi incompatibili, si ha ∞    P [∞ A = P (An ) . n n=1 n=1

Gli assiomi 2) e 3) esprimono il fatto che le probabilit`a di eventi incompatibili si sommano. In particolare l’assioma 3), che ovviamente ha significato solo nel caso in cui Ω `e un insieme infinito, si esprime sinteticamente dicendo che P `e numerabilmente additiva. Teorema

P (;) = 0 . (La probabilit` a dell’evento impossibile `e nulla)

Dimostrazione Sia A un qualunque evento di Ω. Poich´e anche ; 2 Ω, segue che A [ ; 2 Ω. Inoltre, A ed ; sono eventi incompatibili essendo A \ ; = ;. In virt` u dell’assioma 2) si ha quindi P (A) = P (A [ ;) = P (A) + P (;)

=)

P (;) = 0 .

Teorema (regola di complementazione) Sia A 2 Ω un evento ed AC il suo comple-

mentare. Allora si ha

P (AC ) = 1 ¡ P (A) . Dimostrazione Essendo A \ AC = ;, A ed AC sono eventi incompatibili. Di conseguenza, applicando l’assioma 2) ad S, si ottiene P (S) = P (A [ AC ) = P (A) + P (AC ) = 1 , da cui consegue banalmente la tesi. 7

Teorema Se A e B sono due eventi tali che A µ B , allora P (A) · P (B) . Dimostrazione Essendo A µ B si pu`o decomporre B negli eventi incompatibili A e B ¡ A = B \ AC . Si pu`o quindi scrivere P (B) = P (A [ (B ¡ A)) = P (A) + P (B ¡ A) ¸ P (A) , esssendo P (B ¡ A) ¸ 0. Teorema

Se A e B sono due eventi qualun-

que, allora P (A ¡ B) = P (A) ¡ P (A \ B) . Dimostrazione L’evento A pu`o essere decomposto negli eventi incompatibili A ¡ B e A \ B, per cui, in virt` u dell’assioma 2), si ha   P (A) = P (A ¡ B) [ (A \ B) = P (A ¡ B) + P (A \ B) .

La tesi segue immediatamente.

Teorema (regola di addizione per eventi arbitrari) Se A, B sono eventi arbitrari di uno

spazio di probabilit`a, allora P (A [ B) = P (A) + P (B) ¡ P (A \ B) . Dimostrazione Scriviamo A [ B come unione dei due eventi incompatibili A ¡ B e B. Applicando quindi l’assioma 2) e il teorema precedente si ottiene la tesi.   P (A [ B) = P (A ¡ B) [ B = P (A ¡ B) + P (B) = P (A) + P (B) ¡ P (A \ B) .

8

Spazi di probabilit`a finiti Sia S uno spazio campionario finito: S = fa1 , a2 , . . . , aN g ed Ω l’insieme di tutti i sottinsiemi di S (inclusi S e ;). Si ottiene uno spazio di probabilit`a finito assegnando a ciascun elemento ai di S un numero reale pi , detto probabilit` a di ai e indicato come P (fai g), tale che i) ii)

pi ¸ 0 per ogni i = 1, 2, . . . , N ; la somma delle singole probabilit`a `e uguale a 1, ossia

N

i=1

pi = 1 .

La probabilit`a P (A) di un qualsiasi evento A µ S viene quindi definita come la somma delle probabilit`a degli eventi elementari fai g contenuti in A: P (A) = P



     fai g = P fai g = pi .

i:ai ∈A

i:ai ∈A

i:ai ∈A

Dimostriamo che la funzione P : Ω ! [0, 1] `e una funzione di probabilit`a facendo vedere che valgono gli assiomi 1) e 2). Per quanto riguarda la validit`a dell’assioma 1), si ha P (S) = P



N N N  

     fai g = P fai g = P fai g = pi = 1 . i=1

i:ai ∈S

i=1

i=1

D’altra parte, se A e B sono eventi incompatibili, abbiamo P (A [ B) = P =





i:ai ∈A∪B



i:ai ∈A

pi +

 fai g = 



i:ai ∈A∪B

  P fai g =

pi = P (A) + P (B) ,

i:ai ∈B

per cui vale anche l’assioma 2). Valgono dunque tutti gli assiomi richiesti perch´e P sia una probabilit`a (essendo lo spazio finito, l’assioma 3) non ha significato). Dal punto di vista pratico ci sono diversi modi di assegnare le probabilit`a pi agli eventi elementari fai g. Uno dei possibili modi `e il seguente: se ripetiamo lo stesso esperimento n volte e chiamiamo si il numero di volte che si verifica fai g, si osserva che il rapporto si , n detto frequenza relativa, a lungo andare tende a stabilizzarsi, cio`e tende ad un limite pi (compreso, ovviamente, tra 0 ed 1). Questo valore limite pi , cos`ı calcolato empiricamente, viene assunto come la probabilit` a dell’evento elementare fai g.

9

Spazi finiti equiprobabili Definizione Si dice spazio equiprobabile (o uniforme) uno spazio di probabilit` a finito dove ciascun elemento dello spazio campionario S (o, equivalentemente, ciascun evento elementare) ha la stessa probabilit`a. Dalla definizione e dagli assiomi della probabilit`a segue immediatamente che, se lo spazio campionario S consta di N elementi, la probabilit`a di ciascun elemento di S 1 vale p = . Avremo inoltre che, dato un qualunque evento A, la sua probabilit`a sar`a N da numero degli elementi di A jAj = . P (A) = N N A parole: in uno spazio finito equiprobabile, la probabilit` a di un evento vale il numero dei casi favorevoli diviso il numero dei casi possibili. Nota bene: jAj denota la cardinalit`a di A, cio`e il numero degli eventi elementari che costituiscono A. Questa notazione sar`a utizzata anche in seguito. Esempio 1.2.2

Consideriamo un dado non truccato: avremo

S = f1, 2, 3, 4, 5, 6g,

P (1) = P (2) = ¢ ¢ ¢ = P (6) =

N = 6,

1 6

.

Vogliamo calcolare, ad esempio, la probabilit` a degli eventi

A : esce un numero pari,

B : esce un numero minore di 3.

Si avr` a

P (A) =

1 jf2, 4, 6gj = , 6 2

P (B) =

jf1, 2gj 1 = . 6 3

Esercizio 1.2.1 Si scelga a caso una carta da un mazzo ben mescolato di 52 carte da ramino. Ci si chiede la probabilit` a di ottenere: 1) un asso; 2) una carta di fiori; 3) una figura; 4) una figura non di cuori. Lo spazio campionario S `e ovviamente l’insieme delle 52 carte, per cui N =52. Siano poi A1 , A2 , A3 e A4 gli eventi di cui si chiede, nell’ordine, la probabilit`a. Essendo lo spazio equiprobabile (la carta `e scelta a caso!), avremo:

jA1 j N jA2 j P (A2 ) = N jA3 j P (A3 ) = N jA4 j P (A4 ) = N P (A1 ) =

4 1 = ; 52 13 numero delle carte di fiori 13 1 = = = ; N 52 4 numero delle figure 12 3 = = = ; N 52 13 numero delle figure non di cuori 9 = = . N 52 =

numero degli assi

N

10

=

Esercizio 1.2.2 Si effettuano cinque lanci successivi di una moneta non truccata. Ci si chiede: qual `e la probabilit` a che in cinque lanci esca “testa” almeno una volta? Introduciamo l’appropriato spazio di probabilit` a:

S = (a1 , a2 , a3 , a4 , a5 ),



con ai = T o ai = C, i = 1, ..., 5 ,

dove ai indica il risultato del lancio i-esimo, e T e C stanno ovviamente per “testa” e “croce”. Siccome il numero delle possibili cinquine che costituiscono S `e 25 , abbiamo N = 32, e quindi 1 p = 32 . L’evento che ci interessa `e

A = “esce almeno una testa” , che `e il complementare dell’evento elementare f(C, C, C, C, C)g, la cui probabilit` a `e ovviamente p. Si ha quindi

P (A) = 1 ¡ P (AC ) = 1 ¡

1 31 = . 32 32

Esercizio 1.2.3 Problema: qual `e la probabilit`a che fra M persone ce ne siano almeno due con lo stesso compleanno? Il problema, nella sostanza, `e gi` a stato affrontato nell’esercizio 1.1.1. Assunto che tutti gli anni siano di 365 giorni (considerare anche gli anni bisestili complicherebbe considerevolmente il problema), e che tutti i giorni siano equiprobabili, lo spazio di probabilit` a `e

S =

(a1 , a2 , . . . , aM ), ai 2 [1, 2, . . . , 365] .

Siccome il numero degli eventi elementari `e N = DR (M ; 365) = 365M , ogni evento ele-

1 . 365M Indicato con AM l’evento “gli M compleanni avvengono tutti in giorni diversi”, l’evento di cui interessa la probabilit` a `e il complementare di AM , cio`e AC M . Ricordando quanto visto mentare ha probabilit` ap=

nell’esercizio 1.1.1, generalizzandone il risultato si ottiene

P (AM ) =

jAM j D(M ; 365) 365 ¢ 364 ¢ ¢ ¢ ¢ ¢ (365 ¡ M + 1) = R = , jSj D (M ; 365) 365M

e quindi, in virt` u della regola di complementazione,

P (AC M)

=1¡

M

i=1 (366 365M

¡ i)

.

C C Facendo il calcolo, si ottiene, ad esempio, P (AC 10 ) ¼ 12%, P (A20 ) ¼ 41%, P (A30 ) ¼ 71%, C P (A50 ) ¼ 97%.

11

Esercizio 1.2.4 Carlo e Giorgio sono due amici che ogni giorno scommettono sul risultato del lancio di un dado. Carlo punta sempre su un risultato dispari, Giorgio su un risultato pari. Giorgio crede che i numeri riportati sulle facce del dado (ovviamente gli interi da 1 a 6) siano equiprobabili. In realt` a non `e cos`ı in quanto Carlo, di nascosto, ha “truccato” il dado o che gli altri numeri facendo in modo che il numero 1 abbia probabilit` a 15 , lasciando per` siano equiprobabili. Quali sono le probabilit` a di vincere di Carlo e Giorgio rispettivamente? Lo spazio campionario `e ovviamente

S = f1, 2, 3, 4, 5, 6g .   Sia pi = P fig . Siccome sappiamo che p1 = 15 e che p2 =p3 =p4 =p5 =p6 , dovendo essere 6 4 e i=1 pi = 1, si ricava pi = 25 , per i = 2, . . . , 6. L’evento per cui vince Carlo ` A = “il risultato `e dispari” = f1, 3, 5g . Ovviamente l’evento per cui vince Giorgio `e AC . Si ha dunque

        P (A) = P f1, 3, 5g = P f1g + P f3g + P f5g =

1 5

+

4 25

+

4 25

=

13 25

,

e quindi

P (AC ) = 1 ¡ P (A) =

12 25

.

In fin dei conti, Carlo `e stato sleale, ma poteva esserlo molto di pi` u.

Esercizio 1.2.5 Le probabilit`a che tre giocatori G1 , G2 e G3 colpiscano il bersaglio sono rispettivamente p1 = 16 , p2 = 14 , p3 = 13 . Ciascuno spara una volta al bersaglio. Trovare la probabilit` a degli eventi:

a) A: “un solo giocatore colpisce il bersaglio”; b) B : “uno o due giocatori colpiscono il bersaglio”.





Sia S ´ (s1 , s2 , s3 ) , con si = Y oppure si = N a seconda che il giocatore Gi colpisca oppure no il bersaglio. E quindi

S ´ (Y,Y,Y), (Y,Y,N), (Y,N,Y), (Y,N,N), (N,Y,Y), (N,Y,N), (N,N,Y), (N,N,N) .

Sappiamo che P (fsi = Yg) = pi e di conseguenza P (fsi = Ng) = 1 ¡ pi . Essendo il risultato di ciascun sparo indipendente dagli altri (il concetto di “eventi indipendenti” sar` a definito in maniera rigorosa pi` u avanti), si ha

  P (s1 , s2 , s3 ) = P (fs1 g) ¢ P (fs2 g) ¢ P (fs3 g) .

Avremo perci` o

P (A) = P 1 = 6













(Y,N,N) + P (N,Y,N) + P (N,N,Y) =

3 2 5 1 2 5 3 1 31 ¢ ¢ + ¢ ¢ + ¢ ¢ = 4 3 6 4 3 6 4 3 72        C P (B) = P f(Y, Y, Y ), (N, N, N )g = 1 ¡ P (Y, Y, Y ) + P (N, N, N ) =  1 1 1 5 3 2  41 ¢ ¢ + ¢ ¢ = . =1¡ 6 4 3 6 4 3 72 12

Esercizio 1.2.6 Un dado “equo” a 4 facce riportanti i numeri 1, 2, 3 e 4 `e lanciato tre volte. Si chiede la probabilit` a di ottenere: i) almeno un tre; ii) nessun uno e nessun due. Lo spazio campionario `e

S = f(a1 , a2 , a3 ) , ai 2 [1, 2, 3, 4] , i = 1, 2, 3 .g Sia A l’evento “si `e ottenuto almeno un 3”. Indicando con Qk l’evento “il risultato del C C k-esimo lancio `e 3”, si ha AC = QC 1 \ Q2 \ Q3 . Essendo poi gli eventi Q1 , Q2 e Q3

indipendenti uno dall’altro (in quanto il risultato di ciascuno non dipende da quello degli o e del altri due), anche gli eventi complementari QC k sono indipendenti. Tenendo conto di ci` 3 C C fatto che P (Q1 ) = P (Q2 ) = P (Q3 ) = 14 , per cui P (QC ) = P (Q ) = P (Q ) = , 1 2 3 4 si ha

  C C C C C P (A) = 1 ¡ P (AC ) = 1 ¡ P QC 1 \ Q2 \ Q3 = 1 ¡ P (Q1 ) ¢ P (Q2 ) ¢ P (Q3 ) =  3 3 37 =1¡ = ¼ 57.8% . 4 64 Sia ora B l’evento “non si `e ottenuto nessun uno e nessun due”. Indicando con Rk l’evento “il risultato del k -esimo lancio `e 3 o 4”, si ha B = R1 \ R2 \ R3 . Anche in questo caso i tre eventi Rk sono indipendenti; inoltre P (R1 ) = P (R2 ) = P (R3 ) = 12 . Ne consegue  1 3 1 P (B) = P (R1 \ R2 \ R3 ) = P (R1 ) ¢ P (R2 ) ¢ P (R3 ) = = = 12.5% . 2 8

Esercizio 1.2.7 Un’urna contiene 20 palline numerate progressivamente. a) Vengono estratte in blocco 4 palline: qual `e la probabilit` a che venga estratta la pallina numero 1? b) Vengono estratte una dopo l’altra 4 palline ogni volta con reimmissione: qual `e la probabilit` a che venga estratta la pallina numero 1? Sia A l’evento ”fra le 4 palline estratte c’`e anche la numero 1”. L’evento complementare AC `e dunque ”fra le 4 palline estratte non c’`e la numero 1”. Calcoleremo P (A) come 1¡P (AC ), essendo P (AC ) molto semplice. a) Assumiamo come spazio S l’insieme di tutte le possibili disposizioni (p1 , p2 , p3 , p4 ) dei numeri da 1 a 20 presi quattro alla volta (senza ripetizioni). Essendo tali quaterne equiprobabili, avremo

P (A) = 1 ¡

jAC j D(4; 19) 19 ¢ 18 ¢ 17 ¢ 16 16 1 =1¡ =1¡ =1¡ = . jSj D(4; 20) 20 ¢ 19 ¢ 18 ¢ 17 20 5

Allo stesso risultato si poteva pervenire anche per altra via. Come spazio S, infatti, si pu` o assumere l’insieme di tutte le possibili combinazioni di 4 numeri interi (distinti) presi tra 1 e 20. Anche le combinazioni sono equiprobabili, per cui si ha

19 jAC j C(4; 19) 19! 16! 4! 4 1 4  =1¡ P (A) = 1 ¡ =1¡ = 1 ¡ 20 =1¡ = . jSj C(4; 20) 15! 4! 20! 5 5 4

b) In questo caso, affinch` e lo spazio campionario sia equiprobabile, bisogna assumere S costituito da tutte le possibili disposizioni con ripetizione di 4 interi presi tra 1 e 20. Si ha dunque

P (A) = 1 ¡

 19 4 D R (4; 19) 194 = 1 ¡ = 1 ¡ ¼ 1 ¡ 0.815 = 18.5% . D R (4; 20) 204 20 13

Esercizio 1.2.8 Da un mazzo ben mescolato di 52 carte da ramino se ne estraggono 5 a caso. Si chiede la probabilit` a di: 1) un poker (PO); 2) un full (FU); 3) una doppia coppia (CC); 4) una coppia (C). Lo spazio campionario S `e costituito da tutte le possibili cinquine (non ordinate) di carte ottenute combinando senza ripetizioni le 52 carte di un mazzo, ossia

S = f(c1 , c2 , c3 , c4 , c5 ) , ci 6 = cj g ,

N=

52 5

= 2· 598· 960 .

La probabilit` a di ciascun evento si ottiene calcolando il numero degli eventi favorevoli e dividendolo per N . Volendo calcolare la probabilit` a di un poker, contiamo quante sono le possibili cinquine con quattro carte “uguali”. Scelte 4 carte “uguali”, e ci sono 13 possibili scelte, la quinta carta pu` o essere una qualunque fra le rimanenti 48. Avremo dunque

P (P O) =

13¢48 ¼ 0.024% . N

Volendo poi un full, cio`e una cinquina del tipo aaabb, osserviamo che ogni tris aaa pu` o essere 4 ottenuto con 13 diverse carte “a” e che per ciascun “a” se ne possono poi ottenere una volta scelto il tris, la si pu` o ottenere con 3 = 4; per quanto riguarda poi la coppia bb,   4 12 diverse carte “b”, e per ciascun “b” ci sono 2 = 6 possibilit` a. Si ha quindi

P (F U ) =

13¢

4 3

¢12¢ N

4 2

=

13¢4¢12¢6 ¼ 0.14% . N

La domanda 3) concerne le doppie coppie, cio`e le cinquine del tipo aabbc. Ragionando in modo analogo a quanto fatto per le precedenti domande, si ha

P (CC) =

13¢

4 2

  ¢12¢ 42 ¢11¢ 41 13¢6¢12¢6¢11¢4 = ¼ 4.75% , 2¢N 2¢N

dove il 2 a denominatore tiene conto del fatto che sono state conteggiate sia le ”quaterne” del tipo aabb che quelle del tipo bbaa. La domanda 4) richiede di calcolare la probabilit` a di una semplice coppia, vale a dire una cinquina del tipo aabcd. In questo casi si ha

P (C) =

13¢

4 2

¢12¢

4

¢11¢ 6¢N

1

4 1

¢10¢

4 1

=

13¢6¢12¢4¢11¢4¢10¢4 ¼ 42.3% , 6¢N

dove il 6 a denominatore tiene conto del fatto che per la formazione di una coppia del tipo aabcd sono state conteggiate tutte le possibili terne bcd, bdc, cbd, cdb, dbc e dcb (cio`e le possibili permutazioni dei tre ogetti a, b, c).

14

` CONDIZIONATA 1.3 PROBABILITA Definizione Dato uno spazio di probabilit` a (S, Ω, P ) e due eventi A e B di Ω con P (B) > 0, si chiama probabilit` a condizionata di A dato B il numero P (A \ B)/P (B). Tale numero, che esprime la probabilit` a che avvenga A una volta che sia avvenuto B , sar`a indicato con P (AjB). Si ha dunque, per definizione, P (AjB) =

P (A \ B) . P (B)

Nel caso di uno spazio S finito ed equiprobabile, indicato con jEj il numero degli elementi di un evento E 2 S, si ha P (A \ B) = e quindi

jA \ Bj , jSj

P (AjB) =

P (B) =

jBj , jSj

jA \ Bj . jBj

Esercizio 1.3.1 Si lanci una coppia di dadi. Se la loro somma `e 6, si determini la probabilit`a che almeno uno dei dadi abbia dato come risultato 2. Lo spazio campionario `e

S = f(h, k), h, k = 1, 2, 3, 4, 5, 6g ,

per cui, indicati con A e B i due eventi B = “la somma `e 6” = f(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)g ,

A = “almeno un 2” = f(2, 2), (2, k), (h, 2), h, k = 1, 3, 4, 5, 6g ,

si ha A \ B = f(2, 4), (4, 2)g. Essendo lo spazio equiprobabile, ne consegue

P (AjB) =

jA \ Bj 2 = . jBj 5

Esercizio 1.3.2 In una popolazione i genotipi AA, Aa e aa (che rappresentano in questo problema gli eventi elementari) abbiano probabilit` a rispettivamente

P (AA) =

49 42 9 , P (Aa) = , P (aa) = . 100 100 100

Supponiamo che dopo un certo tempo muoiano sistematicamente gli individui di tipo aa, sicch`e gli adulti sono o AA o Aa. Ci si chiede: qual `e la probabilit` a di AA fra gli adulti? Bisogna calcolare la probabilit` a condizionata di AA dato l’evento B = AA [ Aa :

P (AAj AA[Aa) =

P (AA \ [AA [ Aa]) P (AA) 0.49 0.49 = = = ¼ 54% . P (AA [ Aa) P (AA [ Aa) 0.49 + 0.42 0.91 15

Teorema (o legge) delle probabilit`a composte Dati gli eventi A e B , con P (B) > 0, vale la relazione P (A \ B) = P (B)¢P (AjB) . La dimostrazione segue banalmente dalla definizione di probabilit`a condizionata. La legge appena formulata, che permette di calcolare la probabilit`a dell’intersezione di due eventi note la probabilit`a di uno e la probabilit`a condizionata dell’altro dato il primo, si pu`o facilmente estendere a pi` u eventi. Riscritta la legge nel caso di due eventi A1 e A2 , P (A1 \ A2 ) = P (A1 )¢P (A2 jA1 ) , quella per tre eventi A1 , A2 e A3 si ricava immediatamente P (A1 \ A2 \ A3 ) = P ([A1 \ A2 ] \ A3 ) = P (A1 \ A2 )¢P (A3 jA1 \ A2 ) = = P (A1 )¢P (A2 jA1 )¢P (A3 jA1 \ A2 ) .

Generalizzando al caso di n eventi A1 , A2 , . . . , An si ottiene   P \ni=1 Ai = P (A1 )¢P (A2 jA1 )¢P (A3 jA1 \ A2 ) ¢ ¢ ¢ P (An jA1 \ A2 \ ¢ ¢ ¢ \ An−1 ) . Esercizio 1.3.3 Un’urna contiene 9 palline rosse e 6 gialle. Una dopo l’altra vengono estratte a caso, senza reimmissione, tre palline. Calcolare la probabilit` a che siano tutte rosse. Denotiamo con Ak , con k = 1, 2, 3, l’evento “la k -esima pallina `e rossa”. L’evento di cui ci interessa la probabilit` a `e A1 \ A2 \ A3 . Dal teorema delle probabilit` a composte segue che

P (A1 \ A2 \ A3 ) = P (A1 )¢P (A2 jA1 )¢P (A3 jA1 \ A2 ) = Proposizione

9 8 7 12 ¢ ¢ = . 15 14 13 65

Dati due eventi A e B , con P (A) > 0 e P (B) > 0, vale la relazione P (AjB) =

P (A) ¢P (BjA) . P (B)

Questa relazione consegue immediatamente dalla legge della probabilit`a composta scrivendo P (A \ B) = P (B)¢P (AjB) = P (A)¢P (BjA) . ` E una formula di grande utilit`a in quanto permette di ricavare la probabilit`a condizionata di un evento A dato B, sapendo la probabilit`a condizionata di B dato A. Ci`o aiuta, ad esempio, nelle diagnosi delle malattie, come si vede nell’esercizio che segue. Esempio 1.3.1

Se la probabilit` a teorica del sintomo B , data la malattia A, `e il 30%, posso calcolare la probabilit` a che un paziente affetto dal sintomo B abbia la malattia A. Se, ad esempio, in Emilia la percentuale delle persone affette dalla malattia A `e il 15% e quella delle persone che manifestano il sintomo B `e il 5%, per cui P (A) = 0.15 e P (B) = 0.05, la probabilit` a della malattia A dato il sintomo B `e

P (AjB) =

P (A) 0.15 ¢P (BjA) = ¢ 0.30 = 90% . P (B) 0.05 16

EVENTI INDIPENDENTI Definizione Due eventi A e B si dicono indipendenti se P (A \ B) = P (A)¢P (B) . Il significato di questa definizione, che vale qualunque siano gli eventi A e B, appare chiaro se si considerano eventi di probabilit`a non nulla. Infatti, se P (B) > 0, dalla definizione di probabilit`a condizionata, segue P (A) = P (AjB) , e analogamente, supposto P (A) > 0, si ha P (B) = P (BjA) . A parole: la probabilit`a di A non dipende dal verificarsi oppure no di B, e viceversa. Ci`o giustifica la terminologia. Teorema

Se A e B sono indipendenti, lo sono anche A e B C , AC e B , AC e B C .

Dimostrazione Dimostriamo dapprima l’indipendenza di A e B C . Essendo P (B C ) = 1 ¡ P (B) , si ha

P (A) = P (A \ B) + P (A \ B C ) ,

P (A \ B C ) = P (A) ¡ P (A \ B) = P (A) ¡ P (A)¢P (B) = = P (A)¢[(1 ¡ P (B)] = P (A)¢P (B C ) .

Quindi, se A e B sono indipendenti, lo sono anche A e B C . Scambiando l’ordine, si pu`o dedurre che lo sono anche AC e B, e quindi anche AC e B C .

Esercizio 1.3.4 Un test diagnostico di una malattia `e corretto nel 98% dei casi. Ci si chiede: ripetendo due volte il test sullo stesso soggetto, qual `e la probabilit` a di un doppio errore? Sia A = “errore nel primo test”, B = “errore nel secondo test”. Essendo i due eventi indipendenti, si ha

P (A \ B) = P (A)¢P (B) =

2 2 4 ¢ = = 0.04% . 100 100 10000

Esercizio 1.3.5 Aldo e Bruno sparano ad un bersaglio. Siano A e B rispettivamente l’evento “Aldo fa centro” e “Bruno fa centro”. Modello la situazione con una funzione di probabilit` a P tale che P (A) = 14 e P (B) = 25 , e supponendo che A e B siano indipendenti. Supposto che Aldo e Bruno sparino contemporaneamente contro il bersaglio, qual `e la probabilit` a che 1) almeno uno dei due centri il bersaglio? 2) uno solo dei due centri il bersaglio?

17

L’evento “almeno uno fa centro” `e A [ B . Siccome A e B sono indipendenti, avremo

P (A [ B) = P (A) + P (B) ¡ P (A \ B) = P (A) + P (B) ¡ P (A)¢P (B) = 1 2 1 2 11 = + ¡ ¢ = . 4 5 4 5 20 Per quanto riguarda invece l’evento “uno solo fa centro”, esso `e dato da (A\B C )[(AC \B). Tenendo conto che A ed B C sono indipendenti, cos`ı come AC e B , e che gli eventi A \ B C e (AC \ B) sono incompatibili, si ha

  P (A \ B C ) [ (AC \ B) = P (A \ B C ) + P (AC \ B) =

= P (A)¢P (B C ) + P (AC )¢P (B) = 1 3 3 2 9 = ¢ + ¢ = . 4 5 4 5 20

Definizione Dato uno spazio di probabilit` a (S, Ω, P ) si chiama partizione di S un insieme di eventi incompatibili A1 , A2 , . . . , Ai , ¢ ¢ ¢ 2 Ω tali che

Ai = S . i

Nel seguito considereremo partizioni finite, cio`e partizioni formate da un numero finito n di eventi. In tal caso l’indice i assumer`a ovviamente i valori da 1 a n. Teorema (o formula) della probabilit`a totale (o di fattorizzazione) Dato un evento B e una partizione finita A1 , A2 , ...An di S, con P (Ai ) > 0 per ogni i, si ha n  P (B) = P (Ai )¢P (BjAi ) . i=1

Dimostrazione In virt` u della definizione della legge delle probabilit`a composte, per ogni i possiamo scrivere P (Ai \ B) = P (Ai )¢P (BjAi ) . Sommando per i che va da 1 ad n, si ha n n i=1 P (Ai \ B) = i=1 P (Ai )¢P (BjAi ) , da cui, essendo n   n  n i=1 P (Ai \ B) = P i=1 (Ai \ B) = P ( i=1 Ai ) \ B = P (S \ B) = P (B) , consegue la tesi.

Esercizio 1.3.6 Una fabbrica di autovetture riceve da tre fornitori i cambi da installare sulle auto nelle seguenti percentuali: 65%, 25% e 10%. Sapendo che i tre fornitori producono i cambi con una difettosit` a rispettivamente del 5%, 10% e 25%, si vuole conoscere la probabilit` a che la fabbrica di auto ha di ricevere un cambio difettoso. 18

In questo caso l’esperimento consiste nell’arrivo di un cambio. I possibili eventi elementari (e quindi incompatibili) sono i Bk , k = 1, 2, 3, essendo Bk l’evento ”il cambio arriva dal fornitore k -esimo”. Chiaramente i Bk costituiscono una partizione di S. Indicato poi con A l’evento ”il cambio ricevuto `e difettoso”, si richiede P (A). I dati dell’esercizio sono i seguenti:

P (B1 ) = 65% , P (B2 ) = 25% , P (B3 ) = 10% ; P (AjB1 ) = 5% , P (AjB2 ) = 10% , P (AjB3 ) = 25% . Utilizzando la formula di fattorizzazione si ha immediatamente

P (A) =

3 

P (Bi )¢P (AjBi ) = 0.65¢0.05 + 0.25¢0.10 + 0.10¢0.25 = 0.0825 = 8.25% .

i=1

Esercizio 1.3.7 Com’`e noto, le trasfusioni di sangue possono avvenire con le modalit`a seguenti: dal gruppo 0 a tutti i gruppi; da A ai gruppi A e AB ; da B ai gruppi B e AB ; da AB al solo gruppo AB . Supposto che le frequenze dei gruppi sanguigni siano P (0) = 52%, P (A) = 32%, P (B) = 10%, P (AB) = 6% , ci si chiede: qual `e la probabilit` a che un individuo x, scelto a caso, possa donare sangue a un individuo y pure scelto a caso? Sia S l’insieme delle coppie (x, y) in cui sia x che y possono essere uguali a 0, A, B o AB . L’evento di cui vogliamo calcolare la probabilit` a `e “x ` e donatore per y ” e lo indichiamo con [x ) y]. Introduciamo poi gli eventi

[x=0] = f(0, 0), (0, A), (0, B), (0, AB)g , [x=A] = f(A, 0), (A, A), (A, B), (A, AB)g , [x=B] = f(B, 0), (B, A), (B, B), (B, AB)g , [x=AB] = f(AB, 0), (AB, A), (AB, B), (AB, AB)g ,

e analogamente gli eventi [y =0], [y =A], [y =B],[y =AB]. Per calcolare P ([x ) y]) si pu` o usare il teorema della probabilit` a totale in due modi diversi: in un caso considereremo come partizione di S gli eventi [x = 0], [x = A], [x = B] e [x = AB], nell’altro gli eventi [y = 0], [y =A], [y =B] e [y =AB]. Modo 1

  P ([x ) y]) = P ([x=0])¢P ([x ) y][x=0]) + P ([x=A])¢P ([x ) y][x=A])+   + P ([x=B])¢P ([x ) y][x=B]) + P ([x=AB])¢P ([x ) y][x=AB]) = 52 32  32 6  10  10 6  6 6 = ¢1 + ¢ + + ¢ + + ¢ ' 66% . 100 100 100 100 100 100 100 100 100 Modo 2

  P ([x ) y]) = P ([y =0])¢P ([x ) y][y =0]) + P ([y =A])¢P ([x ) y][y =A])+   + P ([y =B])¢P ([x ) y][y =B]) + P ([y =A]B)¢P ([x ) y][y =AB]) = 52 52 32  52 32  10  52 10  6 = ¢ + ¢ + + ¢ + + ¢1 ' 66% . 100 100 100 100 100 100 100 100 100 19

Modo 3 L’esercizio pu` o essere risolto anche senza ricorrere al teorema della probabilit` a totale, e ci` o in virt` u del fatto che l’evento [x ) y] pu` o essere visto come unione di eventi elementari (x, y); pi`u precisamente

[x ) y] ´ f(0, 0), (0, A), (0, B), (0, AB), (A, A), (A, AB), (B, B), (B, AB), (AB, AB)g . Poich´ per cui  e gli  individui sono scelti a caso, x e y sono  indipendenti uno dall’altro, 32 6 P (x, y) = P (x)¢P (y). Ad esempio, P (A, AB) = P (A)¢P (AB) = 100 ¢ 100 . Si ha quindi

            P [x ) y] = P (0, 0) + P (0, A) + P (0, B) + P (0, AB) + P (A, A) +         + P (A, AB) + P (B, B) + P (B, AB) + P (AB, AB) =

= P (0)¢P (0) + P (0)¢P (A) + P (0)¢P (B) + P (0)¢P (AB) + P (A)¢P (A)+

+ P (A)¢P (AB) + P (B)¢P (B) + P (B)¢P (AB) + P (AB)¢P (AB) = 52  52 32 10 6  32  32 6  = ¢ + + + + ¢ + + 100 100 100 100 100 100 100 100 10  10 6  6 6 + ¢ + + ¢ ' 66% . 100 100 100 100 100 Teorema (o formula) di Bayes

Dato un evento B con P (B) > 0, e data una partizione finita A1 , A2 , ...An di S con P (Ai ) > 0 per ogni i, vale la relazione P (BjAi )¢P (Ai ) P (Ai jB) = . k P (BjAk )¢P (Ak )

Dimostrazione In virt` u del teorema della probabilit`a composta si pu` o scrivere P (Ai jB) =

P (B|Ai )·P (Ai ) P (B)

.

Sostituendo a denominatore P (B) con la sua espressione fornita dalla formula della probabilit`a totale, si ottiene immediatamente la tesi. Gli eventi Ai possono essere considerati come possibili cause dell’evento B, o ipotesi che lo spiegano. Il fatto che costituiscano una partizione di S, per cui certamente B ½ [i Ai , comporta che se si verifica B, necessariamente si verifica anche uno (ed uno solo in virt` u della incompatibilit`a) degli eventi Ai . In altre parole, l’insieme delle “cause” Ai `e esaustivo: se si verifica B, una di esse deve aver agito. Una volta osservato l’evento B, ci si pu`o chiedere quale sia la causa che ha effettivamente agito, e il teorema di Bayes risponde, naturalmente in senso probabilistico, a questa domanda. La probabilit`a P (Ai ) `e la probabilit`a che si verifichi Ai indipendentemente dal verificarsi o meno dell’evento B; viene detta probabilit` a a priori. La probabilit`a condizionata P (Ai jB) `e la probabilit`a di Ai valutata sapendo che si `e verificato B, e viene chiamata probabilit` a a posteriori. 20

Gli esercizi che seguono, in particolare il primo, sono utili ad illustrare il significato di probabilit`a a priori e posteriori, e come si applica il teorema di Bayes.

Esercizio 1.3.8 Si abbiano tre scatole, indistinguibili una dall’altra, contenenti ciascuna due palline: una contiene due palline bianche (scatola 1), un’altra una pallina bianca ed una rossa (scatola 2), la terza due palline rosse (scatola 3). Scelta una scatola a caso, si estrae una pallina. La pallina `e bianca. Ci si chiede: qual `e la probabilit` a che la pallina sia stata estratta dalla scatola i? Indicato con B l’evento “la pallina estratta `e bianca” e con Ai l’evento “la pallina `e stata estratta dalla scatola i”, ci interessa calcolare le probabilit` a P (Ai jB). Osserviamo che si ha

P (A1 ) = P (A2 ) = P (A3 ) =

1 ; 3

P (BjA1 ) = 1 ,

P (BjA2 ) =

1 , 2

P (BjA3 ) = 0 .

Il fatto che le probabilit` a non condizionate P (Ai ) (probabilit` a a priori) siano tutte uguali a 1 3 consegue ovviamente dal fatto che le tre scatole sono indistinguibili. Applicando il teorema di Bayes si ha quindi

P (BjA1 )¢P (A1 ) = P (BjA1 )¢P (A1 ) + P (BjA2 )¢P (A2 ) + P (BjA3 )¢P (A3 ) 1 1¢ 1 2 3 = 1 1 31 = 1 1 = 3; 1¢ 3 + 2 ¢ 3 + 0¢ 3 2

P (A1 jB) =

P (A2 jB) = P (A3 jB) =

P (BjA2 )¢P (A2 ) 1 2

P (BjA3 )¢P (A3 ) 1 2

= =

1 1 2¢3 1 2 0¢ 13 1 2

=

1 . 3

= 0.

Osserviamo che si trova confermato il fatto ovvio che P (A3 jB) = 0. Osserviamo anche come il verificarsi dell’evento B influisca sulle probabilit` a degli eventi Ai modificandone le probabilit` a.

Nota bene: dato un evento A, con 0 < P (A) < 1, gli eventi A e AC costituiscono la pi` u semplice partizione di S utilizzabile nell’applicazione del teorema di Bayes. Gli esempi che seguono utilizzano tutti una partizione di questo tipo.

Esercizio 1.3.9 In una scuola il 4% dei maschi e l’1% delle femmine sono pi`u alti di 1.80 metri. Inoltre, il 60% sono femmine. Fra la totalit` a degli studenti ne viene scelto a caso uno che risulta essere pi` u alto di 1.80 metri. Si chiede: qual `e la probabilit` a che sia femmina? Sia S l’insieme di tutti gli studenti. Siano poi F l’evento “lo studente scelto `e femmina” ed A l’evento “l’altezza dello studente `e maggiore di 1.80”. Si deve determinare P (F jA). Osservato che F C coincide con l’evento “lo studente `e maschio”, i dati del problema sono

P (F ) = 0.60 ,

P (F C ) = 0.40 ,

P (AjF ) = 0.01 , 21

P (AjF C ) = 0.04 .

Utilizzando il teorema di Bayes con la partizione di S data da F e F C , si ottiene

P (AjF )¢P (F ) = P (AjF )¢P (F ) + P (AjF C )¢P (F C ) 0.01¢0.60 0.006 3 = = = ¼ 27.3% . 0.01¢0.60 + 0.04¢0.40 0.022 11

P (F jA) =

Esercizio 1.3.10 Si sa che lo 0,5% dei soggetti di una citt`a `e ammalato di AIDS. Si sa che i test diagnostici danno una diagnosi corretta nell’80% dei sani e nel 98% dei malati. Qual `e la probabilit` a di un individuo, scelto a caso fra quelli sottoposti a test, di esser sano posto che sia stato diagnosticato malato? Sia S l’insieme degli individui sottoposti ai test per l’AIDS. Consideriamo gli eventi: A = “l’individuo scelto `e sano”, AC = “l’individuo `e malato”, B = “la diagnosi dell’individuo `e: sano”, B C = “la diagnosi `e: malato”. Le statistiche sopra riportate implicano che

P (AC ) = 0.005 ,

P (BjA) = 0.80 ,

Determiniamo con la formula di Bayes P (AjB C ). Si ha

P (B C jAC ) = 0.98 .

P (B C jA)¢P (A) = P (B C jA)¢P (A) + P (B C jAC )¢P (AC ) (0.995)(0.20) = ' 0.976 (0.20)(0.995) + (0.98)(0.005)

P (AjB C ) =

(probabilit` a molto alta; se fossimo per` o dentro una categoria a rischio, avremmo una incidenza di malattia P (AC ) pi` u elevata, per cui questa probabilit` a sarebbe pi` u contenuta).

Esercizio 1.3.11 Una fabbrica che produce lampadine ha due linee di produzione A e B: dalla A esce il 60% delle lampadine prodotte e dalla B il rimanente 40%. Sappiamo inoltre che un 2% delle lampadine prodotte dalla linea A `e difettoso, mentre la percentuale di difetti per l’altra linea `e il 3.8%. Ci si chiede: qual `e la probabilit` a che una lampadina difettosa, scelta a caso fra tutte le lampadine prodotte in un dato periodo, sia uscita dalla linea A? Sia S l’insieme di tutte le lampadine prodotte dalla fabbrica in un dato periodo. Se A `e l’evento “la lampadina scelta `e uscita dalla linea A”, AC `e l’evento “la lampadina `e uscita dalla linea B”. Indicato poi con D l’evento “la lampadina `e difettosa”, i dati del problema sono

P (DjA) = 0.02 ,

P (DjAC ) = 0.038,

P (A) = 0.6 .

Il numero che cerchiamo `e la probabilit` a condizionata di A dato per avvenuto D , cio`e P (AjD). Utilizzando la formula di Bayes, si ottiene

P (DjA) ¢ P (A) (0.02)(0.6) = = C C P (DjA) ¢ P (A) + P (DjA ) ¢ P (A ) (0.02)(0.6) + (0.038)(0.4) 0.012 = ¼ 0.441 = 44.1% 0.012 + 0.0152

P (AjD) =

22

Esercizio 1.3.12 In un cappello ci sono 10 monete, 9 normali ed una truccata con due teste. Se ne estrae una a caso, che lanciata k volte consecutive d` a k teste. Qual `e la probabilit` a che la moneta estratta sia quella truccata? Sia A l’evento “la moneta estratta dal cappello `e quella truccata”. Chiaramente ne consegue che AC rappresenta l’evento “la moneta estratta `e normale”. Indicato poi con Tk l’evento “k consecutivi lanci della moneta danno k teste”, i dati del problema sono

P (A) =

1 10

P (AC ) =

;

9 10

;

Applicando la formula di Bayes si ha quindi

P (AjTk ) =

P (Tk jAC ) =

P (Tk jA) = 1 ;

1

2)

k

.

1 1¢ 10 P (Tk jA)¢P (A) 2k = =  k 9 1 P (Tk jA)¢P (A) + P (Tk jAC )¢P (AC ) 9 + 2k 1¢ 10 + 12 ¢ 10

Ad esempio, per k =2, 4, 6, 8 si ha

P (AjT2 ) =

4 13

;

P (AjT4 ) =

16 25

;

P (AjT6 ) =

64 73

;

P (AjT8 ) =

256 265

.

Osserviamo che 8 teste consecutive danno gi` a una probabilit` a del 96.6% che la moneta estratta sia quella truccata.

Come ultima osservazione, notiamo che ci sono due modi di fare un campionamento, cio`e di “scegliere a caso” un certo numero di elementi da una popolazione: 1) con reimmissione; 2) senza reimmissione. Rimarchiamo il fatto seguente, peraltro molto intuitivo: se il numero N di individui

della popolazione ´e infinito o molto grande, non c’`e differenza apprezzabile tra estrarre con reimmissione ed estrarre senza reimmisione. In questo caso, pertanto, conviene per semplicit`a calcolare ogni cosa “come se” si estraesse con reimmissione. L’esercizio che segue illustra le due diverse modalit`a di campionamento e mostra, per quanto sia solo N =10, il fatto precedentemente rimarcato. Esercizio 1.3.13 Una scatola contiene 10 viti, di cui tre difettose. Si estraggono due viti a caso. Con quale probabilit` a nessuna delle due `e difettosa? Considerati gli eventi A = “prima vite estratta non difettosa”, B = “seconda vite estratta non difettosa”, l’evento di cui ci interessa la probabilit` a `e A \ B . Estraendo con reimmissione, prima di estrarre la seconda volta abbiamo nella scatola l’i7 dentica situazione di 10 viti di cui tre difettose; si ha pertanto P (A) = P (B) = 10 e quindi

P (A \ B) = P (A)¢P (B) =

7 7 ¢ = 49% . 10 10

Estraendo invece senza reimmissione, l’evento B non `e pi` u indipendente da A, per cui si ha 7 6 P (A) = 10 , P (BjA) = 9 . Di conseguenza

P (A \ B) = P (A)¢P (BjA) = 23

7 6 10 ¢ 9

' 47% .

1.4 VARIABILI ALEATORIE Definizione Dato uno spazio di probabilit` a (S, Ω, P ), si dice variabile aleatoria (o casuale) una funzione X che ad ogni s 2 S associa un numero X(s) 2 R, in modo che ogni insieme fs : X(s) · ag sia un evento contenuto in Ω. L’evento fs : X(s) · ag si chiama immagine  inversa o contro-immagine dell’intervallo −1 (¡1, a] e viene indicato con X (¡1, a] o, adottando una forma pi` u concisa ed esplicita, con X · a. Pi` u in generale, se B `e un sottinsieme di numeri reali, si indica con X −1 (B) l’evento fs : X(s) 2 Bg.     ` facile far vedere che, 8a 2 R, gli insiemi di numeri reali X −1 (a, +1) , X −1 (a, b] , E         X −1 fag , X −1 (a, b) , X −1 (¡1, a) e X −1 [a, +1) sono eventi. Ad esempio, il fatto che X −1 (a, +1) sia un evento consegue banalmente dal fatto che l’insieme fs : X(s) > ag `e il complementare dell’evento fs : X(s) · ag. Anche gli eventi appena elencati sono denotati in forma concisa con X > a , a< X · b , X =a , etc... Dunque, l’immagine inversa di un qualunque intervallo `e un evento di Ω. Ci sono per`o altri sottinsiemi B di numeri reali tali che X −1 (B) `e un evento. Definizione Si chiama classe dei Boreliani la pi` u piccola classe di sottinsiemi di

numeri reali che comprende tutti gli intervalli ed `e chiusa rispetto alle operazioni di unione (finita e numerabile) e complementazione. Proposizione

Ogni Boreliano B `e tale che X −1 (B) `e un evento.

I Boreliani rappresentano dunque i sottinsiemi di numeri reali che possono essere associati attraverso X −1 agli eventi di Ω. Ci`o porta alla seguente definizione: Definizione Data una variabile aleatoria X , si chiama distribuzione o legge di X l’applicazione che ad ogni Boreliano B associa la probabilit` a della sua immagine   −1 inversa: B ¡! P X (B) . Sia S = f1, 2, ..., 6g lo spazio campionario relativo all’esperimento del lancio di un dado (non truccato). Definiamo X := ”numero uscente da un lancio”, cio`e

Esempio 1.4.1

X(1) := 1,

X(2) := 2

...

X(6) := 6 . Potremo allora calcolare la probabilit` a di eventi del tipo X · 2.5, 1 < X · 4 oppure X ¸ 3. Ricordando che P (X =k) = P (fkg) = 16 , per k = 1, 2, . . . , 6, si ha P (X · 2.5) = P (X =1) + P (X =2) = 13 , P (1< X · 4) = P (X =2) + P (X =3) + P (X =4) = 12 , P (X ¸ 3) = P (X =3) + P (X =4) + P (X =5) + P (X =6) =

2 3

.

Su uno stesso spazio di probabilit` a possono essere definite pi` u variabili casuali. Ad esempio, una seconda variabile casuale pu` o essere definita nel modo seguente:

Y := 0

Y := 1

se l’esito del lancio `e pari;

24

se l’esito del lancio `e dispari.

Si ha cos`ı :

P (Y =0) = P (f2g) + P (f4g) + P (f6g) = 12 , P (Y =1) = P (f1g) + P (f3g) + P (f5g) = 12 , P (1< Y · 4) = P (;) = 0 , P (Y < 0) = P (;) = 0 ecc.

Definizione Data una variabile aleatoria X definita sullo spazio di probabilit` a (S, Ω, P ), si chiama funzione di distribuzione o di ripartizione di X la funzione F : R ! [0, 1] cos`ı definita: F (x) = P (X · x) , x 2 R . Esempio 1.4.2 Consideriamo la variabile casuale Y definita nell’esempio precedente. Indicata con FY (x) la funzione di distribuzione ad essa associata, avremo  per x < 0   P (;) = 0 1 FY (x) = P (Y · x) = P (Y =0) = 2 per 0 · x < 1   1 1 per x ¸ 1 . P (Y =0) + P (Y =1) = 2 + 2 = 1 La funzione di distribuzione gode di alcune propriet`a che sono formalizzate nelle cinque proposizioni che seguono. Di queste dimostriamo solo la prima. Proposizione

Vale la relazione P (a< X · b) = F (b) ¡ F (a) .

Dimostrazione L’evento X · b `e l’unione dei due eventi X · a e a< X · b, cio`e degli eventi fs 2 S : X(s)· ag e fs 2 S : a< X(s)· bg, che chiaramente sono incompatibili. Di conseguenza si ha P (X · b) = P (X · a) + P (a< X · b) , da cui segue banalmente la relazione che si voleva dimostrare. Proposizione

La funzione di distribuzione `e monotona non decrescente, cio`e F (a) · F (b)

Proposizione

a · b.

Valgono i due limiti seguenti: lim F (x) = 0 ,

lim F (x) = 1 .

x→−∞

Proposizione

se

x→+∞

La funzione di distribuzione `e continua da destra, si ha cio`e lim F (x + h) = F (x) .

h→0+

Essendo F (x) definita in ogni punto, ogni eventuale discontinuit`a `e del tipo del salto, e per effetto della proposizione appena enunciata, vale anche la seguente Proposizione L’ampiezza ∆F (x) del salto della funzione di distribuzione in un punto x di discontinuit`a vale ∆F (x) = P (X =x) . 25

VARIABILI ALEATORIE DISCRETE Definizione Una variabile aleatoria X ` e discreta se

1) c’`e un insieme finito o numerabile di valori xj , tali che P (X =xj ) > 0 ;

2)

j

P (X =xj ) = 1 .

Ovviamente, j = 1, ..., n nel caso finito e j 2 N nel caso numerabile. Una variabile aleatoria discreta, essendo individuata dai valori xj e dalle corrispondenti probabilit`a pj ´ P (X =xj ), pu`  o essere cos`ı rappresentata:  x1 , x2 , ... X: p1 , p2 , ... In maniera equivalente essa `e poi rappresentabile mediante la relativa funzione di probabilit` a f (x) definita come  se x = xj (j = 1, 2, ...) pj , f (x) = 0 altrove oppure mediante la relativa funzione di distribuzione F (x) gi`a definita per una qualunque variabile aleatoria , che nel caso discreto diventa  F (x) = f (xj ) . j: xj · x Pi` u esplicitamente, come peraltro gi`a visto nell’esempio 1.4.2, F (x) `e la seguente funzione a gradini  0 se x < x1      p1 se x1 · x < x2     p +p se x2 · x < x3 1 2 F (x) =  ¢¢¢¢¢¢¢¢¢ ¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢      se xn−1 · x < xn  p1 + ¢ ¢ ¢ + pn−1   ¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢ ¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢¢ Esempio 1.4.3

Nel caso di un dado non truccato, la variabile casuale X definita nell’esempio 1.4.1 e la relativa funzione di probabilit` a sono date da

X:



1

2

3

4

5

6

1 6

1 6

1 6

1 6

1 6

1 6



,

f (x) =



1 6

per x = 1, 2, 3, 4, 5, 6

0 altrimenti

.

La funzione distribuzione di X e il relativo grafico sono riportati qui sotto.

F (x) =

 0    1   6    1    3           

1 2 2 3 5 6

1

per x < 1 per 1 · x < 2 per 2 · x < 3 per 3 · x < 4

.

per 4 · x < 5 per 5 · x < 6 per x ¸ 6

26

Esempio 1.4.4

Si consideri l’esperimento del lancio simultaneo di due dadi non truccati. In questo caso lo spazio compionario S `e costituito dai 36 eventi elementari (i, j), con i, j = 1, 2, 3, 4, 5, 6. Consideriamo la variabile aleatoria discreta Z , con Z := somma dei due numeri estratti. Si ha quindi

Z:



2

3

4

5

6

7

8

9

10 11 12

1 36

2 36

3 36

4 36

5 36

6 36

5 36

4 36

3 36

2 36

1 36

Il grafico sottoriportato mostra la funzione di distribuzione relativa a Z .



VARIABILI ALEATORIE CONTINUE Definizione Una variabile aleatoria X si dice assolutamente continua se esiste una funzione f : R !R+ 0 che permette di rappresentare la funzione distribuzione F (x) di X come funzione integrale, cio` e tale che F (x) =



x

8x 2 R .

f (t)dt , −∞

La funzione f (¢), che `e assunta continua eccetto al pi` u che in un numero finito di punti,`e detta densit` a di probabilit` a (o, pi` u semplicemente, densit` a) della variabile aleatoria X . Nel seguito (come peraltro gi`a fatto nel titolare il paragrafo), per semplicit`a, ci riferiremo alle variabili casuali ”assolutamente continue” con il solo aggettivo ”continue”. Osservazione: Qui e altrove si usano integrali ”impropri”, cio`e integrali definiti su un intervallo con un estremo di integrazione infinito (qualche volta entrambi). Senza approfondire l’argomento, ricordiamo che



x

−∞

f (t)dt := lim

a→−∞





x

f (t)dt ,

a

+∞

f (t)dt := lim

a→+∞

x



a

f (t)dt .

x

Per quanto riguarda poi l’integrale su tutto l’asse reale, una possibile definizione `e la seguente:



+∞

−∞

f (t)dt :=



0

f (t)dt + −∞

27



0

+∞

f (t)dt .

La funzione densit`a gode di alcune propriet`a che adesso elenchiamo. 1) Vale la relazione P (a < X · b) =

b a

f (t)dt .

Essa consegue immediatamente dal fatto che P (a< X · b) = F (b) ¡ F (a) e costituisce lo strumento standard per il calcolo delle probabilit`a nel caso di variabili casuali continue. Si noti che la formula in questione esprime l’uguaglianza fra la probabilit` a P (a< X · b) e l’area sottesa dalla curva f (x) tra gli estremi x=a ed x=b. 2)

Per ogni funzione densit`a si ha che  +∞ −∞

f (t)dt = 1 .

Consegue direttamente dalla relazione di cui al punto precedente, tenendo conto che P (¡1< X < +1) = P (S) = 1. 3) La funzione densit` a f (x), per ogni x dove `e continua, soddisfa la relazione F ′ (x) = f (x) . Ci`o risulta direttamente dalla derivazione di F (x) scritta in forma integrale. Osservazione: Nel caso di una variabile aleatoria continua si ha sempre P (X =a) = a f (x)dx = 0, mentre nel caso di variabile X discreta pu`o benissimo essere P (X = a a) > 0. Analogamente, se X `e continua si ha P (a< X < b) = P (a· X < b) = P (a< X · b) = P (a· X · b) . Queste stesse probabilit`a possono differire tra loro nel caso di X discreta. Definizione Una variabile casuale X continua si dice uniformemente distribuita o equidistribuita se la sua funzione densit` a f (x) o, equivalentemente, la sua funzione di distribuzione F (x) sono cos`ı definite:   0 per x· a 0 per x· a      1  x¡a f (x) = F (x) = per a< x< b . per a< x< b ;   b¡a b¡a     1 per x¸ b 0 per x¸ b

28

Esempio 1.4.5

Si consideri la variabile casuale continua di densit` a

f (x) =



1 2x

se 0· x· 2

0

altrove

.

Si chiede di verificare che f (x) `e effettivamente una densit` a, calcolarne la funzione di distribuzione F (x) e quindi disegnarla assieme alla f (x). Si chiede anche di calcolare P ( 12 < X < 1). Essendo

 +∞ −∞

f (t)dt =

2

1 tdt 0 2

=

 t 2 2 4 0

= 1,

siamo certi di aver a che fare con una densit` a. Per quanto concerne la sua funzione di distribuzione si ha

   0 x x 1 F (x) = f (t)dt = 2 tdt = 0  −∞  1 I grafici di f (x) e F (x) sono dunque i seguenti: 

per x· 0 x2 4

per 0· x· 2 per x¸ 2 .

La probabilit` a richiesta `e P ( 12 < X < 1), che `e uguale all’area sottesa da f (x) per 12 · x· 1. Trattandosi di un trapezio di altezza 12 e basi 14 e 12 , la sua area, e quindi la probabilit` a 3 richiesta, `e 16 . L’area suddetta `e tratteggiata nel grafico di f (x).

Esercizio 1.4.1 Si consideri la variabile casuale continua di densit`a  1 ¡ jxj se jxj · 1 f (x) = 0 altrove . Si chiede di verificare che f (x) `e una densit` a, di calcolare la funzione di distribuzione F (x) e di disegnare sia f (x) che F (x). Si chiede anche di calcolare P (X · ¡0.5). Calcoliamo subito la funzione distribuzione.

F (x) =



x

−∞

f (t)dt =

 0   x      

−1

0

−1

1

(1 + t)dt (1 + t)dt

2 = x2 + x + 12 x + 0 (1 ¡ t)dt

29

per x· ¡1

=

1 2

¡

2

x 2

per ¡ 1· x · 0

+ x per 0· x· 1 per x¸ 1 .

I grafici di f (x) e F (x) sono dunque i seguenti:

 +∞

Essendo limx→+∞ F (x) = 1, ne consegue −∞ f (x)dx = 1, e quindi risulta verificato che f (x) `e una densit`a. Per quanto concerne infine il calcolo di P (X · ¡0.5), si ha

P (X · ¡0.5) = F (¡0.5) =

1 8

.

Questa probabilit` a corrisponde all’area sottesa da f (x) fra ¡1 e ¡ 12 , ossia, come si vede dal grafico, all’area di un triangolo di base 12 e altezza 12 .

Esercizio 1.4.2 Si consideri una variabile casuale X  zione: 0     1 x2 50 F (x) = 1 2  ¡ x + 25 x ¡ 1   50  1 a) quali sono i possibili valori della X ?

avente la seguente funzione di distribuper x· 0 per 0· x· 5 per 5· x· 10 per x¸ 10 .

b) qual `e la funzione densit` a della X ?

a) La variabile aleatoria X assume, con probabilit` a 1, i valori compresi tra 0 e 10. Infatti:

P (0· X · 10) = F (10) ¡ F (0) = 1 . b) Poich`e nei punti di continuit` a di f (x) vale la relazione F ′ (x)=f (x), si ha

f (x) =

 0     1    

25 x 1 ¡ 25 x

per x· 0 per 0· x· 5

+

2 5

0

per 5· x· 10 per x¸ 10 .

Riportiamo qui sotto i grafici della funzione di distribuzione e della funzione densit` a della variabile casuale X . Osserviamo che dal grafico di f (x) risulta evidente la simmetria della distruibuzione rispetto ad x=5.

30

FUNZIONI DI VARIABILE ALEATORIA Spesso, data una variabile casuale X, interessa una sua funzione g(X), che a sua volta `e una variabile casuale. Negli esempi che seguono si considerano appunto variabili casuali di questo tipo. L’ultimo esempio, per quanto semplice, `e forse quello pi` u significativo in quanto mostra come si ricava la funzione di probabilit`a (nel caso di un variabile casuale discreta). Esercizio 1.4.3 In un processo automatico si riempiono bottigliette di sciroppo. Il contenuto di ciascuna bottiglietta risulta Y = 100+X ml (millilitri), dove X `e la variabile casuale definita nell’esercizio 1.4.1. Si chiede: in una partita di 1000 confezioni, quante approssimativamente conterranno meno di 99.5 ml? Il numero di bottigliette cercato `e uguale a 1000 moltiplicato per P (Y · 99.5), cio`e per

P (X + 100 · 99.5) = P (X · ¡0.5) .

Questa probabilit` a `e gi` a stata calcolata nell’esercizio 1.4.1 e vale 18 . Il numero approssimativo delle bottiglie aventi contenuto inferiore a quanto richiesto `e dunque 1 8 ¢1000

= 125 .

p Esercizio 1.4.4 Si considerino le variabili casuali Y = 3X , Q = X 2 e R = X , dove X `e la variabile casuale dell’esercizio 1.4.2. Calcolare:

Si ha:

a) P (3· Y · 21) ;

b) P (Q¸ 64) ;

c) P (2· R· 3) . 4 ; 5

a)

P (3· Y · 21) = P (3· 3X · 21) = P (1· X · 7) = F (7) ¡ F (1) =

b)

P (Q¸ 64) = P (X 2 ¸ 64) = P [(X · ¡8) [ (X ¸ 8)] = P (X ¸ 8) = 1 ¡ F (8) =

c)

p 33 . P (2· R· 3) = P (2· X · 3) = P (4· X · 9) = F (9) ¡ F (4) = 50

2 ; 25

Esercizio 1.4.5 Si consideri la variabile casuale X sotto definita e si ricavi la funzione di probabilit` a della variabile Y := X 2 .   ¡2 ¡1 0 1 2 X: 1 1 1 1 1 5

5

5

5

5

Osservato che mentre X assume il valore xi la variabile Y assume il valore x2i , ne consegue che Y pu` o assumere solo i valori 0, 1 e 4. Pi` u precisamente Y assume il valore 0 quando X assume il valore 0, il valore 1 quando X assume il valore -1 oppure 1, il valore 4 quando X assume il valore -2 oppure 2. Per quanto riguarda, ad esempio, la probabilit` a che Y assuma il valore 1, essa sar` a data dalla somma delle probabilit` a che X assuma i valori -1 e 1, ossia: P (Y =1) = P (X =¡1) + P (X =1). La variabile casuale X 2 sar`a dunque la seguente: 2

Y =X :



0

1

4

1 5

2 5

2 5

31



1.5 MEDIA E VARIANZA Definizione

Si chiama media (o valor medio o valore atteso o aspettazione matematica o speranza matematica) della variabile aleatoria X il numero, che indicheremo indifferentemente con µX o E(X), cos`ı definito:  µX ´ E(X) := xi f (xi ) , se X `e discreta , µX ´ E(X) :=



i

+∞

se X `e continua .

xf (x)dx , −∞

Nel caso discreto numerabile, per garantire la convergenza della serie, si assume che essa sia assolutamente convergente, cio`e che sia i jxi jf (xi ) < +1.

Osservazione: Nel caso discreto la media `e la somma dei valori xi moltiplicati per le rispettive probabilit`a f (xi ) ´ P (X =xi ). Essa rappresenta dunque la media ponderata dei possibili valori di X, ciascuno pesato con la sua probabilit`a. Esempio 1.5.1

Si consideri l’esperimento del lancio simultaneo di una coppia di dadi non truccati. Abbiamo gi` a visto che lo spazio campionario S `e

S = f(i, j), i, j = 1, 2, 3, 4, 5, 6g . Sia X la variabile aleatoria che assegna a ciascun evento elementare (i, j) il massimo fra i e j . Allora l’insieme immagine di X , cio`e l’insieme di tutti i possibili valori che la X pu` o assumere, `e il seguente

X(S) = f1, 2, 3, 4, 5, 6g . Tenendo conto che

  1 P (X =1)=P f(1, 1)g = 36 ,       3 P (X =2)=P f(1, 2)g + P f(2, 1)g + P f(2, 2)g = 36 ,

e, generalizzando, essendo 2k —1 il numero degli eventi elementari f(i, j)g che hanno come valore massimo k ,

2k ¡ 1 , k = 3, 4, 5, 6 , 36 la variabile aleatoria X risulta cos`ı definita:  1 2 3 X: 1 3 5 P (X =k)=

36

36

36

4

5

6

7 36

9 36

11 36



.

La media di X si calcola dunque nel modo seguente:

µX =

6 

k=1

xk f (xk ) = 1¢

1 3 5 7 9 11 161 + 2¢ + 3¢ + 4¢ + 5¢ + 6¢ = ¼ 4.47 . 36 36 36 36 36 36 36

32

Proposizione

Data la variabile casuale X , la media della variabile casuale g(X)

`e la seguente: E[g(X)] = E[g(X)] =

 

g(xi )f (xi ) ,

se X `e discreta ,

i

+∞

g(x)f (x)dx ,

se X `e continua.

−∞

La proposizione consegue direttamente dalle definizione di media. Ad esempio, se g(X)=X 2 , si ha  E[X 2 ] = x2i f (xi ) , se X `e discreta , E[X 2 ] =



i

+∞

x2 f (x)dx ,

se X `e continua.

−∞

Nel seguito vedremo che il calcolo di E[X 2 ] `e estremamente utile. Definizione

Si chiama varianza (o variazione standard) della variabile aleatoria X il numero, 2 che indicheremo con σX o V ar(X), cos`ı definito:   2 ´ V ar(X) := E (X ¡ µX )2 . σX

Quindi, tenendo conto della definizione di µX , 2 ´ V ar(X) := σX 2 σX

´ V ar(X) :=

 

i

(xi ¡ µX )2 f (xi ) ,

+∞

−∞

(x ¡ µX )2 f (x)dx ,

se X `e discreta , se X `e continua .

2 La varianza σX `e sempre non negativa. Esiste un unico caso in cui `e nulla. Questo

caso, che `e privo di interesse probabilistico, si ha se e solo se la variabile X `e degenere, cio`e se la sua funzione di probabilit`a vale 1 in un punto x1 e 0 in ogni altro punto x.

Definizione La radice quadrata della varianza si chiama deviazione standard (o scarto quadratico medio) e si indica con σX . La varianza (e quindi anche la deviazione standard) misura la “dispersione” dei valori 2 assunti da X rispetto al suo valor medio µX : tanto pi` u grande `e σX , tanto pi` u i valori 2 di X saranno lontani dal valor medio; per contro, tanto pi` u σX `e piccola, tanto pi` u i valori di X saranno raccolti attorno a µX . Si pu`o anche dire che la media di una variabile casuale `e tanto pi`u attendibile quanto pi` u piccola `e la sua varianza. Teorema

2 σX = E(X 2 ) ¡ µ2X .

Facciamo la dimostrazione nel caso discreto. Nel caso continuo si proceder`a in maniera del tutto analoga con integrali al posto di sommatorie. Ricordando la definizione di 33

µX e che



i f (xi )=1, 2 σX =

 i

=

 i

=

 i

si ottiene (xi ¡ µX )2 f (xi ) = x2i f (xi )

¡ 2µX



 (x2i ¡ 2xi µX + µ2X )f (xi ) = i

xi f (xi ) + µ2X

i



f (xi ) =

i

x2i f (xi ) ¡ 2µ2X + µ2X = E(X 2 ) ¡ µ2X .

Teorema (trasformazione lineare di una variabile aleatoria) Data una variabile aleatoria X , si consideri la variabile aleatoria aX + b, con a e b reali qualunque, a 6 = 0. Valgono allora le seguenti relazioni: 2 2 σaX+b = a2 σX .

µaX+b = aµX + b ,

Dimostrazione Come nel caso del precedente teorema, proviamo anche questo nel caso discreto. La variabile aleatoria aX + b `e la seguente:   ax1 + b ax2 + b ... axn + b ... f (x1 ) f (x2 ) ... f (xn ) ... Ricordando che i f (xi ) = 1, si ha immediatamente    µaX+b = (axi + b)f (xi ) = a xi f (xi ) + b f (xi ) = aµX + b . i

i

i

Ora, sfruttando questo risultato, calcoliamo la varianza:   2 σaX+b = (axi + b ¡ µaX+b )2 f (xi ) = (axi + b ¡ aµX ¡ b)2 f (xi ) = i

2

=a

 i

i

2

(xi ¡ µX ) f (xi ) =

2 a2 σX

.

Corollario E(X ¡ µX ) = 0 . Si ottiene immediatamente dall’ultimo teorema ponendo a=1 e b=¡µX . 2 2 Corollario σaX = a2 σX . Si ottiene immediatamente dall’ultimo teorema ponendo b=0. 2 2 Corollario σX+b = σX . Si ottiene immediatamente dall’ultimo teorema ponendo a=1.

2 Definizione Sia X una variabile casuale con varianza σX > 0. Si chiama variabile casuale standardizzata associata ad X la variabile casuale X ∗ cos`ı definita: X ¡ µX X∗ = . σX

34

Proposizione Ogni variabile casuale standardizzata ha media nulla e varianza uguale ad 1, ossia 2 µX ∗ = 0 , σX ∗ = 1. Queste propriet`a di X ∗ seguono immediatamente dai teoremi e dai corollari precedenti. Infatti: X ¡ µ  X  µ  1  X X µX ∗ = E =E ¡ = E(X) ¡ µX = 0 , σX σX σX σX X ¡ µ  X µX  1 2 X 2 σX = V ar ¡ = 2 σX = 1. ∗ = V ar σX σX σX σX Definizione Data una variabile aleatoria X , si chiama mediana di X un valore x0 tale che 1 P (X < x0 ) · · P (X · x0 ) . 2 Dalla definizione consegue immediatamente che, se F (x) `e la funzione distribuzione di X, la mediana `e un punto x0 tale che F (x0 ) = 12 se un tale x0 esiste. In caso contrario x0 `e un punto di discontinuit`a di F (x) tale che F (x) < 12 per x < x0 e ` anche facile constatare che vi possono essere pi` F (x) > 12 per x ¸ x0 . E u mediane; pi` u precisamente le mediane costituiscono un intervallo chiuso (che eventualmente si riduce ad un punto). I tre grafici proposti qui sotto illustrano le tre situazioni pi` u comuni: a) F (x) `e continua in ogni x (e quindi associata ad una variabile casuale X continua con f (x) continua 8x): esiste un unico x0 tale che F (x0 ) = 12 ; b) F (x) `e costante a tratti (e quindi associata ad una variabile casuale X discreta), con F (x) 6 = 12 , 8x. In questo caso, se F (x) assume i valori α e β con α < 12 < β, saltando da α a β nel punto x∗ , allora x0 = x∗ . c) F (x) `e costante a tratti , con F (x) = 12 , per x1 · x < x2 : ogni x 2 [x1 , x2 ] pu`o essere assunto come x0 .

Esempio 1.5.2 Consideriamo di nuovo l’esperimento dell’esempio 1.5.1. Calcoliamo la va2 rianza di X mediante la relazione σX =E(X 2 )¡µ2X . A tal fine andiamo a calcolare E(X 2 ). 6

1 3 5 7 9 11 791 + 22 + 32 + 42 + 52 + 62 = ¼ 21.97 . 36 36 36 36 36 36 36 Ora, applicando il risultato precedentemente ricordato e utilizzando il valore di µX trovato E(X 2 ) =

i=1

x2i f (xi ) = 12

nell’esempio 1.5.1, si ottiene 2 σX = E(X 2 ) ¡ µ2X ¼ 21.97 ¡ (4.47)2 ¼ 21.97 ¡ 19.98 = 1.99 ,

e quindi la deviazione standard

σX ¼

p

1.99 ¼ 1.41 . 35

Esempio 1.5.3

Sia X la variabile aleatoria continua (gi` a considerata nell’esempio 1.4.5) la cui funzione densit` a `e  1 se 0· x· 2 2x

f (x) =

0

altrove

.

Calcoliamo media e varianza (quest’ultima in due modi: sia applicando la definizione che attraverso il calcolo di E(X 2 )).

 3 2 x = = 43 , 6 −∞ 0 2  4 2  +∞  2 = −∞ (x ¡ µX )2 f (x)dx = 0 x ¡ 43 ¢ 12 xdx = x8 ¡ 49 (x3 ¡ x2 ) = 29 , 0  4 2   +∞ 2 x 2 = E(X 2 ) ¡ µ2X = −∞ x2 f (x)dx ¡ µ2X = 0 12 x3 dx ¡ 16 ¡ 16 9 = 8 9 = 9 .

µX = 2 σX 2 σX

 +∞

xf (x)dx =

2

1 x¢xdx 0 2

0

Esercizio 1.5.1 Si eseguano tre lanci consecutivi di una moneta truccata in modo tale che P (T ) = 34 . Sia X la variabile casuale che rappresenta il numero di teste ottenute nei tre lanci. Si chiede di calcolarne la media, la varianza e la deviazione standard. La variabile X pu` o assumere i valori 0,1,2,3. Le probabilit` a che X assuma ciascuno di questi valori sono le seguenti:

P (X =0) = P (CCC) =

 1 3 4

=

1 64

,

 2 9 P (X =1) = P (T CC) + P (CT C) + P (CCT ) = 3 34 14 = 64 ,  2 P (X =2) = P (T T C) + P (T CT ) + P (CT T ) = 3 34 14 = 27 64 ,  3 3 P (X =3) = P (T T T ) = 4 = 27  64 , 0 1 2 La funzione di probabilit` a di X `e dunque la seguente: X : 9 27 1 64

Avremo quindi:

64

64

3 27 64



.

1 9 27 27 9 µX = 0¢ + 1¢ + 2¢ + 3¢ = ; 64 64 64 64 4  2 1  2 9  9 9 9 2 27  9 2 27 9 2 σX = 0¡ ¢ + 1¡ ¢ + 2¡ ¢ + 3¡ ¢ = ; 64 4 64 4 64 4 64 16  4 9 3 σX = = . 16 4

2 Per il calcolo della varianza si sarebbe potuto procedere anche utilizzando la relazione σX = 2 2 2 E(X ) ¡ µx . In tal caso si sarebbe dovuto calcolare E(X ) ottenendo

E(X 2 ) = 02 ¢

1 9 27 27 45 + 12 ¢ + 22 ¢ + 32 ¢ = , 64 64 64 64 8

e quindi, come prima, 2 σX = E(X 2 ) ¡ µ2x =

36

45 81 9 ¡ = . 8 16 16

Esercizio 1.5.2 Si consideri la variabile aleatoria X definita nell’esercizio 1.4.2. Si chiede di calcolarne la media, la varianza e la mediana. La funzione densit` a e di distribuzione di X sono le seguenti:

f (x) =

 0     1    

per x· 0

25 x 1 x ¡ 25

per 0· x· 5

+

2 5

0

F (x) =

per 5· x· 10 per x¸ 10 .

La media e la varianza sono date da

µX =



+∞

xf (x)dx = −∞



2 σX = E(X 2 ) ¡ µ2X =

5 0



5

0



 0     1    

per x· 0 2

50 x 1 2 x ¡ 50

per 0· x· 5

+

2 x 5

1

¡ 1 per 5· x· 10 per x¸ 10 .

 x3 5  x3 x2 2x  x2 10 + ¡ + = 5; + dx = 25 5 75 0 75 5 5 5  10  3 x 2x2  25 x3 dx + ¡ + dx ¡ 25 = . 25 25 5 6 5

x2 dx + 25

10 

¡

Per calcolare la mediana occorre determinare un x0 tale che F (x0 ) = 12 . Chiaramente si ricava x0 = 5. Il fatto che µX ed x0 coincidano e valgano 5 `e un’ovvia conseguenza della simmetria della distribuzione rispetto ad x=5 (si riveda il grafico di f (x) precedentemente riportato).

Esercizio 1.5.3 Calcolare media, varianza e mediana di una generica variabile aleatoria uniformemente distribuita. Sia [a, b] l’intervallo in cui la variabile aleatoria ha densit` a non nulla. Ricordiamo che

 0   

 0    x¡a F (x) =  b¡a   1

per x· a

1 f (x) =  b¡a   0

per a< x< b ; per x¸ b

per x· a per a< x< b . per x¸ b

Andiamo a calcolarne media e varianza. Procedendo come nell’esercizio precedente, abbiamo:

µX =



+∞

xf (x)dx = −∞

2 σX = E(X 2 ) ¡ µ2X =





b

x a+b dx = ; b¡a 2

a +∞

−∞

x2 f (x)dx ¡

(a + b)2 = 4



b a

x2 (a + b)2 (b ¡ a)2 dx ¡ = . b¡a 4 12

Per calcolare la mediana x0 dobbiamo risolvere l’equazione F (x) =

x¡a 1 = , b¡a 2

1 2,

cio`e l’equazione

a+b . Dunque, come peraltro facilmente intuibile, per ogni 2 variabile casuale uniformemente distribuita, media e mediana coincidono col punto medio di (a, b). che fornisce la soluzione x0 =

37

1.6 VARIABILI ALEATORIE BIDIMENSIONALI In un esperimento, invece che ad un unico risultato numerico, possiamo essere interessati a pi` u valori (ad esempio, per una persona, a peso, altezza, et`a, ecc.). Ciascuno di tali valori `e una variabile aleatoria, ma anche la n-upla di valori ottenuti pu`o essere considerata come una variabile aleatoria multipla o n—dimensionale. Qui, per semplicit`a, tratteremo solo, seppure brevemente, le variabili aleatorie bidimensionali. Definizione

Dato uno spazio di probabilit`a (S, Ω, P ), si dice variabile aleatoria bidimensionale una coppia di funzioni (X, Y ) che ad ogni s 2 S associa un coppia di numeri reali X(s), Y (s) , tali che ogni insieme fs : X(s) · a , Y (s) · bg sia un evento contenuto in Ω. Anche nel caso di variabili casuali bidimensionali lo strumento essenziale per il loro utilizzo `e la funzione distribuzione, la cui definizione si ottiene immediatamente generalizzando quella per variabili unidimensionali. Infatti, si ha Definizione

Data una variabile aleatoria bidimensionale (X, Y ) definita sullo spazio di probabilit`a (S, Ω, P ), si chiama funzione di distribuzione o di ripartizione ad essa associata la funzione F : R2 ! [0, 1] cos`ı definita: F (x, y) = P (X · x, Y · y) ,

(x, y) 2 R2 .

La virgola nella probabilit`a appena scritta equivale ad una intersezione. Per favorire la comprensione del significato della F (x, y), ne ricordiamo tutte le possibili espressioni: F (x, y) = P (X · x, Y · y) =   = P s 2 S : X(s) · x, Y (s) · y =   = P (X · x) \ (Y · y) =   = P s 2 S : X(s) · x \ s 2 S : Y (s) · y .

Ragionando sulla base del disegno riportato qui accanto e utilizzando la propriet` a additiva della probabilit`a nel caso di eventi incompatibili, si dimostra che

P (x1 < X · x2 , y1 < Y · y2 ) = F (x2 , y2 ) ¡ F (x2 , y1 ) ¡ F (x1 , y2 ) + F (x1 , y1 ) . Si dimostra inoltre che valgono le seguenti propriet`a: lim F (x, y) = 1 ,

x→+∞ y→+∞

lim F (x, y) = lim F (x, y) = 0 ,

x→−∞

y→−∞

lim F (x, y) = FY (y) = P (Y · y) ,

x→+∞

lim F (x, y) = FX (x) = P (X · x) .

y→+∞

38

Le funzioni di distribuzione FX (x) della X e FY (y) della Y sono dette funzioni di distribuzione marginali della variabile congiunta (X, Y ). Le variabili casuali bidimensionali, cos`ı come quelle unidimensionali, possono essere di tipo discreto o di tipo continuo. Una variabile bidimensionale (X, Y ) `e discreta se esiste un insieme finito o numerabile di coppie di numeri reali (xr , ys ), r = 1, 2, . . . , s = 1, 2, . . . , tali che  P (X =xr , Y =ys ) = prs ¸ 0 , con prs = 1 . r,s

Eventuali coppie (xr , ys ) con prs =0 possono rappresentare coppie di valori mai assunti dalla variabile casuale, che per`o per comodit`a sono presi ugualmente in considerazione assegnando loro probabilit`a nulla. Si chiama funzione di probabilit` a congiunta la funzione  prs se (x, y) = (xr , ys ) r = 1, 2, . . . , s = 1, 2, . . . , f (x, y) = 0 altrove mentre si chiamano funzioni di probabilit` a marginali le funzioni  pr• = s prs se x = xr fX (x) = , 0 altrove  p•s = r prs se y = ys fY (y) = . 0 altrove Nel caso di una variabile aleatoria (X, Y ) discreta finita, supposto r = 1, 2, . . . , N e s = 1, 2, . . . , M , le funzioni di probabilit`a congiunta e marginali vengono rappresentate attraverso la seguente tabella: y2

Y .........

yM

p11 p21 ... ... pN 1

p12 p22 ... ... pN 2

......... ......... ......... ......... .........

p1M p2M ... ... pNM

p•1

p•2

.........

p•M

y1

X

x1 x2 ... ... xN

p1• p2• ... ... pN•

Una variabile bidimensionale (X, Y ) `e continua se esiste una funzione f (x, y), non negativa, tale che  x  y F (x, y) = f (u, v)dudv . −∞

−∞

La funzione f (x, y) `e detta funzione densit` a congiunta. Naturalmente si ha  +∞  +∞ f (u, v)dudv = 1 , −∞

−∞

39

che costituisce la condizione perch´e una funzione f (x, y)¸ 0 sia una funzione densit`a. Si pu`o poi dimostrare che le funzioni di distribuzione marginali sono date da   x  +∞ FX (x) = f (u, v)dv du , FY (y) =

−∞ −∞ y  +∞



−∞

−∞

 f (u, v)du dv ,

e quindi, per definizione di funzione densit`a, le densit` a marginali delle variabili X e Y sono date da  +∞  +∞ fX (x) = f (x, v)dv , fY (y) = f (u, y)du . −∞

−∞

  Sia A un sottinsieme di R2 tale che l’insieme s : X(s), Y (s) 2 A sia un evento di Ω. Un importante teorema riguardante la funzione densit`a congiunta `e il seguente: Teorema

(senza dimostrazione)





P (X, Y ) 2 A =



f (x, y) dx dy .

A

Un corollario, molto utile ai fini della risoluzione degli esercizi (come si vedr`a nell’esercizio 1.6.4), segue in maniera immediata dal teorema appena enunciato: Corollario Siano (X, Y ) una variabile casuale bidimensionale, f (x, y) la sua funzione densit`a congiunta, Φ(X, Y ) una variabile casuale funzione di X e Y , e B un boreliano di R. Vale la relazione    P Φ(X, Y ) 2 B = f (x, y) dx dy , con A = (x, y) : Φ(x, y) 2 B . A

La dimostrazione `e immediata:       P Φ(X, Y ) 2 B = P s : Φ X(s), Y (s) 2 B =     = P s : X(s), Y (s) 2 (x, y) : Φ(x, y) 2 B =     = P s : X(s), Y (s) 2 A .

Teorema ( senza dimostrazione) Se (X, Y ) ` e una variabile casuale bidimensionale e Φ(X, Y ) una variabile casuale funzione di X e Y , si ha E[Φ(X, Y )] = E[Φ(X, Y )] =

N  M 

Φ(xr , ys ) prs r=1 s=1  +∞  +∞

se X e Y sono discrete (e finite);

,

Φ(x, y) f (x, y) dxdy ,

−∞

−∞

Corollario

E[aX + bY ] = aE[X] + bE[Y ] .

Corollario

E

 N

k=1

 N αk Xk = k=1 αk E[Xk ] . 40

se X e Y sono continue.

Definizione Si chiama covarianza delle variabili casuali X e Y , e la indicheremo con σX,Y o Cov(X, Y ), il numero   σX,Y ´ Cov(X, Y ) := E (X ¡ µX )(Y ¡ µY ) . In virt` u del teorema precedente la covarianza risulta quindi cos`ı definita:

σX,Y = σX,Y =

N  M  (xr ¡ µX )(ys ¡ µY )prs , r=1 s=1  +∞  +∞ −∞

−∞

Teorema Dimostrazione

se X e Y sono discrete (e finite);

(x ¡ µX )(y ¡ µY )f (x, y)dxdy ,

se X e Y sono continue.

σX,Y = µXY ¡ µX µY .

    σX,Y = E (X ¡ µX )(Y ¡ µY ) = E XY ¡ µX Y ¡ µY X + µX µY = = E(XY ) ¡ µX E(Y ) ¡ µY E(X) + µX µY = µXY ¡ µX µY .

Teorema

2 2 σX±Y = σX + σY2 § 2σX,Y .

Dimostrazione   2  2  2 = E (X ¡ µX ) § (Y ¡ µY ) = σX±Y = E (X § Y ) ¡ (µX § µY )   2 2 2 2 = E (X ¡ µX ) + (Y ¡ µY ) § 2(X ¡ µX )(Y ¡ µY ) = σX + σY § 2σX,Y .

Il teorema appena dimostrato per due variabili casuali, si pu`o facilmente generalizzare alla somma di n variabili Xi : n n         Teorema V ar Xi = V ar Xi +2 Cov Xi , Xk . (senza dimostrazione)

Teorema

i=1

i=1

i=1,...,n−1 k=i+1,...,n

2 2 2 σX,Y · σX σY .

(senza dimostrazione)

Introduciamo ora l’importante concetto di indipendenza fra variabili casuali. Definizione Due variabili aleatorie X e Y sono indipendenti quando la funzione di distribuzione congiunta F (x, y) `e uguale al prodotto delle funzioni di distribuzioni marginali FX (x) e FY (y), cio`e quando F (x, y) = FX (x) ¢ FY (y) , Teorema

8x, y 2 R .

(senza dimostrazione)

CNS perch`e due variabili aleatorie X e Y siano indipendenti `e che si abbia P (X 2 A, Y 2 B) = P (X 2 A) ¢ P (Y 2 B) , Teorema

8 A , B Boreliani .

(senza dimostrazione)

CNS perch`e due variabili aleatorie X e Y discrete siano indipendenti `e che sia P (X =xr , Y =ys ) = P (X =xr ) ¢ P (Y =ys ) . 41

Teorema

(senza dimostrazione)

CNS perch`e due variabili aleatorie X e Y continue siano indipendenti `e che sia f (x, y) = fX (x) ¢ fY (y) . Teorema

Date due variabili casuali X e Y indipendenti, vale la relazione µXY = µX ¢µY .

Dimostrazione Facciamo la dimostrazione nel caso discreto. Sfruttando il teorema precedentemente enunciato per variabili casuali discrete si pu`o scrivere: µXY =

 r

=

 r

xr ys P (X =xr , Y =ys ) =

s

xr P (X =xr ) ¢

 s

 r

xr ys P (X =xr ) P (Y =ys ) =

s

ys P (Y =ys ) = µX ¢µY .

Dalla relazione appena dimostrata, applicando i due teoremi dimostrati alla pagina precedente, seguono immediatamente le due relazioni del corollario che segue. Corollario Date due variabili casuali X e Y indipendenti, valgono le relazioni i) σX,Y = 0 ;

2 2 ii) σX±Y = σX + σY2 .

Definizione Si chiama coefficiente di correlazione fra le variabili casuali X e Y , e lo denotiamo con ρX,Y , il numero σX,Y ρX,Y = . σX σY Il coefficiente di correlazione fra due variabili casuali `e nullo se e solo se la loro covarianza `e nulla. In questo caso diciamo che X e Y sono incorrelate. Ora, come affermato nel precedente corollario, σX,Y `e certamente nulla se X e Y sono indipendenti. Tuttavia, la covarianza pu`o essere nulla anche se X e Y non sono indipendenti. 2 2 2 Se σX,Y 6 = 0, X e Y si dicono correlate. Essendo σX,Y · σX σY (teorema enunciato in precedenza), si ha sempre jρX,Y j· 1. Ne consegue che X e Y sono tanto pi` u correlate, quanto pi` u ρX,Y `e in modulo prossimo ad uno. Nel caso di correlazione massima, cio`e jρX,Y j = 1, X e Y sono linearmente dipendenti, per cui Y = αX + β, con α < 0 se ρX,Y =¡1 e α> 0 se ρX,Y =1.

In virt` u della definizione di variabili incorrelate, dal teorema relativo alla varianza della somma di n variabili casuali, segue immediatamente il seguente Corollario Se X1 , X2 , . . . , Xn sono n variabili casuali incorrelate, allora la varianza della loro somma `e uguale alla somma delle loro varianze, vale a dire   V ar X1 + X2 + ¢ ¢ ¢ + Xn = V ar(X1 ) + V ar(X2 ) + ¢ ¢ ¢ + V ar(Xn ) . 42

In particolare, se le Xi hanno tutte la stessa varianza σ 2 , si ha   V ar X1 + X2 + ¢ ¢ ¢ + Xn = nσ 2 .

Inoltre, tenendo conto del fatto che V ar(aX) = a2 V ar(X), si ha anche   V ar a1 X1 + a2 X2 + ¢ ¢ ¢ + an Xn = a21 V ar(X1 ) + a22 V ar(X2 ) + ¢ ¢ ¢ + a2n V ar(Xn ) .

Esercizio 1.6.1 Da un’urna contenente due palline bianche, una nera e due rosse, si estraggono una dopo l’altra con reimmissione due palline. Sia X1 la variabile casuale che descrive l’esito della prima estrazione e X2 quella che descrive l’esito della seconda estrazione. Ciascuna delle due variabili assume valore 1 se la pallina estratta `e bianca, valore 0 se `e nera o rossa. Si chiede di descrivere le leggi di probabilit` a congiunta e marginali, calcolare la covarianza e il coefficiente di correlazione. Essendo l’estrazione con reimmissione, gli esiti delle due estrazioni sono eventi indipendenti e quindi si ha

P (X1 = x1r , X2 = x2s ) = P (X1 = x1r )¢P (X2 = x2s ) , per r, s = 1, 2 e x11 = x21 = 0 , x12 = x22 = 1 . Questa relazione tra le probabilit` a assicura l’indipendenza delle due variabili casuali X1 e X2 e permette immediatamente di rappresentarne la funzione di probabilit` a congiunta mediante la seguente tabella:

0 X1

X2

1

0

3 3 ¢ 5 5

3 2 ¢ 5 5

3 5

1

2 3 ¢ 5 5

2 2 ¢ 5 5

2 5

3 5

2 5

2 2 Andiamo ora a calcolare le medie µX1 , µX2 e µX1 X2 , le varianze σX e σX . Una volta 1 1 ottenuti questi valori, attraverso i teoremi visti calcoleremo immediatamente la covarianza σX1 ,X2 e il coefficiente di correlazione ρX1 ,X2 .

3 2 2 µX1 = µX2 = 0¢ + 1¢ = ; 5 5 5  2 3  2 2 2 2 6 2 2 = σ = 0 ¡ ¢ + 1 ¡ ¢ = ; σX X2 1 5 5 5 5 25  9 6 6 4 4 µ X1 X2 = x1r x2s prs = 0¢0¢ + 0¢1¢ + 1¢0¢ + 1¢1¢ = ; 25 25 25 25 25 r,s σX1 ,X2 = µX1 X2 ¡ µX1 ¢µX2 =

4 2 2 ¡ ¢ = 0; 25 5 5

ρX1 ,X2 =

σX1 ,X2 = 0. σX1 σX2

Osserviamo che in virt` u dell’indipendenza di X e Y sapevamo gi` a, grazie ad un teorema che abbiamo visto, che σX1 ,X2 era nulla. Il calcolo `e stato fatto ugualmente per fare pratica.

43

Esercizio 1.6.2 Si risolva il problema dell’esercizio precedente senza reimmissione. Non reimmettendo la pallina estratta per prima, l’esito della seconda estrazione viene a dipendere dall’esito della prima. Di conseguenza le probabilit` a congiunte cambiano e si ha

P (X1 = x1r , X2 = x2s ) = P (X1 = x1r )¢P (X2 = x2s jX1 = x1r ) . Le variabili casuali X e Y non sono indipendenti e la tabella che rappresenta la funzione di probabilit` a congiunta risulta cos`ı modificata:

X2

0 X1

1

0

3 2 5¢4

3 2 5¢4

3 5

1

2 3 5¢4

2 1 5¢4

2 5

3 5

2 5

Ripetendo i calcoli fatti per l’esercizio precedente otteniamo

3 2 2 µX1 = µX2 = 0¢ + 1¢ = ; 5 5 5  2 2 3  2 2 2 6 2 2 σX 1 = σX 2 = 0 ¡ ¢ + 1¡ ¢ = ; 5 5 5 5 25  6 6 2 1 6 µ X1 X2 = + 0¢1¢ + 1¢0¢ + 1¢1¢ = ; x1r x2s prs = 0¢0¢ 20 20 20 20 10 r,s σX1 ,X2 = µX1 X2 ¡ µX1 ¢µX2 = ρX1 ,X2 =

1 2 2 3 ¡ ¢ =¡ ; 10 5 5 50

σX1 ,X2 1 =¡ . σX1 σX2 4

Il fatto che la media e la varianza delle variabili singole siano le stesse dell’esercizio precedente non deve sorprendere: le distribuzioni marginali non sono cambiate. Giova piuttosto osservare che ora le variabili X e Y non sono indipendenti e, essendo ρX1 ,X2 6 = 0, neppure incorrelate.

Esercizio 1.6.3 Un’urna contiene 112 dadi di cui 56 (cio`e la met`a) sono equi, mentre gli altri sono stati manipolati in modo che, per ciascuno di essi, la probabilit` a di ottenere 1 sia 12 , 1 mentre ogni altro risultato si verifica con probabilit` a 10 . Si chiede: a) Un dado viene estratto a caso e lanciato; indichiamo con X la variabile aleatoria che rappresenta il risultato del lancio. Qual `e la probabilit` a di ottenere 3? Quanto vale E(X)? b) Un dado viene estratto a caso e lanciato due volte. Indicato con X il risultato del primo lancio e con Y quello del secondo, qual `e la probabilit` a di ottenere X =2 e Y =3? c) Sapendo che i due lanci hanno dato come risultato X =2 e Y =3, qual `e la probabilit` a che si tratti di uno dei dadi truccati? d) Le variabili casuali X e Y sono indipendenti? 44

a) Le probabilit` a con cui la variabile aleatoria X assume i valori 1, 2, ..., 6 dipendono dal fatto che il dado estratto sia oppure no equo. Indicato con A l’evento “il dado estratto `e equo” e quindi con AC l’evento “il dado estratto `e alterato”, si ha

XjA :



1

2

3

4

5

6

1 6

1 6

1 6

1 6

1 6

1 6



C

,

XjA :



1

2

3

4

5

6

1 2

1 10

1 10

1 10

1 10

1 10

Applicando la formula della probabilit` a totale, per cui



.

P (X =k) = P (X =kjA) ¢ P (A) + P (X =kjAC ) ¢ P (AC ) , la variabile non condizionata X risulta cos`ı definita:

X: Si ha dunque P (X =3) =

2 15



1

2

3

4

5

6

1 3

2 15

2 15

2 15

2 15

2 15

e, facendo i calcoli, E(X) =



.

6

k=1

k ¢ P (X =k) = 3.

b) Consideriamo la variabile bidimensionale (X, Y ), con Y variabile identica alla X . La sua funzione di probabilit` a congiunta sar` a definita dalle relazioni

      P (X =j, Y =k) = P (X =j, Y =k)jA ¢ P (A) + P (X =j, Y =k)jAC ¢ P (AC ) = 1 1 = P (X =jjA) ¢ P (Y =kjA) ¢ + P (X =jjAC ) ¢ P (Y =kjAC ) ¢ . 2 2 In particolare

  1 1 P (X =2, Y =3) = P (X =2jA) ¢ P (Y =3jA) ¢ + P (X =2jAC ) ¢ P (Y =3jAC ) ¢ = 2 2 1 1 1 1 1 1 17 ¢ ¢ = . = ¢ ¢ + 6 6 2 10 10 2 900 Volendo, anche se non richiesto dall’esercizio, calcolare e mostrare la tabella completa che rappresenta la funzione di probabilit` a congiunta della variabile aleatoria (X, Y ), abbiamo:

Y

X

1

2

3

4

5

6

1

5 36

7 180

7 180

7 180

7 180

7 180

1 3

2

7 180

17 900

17 900

17 900

17 900

17 900

2 15

3

7 180

17 900

17 900

17 900

17 900

17 900

2 15

4

7 180

17 900

17 900

17 900

17 900

17 900

2 15

5

7 180

17 900

17 900

17 900

17 900

17 900

2 15

6

7 180

17 900

17 900

17 900

17 900

17 900

2 15

1 3

2 15

2 15

2 15

2 15

2 15

c) Indicato con B l’evento fX =2, Y =3g, ci si chiede ora P (AC jB). Utilizzando la formula di Bayes, otteniamo

P (AC jB) =

P (BjAC ) ¢ P (AC ) = P (B) 45

1 10

1 10 17 900

¢

¢

1 2

=

9 . 34

d) Perch`e due variabili aleatorie X e Y siano indipendenti (vedi pag. 36) deve essere

P (X =xr , Y =ys ) = P (X =xr ) ¢ P (Y =ys ) , per ogni coppia (xr , ys ). Nel nostro caso, con xr =2 e ys =3, si ha 17 2 2 = P (X =2) ¢ P (Y =3) = 15 ¢ 15 = 900 = P (X =2, Y =3) 6 Di conseguenza X e Y non sono indipendenti. Esercizio 1.6.4 colare:

4 225

.

Due variabili casuali X e Y sono indipendenti ed uniformi su [0, 1]. Cal-

 1  1 b) P XY < X > . 4 2 Essendo X e Y uniformi ed indipendenti sull’intervallo [0, 1], la variabile congiunta (X, Y ) ha una funzione densit` a f (x, y) data dal prodotto delle funzioni densit` a di X e Y . Di conseguenza, indicato con Q il ”quadrato” ´ (0, 1) £ (0, 1), si ha:  0 se (x, y) 2 /Q f (x, y) = . 1 se (x, y) 2 Q  1 a) P XY > ; 2

Ricordando poi un corollario sulle funzioni densit` a congiunte, sappiamo che

  P Φ(X, Y ) 2 B =



f (x, y) dx dy ,

con

A

Di conseguenza, essendo Φ(X, Y ) = XY , abbiamo che

P (XY 2 B) =



A

f (x, y) dx dy =



dx dy ,

A∩Q



A = (x, y) : Φ(x, y) 2 B . con



A = (x, y) : xy 2 B .

a) Dovendo essere XY > 12 , si ha B = z > 12 , e quindi A `e la regione, tutta contenuta in Q, costituita dai punti (x, y) tali che xy > 12 (vedi figura). Di conseguenza la probabilit` a richiesta `e

  1  1  1 P XY > = dx dy = dx dy = 1 1 2 A∩Q 2 2x  1 1  1 = 1¡ dx = (1 ¡ loge 2) . 1 2x 2 2 b) Per calcolare la probabilit` a richiesta in questo punto, si procede analogamente a quanto fatto per il punto a) tenendo per` o conto che si tratta di una probabilit` a condizionata:

 1  1  P [XY < 14 , X > 12 ] P XY < X > = . 4 2 P [X > 12 ] Posto A′ = (x, y) : xy < 14 , x> 12 , si ha quindi  1  1  4x  1  1 A′ ∩Q dx dy = P XY < X > =2 dx dy = 1 1 4 2 0 2 2  1 1 1 =2 dx = loge 2 . 1 4x 2 2 46

1.7 DISTRIBUZIONI BINOMIALE, DI POISSON E DI GAUSS DISTRIBUZIONE BINOMIALE Consideriamo esperimenti con due soli risultati: ad esempio, il lancio di una moneta produce come risultato o testa o croce; un individuo, scelto a caso da un gruppo, possiede oppure no una data caratteristica; un dato prodotto, uscito da una linea di produzione, `e difettoso oppure no. Generalizzando, siano A (il “successo”) e B ´ AC (“il fallimento”) i due possibili risultati del nostro esperimento, e siano p = P (A) e q = P (B) = 1¡p le loro probabilit`a. Considerando ora una variabile casuale Y che assume il valore 1 nel caso di successo e 0 nel caso di fallimento, essa risulta cos`i definita:   0 1 Y : . 1¡p p ` immeUna variabile casuale di questo tipo `e detta di Bernoulli o bernoulliana. E diato verificare che E(Y ) = p , V ar(Y ) = pq . Supponiamo poi che dell’esperimento in questione siano fatte n prove e sia X la variabile aleatoria che ne descrive il risultato: sar`a X =k se si verificano esattamente k successi. Ebbene, il teorema che segue, e che non dimostriamo, ci fornisce la probabilit`a P (X =k). (Si consiglia di rivedere gli esercizi 1.5.1 e 1.5.2 per una giustificazione del teorema basata su due problemi specifici).

a che in n prove indipendenti l’evento A Teorema (di Bernoulli) La probabilit` avvenga esattamente k volte vale   n k n−k p q , k = 0, 1, ..., n , k dove p `e la probabilit`a di A in una singola prova e q =1¡p. Si d`a quindi la seguente Definizione Dati 0 < p < 1 e n 2 N , si chiama variabile aleatoria binomiale la

variabile aleatoria discreta (e finita) avente la seguente funzione di probabilit` a:   P (X =k) ´ f (k) = nk pk q n−k , q =1¡p , k = 0, 1, . . . , n .   n n! Ricordando che = , si pu`o anche scrivere k k!(n ¡ k)! X:



0

1

qn

npq n−1

2

n! p2 qn−2 2!(n ¡ 2)!

... ...

n¡2 n! pn−2 q 2 (n ¡ 2)!2!

n¡1

npn−1 q

n pn



.

Spesso, piuttosto di dire che abbiamo una variabile aleatoria X binomiale, parleremo di distribuzione binomiale. Qualche volta, poi, per indicare una variabile aleatoria X binomiale di parametri n e p scriveremo X ' B(n, p).

47

Si noti che effettivamente la somma di tutte le probabilit`a P (X =k) `e 1. Infatti, per la formula binomiale di Newton, si ha n    n pk q n−k = (p + q)n = 1n = 1 . k k=0

Teorema

(senza dimostrazione)

Una variabile casuale X binomiale ha media e varianza date da 2 σX = npq .

µX = np ,

Per poter calcolare operativamente la funzione distribuzione F (k) = P (X · k) o la funzione di probabilit`a f (k) `e molto utile la seguente relazione: P (X = k+1) =

p n¡k P (X = k) . 1¡p k+1

Esercizio 1.7.1 Se la probabilit`a di avere un figlio maschio `e

1 2

, per una famiglia con 5 figli, qual `e la probabilit` a di avere: (i) due maschi; (ii) almeno un maschio; (iii) almeno 3 femmine. Sia X la variabile aleatoria binomiale che rappresenta il “numero di maschi fra n = 5 figli”:

      1 5 5 1 2 1 3 5 P (X =2) = = 10 ¢ = ; 2 2 2 2 16      31 5 1 0 1 5 = P (X ¸ 1) = 1 ¡ P (X =0) = 1 ¡ ; 0 2 2 32 2   k  5−k  1 1 1 1 1 5 1 = +5¢ + 10 ¢ = . P (X · 2) = 2 32 32 32 2 k 2 k=0

Esercizio 1.7.2 Sia p = 98% la probabilit`a che un test diagnostico su una persona dia una risposta corretta. Si chiede qual `e la probabilit` a che eseguendo il test su un gruppo di 7 individui esso dia una risposta corretta per (i) tutti 7; (ii) almeno 6; (iii) meno della met` a. Indichiamo con X la variabile aleatoria binomiale che rappresenta il numero delle diagnosi veritiere sulle 7 eseguite. Si ha

   987  7 98 7  2 0 P (X =7) = = 1¢ ¼ 0.868 ; 100 1014 7 100     7 98 6  2 1 7 98 7  2 0 P (X ¸ 6) = + ¼ 0.124 + 0.868 = 0.992 ; 6 100 100 7 100 100 3    7 98 k  2 7−k P (X · 3) = ¼ 0.53¢10−5 . k 100 100 k=0

48

Esempio 1.7.1

Si consideri ancora il test dell’esercizio precedente, questa volta con p=90%, che supponiamo eseguito su una popolazione di n = 250 persone. Calcoliamo la media e la deviazione standard della variabile aleatoria Y che rappresenta il numero dei test corretti. In virt` u del teorema precedente si ha 90 µY = np = 250¢ 100 = 225 ;

σY =

p npq =



90 1 250¢ 100 ¢ 10 =

p 22.5 ¼ 4.74 .

Questo esempio mostra come il concetto di media coincida col concetto intuitivo di “valore pi` u probabile”, e quindi di “valore atteso”. La deviazione standard (o scarto quadratico medio) fornisce invece un indice (ce ne sono diversi) della dispersione dei risultati attorno al valore atteso quando l’esperimento `e compiuto tante volte.

Esercizio 1.7.3 (a) Due ristoranti sono in concorrenza avendo gli stessi 10 clienti. Si supponga che i clienti scelgano a caso ed indipendentemente uno dall’altro il ristorante, e che arrivino al ristorante tutti alla stessa ora. Si chiede di determinare il numero di posti a sedere che ciascun ristorante dovrebbe avere perch´e ci sia almeno il 95% di probabilit` a di poter servire tutti i clienti che arrivano. (b) Risolvere lo stesso problema per tre ristoranti. (a) Se X `e la variabile casuale che rappresenta il numero di clienti che arrivano ad uno stesso ristorante, X ha chiaramente una distribuzione binomiale, vale a dire si ha  

P (X =i) =

10 i

pi (1 ¡ p)10−i .

Inoltre, nel caso in questione, poich`e la scelta del ristorante da parte di ogni cliente `e casuale, si ha p = q = 12 . Il numero di posti che garantisce con una probabilit` a di almeno il 95% di poter servire tutti i clienti che arrivano `e dato dal minimo k tale che

  1 i  1 10−i  1 10 k 10 = 2 P (X · k) = ki=0 10 i=0 i ¸ 0.95 . i 2 2 Indicata con Sk la somma in questione dei coefficienti binomiali, si pu` o quindi scrivere k 10 10 Sk ´ i=0 i ¸ 2 ¢ 0.95 = 972.8 . Di conseguenza, essendo

¢¢¢¢¢¢ S6 =758 S7 =968 il minimo k che soddisfa la relazione `e 8.

S8 =1013

S9 =1023

S10 =1024 ,

(b) Se i ristoranti sono tre, si ha p= 13 e q = 23 . In questo caso si ha quindi

P (X · k) = o, equivalentemente,

k

i=0

Σk ´

10 1 i  2 10−i

k  i=0

i

3

10−i

2

3

=

 1 10 k 3

i=0

210−i

10 i

¸ 0.95 ,

  10 ¸ 310 ¢ 0.95 = 56096.55 . i

Calcolati i termini Σk con un p` o di lavoro, si ha:

¢¢¢¢¢¢ Σ4 =46464 Σ5 =54528 Σ6 =57888 Σ7 =58848 ¢¢¢¢¢¢ . Il minimo k per cui risulta soddisfatta la relazione `e dunque 6. Nel caso di tre ristoranti bastano quindi 6 posti a sedere per avere la probabilit` a di almeno il 95% di poter servire i clienti che arrivano.

49

DISTRIBUZIONE DI POISSON Definizione Una variabile aleatoria X ` e detta variabile aleatoria di Poisson con parametro µ (µ> 0) se pu`o assumere gli infiniti valori k = 0, 1, 2, ... con probabilit`a P (X =k) = f (k) =

µk −µ e , k!

Rappresentata in forma esplicita, una variabile aleatoria di Poisson `e dunque del tipo X:



0 e−µ

1 µe−µ

2 µ −µ e 2!

3 µ −µ e 3!

2

3

... ...

k µ −µ k! e k

... ...



.

Si osservi che effettivamente la somma di tutte le probabilit`a vale 1. Infatti, si ha +∞ k  µ

k=0

essendo

+∞

Teorema

k

x k=0 k!

k!

−µ

e

−µ

=e

+∞ k  µ

k=0

k!

= e−µ ¢ e+µ = 1 ,

= ex (si tratta della ben nota serie esponenziale).

(senza dimostrazione)

La variabile aleatoria di Poisson di parametro µ ha media uguale a µ e varianza pure uguale a µ. 2 = µ implica che, aumentando µ, aumenta di pari passo anche la Il fatto che µX = σX dispersione dei valori rispetto alla media.

La distribuzione di Poisson `e tra le pi` u importanti del calcolo delle probabilit` a. Essa `e stata ottenuta come limite della distribuzione binomiale, della quale `e una buona approssimazione quando n `e molto grande e p molto piccolo; per questo `e anche detta distribuzione degli eventi rari. Per farne capire l’importanza nelle applicazioni e il gran numero di situazioni in cui essa si applica, elenchiamo alcuni casi in cui la distribuzione di Poisson descrive assai bene i dati osservati: — il numero casuale delle particelle α emesse da un corpo radioattivo e rilevate in un intervallo di tempo fissato; lo stesso vale per molte altre variabili aleatorie osservate in connessione con la radioattivit` a; — il numero di refusi in una o pi` u pagine di un libro; — il numero di clienti che entrano in un ufficio postale in una giornata; — il numero di persone, di una data categoria, con pi` u di 100 anni; — il numero delle chiamate in arrivo ad un centralino telefonico, cos`ı come il numero di collegamenti ad un numero sbagliato; — il numero di transistor che si guastano nel primo giorno di utilizzo.

Come si pu`o desumere dall’elenco di applicazioni appena proposto, la variabile aleatoria di Poisson `e adatta a descrivere il numero di fenomeni casuali distribuiti con una data densit`a media µ nell’unit`a di tempo o nell’unit`a di volume o nell’unit`a di superficie... Gli esempi che seguono illustrano operativamente quanto affermato. 50

Osservazione: Si pu`o facilmente dimostrare che vale la seguente relazione: µ P (X =k + 1) = P (X =k) . k+1 Esempio 1.7.2

Nel 1910 Rutherford e Geiger provarono che il numero di particelle α emesse al secondo da una sostanza radioattiva era una variabile aleatoria di Poisson con µ = 0.5. Determiniamo la probabilit` a di osservare due o pi` u particelle in un secondo?

P (X ¸ 2) =

+∞  (0.5)k

k=2

k!

e−0.5 = 1 ¡ P (X =0) ¡ P (X =1) =

= 1 ¡ e−0.5 ¡ 0.5¢e−0.5 ¼ 1 ¡ 0.91 = 9% Una certa sospensione batterica contiene 5 batteri per cm3 (valor medio). Qual `e la probabilit` a che un campione causale di 1 cm3 contenga (i) nessun batterio; (ii) al pi´ u due batteri; (iii) almeno 5 batteri?

Esempio 1.7.3

P (X =0) = e−5 ¼ 0.007 ;  52  −5 P (X · 2) = 1 + 5 + e ¼ .125 ; 2!  52 53 54  −5 P (X ¸ 5) = 1 ¡ P (X · 4) = 1 ¡ 1 + 5 + + + e ¼ 0.560 . 2! 3! 4! Esempio 1.7.4 Si desidera determinare la carica batterica di un campione di latte. Per valutare il numero di batteri in una sospensione se ne cerca la diluizione limite alla quale si trova ancora almeno un batterio capace di riprodursi. Supponiamo, ad esempio, di diluire 1 cm3 di latte prima di un fattore 10−1 , poi 10−2 , quindi 10−3 e infine 10−4 , trovando in ogni caso, dopo incubazione, sviluppo dei batteri. Supponiamo invece che diluendo di un fattore 10−5 , si trovi che il campione di 1 cm3 risulti sterile. Ci` o permette di concludere che nel campione di 1 cm3 diluito 104 volte vi era almeno un germe capace di riprodursi, e quindi che quel latte conteneva circa 104 germi per cm3 . Volendo raffinare l’approssimazione della carica batterica presente nel latte in esame, inoculiamo la sospensione diluita di un fattore 10−4 in 20 provette, mettendone 1 cm3 in ciascuna. Supponiamo di trovare che 8 di esse mostrano crescita, mentre le altre 12 risultano sterili. La distribuzione di Poisson permette di prevedere che, se vi sono in media µ germi per cm3 di diluito, il numero di provette che non riceveranno alcun germe (cio`e sterili) risulter`a proporzionale a P (X =0) = e−µ . Avremo dunque

e−µ =

12 20

= 0.6 ,

da cui

µ = ¡loge (0.6) = ¡loge 10¢log10 (0.6) = ¡2.3026¢(¡0.222) = 0.51 . Allora la concentrazione di germi nel latte `e 0.51¢104 =5.1 ¢ 103 germi per cm3 . 51

Esercizio 1.7.4 Una compagnia di assicurazioni riceve in media 5 richieste di rimborso al giorno. Assumendo che il numero delle richieste che arrivano in giorni successivi sia indipendente, si chiede: (a) che frazione delle giornate vedr` a arrivare meno di 3 richieste? (b) con quale probabilit` a in una settimana (di 5 giorni lavorativi) arrivano 4 richieste in esattamente 3 giorni? (a) Poich`e il numero di assicurati `e grande, ma la probabilit` a che essi mandino una richiesta in un dato giorno `e piuttosto piccola, il numero totale di richieste al giorno, che indichiamo con X , `e una variabile casuale approssimativamente Poissoniana con media E(X) = 5. Si ha quindi

 52  −5 P (X < 3) = P (X =0) + P (X =1) + P (X =2) = 1 + 5 + e ¼ 0.1247 . 2

Siccome in una giornata arrivano meno di 3 richieste di risarcimento con probabilit` a 0.125 circa, in un arco lungo di tempo ci` o avverr` a grossomodo nel 12.5% delle giornate, cio`e una giornata ogni 8. b) In virt` u dell’indipendenza tra le richieste che arrivano giorno per giorno, il numero di giorni, in una serie di 5, nei quali arriveranno 4 richieste `e una variabile casuale binomiale Y , di parametri n=5 e p = P (X =4). Essendo

p = P (X =4) = la probabilit` a cercata `e data da

P (Y =3) =

5 3

54 −5 e ¼ 0.1755 , 4!

(0.176)3 (0.825)2 ¼ 0.037 = 3.7% .

DISTRIBUZIONE DI GAUSS o NORMALE Definizione Una variabile aleatoria continua X ` e detta variabile aleatoria di Gauss o normale con parametri µ e σ (µ 2 R , σ > 0), e si scrive X ' N (µ, σ 2 ),

se la funzione densit`a `e

f (x) =

1 2 2 p e−(x−µ) /2σ . σ 2π

La funzione f (x) `e detta funzione di Gauss. Si tratta di una funzione “a campana” simmetrica rispetto ad x◦ = µ, che ha un massimo per x◦ , dove assume il valore 1 massimo f (µ) = p . Quest’ultimo ha il significato di fattore di normalizzazione, σ 2π cio`e `e quel numero tale che  +∞ f (x)dx = 1 . −∞

Come gi`a sappiamo, questa uguaglianza, la cui dimostrazione viene omessa, dice che f (x) `e effettivamente una densit`a di probabilit`a. Teorema

E(X) = µ ,

V ar(X) = σ 2 .

Il fatto che la media di X sia µ `e una ovvia conseguenza della simmetria del grafico della densit`a rispetto ad x◦ = µ. Omettiamo, per semplicit`a, di dimostrare che la 52

varianza `e σ 2 . A proposito di σ si pu`o notare che pi` u `e piccolo, pi` u `e alto il picco f (µ), e dunque la campana `e pi` u concentrata intorno alla media µ, il che concorda perfettamente con il significato di varianza.

Dalla espressione della densit`a otteniamo la funzione distribuzione:  x 2 2 1 p F (x) = e−(t−µ) /2σ dt , −∞ σ 2π da cui P (a· X · b) = F (b) ¡ F (a) =



a

b

2 2 1 p e−(t−µ) /2σ dt. σ 2π

Naturalmente, trattandosi di una variabile casuale continua, si ha P (a · X · b) = P (a· X < b)=P (a< X · b)=P (a< X < b). La funzione integrale F (x) non si pu`o calcolare coi metodi di integrazione elementari. Tuttavia, indicata con  x 2 1 p Φ(x) = e−u /2 du , 2π −∞ la funzione distribuzione della variabile aleatoria normale standardizzata, cio`e la variabile aleatoria normale con media 0 e varianza 1, vale il seguente

La funzione distribuzione normale F (x) di media µ e varianza σ 2 si pu`o rappresentare in termini della funzione distribuzione normale Φ(x) di media 0 e varianza 1 nel modo seguente: Teorema

x ¡ µ F (x) = Φ . σ

Dimostrazione. Essendo  x  x 2 2 1 1 −(t−µ)2 /2σ2 p p F (x) = e dt ´ lim e−(t−µ) /2σ dt , R→−∞ R σ 2π −∞ σ 2π t¡µ ponendo = u, si ha dt = σdu , e quindi σ  x−µ  x−µ x ¡ µ σ σ 2 1 1 −u2 /2 p p e−u /2 du ´ Φ F (x) = lim e σdu = . R→−∞ R−µ σ 2π σ 2π −∞ σ

53

Questo teorema risulta di grande utilit`a pratica. Infatti, una volta tabulata la Φ(x), il cui grafico ha l’andamento mostrato nella figura sottoriportata, attraverso le tavole ottenute `e possibile ottenere anche i “corrispondenti” valori per una qualunque variabile normale. Le tavole di Φ(x) sono fornite alla fine di queste dispense.

Essendo P (a· X · b) = F (b) ¡ F (a) = Φ si ha

b ¡ µ σ

¡Φ

a ¡ µ σ

,

P (µ ¡ σ < X < µ + σ) = Φ(1) ¡ Φ(¡1) ' 68.3% ;

P (µ ¡ 2σ < X < µ + 2σ) = Φ(2) ¡ Φ(¡2) ' 95.5% ; P (µ ¡ 3σ < X < µ + 3σ) = Φ(3) ¡ Φ(¡3) ' 99.7% . Queste probabilit`a sono molto indicative del comportamento di una variabile casuale normale. La prima, ad esempio, ci dice che `e ragionevole aspettarsi che pi` u dei due 2 terzi dei valori osservati di X ' N (µ, σ ) cadano nell’intervallo (µ ¡ σ, µ + σ). La terza ci dice invece che fra mille osservazioni di X, mediamente solo tre cadono fuori dall’intervallo (µ ¡ 3σ, µ + 3σ). Data la variabile casuale X ' N (µ, σ 2 ), l’uso pi` u diretto delle tavole relative   alla funzione Φ consiste nel determinare P (X · x) sapendo che `e uguale a Φ x−µ . Qualche σ volta, per`o, nelle applicazioni `e data una probabilit`a α (spesso assegnata come percentuale) e si cerca il numero x tale che Φ(x)=α. Questo numero x `e spesso denotato n con φα e chiamato quantile relativo ad α, ovvero percentile n¡esimo se α= . 100 Nell’ambito di applicazioni in cui sono assegnate come dati le probabilit`a, pu`o poi essere utile ricordare le seguenti approssimazioni P (µ ¡ 1.96σ < X < µ + 1.96σ) ¼ 95% ; P (µ ¡ 2.58σ < X < µ + 2.58σ) ¼ 99% . Nella determinazione di probabilit`a attraverso le tavole di N (0, 1), talvolta anche considerazioni geometriche sulle aree sottese dal grafico della densit`a possono essere di grande aiuto. Una relazione estremamente utile, che permette di limitare la tabulazione dei valori della funzione distribuzione Φ(x) ad x > 0, deducibile in modo immediato dalla simmetria della funzione densit`a rispetto all’asse y, `e la seguente: Φ(¡x) = 1 ¡ Φ(x) . 54

Grazie a questa relazione, si pu`o osservare che posto Φ(x) = α, si ha Φ(¡x) = 1 ¡ α. Da qui, passando alla notazione precedentemente introdotta relativa ai quantili, segue φ1−α = ¡φα . Ad esempio, φ0.95 = ¡φ0.05 . Il grafico qui sotto riportato rende evidente sia la relazione che ci d`a Φ(¡x) dato Φ(x), sia la relazione sui quantili.

Teorema (senza dimostrazione) Se X ' N (µ, σ 2 ), allora la variabile aleatoria X ∗ = aX + b (a > 0) `e normale con media µ∗ = aµ + b e varianza (σ ∗ )2 = a2 σ 2 .

Esercizio p 1.7.5 Consideriamo la variabile aleatoria X ' N (0.8; 4). Essendo µ = 0.8 e σ = 4=2, andiamo a calcolare a modo di esempio alcune probabilit`a. P (X · ¡1.16) = Φ[(¡1.16 ¡ 0.8)/2] = Φ(¡0.98) = 1 ¡ Φ(0.98) ¼ 16.35% ; P (X ¸ 1) = 1 ¡ Φ[(1 ¡ 0.8)/2] = 1 ¡ Φ(0.1) ¼ 46.02% ; P (2· X · 3) = Φ[(3 ¡ 0.8)/2] ¡ Φ[(2 ¡ 0.8)/2] = Φ(1.1) ¡ Φ(0.6) ¼ 13.86% .

Esercizio 1.7.6 Si consideri la variabile casuale X ' N (¡2; 0.25). Si chiede di determinare c 2 R tale che (a) P (X ¸ c) = 20% ; (b)

Essendo µ=¡2 e σ = (a)

(b)

p

P (¡2 ¡ c· X · ¡2 + c) = 90%.

0.25=0.5, si ha: c + 2   = 0.2, da cui Φ 2(c + 2) = 0.8. P (X ¸ c) = 1 ¡ F (c) = 1 ¡ Φ 0.5 Dalle tavole della legge N(0, 1) si ricava: 2(c + 2) ¼ 0.84 =) c ¼ ¡1.58.  ¡2 + c + 2   ¡2 ¡ c + 2  P (¡2 ¡ c· X · ¡2 + c) = Φ ¡Φ = 0.5 0.5 = Φ(2c) ¡ Φ(¡2c) = 0.9. Essendo Φ(2c) ¡ Φ(¡2c) = Φ(2c) ¡ (1 ¡ Φ(2c)) = 2Φ(2c) ¡ 1,

Φ(2c)=0.95,

da cui, tramite le tavole,

55

2c ¼ 1.64,

e quindi:

deve essere

c ¼ 0.82.

Esercizio 1.7.7 Il voto ad una prova d’ingresso `e distribuito normalmente. Solo il 10% dei candidati, quelli con punteggio migliore, verr` a assunto. Ad esame finito, il voto medio risulta 72 e la deviazione standard 9. Qual `e il voto minimo c che un candidato deve ottenere per essere assunto? Essendo µ = 72 e σ = 9, deve essere

P (X ¸ c) = 1 ¡ Φ

c ¡ µ σ

·

1 10

da cui

Φ

 c ¡ 72  9

¸

9 . 10

Dalle tavole di N (0, 1) si ricava che questa relazione `e soddisfatta se

c ¡ 72 ¸ 1.29 , 9

cio`e

c ¸ 83.61 ,

che arrotondato fornisce come voto minimo c=84.

1.8 APPROSSIMAZIONE NORMALE La nozione di indipendenza fra variabili casuali, e quella di convergenza in legge che ora richiamiamo, permettono di enunciare l’importante teorema di limite centrale (di cui ometteremo la dimostrazione). Definizione Una successione di variabili aleatorie fXn gn converge in legge (o in distribuzione) alla variabile aleatoria X se e solo se, dette Fn (x) ed F (x) le

rispettive funzioni distribuzione, si ha limn→∞ Fn (x) = F (x) ,

per ogni punto x 2 R di continuit`a per F (x). Osserviamo ora che data una successione di variabili aleatorie fXn gn indipendenti, ciascuna di media µ e varianza σ 2 , in virt` u di teoremi visti in precedenza, se consideriamo la variabile aleatoria Sn = X1 + X2 + ¢ ¢ ¢ + Xn , si ha E(Sn ) = nµ ,

V ar(Sn ) = nσ 2 .

Teorema di limite centrale Sia fXn gn una successione di variabili aleatorie indipendenti e identicamente distribuite, di media µ e varianza σ 2 > 0. Allora la loro somma n¡esima standardizzata Sn∗ =

X1 + ... + Xn ¡ nµ p σ n

converge in legge ad una variabile aleatoria N (0, 1). Questo teorema costituisce uno risultato notevole: la legge di Sn∗ , che in generale `e complicata da esprimere, si approssima, per n grande, con una legge N (0, 1), e questo qualunque sia la legge delle variabili Xn . Sostanzialmente il teorema di limite centrale 56

afferma questo: un effetto casuale che sia la risultante di molti effetti aleatori, ciascuno dei quali dia solo un piccolo contributo all’effetto finale, segue approssimativamente una legge normale. Ad esempio, si assume spesso che un errore di misurazione segua una legge normale. Infatti, in assenza di errore sistematico, `e ragionevole pensare che la discrepanza tra il valore vero e quello misurato sia la risultante di numerosi piccoli errori che si sono sovrapposti. Spesso l’esperienza conferma la validit`a di questa approssimazione. Dunque, il teorema di limite centrale giustifica l’approssimazione nella pratica della legge Sn∗ con una N (0, 1). Generalmente si considera che la soglia di applicabilit`a (cio`e il minimo n a partire dal quale l’approssimazione si pu`o ritenere valida) sia per n compreso tra 30 e 50. Occorre per`o osservare che questa soglia `e da ritenersi appropriata per la maggior parte delle distribuzioni che si incontrano nella pratica, ma non per tutte indistintamente. Nel caso in cui si ha Xi ' B(1, p), l’esperienza mostra che l’approssimazione `e soddisfacente quando sono soddisfatte entrambe le condizioni np ¸ 5 e n(1 ¡ p) ¸ 5. Quindi, nel caso di valori di p estremi, cio`e molto prossimi a 0 o 1, il valore necessario di n pu`o essere molto grande. L’approssimazione con la legge normale si basa sulla relazione seguente:   x ¡ nµ    x ¡ nµ  p P X1 + X2 + ¢ ¢ ¢ + Xn · x = P Sn∗ · p 'Φ , σ n σ n

dove Φ indica, come gi`a visto, la funzione di distribuzione di N (0, 1). Facendo riferimento a questa relazione parleremo sempre di approssimazione normale. Nel caso di variabili casuali Xi a valori interi, `e naturale che il numero x che compare nella relazione appena scritta sia esso pure un intero. Denotandolo con k per evidenziare questo fatto, in generale `e conveniente riscrivere la relazione nel modo seguente:    1 k−nµ+ 12 √ P X1 + X2 + ¢ ¢ ¢ + Xn · k + 'Φ , σ n 2

Il considerare x=k+ 12 rende, nella maggior parte dei casi, pi` u corretta l’approssima zione. A giustificazione di questo fatto si supponga di voler approssimare P X1 +  X2 + ¢ ¢ ¢ + Xn =k mediante N (0, 1). Ovviamente, essendo questa una distribuzione continua, la probabilit`a cercata sarebbe nulla. In realt`a ha senso valutarla tenendo conto che si approssima una distribuzione discreta con una continua: ci`o porta   ad associare all’intero k l’intervallo di ampiezza 1 centrato in k, cio`e k ¡ 12 , k + 12 . Di qui si pu`o ragionevolmente porre    1 1 P X1 + X2 + ¢ ¢ ¢ + Xn =k = P k ¡ < X1 + X2 + ¢ ¢ ¢ + Xn · k + ¼ 2 2  k + 1 ¡ nµ   k ¡ 1 ¡ nµ  2p 2p ¼Φ ¡Φ . σ n σ n Fra i casi in cui conviene applicare l’approssimazione normale in questo modo rientra certamente il caso delle prove di Bernoulli. Infatti se Y `e il numero di successi in n prove indipendenti, si ha Y = X1 + ... + Xn , dove ciascun Xi ' B(1, p) `e la variabile aleatoria relativa alla singola i¡esima prova. In tal caso, essendo 57

E(Xi )=p , V ar(Xi ) = pq , l’approssimazione migliore in generale sar`a  k + 1 ¡ np  P (Y · k) ¼ Φ . p2 npq

Esercizio 1.8.1

Qual `e la probabilit` a di ottenere almeno 29 teste in 50 lanci di una moneta

equilibrata? Si tratta  di calcolare P (X1 + X2 + ¢ ¢ ¢ + X50 ) ¸ 29, con le Xi indipendenti e del tipo B 1, 12 . Essendo µXi = 12 e σXi = 12 , si ha

P (X1 + X2 + ¢ ¢ ¢ + X50 ¸ 29) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X50 · 28) ¼  28.5 ¡ 50¢0.5   3.5  p ¼1¡Φ =1¡Φ p ¼ 0.5¢ 50 12.5 ¼ 1 ¡ Φ(0.99) ¼ 1 ¡ 0.84 = 0.16 .

Occorre osservare che questo risultato `e assia preciso. Se avessimo fatto il calcolo utilizzando la formula con k anzich`e quella con k + 12 , avremmo ottenuto una approssimazione assai peggiore. Infatti:

P (X1 + X2 + ¢ ¢ ¢ + X50 ¸ 29) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X50 · 28) ¼  28 ¡ 50¢0.5   3  p ¼1¡Φ =1¡Φ p ¼ 0.5¢ 50 12.5 ¼ 1 ¡ Φ(0.85) ¼ 1 ¡ 0.80 = 0.20 .

Esercizio 1.8.2 Determinare la probabilit`a di ottenere pi`u di 25 ”sette” in 100 lanci di una coppia di dadi equi. La variabile aleatoria Y = “numero di ’sette’ nell’ambito di 100 lanci” pu` o essere definita 6 come X1 + X2 + ¢ ¢ ¢ + X100 , con ciascuna Xi ' B(1, 16 ), essendo p= 36 , in quanto sono 6 i risultati che danno ’sette’ sui 36 possibili esiti del lancio di due dadi. Si ha dunque

µXi =p= 16 ,

5 2 σX =pq = 36 . i

Di conseguenza, approssimando con la normale, abbiamo:

P (Y ¸ 26) = 1 ¡ P (Y · 25) ¼ 1 ¡ Φ



25.5 ¡ 100¢ 16 √ 5 6 ¢10

 5.3  = 1 ¡ Φ p ¼ 1 ¡ Φ(2.37) ¼ 0.01 . 5

58



=

Esercizio 1.8.3 Un segnale consiste in una parola di 1000 bit, ciascuno dei quali pu`o assumere i valori 0 oppure 1. Nel corso della trasmissione del segnale ogni bit pu` o essere distorto con probabilit` a p=0.01. Si chiede: qual `e la probabilit` a che un segnale contenga almeno 10 bit distorti? Sia Xi ' B(1, p) la variabile aleatoria che dice se l’i¡esimo bit del segnale `e distorto oppure no. Dobbiamo determinare P (X1 + X2 + ¢ ¢ ¢ + X1000 ¸ 10). Osservato che np=10, per cui n `e sufficientemente grande da rendere affidabile una approssimazione alla normale, procediamo in tal senso.

P (X1 + X2 + ¢ ¢ ¢ + X1000 ¸ 10) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X1000 · 9) ¼  9.5 ¡ 1000¢0.01   ¡0.5  ¼ 1¡Φ p =1¡Φ p ¼ 1000¢0.01¢0.99 9.9 ¼ 1 ¡ Φ(¡0.159) = Φ(0.159) ¼ 0.564 = 56.4% . Esercizio 1.8.4 Nella trasmissione di un’immagine ogni bit viene distorto con probabilit`a 0.0002. Ne consegue che il colore di un pixel, che `e rappresentato da un byte, cio`e da una 8-pla di bit, resta integro con probabilit` a q =0.9984 (in realt` a, essendo q = (0.0002)8 , se si fanno i calcoli, ci si accorge che questo `e un valore approssimato). Sapendo che un’immagine `e composta da 512£256 = 131072 pixel, quali sono le probabilit` a che vi siano (a) almeno 190 pixel distorti; (b) almeno 210; (c) almeno 230? Indicata con Xi ' B(1, p), p = 0.0016, la variabile che dice se l’i¡esimo pixel `e oppure no distorto, si deve approssimare P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ k), con k = 190, k = 210 e k =230. Poich`e np ¼ 210, n `e certamente tale da consentire una buona approssimazione mediante la normale. Si ha quindi

P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ 190) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X131072 · 189) ¼  189.5 ¡ 131072¢0.0016  ¼ 1¡Φ p ¼ 131072¢0.0016¢0.9984  ¡20.215  ¼ 1¡Φ ¼ 1 ¡ Φ(¡1.398) ¼ 14.464 ¼ Φ(1.40) ¼ 0.919 = 91.9% ; P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ 210) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X131072 · 209) ¼  209.5 ¡ 209.715  ¼ 1¡Φ ¼ 1 ¡ Φ(¡0.015) ¼ 14.464 = Φ(0.015) ¼ 0.506 = 50.6% ; P (X1 + X2 + ¢ ¢ ¢ + X131072 ¸ 230) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X131072 · 229) ¼  229.5 ¡ 209.715  p ¼ 1¡Φ ¼ 1 ¡ Φ(1.37) ¼ 14.464 ¼ 1 ¡ 0.915 = 0.085 = 8.5% . 59

Esercizio 1.8.5

Un calcolatore esegue la somma di un milione di numeri (il che implica l’esecuzione di 106 somme). In ogni addizione il risultato prodotto `e soggetto ad un errore di arrotondamento. Supponiamo che i singoli errori indipendenti  1 siano  uno dall’altro e che ab1 −10 −10 biano distribuzione uniforme nell’intervallo ¡ 2 10 , + 2 10 (il che significa supporre che la decima cifra decimale sia significativa). Si chiede: (a) qual `e la probabilit` a che la settima cifra decimale della somma risultante sia significativa? qual `e la probabilit` a che l’ottava cifra sia significativa? Introduciamo le variabili casuali Xi := “errore compiuto nella i¡esima addizione”. Si tratta  di 106 variabili casuali uniformemente distribuite nell’intervallo ¡ 12 10−10 , + 12 10−10 , per le quali, come abbiamo visto nell’esempio 1.5.4, si ha

E(Xi ) =

a+b = 0, 2

V ar(Xi ) =

(b ¡ a)2 10−20 = . 12 12

Perch´e la k¡esima cifra decimale sia significativa occorre che

1 1 ¡ 10−k · X1 + X2 + ¢ ¢ ¢ + X106 · 10−k . 2 2 106 Posto per comodit` a Y = i=1 Xi , la probabilit` a richiesta nella domanda (a), approssimata con la normale, risulta quindi

    −7 10−7  1 ¡ 102 1 −7 −7 2 P ¡ 10 · Y · 10 ) ¼ Φ  ¡Φ  = −20 2 2 10−20 6 10 ¢ 12 106 ¢ 1012 p   p  = Φ 3 ¡ Φ ¡ 3 ¼ Φ(1.73) ¡ Φ(¡1.73) ¼

¼ 2Φ(1.73) ¡ 1 ¼ 2¢0.958 ¡ 1 = 0.916 = 91.6% .

Per quanto riguarda poi la domanda (b), procedendo esattamente allo stesso modo, si ha

    10−8 10−8  1 ¡ 1 −8 −8 2 P ¡ 10 · Y · 10 ) ¼ Φ  2 ¡Φ  = −20 2 2 10−20 6 6 10 ¢ 12 10 ¢ 1012 p   p  3 3 =Φ ¡Φ ¡ ¼ Φ(0.173) ¡ Φ(¡0.173) ¼ 10 10 ¼ 2Φ(0.173) ¡ 1 ¼ 2¢0.568 ¡ 1 = 0.114 = 11.4% .

60

Esercizio 1.8.6 Si sa che esistono in circolazione dei dadi truccati in modo tale da produrre il 6 con probabilit` a 29 . Ci si pone il problema di stabilire se un dato dado `e truccato oppure no. La procedura adottata `e la seguente: il dado viene lanciato 900 volte, e se il 6 esce almeno 180 volte, si decide che il dado `e truccato. Ci si chiede: qual `e la probabilit` a che un dado che viene assunto come truccato lo sia effettivamente? Sia Xi ' B(1, p = 29 ) la variabile aleatoria che dice se all’i¡esimo lancio esce il 6 oppure no. La probabilit` a da calcolare, posto per comodit` a X = X1 + X2 + ¢ ¢ ¢ + X900 , `e P (X ¸ 180). Valutiamo tale probabilit` a approssimandola con la normale. Si ha:



 179.5 ¡ 900¢ 29  P (X ¸ 180) = 1 ¡ P (X · 179) ¼ 1 ¡ Φ = 900¢ 29 ¢ 79   ¡20.5 = 1 ¡ Φ 10 p ¼ 1 ¡ Φ(¡1.64) = Φ(1.64) ¼ 14 3 ¼ 0.95 = 95% . Dunque, `e lecito aspettarsi che nel 95% dei casi il test adottato dia la risposta giusta. Ci si potrebbe anche chiedere: qual `e la probabilit` a che il 6 esca almeno 180 volte se il dado non `e truccato? In tal caso, indicata con Yi ' B(1, 16 ) la variabile aleatoria che descrive l’esito dell’i¡esimo lancio di un dado “equo”, e posto Y = Y1 + Y2 + ¢ ¢ ¢ + Y900 , si ha



 179.5 ¡ 900¢ 16  P (Y ¸ 180) = 1 ¡ P (Y · 179) ¼ 1 ¡ Φ = 900¢ 16 ¢ 56   29.5 =1¡Φ p ¼ 1 ¡ Φ(2.64) ¼ 0.004 = 0.4% . 5 5

61

1.9 ALTRE DISTRIBUZIONI DISTRIBUZIONE ESPONENZIALE Definizione Una variabile aleatoria continua X ha una distribuzione esponenziale con parametro λ (λ > 0), se la sua funzione densit` a `e f (x) =



0 λe−λx

per x< 0 . per x¸ 0

` facile verificare (si consiglia di farlo come esercizio) che f (x) `e effettivamente una E densit`a e che la funzione distribuzione di X vale  0 per x< 0 F (x) = . −λx 1¡e per x¸ 0 Teorema Una variabile aleatoria X a distribuzione esponenziale con parametro λ ha media e varianza date da 1 1 µ= , σ2 = 2 . λ λ Dimostrazione Si ha infatti:  +∞  +∞ +∞  +∞  1 −λx −λx µ= xf (x)dx = λxe dx = ¡xe + e−λx dx = ; λ 0 −∞ 0 0  +∞  +∞ 1 1 x2 f (x)dx ¡ 2 = λx2 e−λx dx ¡ 2 = σ 2 = E(x2 ) ¡ µ2 = λ λ −∞ 0  +∞  +∞ 1 1 1 1 = ¡x2 e−λx + 2xe−λx dx ¡ 2 = 2 2 ¡ 2 = 2 . λ λ λ λ 0 0 Le variabili aleatorie con distribuzione esponenziale hanno notevole interesse applicativo in quanto utilizzabili per rappresentare diversi fenomeni che si incontrano nelle osservazioni scientifiche o nelle applicazioni tecnologiche. Di solito esse rappresentano 62

i tempi d’attesa affinch´e un dato evento si verifichi. Ad esempio, se X indica il tempo misurato a partire dall’inizio del funzionamento di un dato pezzo di una macchina, ci si pu`o chiedere qual ` e la probabilit`a che il pezzo non si rompa prima che sia decorso un dato tempo x. Ebbene, la risposta `e data da P (X ¸ x), ossia P (X ¸ x) = 1 ¡ F (x) = e−λx .

Una propriet`a caratteristica delle variabili casuali esponenziali `e che non hanno memoria. Questo fatto, che non dimostreremo, matematicamente `e espresso dalla seguente relazione fra probabilit`a: P (X > s + t j X > s) = P (X > t) . Ci`o significa che se X `e il tempo d’attesa fino al primo guasto di una data apparecchiatura, questo tempo non dipende dal fatto che l’apparecchiatura abbia gi`a funzionato per un dato tempo s. In altre parole, la distribuzione di probabilit`a di X non dipende dall’istante iniziale. Esercizio 1.9.1 Il numero di chilometri (misurato in migliaia) che un dato pneumatico pu`o percorrere prima di deteriorarsi `e rappresentabile con una variabile aleatoria X avente distribuzione esponenziale con parametro λ=0.05. Determinare la probabilit` a che un pneumatico di questo tipo duri (i) almeno 30 Km; (ii) tra i 35 e i 40 km. Si ha

P (X ¸ 30) = 1 ¡ F (30) = e−30λ = e−0.05·30 = e−1.5 ¼ 0.223 ;

P (35· X · 40) = F (40) ¡ F (35) = e−1.75 ¡ e−2 ¼ 0.174 ¡ 0.135 = 0.039.

Esercizio 1.9.2 Un apparecchio elettronico `e composto da due elementi in parallelo, l’uno indipendente dall’altro e ciascuno con un tempo di vita esponenziale di media 8 giorni. Con quale probabilit` a l’apparecchio durer` a un tempo non superiore a 12 giorni, supposto che esso funzioni se una almeno delle due componenti funziona? Poich´e una variabile aleatoria esponenziale ha media uguale all’inverso del parametro λ, nel nostro caso si ha λ = 18 . Di conseguenza ciascuna componente ha un tempo di vita Xi , i = 1, 2, avente densit`a

fXi =



0

per x< 0

1 − 18 x 8e

per x¸ 0

.

Indicato quindi con Y il tempo di vita dell’apparecchio, si ha Y = maxfX1 , X2 g. Sapendo poi che X1 e X2 sono indipendenti, si ha t

P (Y · t) = P (X1 · t, X2 · t) = P (X1 · t)¢P (X2 · t) = (1 ¡ e− 8 )2 , e quindi 12

3

P (Y · 12) = (1 ¡ e− 8 )2 = (1 ¡ e− 2 )2 ¼ (1 ¡ 0.223)2 ¼ 0.6035 . 63

Esercizio 1.9.3 Una lampada ha un tempo di vita che segue una legge esponenziale di media µ uguale a 10 giorni. Non appena smette di funzionare essa viene sostituita con una nuova. Qual `e la probabilit` a che 40 lampade siano sufficienti per un anno? Indicata con Xi la durata della lampada i¡esima, possiamo supporre le Xi indipendenti e 1 con legge esponenziale di parametro λ = 10 . Poich´e nel caso di una variabile aleatoria di a richiesta, tipo esponenziale si ha σ 2 = λ12 = µ2 , abbiamo dunque µ=σ =10. La probabilit` approssimata mediante la normale, diventa quindi

P (X1 + X2 + ¢ ¢ ¢ + X40 ¸ 365) = 1 ¡ P (X1 + X2 + ¢ ¢ ¢ + X40 < 365) ¼  365 ¡ 40¢10   ¡35  p p ¼1¡Φ =1¡Φ ¼ 10¢ 40 20 10   ¼ 1 ¡ Φ(¡0.55) = 1 ¡ 1 ¡ Φ(0.55) = = Φ(0.55) ¼ 0.71 .

DISTRIBUZIONE IPERGEOMETRICA Definizione Una variabile aleatoria discreta X ha una distribuzione ipergeometrica di parametri (interi) N , M ed n, con n· M · N , se ha la seguente funzione

di probabilit`a:

P (X =k) = f (k) =

M N−M  k

Nn−k 

,

k = 0, 1, . . . , n .

n

Questa distribuzione `e utile quando si effettua un’estrazione senza reimmissione da un’urna che contiene N oggetti di cui M di un certo tipo, e si chiede la probabilit`a che un campione di dimensione n ne contenga esattamente k di quel tipo. Tipicamente, M rappresenta il numero degli oggetti difettosi fra gli N presi in considerazione. Ricordiamo che nel caso di estrazione con reimmissione la distribuzione utile `e quella binomiale. Sulla base del significato dei parametri `e abbastanza immediato verificare che f (k) rappresenta la probabilit` a che un campione di n oggetti contenga esattamente k oggetti difettosi. Infatti, mentre a denominatore c’`e il numero di tutti i possibili campioni che `e possibile estrarre dall’urna (cio`e le combinazioni di N oggetti presi n alla volta), a numeratore c’`e il numero dei possibili campioni che contengono esattamente k oggetti difettosi (cio`e il numero delle combinazioni di M oggetti presi k alla volta, moltiplicato per il numero delle combinazioni di N ¡M oggetti presi n¡k alla volta).

Teorema

(senza dimostrazione)

Una variabile aleatoria X a distribuzione ipergeometrica con parametri N , M ed n, ha media e varianza date da M M N ¡M N ¡n µ=n , σ2 = n . N N N N ¡1 64

Esempio 1.9.1 Si consideri l’esperimento di estrarre un campione di 2 lampadine da una scatola che ne contiene 10, 3 delle quali difettose. Si chiede di scrivere la funzione di probabilit` a della variabile casuale X = numero di lampadine difettose estratte , nel caso di estrazione: (a) senza reimmissione; (b) con reimmissione. (a) Abbiamo:

N =10 ;

M =3 ;

n=2 ;

k = 0, 1, 2 . E di conseguenza: 37 7 P (k =0) = f (0) = 0102 = , 15 2 37 7 P (k =1) = f (1) = 1101 = , 15 2 3  7 1 2 0 P (k =0) = f (2) = 10 = . 15 2

3 (b) Ricordando la distribuzione binomiale, essendo p= M N = 10 , q =   49 2 0 2  7 2 = P (k =0) = f (0) = p q = , 0 10 100   42 2 1 1 3 7 = , P (k =1) = f (1) = p q =2 10 10 100 1   2 2 0  3 2 9 P (k =0) = f (2) = p q = . = 2 10 100

7 10 ,

si ha

Esempio 1.9.2

Da un lotto costituito di 800 pezzi si estrae un campione di 150 unit` a. Se il campione contiene al pi` u 2 pezzi difettosi, il lotto viene accettato; altrimenti viene rifiutato. Qual `e la probabilit` a che un lotto contenente il 5% di pezzi difettosi venga accettato? Consideriamo una distribuzione ipergeometrica con parametri N = 800 , M = 800 ¢ 40 , n=150 . La probabilit`a che il lotto sia accettato `e data da

f (0) + f (1) + f (2) =

2 

k=0

40800−40 k

150−k 800  150

5 100

=

¼ 0.0112 .

Questo esempio `e interessante in quanto illustra come viene effettuato un controllo di accettazione o collaudo statistico. Vengono determinati dei piani di campionamento caratterizzati dalle cosiddette specifiche che, nel caso in questione, sono la numerosit` a n del campione da estrarre e il numero massimo ammissibile di unit` a difettose. L’esempio mostra come si calcola la probabilit` a che il lotto sia accettato pur avendo una data difettosit` a.

Esercizio 1.9.4 Una partita di 150 libri ne contiene 30 che presentano un difetto nella rilegatura. Se 10 libri vengono scelti a caso per un controllo, qual `e la probabilit` a che 3 libri tra i 10 estratti siano difettosi? Effettuare il calcolo sia nell’ipotesi di estrazione senza reimmissione che in quella di estrazione con reimmissione. Applicando la formula della distribuzione ipergeometrica con parametri N = 150 , M =

30 , n=10 , abbiamo f (3) =

30120 3

1507 10

65

¼ 0.2065 .

30 Se invece applichiamo la distribuzione binomiale B(10, p) con p= 150 =0.2, otteniamo

f (3) =



 10 (0.2)3 (0.8)7 ¼ 0.2013 . 3

L’esercizio appena risolto mostra che in certi casi la distribuzione ipergeometrica e quella binomiale producono risultati pressoch`e uguali (nel caso specifico differiscono per meno dell’1%). La spiegazione sta nell’affermazione seguente (che non dimostriamo). Se N , M ed N ¡M sono grandi in confronto ad n, allora non `e molto rilevante se il campionamento viene effettuato con o senza reimmissione, in quanto la distribuzione ipergeometrica pu`o essere ben approssimata con la distribuzione bie pi` u semplice. In una ”popolazione nomiale (con p = M N ), che in un certo senso ` infinita” si usa sempre la distribuzione binomiale indifferentemente dal tipo di campionamento.

DISTRIBUZIONE GEOMETRICA Definizione Una variabile aleatoria discreta X ha una distribuzione geometrica di parametro p , 0< p· 1 , se ha la seguente funzione di probabilit`a: P (X =k) = f (k) = p(1 ¡ p)k ,

k = 0, 1, . . . , n, . . . .

La distribuzione geometrica ha origine nella seguente  applicazione delle prove di Bernoulli: Sia A un evento di un esperimento con P A = p. Ripetiamo infinite volte l’esperimento e denotiamo con X la variabile casuale che rappresenta il numero di prove eseguite prima che si verifichi per la prima volta A. Chiaramente f (k) `e la probabilit`a che l’evento A si verifichi dopo k insuccessi consecutivi. ` facile dimostrare che la funzione f (k) `e effettivamente una funzione di probabilit`a. E 1 Infatti, ricordando che la somma di una serie geometrica di ragione p vale 1−p , si ha ∞ 

k=0

f (k) =

∞ 

k=0

p (1 ¡ p)k = p

∞ 

(1 ¡ p)k = p

k=0

1 = 1. 1 ¡ (1 ¡ p)

Esercizio 1.9.5 Un dado viene lanciato finch´e non si presenta la faccia ”1”. Qual `e la probabilit` a che debba esser lanciato pi` u di 6 volte? Sia U7 l’evento “la faccia ”1” non si presenta prima del settimo lancio”. Si ha

P (U7 ) = f (6) + f (7) + ... =

∞  1  5 k

5  1  5 k

6 6  1 5  5 2  5 3  5 4  5 5  =1¡ 1+ + + + + = 6 6 6 6 6 6  6  5 6 1 1 ¡ 56 =1¡ = ¼ 0.3349 . 6 1 ¡ 56 6 k=6

66

6 6

=1¡

k=0

=

CAPITOLO

2: STATISTICA DESCRITTIVA

2.1 INTRODUZIONE Per statistica descrittiva o metodologica si intende il complesso di quelle norme utilizzate dallo sperimentatore per raccogliere, rappresentare ed elaborare insiemi di dati osservati. I dati raccolti riguardano solo un campione e non l’intera popolazione. L’elaborazione statistica ha l’obiettivo di ricavare informazioni sulla popolazione estraendole dai (pochi) dati che sono stati osservati sul campione. Naturalmente le informazioni a cui siamo interessati riguardano una o pi` u caratteristiche della popolazione in questione. Volendo dare una veste matematica a quanto appena detto, sia X una variabile aleatoria, di tipo discreto o continuo, definita su un insieme S (la popolazione). Sono noti i valori che X assume in corrispondenza degli elementi di un sottinsieme C di S (il campione). Sia N = jSj e n = jCj. Il campione `e dunque una n—pla (x1 , x2 , . . . , xn ), dove ciascun xi rappresenta il valore noto che X(s) assume per s= si 2 C. Essendo, in generale, n ¿ N , la variabile aleatoria X `e incognita in molti (moltissimi) elementi su cui `e definita. Il compito della statistica `e quello di desumere dai dati del campione il maggior numero di informazioni circa la distribuzione di X, avendo anche un’idea, il pi` u possibile precisa, del grado di affidabilit`a di queste informazioni. A questa variabile aleatoria ci riferiremo d’ora in poi come alla variabile aleatoria sottostante al nostro esperimento. Un’indagine statistica di tipo descrittivo pu`o essere articolata nei seguenti quattro passi: 1) rilevazione dei dati; 2 ) organizzazione dei dati; 3) presentazione dei dati organizzati; 4) interpretazione e conclusioni.

2.2 ORGANIZZAZIONE E RAPPRESENTAZIONE DEI DATI Rilevazione dei dati La rilevazione, che `e l’inizio del procedimento statistico, `e l’insieme dei meccanismi che permettono di ottenere le informazioni necessarie da elaborare. Strumenti basilari di questo momento sono i questionari, i modelli di rilevazione, le inchieste telefoniche, l’accesso e la consultazione di banche dati, etc. Le modalit`a di rilevazione dei dati xi sono particolarmente importanti. Occorre infatti aver chiaramente fissati gli obiettivi, valutata la fattibilit`a, definita l’estensione in termini geografici, temporali, economici. Infine, `e fondamentale aver scelto in modo appropriato la tecnica di campionamento (che qui per`o non discutiamo).

67

Organizzazione dei dati In genere i dati grezzi ottenuti dalla rilevazione sono difficilmente interpretabili: occorre organizzarli opportunamente. Quando i dati sono di tipo numerico, e lo sono nella grande maggioranza dei casi, il modo pi` u semplice di farlo consiste nell’ordinarli in modo crescente o decrescente. Ci`o permette immediatamente di stabilire il campo di variazione degli xi (o rango), cio`e il minimo intervallo che li contiene tutti. Questo indice ci dice gi`a qualcosa (ad esempio i valori minimo e massimo della variabile campionata); tuttavia esso pu`o essere poco indicativo, soprattutto se n `e grande. Pu`o dunque essere conveniente organizzare i dati in classi. Come si formano le classi? Si tratta di un punto importante in quanto una cattiva scelta delle classi pu`o portare ad una cattiva interpretazione della distribuzione dei dati. Proponiamo dunque alcuni criteri di formazione delle classi ritenuti ottimali. Il numero delle classi `e importante. Se le classi sono troppe, in ogni classe ci sarebbero pochissimi elementi (o addirittura nessuno); se sono poche, essendovi concentrati molti elementi, potrebbe sfuggirci la globalit`a della distribuzione. In genere il numero delle classi `e compreso fra 6 e 20. Secondo Sturges il numero ottimale di classi `e nc = [1 + 1.443 lg n] , con lg n che indica il logaritmo naturale di n e [a] l’intero pi` u vicino ad a. ` conveniente che le classi abbiano la stessa ampiezza. In questo caso, se r `e l’ampiezza E del campo di variazione dei dati ed nc il numero delle classi in cui si `e deciso di organizzare i dati, se ne deduce per ciascuna classe un’ampiezza ℓ data da r ℓ= . nc Tale ampiezza, tuttavia, in genere non `e quella pi` u conveniente; torna utile “aggiustarla” in modo che i punti di mezzo di ciascun intervallo siano della stessa grandezza, come ordine di approssimazione, dei dati xi e che nessun xi cada su un estremo dell’intervallo. Ad esempio, se gli xi sono interi qualunque (cio`e non sono dei multipli di un intero k), allora conviene prendere ℓ intero e dispari, e ciascun intervallo del tipo (h ¡ 12 , h + ℓ ¡ 12 ), dove h `e un intero. Scelte analoghe possono essere fatte se gli xi sono numeri decimali (tutti con lo stesso numero di decimali). I due esempi proposti nel seguito saranno utili a chiarire il senso di quanto appena detto.

Funzioni di frequenza Per avere altri tipi di informazione sempre pi` u precisi ed esaurienti, si possono definire altri indici statistici. Indicato con x il punto medio della generica classe, tali indici sono i seguenti: — la funzione di frequenza, che associa ad ogni classe il numero degli elementi che la compongono; la indicheremo con ϕ(x); — la funzione di frequenza relativa, che esprime il rapporto fra il numero degli elementi della classe ed il numero totale n di elementi del campione; indicatala con ϕr (x), si ha dunque ϕr (x) ´ ϕ(x) n ; — la funzione di frequenza cumulativa, cio`e il numero degli elementi della classe e 68

delle classi precedenti; sar`a rappresentata da ϕc (x); — la funzione di frequenza cumulativa relativa, ovvero il rapporto tra il numero degli elementi dato dalla frequenza cumulativa e il numero totale n di elementi del campione; denotata con ϕcr (x), si ha perci`o ϕcr (x) ´ ϕcn(x) .

Rappresentazioni grafiche Nella statistica descrittiva la rappresentazione grafica dei dati riveste un ruolo molto importante, in quanto serve a fornire in modo immediato una descrizione del fenomeno oggetto di studio. Gli strumenti disponibili sono diversi, pi` u o meno significativi, pi` u o meno adatti a seconda degli obiettivi che si intende conseguire mostrando in quel modo i dati. Quelli pi` u matematici e significativi sono l’istogramma, il grafico a bastoni e i poligoni di frequenza. L’istogramma costituisce probabilmente lo strumento pi` u comune di rappresentazione di dati statistici. Si ottiene nel modo seguente: prima si riportano sull’asse delle ascisse le classi indicando per ciascuna il relativo punto di mezzo x; poi, in corrispondenza di ciascuna classe, si disegna un rettangolo avente area proporzionale a ϕ(x) o, equivalentemente, a ϕr (x). Sull’asse delle ordinate si possono riportare i valori della funzione ϕ(x) oppure quelli di ϕr (x). Se poi si riportano nel grafico sia ϕ(x) che ϕr (x) (in opportuna scala), rispettivamente a sinistra e a destra del grafico, si ottiene il duplice obiettivo di poter leggere entrambi i valori. Osservazione: Nell’istogramma della pagina che segue le classi hanno la stessa ampiezza, e quindi i rettangoli hanno tutti la stessa base. Ovviamente ci` o non `e pi` u vero se si considerano, come peraltro `e lecito, classi di diversa ampiezza.

Un grafico a bastoni `e del tutto equivalente ad un istogramma, e si costruisce in maniera del tutto analoga. Per quanto riguarda poi i poligoni di frequenza, l’esempio che segue permetter`a facilmente di capire come si costruiscono e qual `e il loro significato. Esempio 2.2.1

La tabella che segue riporta i pesi (in chilogrammi) di 50 studentesse, che per brevit` a sono gi` a stati ordinati (in ordine crescente). Naturalmente, ogni numero `e ripetuto tante volte quante sono le studentesse aventi quel peso.

53

55

56

57

57

58

58

59

59

60

60

60

61

61

61

61

62

62

62

62

63

63

63

63

63

64

64

64

64

64

64

65

65

65

65

65

66

66

66

66

67

67

67

68

68

69

70

71

71

73

Dalla tabella si deduce immediatamente che il campo di variazione `e [53,73]. Applicando poi la formula di Sturges per determinare il numero ottimale di classi, si ha

nc = [1 + 1.443 lg 50] = [1 + 5.64] = 7 ,

e quindi

ℓ=

20 7

¼ 2.86 .

In base a quanto detto in precedenza, essendo l’unit` a di misura adottata un numero intero (i chili), `e conveniente che ℓ sia un intero dispari e che gli intervalli abbiano come punto medio

69

un intero. Scegliamo dunque ℓ=3 e prendiamo gli intervalli di ampiezza 3 a partire da 52.5. La tabella che segue riporta gli intervalli relativi a ciascuna classe, il loro punto di mezzo x, il numero di elementi di ogni classe e le quattro funzioni di frequenza precedentemente definite ϕ(x), ϕr (x), ϕc (x) e ϕcr (x).

Classi

Punto x

ϕ(x)

ϕr (x)

ϕc (x)

ϕcr (x)

di pesi

di mezzo

52.5 ¡ 55.5

54

2

0.04

2

0.04

55.5 ¡ 58.5

57

5

0.10

7

0.14

58.5 ¡ 61.5

60

9

0.18

16

0.32

61.5 ¡ 64.5

63

15

0.30

31

0.62

64.5 ¡ 67.5

66

12

0.24

43

0.86

67.5 ¡ 70.5

69

4

0.08

47

0.94

70.5 ¡ 73.5

72

3

0.06

50

1.00

Seguono nell’ordine l’istogramma, il grafico a bastoni, il poligono di frequenza ed il poligono di frequenza relativa cumulativa.

70

Osserviamo che, in un certo senso, il poligono di frequenza (primo grafico di questa pagina) “rappresenta” la funzione densit` a della variabile aleatoria X sottostante al fenomeno studiato; analogamente il poligono di frequenza cumulativa (secondo grafico) “rappresenta” la funzione di distribuzione di X.

Esempio 2.2.2

La tabella che segue riporta le altezze (in centimetri) di 80 atleti, anche in questo caso gi` a ordinati (in modo crescente). Si chiede di organizzare questi dati in classi e di calcolarne le quattro funzioni di frequenza, rappresentando poi il tutto con una tabella del tipo di quella dell’esercizio precedente.

160

162

164

165

167

168

168

169

169

170

170

171

171

172

172

172

172

173

173

174

174

174

175

175

175

176

176

176

177

177

177

177

178

178

178

178

178

178

179

179

179

179

179

179

179

180

180

180

180

181

181

181

181

182

182

182

182

182

183

183

184

184

185

185

186

186

187

187

188

189

190

190

191

192

192

193

194

197

199

201

71

Dalla tabella si legge subito che il campo di variazione `e [160,201]. Applicando poi la formula di Sturges per determinare il numero ottimale di classi, si ha

nc = [1 + 1.443 lg 80] = [1 + 6.32] = 7 ,

ℓ=

e quindi

41 7

¼ 5.86

Volendo scegliere come ℓ un intero dispari, o si sceglie 5, che comporta poi di prendere nc =9, oppure si sceglie 7, che comporta nc =6. Per non avere un numero di classi troppo piccolo, scegliamo ℓ=5 e quindi nc = 9. I dati organizzati in classi portano dunque a questa tabella:

Classi di

Punto x

ϕ(x)

ϕr (x)

ϕc (x)

ϕcr (x)

altezze

di mezzo

158.5 ¡ 163.5

161

2

0.025

2

0.025

163.5 ¡ 168.5

166

5

0.063

7

0.088

168.5 ¡ 173.5

171

12

0.150

19

0.238

173.5 ¡ 178.5

176

19

0.237

38

0.475

178.5 ¡ 183.5

181

22

0.275

60

0.750

183.5 ¡ 188.5

186

9

0.113

69

0.863

188.5 ¡ 193.5

191

7

0.087

76

0.950

193.5 ¡ 198.5

196

2

0.025

78

0.975

198.5 ¡ 205.5

201

2

0.025

80

1.000

2.3 GRANDEZZE CHE SINTETIZZANO I DATI Ci proponiamo ora di caratterizzare una distribuzione statistica, cio`e un insieme di dati xi , i = 1, 2, . . . , n, del tipo di quelli visti finora, attraverso misure che ne riassumano le principali propriet`a. In tal modo si parla anche di misure di tendenza centrale: si chiamano cos`ı alcune caratterizzazioni sintetiche della distribuzione che servono a dare un’idea di dove la distribuzione sia collocata e quanto sia concentrata.

Media Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama media aritmetica, o pi` u semplicemente media, delle osservazioni il numero 1 n x= xi . n i=1

Ai fini di collegare questa definizione a quella di media di una variabile casuale, u osserviamo che in generale tra i dati xi ce ne sono di quelli che sono ripetuti pi` volte. Ebbene, supposto che gli xi distinti siano m (ovviamente m · n), indichiamo questi numeri con z1 , z2 , . . . , zm . Denotata poi con αk la molteplicit`a (cio`e il numero di presenze) di zk , ovviamente con α1 + α2 + ¢ ¢ ¢ + αm =n, potremo scrivere 72

m αk m 1 n 1 m zk = k=1 pk zk . i=1 xi = k=1 αk zk = k=1 n n n αk Il numero pk = n rappresenta la frequenza relativa del dato zk . Confrontando quest’ultima espressione di x con la definizione di media di una variabile aleatoria finita, ne deduciamo che la media aritmetica appena definita altro non `e che la media di una variabile aleatoria che assume gli m valori zk con probabilit`a pk . La media x dei dati xi pu`o dunque essere vista come la media di una variabile aleatoria X finita, che assume i valori xi con probabilit` a uguali alla loro frequenza relativa nel campione, ossia x=

P (X =xi ) = pi ,

pi =

αi n

,

essendo αi il numero di volte in cui ciascun xi `e presente nel campione. La variabile aleatoria X costituisce una rozza approssimazione della vera variabile aleatoria sottostante al problema. La media, che abbiamo appena definito, cos`ı come la mediana e la varianza che definiremo in seguito, sono indici coerenti con questa approssimazione. Ricordando le propriet`a della media di una variabile aleatoria, si pu`o affermare che — se ogni osservazione di un campione `e letta in una scala diversa, ovvero se ogni dato `e moltiplicato per una costante a, allora ax = ax ; — se (x1 , x2 , . . . , xn ) e (y1 , y2 , . . . , yn ) sono due serie di osservazioni di uno stesso fenomeno, allora la media della somma `e uguale alla somma delle medie, cio`e x+y = x+y; — se due osservazioni sono legate da una relazione funzionale del tipo y = a + bx, con a e b costanti, allora y = a + bx . Quando i dati sono forniti gi`a organizzati in classi, la media pu`o essere ugualmente calcolata con la formula seguente: nc 1 x= xk ϕ(xk ) , n k=1

dove xk `e il punto medio dell’intervallo k¡esimo e ϕ(xk ) fornisce, come abbiamo gi`a visto, il numero degli xi appartenenti alla classe k¡esima. Osserviamo che questa formula pu`o essere utilizzata anche quando ci sono assegnate tutte le n osservazioni xi e la loro organizzazione in classi viene fatta da noi solo successivamente al fine di una rappresentazione pi` u sintetica dei dati. In tal caso la media cos`ı calcolata `e una approssimazione, in generale molto buona, di quella vera (cio`e di quella che si ottiene dalla definizione). Il vantaggio di quest’ultima formula sta nel fatto che, utilizzando le classi, `e richiesto un numero molto minore di calcoli.

73

Mediana Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama mediana delle osservazioni il valore “centrale” dell’insieme ordinato. Quindi, a seconda che n sia pari o dispari, si ha  se n `e dispari  x n+1 2 xmed =  1 x n + x n +1  se n `e pari 2 2 2

.

Anche per la mediana, cos`ı come abbiamo fatto per la media, ci si pu`o porre il problema di come determinarla quando i dati xi non sono noti individualmente in quanto forniti gi`a organizzati in classi. In questo caso, per poter definire operativamente la mediana, occorre introdurre alcune ulteriori notazioni. Supposto che le classi si susseguano in ordine crescente, indichiamo con (λi−1 , λi ) l’intervallo associato alla classe i¡esima e con xi il suo punto medio. Allora ϕc (xi ) denota il valore della funzione di frequenza cumulativa della classe i¡esima, cio`e il numero complessivo di elementi contenuti nelle prime i classi. Chiamiamo classe mediana, indicando con m il suo numero d’ordine, quella classe per cui con ϕc (xm−1 )< n2 . ϕc (xm )¸ n2 , Ci`o posto, la mediana xmed pu`o essere cos`ı definita: xmed = λm−1 +

n 2

¡ ϕc (xm−1 ) ℓ = λm−1 + ϕc (xm ) ¡ ϕc (xm−1 )

n 2

¡ ϕc (xm−1 ) ℓ. ϕ(xm )

Osserviamo che xmed appartiene certamente alla classe mediana (cio`e all’intervallo (λm−1 , λm )) se ϕc (xm ) > n2 , mentre si ha xmed = λm se ϕc (xm ) = n2 (il che pu`o accadere solo se n `e pari).

Moda Molto spesso i dati sono divisi in classi che non sono di tipo numerico (ad esempio sesso, gruppo sanguigno, professione, provincia di apppartenenza, etc...). In questo caso non ha alcun senso parlare di media o mediana, per cui pu`o tornare utile un’altra misura di tendenza centrale, valida per qualunque tipologia di dati. Questa misura, per`o, non esiste per tutte le distribuzioni, ma solo per quelle unimodali. La figura che segue mostra una distribuzione unimodale assieme a due multimodali.

74

Definizione Si definisce moda di una distribuzione unimodale di dati il valore fra questi pi` u ripetuto. La moda, che pu`o anche non essere unica, sar`a indicata con xmod . Per definire la moda quando i dati sono forniti gi`a divisi in classe, occorre determinare preliminarmente la classe modale, cio`e la classe nella quale si trova la moda. Di solito la classe modale `e quella in cui ϕ(x) `e massima. Supposto che tale classe sia unica, se (λj−1 , λj ) `e l’intervallo associato e xj il suo punto medio, la moda `e cos`ı definita: xmod = λj−1 +

jϕ(xj ) ¡ ϕ(xj−1 )j ℓ. jϕ(xj ) ¡ ϕ(xj−1 )j + jϕ(xj+1 ) ¡ ϕ(xj )j

Se la classe modale non `e unica, si hanno pi` u mode. Ci si pu`o chiedere come sono disposte l’una rispetto all’altra le tre misure di tendenza centrale che abbiamo definito (quando esistono tutte tre). Ebbene, disegnata la distribuzione dei dati, la loro reciproca disposizione dipende dalla simmetria o asimmetria di questo grafico. Supposto che la distribuzione sia unimodale (vedi figura), se il grafico `e perfettamente simmetrico, allora media, mediana e moda coincidono. Se invece il grafico `e asimmetrico, allora la moda corriponde ovviamente al massimo del grafico, mentre media e mediana sono sempre disposte con la mediana pi` u vicina della media alla moda come nelle figure che seguono.

75

Esempio 2.3.1

Calcoliamo media, mediana e moda dei dati dell’esempio 2.2.1.

Per quanto riguarda la media, facendo uso della definizione, si ottiene

1 50 1 3163 (53 + 55 + ¢ ¢ ¢ + 73) = = 63.26 . i=1 xi = 50 50 50 Se invece si calcola la media utilizzando le classi, indicato con xk il punto medio dell’intervallo corrispondente alla k¡classe, si ha x=

n



c 1  1 (54¢2 + 57¢5 + 60¢9 + 63¢15 + 66¢12 + 69¢4 + 72¢3) = xk ϕ(xk ) = 50 50

k=1

3162 = = 63.24 . 50

Come si vede, per quanto approssimato, il valore della media cos`ı ottenuto `e molto prossimo a quello corretto ottenuto in precedenza. Venendo alla mediana, il suo calcolo `e immediato. Infatti, essendo n=50, cio`e pari, dalla tabella contenente i dati ordinati si legge che x25 =63 e x26 =64. Si ha quindi

xmed =

x25 + x26 63 + 64 = = 63.5 . 2 2

Anche xmed pu` o essere calcolato utilizzando la formula per i dati organizzati in classi; in tal caso si ottiene

xmed = λm−1 +

n 2

¡ ϕc (xm−1 ) 25 ¡ 16 ℓ = 61.5 + 3 = 63.3 . ϕ(xm ) 15

Per quanto riguarda invece la moda, si ha

xmod =64 , in quanto valore ripetuto pi` u di ogni altro. D’altra parte, se xmod `e calcolata sulla base dell’organizzazione in classi, essendo la classe modale quella di centro xj =63, si ha

xmod = 61.5 +

Esempio 2.3.2

j15 ¡ 9j 3 = 63.5 . j15 ¡ 9j + j12 ¡ 15j

Calcoliamo media, mediana e moda dei dati dell’esempio 2.2.2.

Facendo uso della definizione per calcolare la media, si ottiene 80

1  1 14332 x= xi = (160 + 162 + ¢ ¢ ¢ + 201) = = 179.15 . 80 i=1 80 80 Se invece calcoliamo la media utilizzando la formula per i dati organizzati in classi, abbiamo n

c 1  1 x¼ xk ϕ(xk ) = (161¢2 + 166¢5 + 171¢12 + 176¢19 + 181¢22+ 80 80

k=1

+ 186¢9 + 191¢7 + 196¢2 + 201¢2) = 76

14335 ¼ 179.19 . 80

Anche in questo caso il valore della media ottenuto utilizzando la formula per le classi `e molto prossimo a quello corretto ottenuto in precedenza. Per quanto concerne la mediana, dalla tabella dei dati ordinati, essendo x40 = x41 = 179, segue ovviamente xmed =179. Se poi si effettua il calcolo con la formula specifica per i dati organizzati in classi, si ha

xmed = λm−1 +

n 2

¡ ϕc (xm−1 ) 40 ¡ 38 ℓ = 178.5 + 5 ¼ 178.5 + 0.45 = 178.95 , ϕ(xm ) 22

che costituisce certamente un’ottima approssimazione di 179, che `e il valore esatto di xmed . Infine, dalla tabella dei dati, si ha xmod = 179. Facendo invece il calcolo sulla base dell’organizzazione dei dati in classi, otteniamo:

xmod = 178.5 +

j22 ¡ 19j 5 ¼ 179.44 . j22 ¡ 19j + j9 ¡ 22j

Abbiamo finora visto misure di tendenza centrale che servono ad individuare il“centro” della distribuzione. Ci`o per`o non vuol dire sapere come i dati siano distribuiti intorno al centro. In certi casi i dati possono essere estremamente concentrati attorno a questo valore centrale, in altri possono essere estremamente sparsi. Torna quindi utile avere delle misure di dispersione. Ovviamente il caso limite di dispersione nulla si ha quando tutti i dati coincidono. Il primo indice di dispersione `e il campo di variazione o rango, che abbiamo gi`a definito. Questo intervallo ci d`a una prima, anche se spesso grossolana, idea di come stanno le cose. Ad esempio, se i dati riguardano le temperature di un giorno in una data citt`a, ` per`o evidente che conoscere le temperature minima e massima pu`o essere gi`a utile. E questo indice risente in maniera significativa di valori particolarmente alti o bassi.

Deviazione standard e varianza La deviazione standard σ, o scarto quadratico medio, gi`a introdotta per una variabile casuale come radice quadrata della varianza, `e l’indice di dispersione probabilmente pi` u usato. Nel caso di un campione di dati x1 , x2 , . . . , xn , la deviazione standard `e ! definita nel modo seguente: " n "1  σ=# (xi ¡ x)2 . n i=1 Anche la varianza σ 2 , definita come

n

1 σ = (xi ¡ x)2 , n i=1 2

costituisce una misura di dispersione molto comune. Ad essa sono espressamente rivolti alcuni capitoli della statistica matematica. Come la media x e la mediana xmed , anche σ pu`o essere associato alla variabile casuale X definita in precedenza come quella variabile casuale finita per la quale P (X =xi ) `e uguale alla frequenza relativa di xi nel campione. Si ha infatti σ 2 =V ar(X). 77

Le quantit`a (xi ¡ x) rappresentano gli scarti dalla media dei dati. Di qui il nome di “scarto quadratico medio” per σ e l’affermazione che la varianza ` e uguale alla media dei quadrati degli scarti dalla media. Osserviamo che quando si fa la radice quadrata per ottenere la deviazione standard, si ritorna alla “dimensione” dei nostri dati. Due formule molto importanti viste per la varianza sono le seguenti: 2 2 σaX+b = a2 σX ,

2 σX = E(X 2 ) ¡ E 2 (X).

La prima formula torna utile quando ci sono dei cambiamenti di scala e/o delle traslazioni dei dati: se si moltiplicano tutti i dati per uno stesso fattore, allora anche la deviazione standard risulter`a moltiplicata per lo stesso fattore; se invece si traslano tutti i dati, la deviazione standard non ne viene influenzata. Quest’ultimo fatto risulta perfettamente comprensibile se si pensa al significato di questo indicatore come misura di dispersione: importa solo la posizione dei dati xi rispetto alla media, e non la dislocazione dell’insieme di questi dati sull’asse x. La seconda formula ci permette invece la possibilit`a di calcolare la varianza (e quindi la deviazione standard) anche in questo modo: n

σ2 =

1 2 x ¡ x2 . n i=1 i

Anche per il calcolo della varianza σ 2 (e quindi della deviazione standard), se i dati sono raggruppati in classi, si possono utilizzare i punti di mezzo xk degli intervalli associati alle classi e le loro frequenze ϕ(xk ). La formula che d`a σ 2 (in modo approssimato) `e la seguente: nc 1 2 σ = (xk ¡ x)2 ϕ(xk ) . n k=1

Deviazioni medie Altri due indici di dispersione sono la deviazione media dalla media e la deviazione media dalla mediana, che indichiamo rispettivamente con Dmed (x) e Dmed (xmed ). Tali indici sono dati dalla media aritmetica delle differenze in valore assoluto rispettivamente dalla media x e dalla mediana xmed , ossia da n

Dmed (x) =

n

1 jxi ¡ xj , n i=1

Dmed (xmed ) =

1 jxi ¡ xmed j . n i=1

Esempio 2.3.3 Calcoliamo la varianza, la deviazione standard e le deviazioni medie dalla media e dalla mediana dei dati dell’esempio 2.2.1. 2 = E(X 2 ) ¡ E 2 (X), sapendo che x = Calcoliamo la varianza utilizzando la relazione σX 63.22 (vedi esempio 2.3.1): n

σ2 =

50

1 2 1  2 xi ¡ x2 = x ¡ (63.26)2 ¼ 17.13 . n i=1 50 i=1 i 78

A questo punto per avere la deviazione standard basta calcolare la radice quadrata di σ 2 :

σ=

p 17.02 ¼ 4.14 .

Il calcolo della varianza poteva essere semplificato mediante la formula che utilizza i punti di mezzo delle classi e le loro frequenze. In questo modo si ottiene:

σ2 ¼

n

7

k=1

k=1

c 1 1  (xk ¡ x)2 ϕ(xk ) = (xk ¡ 63.22)2 ϕ(xk ) = (54 ¡ 63.22)2 ¢2+ n 50

+ (57 ¡ 63.22)2 ¢5 + (60 ¡ 63.22)2 ¢9 + (63 ¡ 63.22)2 ¢15 + (66 ¡ 63.22)2 ¢12+

+ (69 ¡ 63.22)2 ¢4 + (72 ¡ 63.22)2 ¢3 ¼ 18.30 ,

da cui σ ¼ 4.28. Di qui si vede come la formula basata sulla suddivisione in classi, essendo ovviamente la distribuzione che ne deriva pi` u grossolana rispetto a quella dei dati di partenza, fornisca (in questo caso) un valore della deviazione standard con un errore di circa il 3.6%. Calcoliamo infine le deviazioni medie dalla media e dalla mediana (sapendo dall’esempio 2.3.1 che xmed =63.5): n

Dmed (x) =

50

1 1  jxi ¡ xj = jxi ¡ 63.22j = 3.26 ; n i=1 50 i=1 n

50

1 1  Dmed (xmed ) = jxi ¡ xmed j = jxi ¡ 63.5j = 3.26 . n i=1 50 i=1

I calcoli sono ovviamente stati fatti con un programma di calcolo.

Esempio 2.3.4 Calcoliamo la varianza, la deviazione standard e le deviazioni medie dalla media e dalla mediana dei dati dell’esempio 2.2.2. Procedendo come nell’esempio precedente, essendo ora x = 179.15 e xmed = 179 (vedi esempio 2.3.2), si ha 80

1  2 σ = x ¡ (179.15)2 ¼ 67.05 , 80 i=1 i 2

da cui

σ=

p

67.05 ¼ 8.19 .

Se poi si effettua il calcolo (approssimato) mediante la formula che usa i punti di mezzo degli intervalli delle classi, si ha

σ2 ¼

nc 1 (xk ¡ x)2 ϕ(xk ) ¼ 68.90 , n

da cui

k=1

σ ¼ 8.30 ,

con un errore su σ di poco superiore all’1%. Calcoliamo infine le deviazioni medie dalla media e dalla mediana (sapendo dall’esempio 2.3.1 che xmed =63.5): n

Dmed (x) =

80

1 1  jxi ¡ xj = jxi ¡ 179.15j ¼ 6.24 ; n i=1 80 i=1 n

80

1 1  Dmed (xmed ) = jxi ¡ xmed j = jxi ¡ 179j ¼ 6.22 . n i=1 80 i=1

Come per l’esempio precedente, i calcoli sono stati fatti con un programma di calcolo.

79

Esercizio 2.3.5 Calcolare la media, la mediana, lo scarto quadratico medio e le deviazioni medie dalla media e dalla mediana dei seguenti dati:

46 31 1 33 2 44 66 8 54 99 92 98 69 50 Innanzitutto ordiniamo i 14 dati in senso crescente:

1 2 8 31 33 44 46 50 54 66 69 92 98 99 Calcoliamo la media:

x=

1 693 (1 + 2 + 8 + ¢ ¢ ¢ + 98 + 99) = = 49.5 . 14 14

Per quanto riguarda la mediana abbiamo

xmed =

x7 + x8 46 + 50 = = 48 . 2 2

Dovendo poi calcolare lo scarto quadratico medio, ci serve la varianza:

σ2 = da cui

1 2 1 + 22 + 82 + ¢ ¢ ¢ + 982 + 992 ) ¡ (49.5)2 = 1019.25 , 14 σ=

p

Infine

1018.25 ¼ 31.93 . 14

1  363 Dmed (x) = ¼ 25.93 ; jxi ¡ 49.5j = 14 i=1 14 14

Dmed (xmed ) =

1  363 jxi ¡ 47j = ¼ 25.93 . 14 i=1 14

Il fatto che queste due ultime medie siano uguali ha una facile spiegazione geometrica:

quando i dati sono in numero pari e anche la media `e compresa fra i due dati di mezzo (cio`e x n2 e x n2 +1 ), si ha sempre Dmed (x) = Dmed (xmed ).

Esercizio 2.3.6 Calcolare la media, la mediana e le deviazioni medie dalla media e dalla mediana dei dati dell’esercizio precedente sostituendo 91 a 1. Sostituito il numero 1 con 91 il nuovo campione ordinato `e il seguente:

2 8 31 33 44 46 50 54 66 69 91 92 98 99 . Calcoliamo la nuova media e la nuova mediana

783 1 (2 + 8 + 31 + ¢ ¢ ¢ + 98 + 99) = ¼ 55.93 ; 14 14 x7 + x8 50 + 54 xmed = = = 52 . 2 2 x=

Calcoliamo ora le due deviazioni medie:

Dmed (x) =

1 14 jxi ¡ 55.93j ¼ 25.63 ; 14 i=1 80

1 14 355 ¼ 25.36 . i=1 jxi ¡ 52j = 14 14 Si pu` o verificare che ora, essendo x esterno all’intervallo [x7 , x8 ] (di cui la mediana `e il punto medio), Dmed (x) e Dmed (xmed ) sono diversi. Dmed (xmed ) =

Esercizio 2.3.7

Uno studente di ingegneria ha sostenuto 16 esami, ciascuno dei quali con un dato numero di crediti formativi. I voti riportati dallo studente, ciascuno con a fianco il numero dei crediti relativi a quell’esame, sono i seguenti:

28 (6) 27 (5)

21 (8) 27 (4)

22 (5) 27 (6)

24 (6) 19 (10)

24 (8) 28 (5)

25 (4) 29 (7)

25 (6) 30 (8)

26 (8) 30 (4)

Si chiede di calcolare: a) la media, la mediana e la deviazione standard dei voti; b) la media, la mediana e la deviazione standard dei crediti; c) la media ponderata dei voti assumendo come pesi i crediti. a) Ordiniamo innanzitutto i 16 voti. Si ha

19 21 22 24 24 25 25 26 27 27 27 28 28 29 30 30 Indicati con v1 , v2 , . . . , v16 i voti cos`ı ordinati e con v , vmed e σv rispettivamente la media, la mediana e la deviazione standard, abbiamo 16

1  412 v8 + v9 vi = = 25.75 ; vmed = = 26.5 ; 16 i=1 16 2   12 16 1  2 (vi ¡ 25.75) σv = ¼ 3.07 . 16 i=1 v =

b) Ordiniamo anche i crediti:

4

4

4

5

5

5

6

6

6

6

7

8

8

8

8

10

Indicati con c1 , c2 , . . . , c16 i crediti cos`ı ordinati e rispettivamente con c, cmed e σc le relative media, mediana e deviazione standard, abbiamo 16

1  100 c8 + c9 c = ci = = 6.25 ; cmed = = 6; 16 i=1 16 2   12 16 1  (ci ¡ 6.25)2 ¼ 1.71 . σc = 16 i=1 c) Calcoliamo infine la media ponderata dei voti, vpond , assumendo come pesi i relativi crediti. Riordinati i ci in modo che ci sia corrispondenza fra voti e crediti:

10

8

5

6

8

4

6

abbiamo

vpond =

8

16

4

i=1 16

vi ¢ci

i=1 ci

81

5

6

6

= 25.38 .

5

7

4

8

CAPITOLO

3: STATISTICA MATEMATICA

3.1 POPOLAZIONI E CAMPIONI Definizione Si definisce popolazione un insieme i cui elementi hanno in comune almeno una caratteristica (od attributo). Esempi di popolazioni: gli ingegneri che si sono laureati in Italia dal 1950 al 1980; i giorni con vento superiore ai 100 Km/h a Trieste nel mese di aprile dal 1900 al 1999; gli italiani aventi diritto al voto per il senato alle elezioni politiche del 2001; i corpi celesti dell’universo; gli alberi passati e presenti di tutte le foreste del mondo. Esempi di caratteristiche nel caso degli ingegneri: l’et`a al momento della laurea; l’et`a al momento del primo impiego come ingegnere; l’altezza; il peso; il sesso; il primo stipendio; ecc. Le popolazioni possono essere finite o infinite. In genere popolazioni molto numerose sono considerate infinite anche se non lo sono (ad esempio i corpi celesti dell’universo). Ogni caratteristica della popolazione, nella maggior parte dei casi, viene misurata da un valore numerico per ciascuno degli N elementi che la compongono. Di conseguenza uno studio completo della popolazione implicherebbe un insieme di N numeri. In genere, per`o, N `e cos`ı grande da rendere impraticabile, per ovvi motivi, la misurazione della caratteristica per l’intera popolazione. Ci si limita dunque a farlo solo per un suo sottinsieme, spesso assai limitato, detto campione. Uno scopo delle ricerche statistiche `e quello di inferire (da cui il nome di inferenza statistica), cio`e fare delle deduzioni o delle previsioni sulla popolazione mediante l’esame di un campione. Matematicamente la caratteristica oggetto di studio `e una variabile aleatoria X la cui distribuzione ci `e pi` u o meno sconosciuta. In ogni caso la variabile casuale X sottostante alla popolazione in questione avr`a una media ed una varianza, che nel seguito indicheremo semplicemente con µ e σ 2 , ossia 2 µ = µX = E(X) , σ 2 = σX = V ar(X) . 2 Nel seguito ci riferiremo spesso a µ e σ come alla media e alla varianza della popo2 . lazione oggetto di indagine, sottintendendo ovviamente con ci`o µX e σX Definizione Si chiama campione casuale di dimensione n, estratto da una popolazione avente X come variabile aleatoria sottostante, una variabile n-dimensionale (X1 , X2 , . . . , Xn ), con le Xi indipendenti e aventi la stessa distribuzione di X . Quando si misura la caratteristica della popolazione limitandosi ad un campione di dimensione n, si ottengono n misure x1 , x2 , . . . , xn : ci`o equivale ad una singola esecuzione dell’esperimento rappresentato dalla variabile n-dimensionale (X1 , X2 , . . . , Xn ) con risultato (x1 , x2 , . . . , xn ). Sul problema della scelta del campione, che nella pratica consiste nell’estrarre n elementi da un insieme di N , con n ¿ N , ci limitiamo ad osservare l’importanza che ci`o venga realmente fatto a caso e che esistono diverse tecniche utili allo scopo. 82

3.2 STIMATORI Sia (X1 , X2 , . . . , Xn ) un campione di una data popolazione la cui distribuzione `e nota in funzione di un parametro incognito θ. Uno degli obiettivi della statistica inferenziale `e quello di stimare θ mediante una appropriata funzione dei risultati campionari xi . Definizione Si definisce statistica una funzione g(X1 , X2 , . . . , Xn ) delle variabili casuali Xi (e quindi, a sua volta, una variabile casuale) che non contiene parametri. Definizione Si definisce stimatore una statistica che viene utilizzata per stimare un parametro incognito θ. Sia f (X1 , X2 , . . . , Xn ) = θ uno stimatore e (x1 , x2 , . . . , xn ) un valore misurato del campione. Ebbene, il valore θˆ = f (x1 , x2 , . . . , xn ) `e detto stima puntuale del ` convenzione molto seguita quella di indicare le stime puntuali con parametro θ. E ˆ σ l’accento circonflesso, ad esempio θ, ˆ 2 , . . . . Nel caso della media stimata, tuttavia, anzich`e con µ ˆ, si continuer`a ad indicarla con x, sia per conservare la notazione gi`a usata nella Statistica descrittiva, sia per coerenza col fatto che la media verr`a stimata con lo stimatore X che definiremo tra poco. Definizione Uno stimatore T del parametro θ si dice corretto se la sua media coincide con θ medesimo, ossia: E(T ) = θ.

MEDIA CAMPIONARIA Il problema statistico che si presenta pi` u frequentemente nelle applicazioni `e il seguente: supposte la media vera µ e la varianza vera σ 2 ignote, si cerca di stimarle in modo attendibile eseguendo un “gran” numero di esperimenti (ma non esageratamente grande). La pratica corrente `e quella di stimare µ calcolando la media aritmetica dei valori misurati (osservati) xi , cio`e 1 n x= xi . n i=1 Volendo giustificare ci`o, osserviamo che x coincide col valore misurato della variabile aleatoria definita come media aritmetica delle n variabili aleatorie Xi . Definizione Si chiama media campionaria di un campione (X1 , X2 , . . . , Xn ) la variabile casuale X cos`ı definita: n 1 X= Xi . n i=1 Teorema

La media campionaria `e uno stimatore corretto della media vera µ, ossia E(X) = E(X) = µ .

Dimostrazione: Ricordando che E(Xi )=E(X)=µ, si ha n 1 nµ E(X) = E(Xi ) = = µ. n i=1 n 83

Teorema

La varianza della media campionaria vale quella di X diviso n, ossia V ar(X) =

Dimostrazione

1 σ2 V ar(X) = . n n

  1 V ar(X) = 2 V ar Xi = n i=1 n

n

i=1

V ar(Xi ) nσ 2 σ2 . = = n2 n2 n

I due teoremi appena visti ci dicono che la media campionaria X ha media coincidente con la media µ della popolazione da cui proviene il campione e la sua dispersione attorno a µ, misurata in termini di deviazione standard, `e inversamente proporzionale alla radice quadrata della dimensione n del campione. Questo significa che al crescere di n i valori delle corrispondenti medie campionarie tendono a concentrarsi sempre pi` u attorno al loro valore medio, che altri non `e che la media della popolazione, molto spesso oggetto della nostra indagine statistica.

VARIANZA CAMPIONARIA Definizione Si chiama varianza campionaria di un campione (X1 , X2 , . . . , Xn ), n > 1, la variabile casuale S 2 cos`ı definita n

S2 =

1  Xi ¡ X)2 . n ¡ 1 i=1

Lo stimatore S 2 viene utilizzato per stimare la varianza σ 2 di X (e l’esponente 2 che compare in S 2 serve appunto a ricordarci questo). Il fatto che si usi questo stimatore anzich`e 1 n  S˜2 = Xi ¡ X)2 , n i=1 come potrebbe apparire pi` u naturale, `e dovuto al fatto che quest’ultimo non `e un estimatore corretto, mentre S 2 lo `e. Si pu`o infatti dimostrare (cosa che non facciamo) che n¡1 2 E(S 2 ) = σ 2 , E(S˜2 ) = σ . n Dunque, volendo stimare la varianza vera σ 2 , lo faremo calcolando il numero n

1  σ ˆ = xi ¡ x)2 . n ¡ 1 i=1 2

Di qui si ottiene anche la stima σ ˆ della deviazione standard: p σ ˆ= σ ˆ2 .

p Osserviamo che in questo modo per stimare σ si `e usato lo stimatore S = S 2 , che per`o non `e uno stimatore corretto in quanto si pu`o dimostrare che E(S) < σ.$Per questa ragione qualche volta pu`o essere conveniente utilizzare lo stimatore S˜ = S˜2 , per quanto anch’esso non corretto. Noi per`o negli esempi che seguiranno faremo sempre uso dello stimatore S (cio`e calcoleremo sempre l’approssimazione σ ˆ ). 84

COVARIANZA CAMPIONARIA Talvolta, per la stessa popolazione, sono oggetto di indagine due  diverse caratteristi che, per cui il campione casuale considerato `e bidimensionale: (Xi , Yi ), i = 1, . . . , n . Ci`o comporta ovviamente che ci siano due variabili casuali X e Y sottostanti al nostro esperimento e che ciascuno degli n risultati (o osservazioni) consista in una coppia di numeri (xi , yi ). Oltre all’interesse per ognuna delle due caratteristiche, e quindi dei due campioni (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Yn ) presi singolarmente, ci pu`o essere da parte dello sperimentatore anche l’interesse a capire se fra X e Y c’`e qualche forma di dipendenza lineare o, detto altrimenti, qualche forma di correlazione. A tal fine occorre stimare la covarianza σX,Y della variabile congiunta (X, Y ), il che pu`o essere fatto utilizzando lo stimatore definito come segue:   Definizione Si chiama covarianza campionaria del campione (Xi , Yi ), i = 1, . . . , n ,

la variabile aleatoria

n

SX,Y

1  = (Xi ¡ X)(Yi ¡ Y ) . n ¡ 1 i=1

La covarianza vera σX,Y viene dunque cos`ı stimata:  n  n n n  1  1 1    σX,Y ¼ σ ˆX,Y = (xi ¡ x)(yi ¡ y) = xi y i ¡ xi yi . n ¡ 1 i=1 n ¡ 1 i=1 n i=1 i=1

Nella formula x e y sono ovviamente le medie aritmetiche degli xi e degli yi (e quindi i valori osservati delle due medie campionarie “marginali” X e Y ). L’espressione alternativa data per ultima di σ ˆX,Y , che si ottiene con semplici manipolazioni algebriche, pu`o essere comoda se il calcolo `e fatto con una calcolatrice tascabile delle pi` u semplici. Come gi`a visto nel x 1.6, per vedere se fra X e Y c’`e una qualche correlazione, piuttosto che utilizzare la covarianza, conviene far ricorso al coefficiente di correlazione ρX,Y . Ricordandone la definizione gi`a data, e denotate con σ ˆX e σ ˆY le stime delle deviazioni standard di X e Y , tale coefficiente pu`o essere stimato nel modo seguente: ρX,Y ¼ ρˆX,Y =

σ ˆX,Y . σ ˆX σ ˆY

Esempio 3.2.1

20 lanci di due dadi (di colore diverso per distinguere l’ordine dei risultati) hanno dato per risultato le seguenti coppie numeriche (xi , yi ):

xi : yi :

4 2

5 2

3 2

2 3

2 5 3 4 6 6 4 5 3 3 4 1 5 4 2 1 6 4 4 1 6 1 4 1 5 5 3 1 4 1 2 1 Si considerino poi le coppie (ai , di ), con ai = xi + yi e di = xi ¡ yi , e (xi , zi ), con zi = 2xi .

Si chiede di calcolare: a) le medie x, y , a, d e z ; 2 2 2 2 b) le varianze σ ˆX ,σ ˆY2 , σ ˆA ,σ ˆD eσ ˆZ ; c) le deviazioni standard σ ˆX , σ ˆY , σ ˆA , σ ˆD e σ ˆZ ; d) le covarianze σ ˆX,Y , σ ˆA,D e σ ˆX,Z ; e) i coefficienti di correlazione ρˆX,Y , ρˆA,D e ρˆX,Z .

85

Facendo i calcoli (nel nostro caso con un programma specifico fatto all’uopo) si ottengono i seguenti risultati: a)

x = 3.6 ,

y = 2.9 ,

a = 6.5 ,

d = 0.7 ,

z = 7.2 ;

b)

2 σ ˆX ' 2.25 ,

σ ˆY2 ' 3.04 ,

2 σ ˆA ' 5.74 ,

2 σ ˆD ' 4.85 ,

2 σ ˆZ ' 9.01 ;

c)

σ ˆX ' 1.50 ,

σ ˆY ' 1.74 ,

σ ˆA ' 2.40 ,

σ ˆD ' 2.20 ,

σ ˆZ ' 3.00 ;

d)

σ ˆX,Y ' 0.221 ,

σ ˆA,D ' ¡0.789 ,

σ ˆX,Z ' 4.505 ;

e)

ρˆX,Y ' 0.084 ,

ρˆA,D ' ¡0.149 ,

ρˆX,Z = 1 .

Nota Le covarianze vere valgono: σX,Y = σA,D = 0 e σX,Z = σX ¢σZ . Infatti le variabili casuali X e Y sono chiaramente indipendenti, A e D sono fortemente dipendenti ma non correlate, mentre X e Z sono linearmente dipendenti (i dati stanno sulla retta z = 2x) e quindi con covarianza massima.

3.3 DISTRIBUZIONI CHI-QUADRO E DI STUDENT Vediamo ora due distribuzioni campionarie di notevole importanza in Statistica, entrambe collegate alla distribuzione normale. Definizione Date n variabili aleatorie Xi normali standardizzate indipendenti, la variabile aleatoria somma dei loro quadrati `e detta chi-quadro (o chi-quadrato) con n gradi di libert` a ed ` e indicata con χ2n . Si ha dunque χ2n

=

n 

Xi2 ,

Xi ' N (0, 1) .

i=1

Una distribuzione χ2n ha una funzione densit`a f (x) che `e nulla per x < 0 e con l’andamento mostrato in figura per x ¸ 0 (per n = 2, 4, 6, 8, 10). Per n piccolo f (x) ha il picco vicino all’origine, ed `e sempre pi` u dispersa e sempre pi` u simmetrica per n grande.

86

Dalla definizione di χ2n segue immediatamente che, se (X1 , X2 , . . . , Xn ) `e un campione casuale estratto da una popolazione distribuita normalmente con media µ e varianza σ 2 , n  allora la variabile aleatoria  Xi ¡ µ 2 Z2 = σ i=1

segue una distribuzione χ2n . Si pu`o poi dimostrare che la varianza campionaria S 2 `e proporzionale ad una distribuzione chi-quadro con n-1 gradi di libert`a. Pi` u precisamente si ha n¡1 2 S ' χ2n−1 . σ2 Definizione Se Z ` e una variabile aleatoria normale standardizzata e χ2n `e una variabile aleatoria chi-quadro con n gradi di libert`a, se Z e χ2n sono indipendenti,

allora la variabile aleatoria

Z

Tn = $

χ2n /n

segue una distribuzione t di Student con n gradi di libert`a. Come per la funzione densit`a della χ2n , anche nel caso di Tn non riportiamo esplici` tamente la funzione densit`a, limitandoci a mostrarne i grafici per n = 1, 6, 20, 120. E importante osservare come per n grande la distribuzione di Student tenda alla normale standardizzata. Gi`a a partire da n = 30 i valori di Tn sono ben approssimati da quelli di N (0, 1).

Alla fine sono riportate due tavole delle distribuzioni χ2n e Tn con i valori pi` u significativi ai fini delle applicazioni. In analogia con una terminologia gi`a introdotta per la distribuzione N (0, 1), le soluzioni xα e tα delle equazioni     P χ2n · xα =α e P Tn · tα =α

saranno chiamate quantili relativi ad α (rispettivamente della distribuzione χ2n e della distribuzione di Student Tn ). Nel seguito, per brevit`a, scriveremo le due equazioni precedenti utilizzando i simboli χ2n e Tn per indicare le funzioni distribuzione anzich`e le variabili casuali. Si scriver`a quindi χ2n (xα )=α

e 87

Tn (tα )=α .

3.4 INTERVALLI DI FIDUCIA (o CONFIDENZA) Come abbiamo gi`a detto, uno stimatore `e una variabile aleatoria che serve per stimare un parametro incognito θ della nostra popolazione. Ovviamente i parametri che ci interessa maggiormente stimare sono la media µ e la varianza σ 2 . In questo ambito di problemi, un esempio di domanda molto comune `e la seguente: dato un campione, quale intervallo del tipo (x ¡ δ, x + δ) conterr`a la media incognita µ con probabilit`a del 95% ? oppure del 99% ? Di qui nasce la definizione che segue. Definizione Si definisce intervallo di fiducia (o confidenza) di livello 100(1¡α)% per il parametro θ un intervallo (θ1 , θ2 ) tale che P (θ1 · θ · θ2 ) = 1 ¡ α , con θ1 = f1 (X1 , X2 , . . . , Xn ) e θ2 = f2 (X1 , X2 , . . . , Xn ) variabili aleatorie funzione del campione casuale. In genere interessano piccoli valori di α; tipicamente α = 0.05 oppure α = 0.01. Il livello di fiducia nei due casi `e quindi il 95% per α=0.05, il 99% per α=0.01. Se P (θ < θ1 ) = P (θ > θ2 ) = α2 , l’intervallo di fiducia `e detto bilaterale simmetrico (omettendo per`o spesso l’attributo simmetrico). Se poi si ha P (θ > θ2 ) = α oppure P (θ < θ1 ) = α, allora l’intervallo `e detto unilaterale, sinistro o inferiore nel primo caso, destro o superiore nel secondo. Nel seguito quasi tutte le stime proposte saranno per intervalli bilaterali. Eseguito l’esperimento, mediante il valore misurato (x1 , x2 , . . . , xn ) del campione si ricava l’intervallo numerico (θ1∗ , θ2∗ ), θ1∗ = f1 (x1 , x2 , . . . , xn ), θ2∗ = f2 (x1 , x2 , . . . , xn ), che costituisce una stima per intervalli del parametro θ al livello di fiducia 100(1¡α)%. Nota: Spesso, nel seguito, per semplicit`a si dir`a “al livello di fiducia 1¡α”.

3.5 STIMA DELLA MEDIA DI UNA POPOLAZIONE NORMALE In questo paragrafo descriviamo i metodi per stimare la media µ di una popolazione che supporremo avere una distribuzione normale. Tali metodi, ovviamente solo per una popolazione normale, nella pratica corrente sono usati con maggior generalit`a, supportati in ci`o, quando la dimensione del campione `e sufficientemente grande, dal Teorema di Limite Centrale. La stima per intervalli di fiducia della media µ di una popolazione normale viene ora affrontata considerando separatamente il caso in cui la varianza σ 2 `e nota (anche se poco frequente) e quello in cui `e incognita.

a) caso di varianza nota Come abbiamo gi`a detto, lo stimatore che si usa per la media di una popolazione `e la media campionaria X. Sappiamo anche che σ2 E(X) = µ , V ar(X) = . n 88

Inoltre, si pu`o dimostrare che, essendo la popolazione distribuita normalmente, anche X `e normale. Di conseguenza la variabile casuale Z=

X ¡µ p σ/ n

segue la distribuzione normale standardizzata, le cui probabilit`a possono essere desunte dalle tabelle statistiche della densit`a normale Φ(x). Diamo innanzitutto la stima per intervalli bilaterali (simmetrici). A tal fine andiamo a determinare il quantile superiore u α2 , cio`e la soluzione dell’equazione α Φ(u) = 1 ¡ , 2   α α α ed essendo Φ(¡u 2 ) = 1 ¡ Φ(u 2 ) = 2 , l’intervallo ¡u α2 , u α2 `e tale che     σ σ P ¡u α2 · Z · u α2 = P X ¡ p u α2 · µ · X + p u α2 = 1 ¡ α . n n

Di conseguenza l’intervallo bilaterale   σ σ X ¡ p u α2 , X + p u α2 , n n

che `e aleatorio in quanto `e tale il suo punto centrale X, contiene con probabilit`a 1¡α il valore vero µ. Eseguito l’esperimento, l’intervallo osservato si ottiene dall’intervallo aleatorio sostituendo alla media campionaria X la media aritmetica x dei valori osservati negli n esperimenti. Useremo quindi l’intervallo osservato per dare una stima di µ di livello di fiducia 1¡α:   σ σ x ¡ p u α2 , x + p u α2 . µ 2 n n

Osserviamo che, se cresce il numero n degli esperimenti, l’ampiezza dell’intervallo diminuisce, e dunque la stima si fa pi` u informativa: fare esperimenti `e costoso, ma poi “ripaga”. Tuttavia, osserviamo anche che, p poich´e l’ampiezza dell’intervallo diminuisce in modo inversamente proporzionale a n, il vantaggio che si ottiene aggiungendo via via nuovi dati diventa gradualmente sempre meno significativo. D’altra parte, se aumenta il grado di fiducia, diminuisce α e il quantile u cresce; di conseguenza cresce l’ampiezza dell’intervallo e quindi la stima diventa meno informativa.

89

Diamo ora anche le due stime per intervalli unilaterali. Per ottenerla si deve risolvere l’equazione Φ(u) = 1¡α , determinando cos`ı il quantile uα tale che     P Z · uα = P Z ¸ ¡uα = 1 ¡ α , o, equivalentente,

    σ σ P µ ¸ X ¡ p uα = P µ · X+ p uα = 1 ¡ α . n n

Gli intervallo aleatori, rispettivamente destro e sinistro,     σ σ X¡ p uα , +1 e ¡1 , X+ p uα n n

contengono la media µ con probabilit`a 1¡α, e quindi rappresentano la stima cercata di µ mediante intervalli unilaterali al livello di fiducia 1¡α. Naturalmente, una volta eseguito l’esperimento, tali intervalli saranno approssimati con     σ σ x¡ p uα , +1 e ¡1 , x+ p uα n n Esempio 3.5.1 Per determinare la durata del cambio di un’auto vengono scelti casualmente 200 cambi dalla produzione, che supponiamo distribuita normalmente con scarto tipo uguale a 4000 km. Essi vengono testati finch´e presentano un difetto serio. Se la durata media dei 200 cambi sottoposti a test `e 50000 km, quali sono gli intervalli di fiducia bilaterali e unilaterali sinistri della durata media dell’intera produzione al 95%, al 97.5% e al 99% ? I dati sono: n = 200 , x = 50000 , σ = 4000 . Osservato che i livelli di fiducia richiesti corrispondono nell’ordine ad α=0.05, 0.025 e 0.01, indicando con u α2 il valore per cui

Φ(u α2 ) = 1 ¡

abbiamo

Φ(u0.0250 ) = 0.9750 Φ(u0.0125 ) = 0.9875

=) =)

α 2

, u0.0250 ' 1.96 , u0.0125 ' 2.24 ,

u0.0050 ' 2.57 .   σ σ x ¡ p u α2 , x+ p u α2 . Gli intervalli di fiducia bilaterali di livello 1¡α, sono dati da n n p Essendo σ/ n ¼ 282.84, si ha Φ(u0.0050 ) = 0.9950

α = 0.050 α = 0.025

=) =)

α = 0.010

=)

=)

µ 2 [50000 ¡ 555, 50000 + 555] = [49445, 50555] µ 2 [50000 ¡ 634, 50000 + 634] = [49366, 50634]

µ 2 [50000 ¡ 727, 50000 + 727] = [49273, 50727] .

Per quanto riguarda invece i corrispondenti intervalli unilaterali sinistri, procedendo analogamente, e mettendo 0 anzich´e ¡1 come estremo sinistro degli intervalli (si tratta della durata di un cambio, che ovviamente non pu` o essere negativa), si ottiene

α = 0.050

=)

α = 0.025 α = 0.010

=) =)

µ 2 (0 , 50000 + 464] = (0 , 50464]

µ 2 (0 , 50000 + 555] = (0 , 50555] µ 2 (0 , 50000 + 659] = (0 , 50659] .

I tre casi considerati evidenziano come all’aumentare del livello di fiducia, cio`e alla richiesta di maggior attendibilit` a della stima, aumenti l’ampiezza dell’intervallo.

90

b) caso di varianza incognita Supponiamo ora, come di norma accade nella pratica, che la varianza σ 2 non sia nota. In tal caso si procede come nel caso precedente sostituendo a σ 2 lo stimatore corretto della varianza campionaria n

S2 =

1  Xi ¡ X)2 , n ¡ 1 i=1

X ¡µ p , che si dimostra essere S/ n una variabile di Student con n¡1 gradi di libert`a. Posto quindi e sostituendo poi alla variabile casuale Z la variabile

Tn−1 =

X ¡µ p , S/ n

indicato con t α2 il quantile superiore fornito dalla soluzione dell’equazione α P (Tn−1 · t) = 1 ¡ , 2 o, equivalentemente, considerata la simmetria della distribuzione di Student, il quanα tile t α2 per cui P (Tn−1 · ¡t) = , si ha 2   S S P X ¡ p t α2 · µ · X + p t α2 = 1 ¡ α . n n Di conseguenza l’intervallo aleatorio 

 S S X ¡ p t α2 , X + p t α2 , n n

conterr`a con probabilit`a 1¡α la media vera µ. Utilizzandone il valore osservato daremo una stima di µ di livello di fiducia 1¡α: µ 2



 σ ˆ σ ˆ x ¡ p t α2 , x + p t α2 , n n

dove σ ˆ `e il valore di S ottenuto dagli n esperimenti.

Osservazione 1: la non conoscenza della varianza della popolazione fa si che l’ampiezza dell’intervallo di fiducia per piccole dimensioni del campione (diciamo n ¿ 30) risulti assai pi` u ampia di quella che si avrebbe se σ 2 fosse nota. Osservazione 2: ai fini del calcolo di un intervallo di fiducia per la media quando la varianza non `e nota, `e sufficiente che del campione siano note la dimensione n, la media campionaria x e la varianza campionaria σ ˆ 2 (in altre parole non `e necessario conoscere uno per uno gli n dati xi ). Esempio 3.5.2

Durante 8 prove su strada un prototipo di furgone ha consumato rispettivamente 14,12,11,13,15,12,16,13 litri di gasolio per 100 km di percorrenza. Supponendo che la distribuzione dei consumi segua approssimativamente la distribuzione normale, costruire gli intervalli di fiducia al 95% e al 99% della media vera del consumo di quel prototipo.

91

Calcoliamo la media e la varianza campionaria: n

1 106 x= xi = = 13.25 ; n i=1 8 n

1  19.5 ¼ 2.79 σ ˆ = (xi ¡ x)2 = n ¡ 1 i=1 7 2

=)

σ ˆ=

p

2.79 ¼ 1.67 .

Come abbiamo appena visto, indicato con t α2 il quantile per cui si ha P (Tn−1 · t α2 ) =



α , l’intervallo di fiducia di livello 1¡α `e il seguente: 2   σ ˆ σ ˆ x ¡ p t α2 , x + p t α2 . n n

Dalle tavole della distribuzione di Student (con 7 gradi di libert` a) si ottiene:

T7 (t0.025 ) = 0.975 T7 (t0.005 ) = 0.995

=) =)

t0.025 ' 2.365 t0.005 ' 3.499

=) =)

µ 2 [11.85, 14.65] , µ 2 [11.18, 15.32] .

Esempio 3.5.3

Ripetere i calcoli dell’esercizio precedente con il campione che si ottiene aggiungendo ai dati precedenti i seguenti consumi ottenuti con 12 prove aggiuntive: 15,14,12,13, 11,16,14,15,12,14,12,13.

Calcoliamo la media e la varianza con il campione (ora di dimensione n=20) ottenuto con l’aggiunta dei nuovi dati.

x=

20  106 + 161  1 106 + xi = = 13.35 ; 20 20 i=9 20

1  44.55 (xi ¡ x)2 = ¼ 2.35 σ ˆ = 19 i=1 19 2

=)

σ ˆ=

p

2.35 ¼ 1.53 .

Si ha quindi

T19 (t0.025 ) = 0.975

=)

T19 (t0.005 ) = 0.995

=)

t0.025 ' 2.093 t0.005 ' 2.861

=) =)

µ 2 [12.63, 14.07] , µ 2 [12.37, 14.33] .

Confrontando queste stime con quelle dell’esempio precedente si pu` o osservare come, quando la dimensione del campione `e piccola, aumentandola le stime diventino molto migliori.

3.6 STIMA DELLA VARIANZA DI UNA POPOLAZIONE NORMALE Affrontiamo ora il problema di fornire una stima della varianza di una popolazione avente in prima approssimazione una distribuzione normale. Lo faremo utilizzando gli intervalli di fiducia e, come nel caso della media, le stime che otterremo saranno rigorose nel caso di una popolazione esattamente normale. 92

Consideriamo dunque un campione (X1 , X2 , . . . , Xn ) estratto da una popolazione normale avente media µ e varianza σ 2 . Abbiamo gi`a detto che la variabile aleatoria n   n¡1 2 Xi ¡ X 2 V = S = σ2 σ i=1

segue una distribuzione χ2n−1 . Indicato con x1 il valore per cui l’area alla sua sinistra sottesa dalla curva di densit`a di probabilit`a χ2n−1 vale α2 e con x2 il valore per cui pure l’area alla destra vale α2 (vedi figura), si ha   P x1 · V · x2 = 1 ¡ α .

Sostituendo V con la sua espressione si ottiene   n¡1 2 P x1 · S · x 2 = 1¡α, σ2 da cui, con alcuni passaggi algebrici,  (n ¡ 1)S 2 (n ¡ 1)S 2  · σ2 · = 1¡α. P x2 x1

Possiano dunque affermare che, a livello di fiducia 1¡α, l’intervallo  (n ¡ 1)ˆ σ2 x2

,

(n ¡ 1)ˆ σ2  x1

contiene la varianza vera σ 2 della popolazione. Ricordiamo che σ ˆ 2 denota la varianza campionaria osservata e, per quanto precedentemante detto, x1 e x2 sono le soluzioni delle equazioni α α χ2n−1 (x1 )= , χ2n−1 (x2 )=1 ¡ . 2 2 Osservazione 1: essendo x1 e x2 rispettivamente a denominatore del secondo estremo e del primo estremo dell’intervallo di fiducia cercato, x1 va calcolato per difetto e x2 per eccesso. Osservazione 2: ai fini del calcolo di un intervallo di fiducia per la varianza, del campione `e sufficiente conoscere la dimensione n e la varianza campionaria σ ˆ 2 (e quindi non `e essenziale conoscere la media campionaria e tantomeno gli n dati xi ). Osservazione 3: se la media µ della popolazione fosse nota, allora si pu`o sostituire X con µ, avendo cos`ı a che fare con la variabile casuale 93

V =

n   Xi ¡ µ 2

σ

i=1

,

che segue la distribuzione χ2 con n (anzich`e n¡1) gradi di libert`a. In questo caso, indicati con x1 e x2 le soluzioni delle equazioni α α χ2n (x1 )= , χ2n (x2 )=1 ¡ , 2 2 2 2 e con sˆ il valore osservato della somma i (Xi ¡ µ) , l’intervallo di fiducia per σ 2 al livello considerato sarebbe  sˆ2 sˆ2  , . x2 x1 Esempio 3.6.1 Un campione di dimensione 7 di una popolazione normale ha varianza campionaria σ ˆ 2 =0.098. Si chiede di calcolarne gli intervalli di fiducia ai livelli 90% e 95%. Supposto poi che gli stessi dati si riferiscano ad un campione di dimensione 36, si chiede di calcolarne anche in questo caso gli intervalli di fiducia suddetti. Per n=7, per α=0.10 ed α=0.05 abbiamo:

 χ26 (x1 ) = P χ26  χ26 (x2 ) = P χ26  χ26 (x1 ) = P χ26  χ26 (x2 ) = P χ26

 · x1 = 0.050  · x2 = 0.950  · x1 = 0.025  · x2 = 0.975

=) =) =) =)

x1 ¼ 1.63 ,

x2 ¼ 12.60 ; x1 ¼ 1.23 ,

x2 ¼ 14.45 .

Di conseguenza, gli intervalli di fiducia richiesti sono:

α = 0.10

=)

α = 0.05

=)

 6 ¢ 0.098 6 ¢ 0.098  , ¼ [0.046, 0.361] ; 12.6 1.63  6 ¢ 0.098 6 ¢ 0.098  , ¼ [0.040, 0.479] . 14.45 1.23

Per n=36 si ha:

 χ235 (x1 ) = P χ235  χ235 (x2 ) = P χ235  χ235 (x1 ) = P χ235  χ235 (x2 ) = P χ235

 · x1 = 0.050  · x2 = 0.950  · x1 = 0.025  · x2 = 0.975

=) =) =) =)

x1 ¼ 22.46 ,

x2 ¼ 49.81 ; x1 ¼ 20.56 , x2 ¼ 53.21 .

In questo secondo caso gli intervalli di fiducia richiesti sono dunque i seguenti:

α = 0.10

=)

α = 0.05

=)

 35 ¢ 0.098 35 ¢ 0.098  , ¼ [0.068, 0.153] ; 49.81 22.46  35 ¢ 0.098 35 ¢ 0.098  , ¼ [0.064, 0.167] . 53.21 20.56

94

3.7 STIMA DELLA DIFFERENZA DELLE MEDIE DI DUE POPOLAZIONI NORMALI Un problema che si pone spesso nella realt`a industriale, ma non solo, `e quello di confrontare le medie di due popolazioni, di solito per poter fare delle affermazioni con un certo grado di fiducia sulla loro differenza. L’obiettivo `e una modifica del processo produttivo al fine di migliorare il valore medio di una catteristica del prodotto. Consideriamo dunque due campioni casuali (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ), che supporremo indipendenti, di dimensioni n ed m rispettivamente, estratti da due popolazioni con media µ1 e varianza σ12 la prima, media µ2 e varianza σ22 la seconda. Il miglior estimatore per la differenza delle medie µ1 ¡µ2 `e il seguente: n

X ¡Y =

m

1 1  Xi ¡ Yi . n i=1 m i=1

Supposto che le due popolazioni abbiano una distribuzione normale, daremo una stima di µ1 ¡µ2 nei seguenti casi: a) σ12 e σ22 sono note; b) σ12 e σ22 non sono note, ma sono uguali; c) σ12 e σ22 non sono note e non sono uguali.

a) Le varianze σ12 e σ22 sono note Essendo i due campioni indipendenti, la varianza di X¡Y `e data da 2 2 2 σ∆ = σX−Y = σX + σY2 =

σ2 σ12 + 2, n m

e la variabile casuale Z cos`ı definita Z=

(X ¡ Y ) ¡ (µ1 ¡ µ2 ) σ∆

`e distribuita normalmente con media 0 e varianza 1. Riprendendo ora il quantile superiore u α2 , si pu`o scrivere     (X ¡ Y ) ¡ (µ1 ¡ µ2 ) P ¡u α2 < Z < u α2 = P ¡u α2 < < u α2 = 1 ¡ α , σ∆

o, equivalentemente,   P (X ¡ Y ) ¡ σ∆ u α2 < µ1 ¡ µ2 < (X ¡ Y ) + σ∆ u α2 = 1 ¡ α .

Esplicitato il valore di σ∆ , l’intervallo bilaterale che contiene µ1 ¡µ2 con probabilit`a 1¡α quando le varianze σ12 e σ22 sono note, `e dunque il seguente:   · & σ12 σ22 σ12 σ22 (X ¡ Y ) ¡ u α2 + , (X ¡ Y ) + u α2 + . n m n m Eseguito l’esperimento, sostituendo i valori misurati x e y al posto delle corrispondenti variabili casuali X e Y , si ottiene una stima per µ1¡µ2 al livello di fiducia 100(1¡α)%. 95

Esercizio 3.7.1 Due diversi tipi di guaine isolanti per cavi elettrici vengono testati per determinare a che voltaggio cominciano a rovinarsi. Sottoponendo gli esemplari a livelli crescenti di tensione si registrano i guasti alle tensioni seguenti:

  Tipo Y  52 64 38 68 66 52 60 44 48 46 70 62

Tipo X  36 44 41 53 38 36 34 54 52 37 51 44 35 44

Supponiamo di sapere che il voltaggio tollerato dai cavi abbia distribuzione normale: con media incognita µ1 e varianza σ12 =40 per il tipo X, media µ2 e varianza σ22 =100 per il tipo Y. Si chiede di determinare: i) un intervallo bilaterale con il 95% di confidenza per µ1 ¡ µ2 ; ii) un valore che permetta di affermare che µ1 ¡ µ2 gli `e superiore con il 95% di confidenza.

i)

Calcoliamo innanzitutto le medie x e y dei due campioni, che hanno dimensione rispettivamente n=14 e m=12. Si ha 12

x=

14

1  xk ¼ 42.78 12

y=

k=1

1  yk ¼ 55.83 14 k=1

Come abbiamo appena visto dalla teoria, la stima di un intervallo di fiducia bilaterale al livello 1¡α `e la seguente:

·

(x ¡ y) ¡ u α2



σ12 σ2 + 2 , (x ¡ y) + u α2 n m



σ12 σ2 + 2 n m

&

.

Essendo α = 0.005, si ha u α2 = u0.025 ¼ 1.96 (come gi` a visto nell’esercizio 3.5.1). L’intervallo di fiducia richiesto risulta dunque cos`ı stimato:



¡13.05 ¡ 1.96 ¢

p

11.191 , ¡13.05 + 1.96 ¢

p

 11.191 ¼ [¡19.61, ¡6.49] .

ii) La domanda `e equivalente alla richiesta di determinare l’intervallo destro al livello di fiducia 95%. Per quanto detto nel x 3.5, la stima di tale intervallo sar` a data da 

(x ¡ y) ¡ uα

Essendo u0.05 ¼ 1.645 si ottiene



¡13.05 ¡ 1.65 ¢



 σ2 σ12 + 2 , +1 . n m

p  11.191 , +1 ¼ [¡18.53 , +1) .

b) Le varianze σ12 e σ22 non sono note, ma possono ritenersi uguali

Posto σ 2 =σ12 = σ22 , il problema `e innanzitutto quello di ottenere una stima per σ 2 . I due stimatori corretti per σ12 e σ22 sono rispettivamente n

S12

m

1  = (Xi ¡ X)2 , n ¡ 1 i=1

S22

1  = (Yi ¡ Y )2 . m ¡ 1 i=1

Per un teorema enunciato in precedenza sappiamo che n¡1 2 S1 » χ2n−1 σ2

e 96

m¡1 2 S2 » χ2m−1 . σ2

Inoltre, essendo le due distribuzioni indipendenti, anche le due chi-quadro ora scritte lo sono. Di conseguenza pure la loro somma ha una distribuzione di tipo chi-quadro, con un numero di gradi di libert`a uguale alla somma di quelli delle due distribuzioni di partenza. Si ha cio`e n¡1 2 m¡1 2 S1 + S2 » χ2n+m−2 . σ2 σ2 Ci`o premesso, una migliore stima per σ 2 `e data dalla seguente ”pooled variance” (varianza ponderata): Sp2 = Essendo poi

n¡1 (n ¡ 1)S12 + (m ¡ 1)S22 m¡1 = S12 + S2 . n+m¡2 n+m¡2 n+m¡2 2

1 σ12 σ2 1 2 + 2 = + σ , n m n m 2 la miglior stima per σ∆ `e rappresentata da 1 1 2 2 S∆ = + S . n m p Ne consegue che la variabile casuale 2 2 = σX−Y = σ∆

T =

(X ¡ Y ) ¡ (µ1 ¡ µ2 )  1 1 + Sp n m

segue una distribuzione di Student con n + m ¡ 2 gradi di libert`a. Indicando ora con t α2 il quantile superiore fornito dalla soluzione dell’equazione α P (Tn+m−2 · t) = 1 ¡ , 2 si ha ' ( (X ¡ Y ) ¡ (µ1 ¡ µ2 )  P ¡t α2 · · t α2 , 1 1 + Sp n m e quindi, operando con semplici passaggi algebrici, si ottiene   P (X ¡ Y ) ¡ t α2 S∆ · µ1 ¡ µ2 · (X ¡ Y ) + t α2 S∆ = 1 ¡ α . Pertanto l’intervallo di fiducia all’(1 ¡ α)% per la differenza delle medie delle due popolazioni `e   (X ¡ Y ) ¡ t α2 S∆ , (X ¡ Y ) + t α2 S∆ . Effettuato l’esperimento, la stima ottenuta per questo intervallo sar`a quindi   (x ¡ y) ¡ t α2 σ ˆ∆ , (x ¡ y) + t α2 σ ˆ∆ , con σ ˆ∆ dato, in virt` u delle precedenti posizioni, da ) 1 1  (n ¡ 1)ˆ σ12 + (m ¡ 1)ˆ σ22 σ ˆ∆ = + = n m n+m¡2 ) n m 1 1  i=1 (xi ¡ x)2 + i=1 (yi ¡ y)2 = + . n m n+m¡2 97

Osservazione. Spesso ci si trova nella situazione in cui la numerosit`a di un campione `e molto maggiore dell’altro. In tal caso, supposto n À m, conviene stimare la varianza incognita con l’estimatore (X ¡ Y ) ¡ (µ1 ¡ µ2 ) T = . S p1 m Essendo poi n molto grande, `e lecito supporre n + m ¡ 2 > 30 , il che permette di approssimare la distribuzione di Student con la distribuzione normale standardizzata. ` quindi lecito utilizzare u α anzich`e t α . L’intervallo di fiducia precedentemente E 2 2 trovato diventa quindi  S1 S1  (X ¡ Y ) ¡ u α2 p , (X ¡ Y ) + u α2 p , m m che sar`a poi stimato con  σ ˆ1 σ ˆ1  (x ¡ y) ¡ u α2 p , (x ¡ y) + u α2 p . m m Esercizio 3.7.2 Un produttore di batterie dispone di due tecniche di fabbricazione differenti. Due gruppi di batterie scelti a caso, 12 prodotte con la tecnica I e 14 con la tecnica II, sono risultate avere le seguenti capacit` a (in ampere-ora):



Tecnica I  140 136 138 150 152 144 132 142 150 154 136 142  Tecnica II  144 132 136 140 128 150 130 134 130 146 128 131

137 135

Ipotizzando che le varianze delle due popolazioni siano uguali, si chiede di determinare: i) un intervallo di confidenza al 90%, bilaterale, per la differenza delle medie; ii) un intervallo unilaterale sinistro per µ1 ¡µ2 al livello di confidenza 95%.

i)

Indicato con (X1 , X2 , . . . , X12 ) il campione relativo alla tecnica I, e con (Y1 , Y2 , . . . , Y14 ) quello relativo alla tecnica II, per cui n = 12 e m = 14, calcoliamo le loro medie misurate x e y . Si ha 14

x=

12

1  xk = 143 14

y=

k=1

1  yk ¼ 135.786 12 k=1

Come abbiamo appena visto dalla teoria, la stima dell’intervallo bilaterale al livello di fiducia 1¡α `e la seguente:



 (x ¡ y) ¡ t α2 σ ˆ∆ , (x ¡ y) + t α2 σ ˆ∆ ,

Dovendo calcolare σ ˆ∆ occorre prima calcolare la somma degli scarti quadratici. Si ha: 12  (xi ¡ x)2 = 556 ;

14  (yi ¡ y)2 = 622.357 .

i=1

i=1

Si ha quindi

)  12 14 1 1  i=1 (xi ¡ x)2 + i=1 (yi ¡ y)2 556 + 622.36 σ ˆ∆ = + ¼ 0.1548 ¼ 2.757 . 12 14 24 24 98

Essendo α = 0.10 ed avendo a che fare con la distribuzione di Student a 24 gradi di libert` a (n + m ¡ 2=24), si ha t α2 = t0.05 ¼ 1.711. L’intervallo di fiducia richiesto risulta dunque cos`ı stimato:



   (143 ¡ 135.79) ¡ 1.71 ¢ 2.76 , (143 ¡ 135.79) + 1.71 ¢ 2.76 ¼ 2.49, 11.93 .

ii) Determiniamo ora un intervallo unilaterale sinistro per µ1 ¡µ2 al livello di confidenza 95%. La stima di tale intervallo sar` a data da Essendo t0.05 ¼ 1.711 si ottiene





 ¡1 , (x ¡ y) + tα σ ˆ∆ .

 ¡1 , (143 ¡ 135.79) + 1.71 ¢ 2.76 ¼ (¡1 , 11.93] .

c) Le varianze σ12 e σ22 non sono note, n´e possono ritenersi uguali In questo caso la variabile casuale da utilizzare per costruire l’intervallo di fiducia `e la seguente: (X ¡ Y ) ¡ (µ1 ¡ µ2 )  , Tℓ = S12 S22 + n m dove Tℓ segue approssimativamente la distribuzione t di Student con ℓ gradi di libert`a, con ℓ che si pu`o calcolare, ad esempio, con la formula di Smith-Satterthwaite: σ ˆ22 2 m ℓ =  2n ¢ σ σ ˆ1 2 ˆ22 2 n + m n¡1 m¡1 σ ˆ2 1

+

Si pu`o anche aggiungere il suggerimento di approssimare per difetto ℓ, il che corrisponde ad una logica di tipo conservativo nell’esecuzione di un test d’ipotesi. Cerchiamo di spiegare cosa significa questa affermazione, anche se richiede argomentazioni che risulteranno chiare solo pi` u avanti (x3.10). Supposto che l’approssimazione per difetto dia ℓ=10 e che questa porti a rigettare l’ipotesi nulla H0 , anche ℓ=11, comportando una regione di accettazione contenuta in quella relativa ad ℓ=10, implicherebbe il rigetto di H0 . Il contrario non necessariamente vale. Esercizio 3.7.3 Determinare l’intervallo di cui alla domanda i) dell’esercizio precedente nell’ipotesi che le due varianze σ12 e σ12 non siano uguali. L’intervallo richiesto `e formalmente lo stesso dell’esercizio precedente con la differenza che ora t α2 `e determinato dalla distribuzione di Student ad ℓ gradi di libert` a, con ℓ dato dalla formula precedente, e 

σ ˆ∆ =

σ ˆ12 σ ˆ2 + 2. n m

Calcoliamo innanzitutto σ ˆ12 e σ ˆ22 utilizzando i conti gi`a fatti nell’esercizio precedente.

99

σ ˆ12 = σ ˆ22 Si ha quindi

n

12

m

14

1  1  556 ¼ 50.545 (xi ¡x)2 = (xi ¡143)2 = n¡1 i=1 11 i=1 11

1  1  622.78 = (yi ¡y)2 ¼ (yi ¡135.786)2 ¼ ¼ 47.874 . m¡1 i=1 13 i=1 13 

50.545 47.874 p + ¼ 4.212 + 3.420 ¼ 2.763 . 12 14 Calcoliamo ora la dimensione ℓ della distribuzione di Student. Abbiamo: σ ˆ∆ ¼

 50.545

47.874 2  4.212 + 3.420)2 12 14 ℓ¼  ¼ ¼ 23.83    50.545 2 47.874 2 (4.1212)2 (3.420)2 + 12 14 11 13 + 11 13 +

Siccome ℓ deve essere un intero, sembra naturale arrotondarlo assumendo cos`ı ℓ = 23. Di conseguenza, avendo la distribuzione di Student lo stesso numero di gradi di libert` a dell’esercizio precedente ed essendo σ ˆ∆ praticamente lo stesso, anche l’intervallo risulter`a praticamente lo stesso. Ci` o `e probabilmente dovuto a due fatti concomitanti: sia le varianze che le dimensioni dei due campioni differiscono di poco.

3.8 STIMA DI UNA PROPORZIONE Consideriamo una popolazione di elementi, ognuno dei quali pu`o soddisfare oppure no, indipendentemente uno dall’altro, un dato requisito. Si vuole stimare la proporzione p dei membri della popolazione che posseggono il requisito in questione. Considerato un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n, avremo  1 se l’i¡esimo elemento del campione ha il requisito Xi = 0 se l’i¡esimo elemento del campione non ha il requisito . n Indicata quindi con Y = i=1 Xi la variabile casuale che denota quanti elementi del campione posseggono il requisito, la statistica Y = Y /n d`a la proporzione del campione con il requisito. Questa statistica, chiamata proporzione del campione, `e il naturale stimatore per p. Essendo poi ciascuna Xi una variabile di Bernoulli, si ha Xi ' B(1, p) e quindi E(Y ) = np , V ar(Y ) = n p q = n p (1 ¡ p). In virt` u del teorema di limite centrale, Y `e approssimativamente normale con media p e varianza p(1¡p)/n, ossia  p (1¡p)  Y » N p, . n Ci`o, a sua volta, implica Y ¡p $ » N (0, 1) . p(1¡p)/n Volendo determinare un intervallo di fiducia per p di livello 1¡α, indicato come al  α α solito con u 2 il quantile della normale standardizzata tale che Φ u 2 = 1 ¡ α2 , si ha 100

  Y ¡p P ¡u α2 · $ · u α2 ¼ 1 ¡ α , p(1 ¡ p)/n

da cui, isolando p nel mezzo della disuguaglianza, si ottiene   $ $ P Y ¡ u α2 p(1 ¡ p)/n · p · Y + u α2 p(1 ¡ p)/n ¼ 1 ¡ α .

Si `e cos`ı ottenuta una regione che contiene p con livello di fiducia 1¡ α. C’`e per`o un problema che incontriamo per la prima volta: gli estremi di un intervallo di fiducia debbono essere delle statistiche, cio`e non debbono contenere alcun parametro incognito. In questo caso gli estremi contengono infatti il parametro p, per cui ci troviamo nell’anomala situazione di tentare di usare p per stimare p. Il problema pu`o per`o facilmente essere superato stimando p con con l’estimatore Y . Indicato quindi con pˆ ´ y la stima puntuale di p ottenuta utilizzando Y , l’intervallo di fiducia (approssimato) per p al livello 1¡α `e il seguente:   $ $ pˆ ¡ u α2 pˆ(1 ¡ pˆ)/n , pˆ + u α2 pˆ(1 ¡ pˆ)/n . Esercizio 3.8.1 Un campione di 100 transistor viene estratto da una grossa fornitura e testato. In tutto 80 pezzi hanno i requisiti adeguati. Si chiede di determinare gli intervalli di fiducia di livelli 95% e 99% per la percentuale p di transistor accettabili. I quantili della normale standardizzata che interessano sono i seguenti:

u0.025 ' 1.96 ,

u0.005 ' 2.57 .

Essendo n=100 e pˆ=0.80, si ha livello 95%

=)

livello 99%

=)

$ 0.8 ¢ 0.2/100 , 0.80 + 1.96 0.8 ¢ 0.2/100] $ $ p 2 [0.80 ¡ 2.57 0.8 ¢ 0.2/100 , 0.80 + 2.57 0.8 ¢ 0.2/100] .

p 2 [0.80 ¡ 1.96

$

Gli intervalli di fiducia richiesti sono dunque approssimativamente i seguenti: livello 95% livello 99%

=) =)

p 2 [0.80 ¡ 0.0784 , 0.80 + 0.0784] = [0.7216 , 0.8784] p 2 [0.80 ¡ 0.1028 , 0.80 + 0.1028] = [0.6972 , 0.9028] .

Esercizio 3.8.2 Un sondaggio su un giornale riporta che il 52% della popolazione, con un margine d’errore di §4%, `e soddisfatto dell’operato dell’amministrazione. Cosa significa

` possibile stabilire quante persone sono state intervistate? ci` o? E

` pratica comune per i mezzi d’informazione fornire intervalli di fiducia al 95%. Ci`o premesso, E l’intervallo di fiducia in questione, essendo pˆ=0.52 e u0.975 ' 1.96, ed essendo non nota la dimensione del campione, `e approssimativamente il seguente:

$ $ pˆ § 1.96 pˆ(1 ¡ pˆ)/n = 0.52 § 1.96 0.52 ¢ 0.48/n .

Siccome il margine d’errore `e del 4%, ci` o significa che

1.96

$

0.52 ¢ 0.48/n ¼ 0.04 ,

da cui, tenendo conto che n `e intero, si ricava n ¼ 599 .

101

Un problema di un certo interesse concerne una stima della dimensione del campione che permetta di ottenere un intervallo di fiducia per p al livello 1¡α non pi` u ampio di una lunghezza d assegnata. Il problema pu`o presentarsi con queste due varianti: a) `e disponibile a priori una stima puntuale pˆ; b) una tale stima non `e disponibile. Caso a).

L’ampiezza dell’intervallo di fiducia per p ha ampiezza $ 2 u α2 pˆ(1 ¡ pˆ)/n . Si dovr`a quindi avere $ 2 u α2 pˆ(1 ¡ pˆ)/n · d , da cui 4u2α 2 pˆ(1 ¡ pˆ) . n ¸ d2

Caso b). Siccome la funzione p(1¡p) ha come valore massimo 14 (assunto per p= 12 ), qualunque sia il valore di p, scegliendo u2α n = 22 , d sar`a sempre garantita un’ampiezza dell’intervallo non superiore a d. Esercizio 3.8.3 Un’azienda produce circuiti integrati, ciascuno dei quali risulta accettabile indipendentemente da tutti gli altri con probabilit` a incognita p. Si vuole ottenere un intervallo di fiducia per p ad un livello 99%, la cui ampiezza sia approssimativamente 0.05. Si raccoglie allora un primo campione di 30 chip, 26 dei quali risultano accettabili, fornendo una prima, grossolana, stima puntuale di p, data da pˆ= 26 30 . Si chiede di determinare: a) la dimensione n1 del campione che si ottiene utilizzando la stima pˆ; b) l’intervallo di fiducia utilizzando un campione di dimensione n1 ottenuto aggiungendo n1 ¡30 chip a quelli gi`a verificati (fissando a piacere il numero dei chip accettabili); c) determinare la dimensione n2 del campione necessaria a garantire un’ampiezza non superiore a 0.05 se non fosse stata determinata preventivamente pˆ. a) Essendo u0.005 ¼ 2.58, si ha

n1 =

4u2α 2

d2

pˆ(1 ¡ pˆ) ¼ 4

2.582 26 4 ¼ 1231 . 0.052 30 30

b) Dobbiamo dunque testare altri 1201 chip. Fra questi supponiamo che 1040 siano accettabili. L’intervallo di fiducia che si ottiene `e pertanto dato da

ovvero

 1066 1066 165 1 § 2.58 , 1231 1231 1231 1231 (0.8409, 0.8910) .

c) Se non avessimo predeterminato (seppur grossolanamente) p, la dimensione n2 del campione atta a garantire l’ampiezza richiesta per l’intervallo di fiducia sarebbe stata

n2 =

u2α 2

d2

¼

2.582 ¼ 2663 . 0.052

Dunque, se non avessimo predeterminato una stima puntuale per p, per avere la certezza di un intervallo di fiducia con l’ampiezza richiesta, avremmo dovuto adottare un campione di dimensione pi` u che doppia!

102

3.9 BASI LOGICHE DEI TEST Ci poniamo questo problema: i tecnici di una ditta produttrice di nastri dichiarano di aver messo a punto un nuovo trattamento per il materiale utilizzato tale da rendere pi`u resistente il nastro, portandone il carico di rottura a trazione a 80 N. Come valutare la loro affermazione? ` chiaro che un qualunque controllo (test) va fatto su un campione e sulla base del E risultato si decide se la produzione deve continuare con le vecchie o con le nuove tecniche di trattamento del materiale. Il processo decisionale scelto `e il seguente: si considera un campione casuale costituito di 49 nastri estratto dalla popolazione dei nastri prodotti col nuovo trattamento e si sottopone ciascuno di questi 49 nastri alla prova di rottura fatta con l’apposita attrezzatura. Se il carico di rottura medio osservato `e inferiore a 78.5 N, la nuova tecnica viene rifiutata, mentre se risulta maggiore si ritiene dimostrata la maggior resistenza e quindi accettata la nuova tecnica. Indicata con x la media campionaria misurata del campione, sono possibili i seguenti 4 casi: u 1) x > 78.5N e il nuovo trattamento `e effettivamente tale da rendere il nastro pi` resistente. In questo caso l’accettazione della nuova tecnica `e una scelta corretta. 2) x< 78.5N bench`e il nuovo trattamento sia effettivamente tale da rendere il nastro pi` u resistente. In questo caso il rifiuto della nuova tecnica `e una scelta sbagliata. Questo tipo di errore `e detto errore o rischio di I a specie. 3) x > 78.5N bench`e il nuovo trattamento non sia effettivamente tale da rendere il nastro pi` u resistente. In questo caso l’accettazione della nuova tecnica `e una scelta sbagliata. Questo tipo di errore `e detto errore o rischio di II a specie. 4) x < 78.5N e il nuovo trattamento non `e effettivamente tale da rendere il nastro pi` u resistente. In questo caso il rifiuto della nuova tecnica `e una scelta corretta. Facendo delle ipotesi sulla distribuzione della popolazione e assumendo che la varianza di questa distribuzione non cambi per effetto del nuovo trattamento, si possono valutare le probabilit`a degli errori di I a e II a specie. Ipotizziamo dunque che nel problema considerato la distribuzione sia normale e che si abbia σ 2 = 21.4N 2 . Ci`o implica che la media campionaria X, relativa al nostro campione di dimensione n=49, abbia media µ=µ0 =80N (se i tecnici dicono il vero)  e deviazione standard σ =

21.4 49

' 0.661N .

103

Il rischio di errore di I a specie `e rappresentato dall’area sottesa dalla curva normale a sinistra del valore 78.5 N (vedi figura), il che equivale alla probabilit`a che X per n=49 sia minore di 78.5 N . Indicata di nuovo con Z la media campionaria standardizzata, ' ( si ha   X ¡ µ 78.5 ¡ 80  78.5 ¡ µ p < p P [X < 78.5µ0 = 80] = P =P Z< ' σ/ n σ/ n 0.661 ' Φ(¡2.27) = 1 ¡ Φ(2.27) ' 0.012 .

Dunque, c’`e una probabilit`a di poco superiore all’1% di commettere l’errore di I a specie, cio`e di rifiutare l’affermazione fatta quando questa `e vera. Volendo valutare il rischio di II a specie, occorre supporre che il carico di rottura medio vero per quel tipo di nastro non sia quello indicato dai tecnici, ma un altro. Ipotizziamo dunque, ad esempio, che sia 78 N anzich`e 80 N . In questo caso la media campionaria X avrebbe distribuzione normale con media µ = µ1 = 78. Supponendo che la deviazione standard rimanga la stessa, la probabilit`a dell’errore di II a specie `e quella di avere delle medie di campioni di dimensione 49 maggiori di 78.5 N . Calcoliamo tale probabilit`a, che `e rappresentata dall’area evidenziata nella figura. ' (   78.5 ¡ 78  X ¡ µ 78.5 ¡ µ p > p P [X > 78.5µ1 = 78] = P =P Z> ' 0.661 σ/ n σ/ n ' 1 ¡ Φ(0.756) ' 0.225 = 22.5% .

In definitiva, avendo stabilito quel criterio decisionale, siamo riusciti a quantificare i rischi di errore, cio`e le probabilit`a di scelte errate a seconda della situazione vera che `e e rimane ovviamente incognita. L’aver scelto una simile strategia per accettare o rifiutare l’affermazione dei tecnici significa fare un test di ipotesi. Rimane il dubbio che l’aver fissato il limite di 78.5 N per quelle medie campionarie possa risultare troppo favorevole all’accettazione dell’affermazione fatta. Nella pratica, dovendo decidere se accettare oppure no l’ipotesi che la media (incognita) di una data popolazione abbia un dato valore, si procede nel modo seguente: si stabilisce il rischio α di errore di I a specie ed in base ad esso si determina un intervallo; se la media campionaria osservata cade esternamente a tale intervallo, l’ipotesi viene rifiutata. Nel caso specifico visto in precedenza l’intervallo in questione `e [78.5, +1) che corrisponderebbe, come il calcolo fatto in precedenza mostra, ad un rischio α di I a specie circa uguale a 0.012. Il criterio descritto, cos`ı come formulato, `e risolutivo solo nel caso di rifiuto. Se accettare o no l’ipotesi nel caso in cui la media osservata cada internamente all’intervallo, dipende da chi deve prendere la decisione e dai suoi obiettivi. Ovviamente, come nel caso del problema appena considerato, si pu`o anche decidere di accettarlo immediatamente. Oppure si pu`o decidere di fare ulteriori “verifiche” (ovviamente di tipo statistico). Ad esempio, si pu`o valutare anche il rischio di II a specie assumendo come valore vero per la media campionaria un valore µ1 < µ0 e decidere in base alla probabilit`a di tale rischio se accettare oppure no H0 . La scelta di un µ1 minore di µ0 104

`e ovviamente legata al fatto che il rischio di una scelta sbagliata si ha solo nel caso in cui il valore vero di µ `e minore di µ0 .

3.10 FORMULAZIONE DI UN TEST DI IPOTESI Molto spesso vengono formulate delle ipotesi di lavoro che riguardano un parametro θ di una popolazione. Per decidere se accettare oppure respingere una tale ipotesi ci si pu`o servire dei risultati di un test statistico, che pu`o essere formulato seguendo i passi che seguono. 1) Definire l’ipotesi di lavoro, che chiameremo ipotesi nulla e indicheremo con H0 . Nel caso pi` u semplice, e pi` u comune, ci`o sar`a fatto attribuendo al parametro θ un valore θ0 : H0 : θ =θ0 . Ad esempio, se il parametro sotto indagine `e la media, si pone µ=µ0 , essendo µ0 un valore prefissato; se invece il parametro `e la varianza, si pone σ 2 = σ02 , con σ02 valore prefissato. L’indagine potrebbe riguardare anche la differenza fra due medie µ1 e µ2 : in tal caso si ipotizza che µ1 ¡µ2 =0, ossia che µ1 =µ2 . Si sono cos`ı individuati tre possibili ipotesi nulle: H0 : µ=µ0 ; H0 : σ 2 =σ02 ; H0 : µ1 =µ2 ). Nell’esempio del paragrafo precedente l’ipotesi nulla `e: H0 : µ=80 N .

In contrapposizione all’ipotesi nulla si pu`o formulare un’ipotesi alternativa HA . Ad esempio, ipotesi alternative per l’ipotesi nulla H0 : θ = θ0 sono le seguenti: HA : θ 6 = θ0 ; HA : θ < θ0 ; HA : θ > θ0 . Se l’ipotesi nulla H0 `e vera, automaticamente l’ipotesi alternativa HA `e falsa. Se accettiamo H0 , dobbiamo automaticamente rifiutare HA . Nell’esempio del paragrafo precedente si ha HA : µ< 80 N .

2) Scegliere una statistica appropriata ed identificarne la distribuzione campionaria. Nell’esempio del paragrafo precedente si `e assunto che la distribuzione delle medie campionarie fosse normale. 3) Precisare il rischio α di errore di prima specie che si `e disposti a correre (o equivalentemente specificare il livello di fiducia 1¡α). Spesso la probabilit`a α di commettere un errore di prima specie viene detta livello di significativit` a del test (tanto pi` u piccolo `e α, tanto pi` u `e significativo il test). In molti casi la scelta di tale livello non riveste solo aspetti statistici, ma sopratutto tecnici ed economici. Livelli di significativit` a non troppo fini (cio`e con valori di α abbastanza grandi) possono portare a scelte che poi risultano errate, con conseguenze a volte disastrose. Si pensi, ad esempio, ad una scelta di un nuovo medicinale a scapito di uno preesistente che si dimostra sbagliata in quanto il nuovo, alla prova dei fatti, risulta meno efficace di quello che ha sostituito, con conseguenze negative per la casa farmaceutica e, soprattutto, per i pazienti.

4) Precisare, se lo si ritiene opportuno, anche il massimo rischio di seconda specie ∗ . Osserviamo che in questo caso, come abbiamo βmax per un’ipotesi alternativa HA ∗ visto nell’esempio del paragrafo precedente, HA consiste nell’ipotizzare che il para∗ metro θ assuma un valore specifico θ all’interno dell’ipotesi HA di cui al punto 1). 5) Decidere la dimensione n del campione. 105

6) Determinare, in base a quanto precedentemente stabilito, la regione di accettazione dell’ipotesi nulla H0 . Tale regione, che indichiamo con A , deve essere tale   che P θ 2 A = 1¡α. In molti casi (fra cui l’importante caso θ = µ), essa viene determinata in modo che risulti cosiffatta:  se HA : θ 6 = θ0 ;   [θ0 ¡ δα , θ0 + δα ] A=

 

[θ0 ¡ δα′ , +1) (¡1 , θ0 + δα′′ ]

se HA : θ < θ0 ; se HA : θ > θ0 .

Indicato poi con Θ l’insieme dei numeri reali sul quale il parametro θ assume i propri valori, si chiama regione critica o di rifiuto la regione complementare di A rispetto a Θ. Posto pertanto R = Θ ¡ A, ne consegue che, se un valore misurato θˆ non sta in A, allora necessariamente sta in R, e viceversa. Nel caso di ipotesi alternativa HA : θ 6 = θ0 si parla di test bilaterale e la regione critica `e detta a due code, mentre nel caso di HA : θ < θ0 oppure HA : θ > θ0 abbiamo un test unilaterale e una regione critica ad una coda. 7) Si estrae un campione della dimensione stabilita e con i valori osservati del campione si determina la stima puntuale θˆ del parametro. Si hanno quindi le seguenti implicazioni: θˆ 2 R =) l’ipotesi nulla H0 viene rigettata θˆ 2 A =) l’ipotesi nulla H0 non pu` o essere rigettata.

Osserviamo che, nel caso in cui θˆ cade in R, il test `e risolutivo in quanto l’ipotesi nulla viene respinta in favore dell’ipotesi alternativa HA . Al contrario, se θˆ cade in A, il test non `e risolutivo. In tal caso infatti esso ci dice che l’ipotesi nulla non pu`o essere rifiutata, la qual cosa non significa automatica accettazione: sta allo sperimentatore decidere se accettare oppure no l’ipotesi nulla solo sulla base del fatto che non `e stata smentita al livello di fiducia 1¡α prefissato.

Volendo supportare l’accettazione di H0 con altri riscontri, lo sperimentatore pu`o procedere andando a valutare anche il rischio di II a specie per un’ipotesi alternativa ∗ HA . Viene dunque calcolata la probabilit`a β di accettare come vera l’ipotesi H0 ∗ quando, essendo vera HA , essa `e falsa:   ∗ β = P θ 2 A j HA .

Ebbene, supposto che lo sperimentatore abbia in precedenza fissato un βmax , se β · βmax , ci`o pu`o costituire l’elemento risolutivo ai fini della decisione finale circa l’accettazione o no dell’ipotesi nulla H0 . La probabilit`a di rifiutare H0 quando H0 `e falsa, che vale 1¡β, viene detta potenza ∗ ∗ ∗ del test. Sottoponendo il nostro test a diverse ipotesi alternative HA , HA , HA ,..., 1 2 3 si ottengono diversi valori di β: β1 , β2 , β3 ,..., che individuano una curva β = β(θ) , detta curva operativa caratteristica del test. Di questa riparleremo pi` u avanti.

L’ideale sarebbe un test che minimizza contemporaneamente entrambi i rischi di I a e II a specie, ma ci`o `e impossibile. Al decrescere dell’uno, l’altro cresce. Il solo modo 106

di abbassarli entrambi `e aumentare la dimensione n del campione, e quindi, in parole povere, spendere di pi` u in prove ed analisi dei risultati. Va comunque notato che, indipendentemente da come si opera, un errore `e sempre possibile. Ogni volta che H0 viene rifiutata, pu`o aver luogo un errore di I specie; ogni volta che H0 non viene rifiutata, pu`o verificarsi un errore di II specie. Non c’`e alcun modo di evitare questo dilemma. Il mestiere dello statistico `e quello di adottare metodi per decidere se rifiutare oppure no l’ipotesi H0 che mantengono ragionevolmente piccole le probabilit`a di fare l’uno o l’altro errore.

Considerazioni sulla scelta di H0 e HA Diversamente da quanto assunto nella definizione dei passi utili alla formulazione di un test, molto spesso l’interesse reale suggerirebbe un’ipotesi nulla basata su una disuguaglianza: H0 : θ · θ0 (oppure H0 : θ ¸ θ0 ), con conseguente ipotesi alternativa HA : θ > θ0 ) (oppure HA : θ < θ0 ). Nel linguaggio proprio della statistica si parla di ipotesi nulla semplice o composta a seconda che H0 esprima un’uguaglianza o una disuguaglianza. Poich´e con H0 composta la trattazione matematica del problema risulta assai pi` u complicata, nel seguito considereremo sempre ipotesi nulle semplici. A questo proposito occorre osservare che se, ad esempio, l’ipotesi nulla fosse H0 : θ · θ0 (ovviamente in contrapposizione a HA : θ > θ0 ), essa pu`o essere ragionevolmente sostituita da H0 : θ = θ0 sulla base delle considerazioni che seguono. L’esecuzione del test porta a rigettatare H0 se la stima puntuale θˆ del parametro θ risulta maggiore di un certo θ1 a sua volta maggiore di θ0 . Pi` u semplicemente: H0 viene rigettata se θˆ `e “abbastanza pi` u grande” di θ0 . Di norma, se ci`o porta a rigettare l’ipotesi nulla θ = θ0 , a maggior ragione si deve rifiutare ogni ipotesi θ =θ∗ con θ ∗ < θ0 , e quindi l’ipotesi nulla composta H0 : θ · θ0 . Diverso `e il discorso nel caso in cui il test porti all’accettazione di H0 : θ = θ0 : ci`o non comporta affatto l’accettazione di H0 : θ · θ0 . (Nell’esempio 3.11.2 si mostra come si pu` o procedere con un’ipotesi nulla composta). Un fatto significativo che probabilmente non `e emerso da quanto detto finora `e il seguente. Uno sperimentatore quando compie un test tende ad avvalorare un’ipotesi di lavoro che in generale si traduce in una relazione di disuguaglianza. Ebbene, questa relazione pu`o essere assunta sia come ipotesi nulla H0 (composta) sia come ipotesi alternativa HA . In altre parole, un’ipotesi nulla H0 composta e la sua ipotesi alternativa sono intercambiabili. Anzi, spesso l’ipotesi da avvalorare viene assunta come ipotesi alternativa HA con l’obiettivo di avvalorarla rigettando H0 . Di qui si pu`o quindi capire come, per uno stesso problema, la scelta delle due ipotesi, quella nulla e quella alternativa, possono essere diverse a seconda degli interessi di chi esegue il test. Quando l’ipotesi nulla `e semplice, ovviamente essa non pu` o essere scambiata con l’ipotesi alternativa. Anche in questo caso per`o gli interessi di chi effettua il test possono portare a scegliere un’ipotesi alternativa piuttosto che un’altra. L’esempio che segue chiarir`a, se ce ne fosse bisogno, quanto appena affermato. Esempio 3.10.1 Un dato vino `e in vendita in bottiglie contenenti, sulla base di quanto dichiarato dall’etichetta, 720 millilitri. Si vuole verificare che l’effettivo contenuto corrisponda a quanto dichiarato mediante un test d’ipotesi di livello di fiducia 1¡α. 107

In questo problema il parametro θ che interessa `e la media della variabile casuale X che rappresenta la quantit` a di vino contenuto in una bottiglia. Si ha dunque θ = µ e l’ipotesi nulla `e H0 : µ = 720 . Le possibili ipotesi alternative sono pertanto HA : µ 6 = 720 oppure HA : µ< 720 oppure HA : µ> 720 . Supponiamo che sia un’associazione di consumatori ad effettuare il test. In questo caso c’`e tutto l’interesse a evidenziare un eventuale riempimento delle bottiglie per difetto. Viene dunque scelta l’ipotesi alternativa HA : µ < 720. L’ipotesi nulla sar` a da rigettare in favore di HA nel caso in cui la stima puntuale µ ˆ della media calcolata mediante i valori osservati del campione non cada internamente alla regione di accettazione A, cio`e se

µ ˆ2 / [720 ¡ δα′ , +1) . Supponiamo ora che sia il produttore ad effettuare il test di verifica. Quale ipotesi alternativa sceglier` a? Certamente non sceglier` a HA : µ < 720, perch`e se cos`ı facesse potrebbe avvalorare l’ipotesi che egli mette nelle bottiglie meno vino di quanto dichiara. D’altra parte, se l’ipotesi alternativa scelta fosse HA : µ> 720, potrebbe apparire un p` o troppo sfacciato. Non rimane dunque che la scelta ”neutra” HA : µ 6 = 720. Tenendo conto della struttura di A, H0 verrebbe rigettata in favore di HA se

Dovendo essere

µ ˆ2 / [720 ¡ δα , 720 + δα ] .    P µ 2 [720 ¡ δα , 720 + δα ] =P µ 2 [720 ¡ δα′ , +1) =1 ¡ α , 

′ `e evidente che δα < δα . Di conseguenza, dando per scontato che il produttore sia stato molto attento a non riempire troppo le bottiglie, `e certamente pi` u probabile che sia il test effettuato dall’associazione dei consumatori a smentire l’ipotesi nulla piuttosto che il test fatto dal produttore stesso. Osserviamo che il rifiuto di H0 nel test dell’associazione confermerebbe l’eventuale sospetto di una quantit` a di vino minore di quanto dichiarato.

` 3.11 TEST DI SIGNIFICATIVITA Esiste un altro metodo, un p`o pi` u sbrigativo, per decidere se accettare o no l’ipotesi nulla H0 . Tale metodo, che `e detto test di significativit` a, sta diventando di uso sempre pi` u ampio, anche in virt` u dell’uso crescente di pacchetti software nell’analisi di dati statistici. Indicata con T la statistica del test, il metodo in questione consiste nell’osservare dal campione casuale il valore numerico tˆ di T e nel determinare quindi la probabilit`a che T assuma un valore che ”eccede” tˆ, supposta vera l’ipotesi nulla. Il significato preciso di ”eccede” dipende dal tipo di test. Nel caso di test unilaterale la probabilit`a p da determinare `e la seguente:     se HA : θ > θ0 , p = P T ¸ tˆ H0     se HA : θ < θ0 . p = P T · tˆ H0

Se invece il test `e bilaterale simmetrico, cio`e basato su una statistica T con una distribuzione simmetrica (come Z e Tn ), allora la probabilit`a p `e data da     p = 2 P T ¸ jtˆj  H0 se HA : θ 6 = θ0 . 108

Al numero p ci si riferisce con diversi nomi; i pi` u comuni sono valore p o p-dei-dati. Come risulter`a evidente dagli esempi proposti nel seguito, se si eseguisse un test di ipotesi con livello di significativit`a α, se α < p, il valore osservato θˆ cadrebbe internamente alla regione di accettazione e H0 non potrebbe essere rigettata; d’altra parte, se α> p, θˆ cadrebbe esternamente e l’ipotesi nulla sarebbe da rigettare. Questa considerazione suggerisce la seguente definizione di carattere generale: Definizione Si chiama valore p (o p-dei-dati) il minimo α per cui l’ipotesi nulla deve essere rigettata con un test d’ipotesi di livello di fiducia 1¡α. Esempio 3.11.1

Ingegneri addetti alla costruzione di automobili stanno usando sempre pi` u l’alluminio nella speranza di ridurre il costo delle auto e aumentare il numero di miglia percorse con un gallone di benzina. Per un particolare modello di auto, il numero medio di miglia su autostrada ottenuto per gallone `e 26 con una deviazione standard σ = 5mpg. Si spera che un nuovo design, che utilizza pi` u alluminio, incrementi la media, dando per scontato che σ non cambi. Gli ingegneri, volendo testare la loro ipotesi, eseguono un test di significativit` a nel modo seguente.

H0 : µ · 26 ,

HA : µ > 26 . Assunta naturalmente come statistica del test la media campionaria X , si concorda di rifiua ”alquanto maggiore” tare l’ipotesi H0 in favore di HA se il valore osservato x di X risulter` Si assumono le seguenti ipotesi:

di 26. Con ”alquanto maggiore” intendiamo troppo grande perch`e ci` o possa essere avvenuto solo per caso se il valore medio vero `e ancora 26. Da un test con un campione di 36 dati risulta una media x = 28.04 mpg. Per vedere se x `e abbastanza pi` u grande di 26 da poter rigettare H0 , calcoliamo il valore p del test, cio`e calcoliamo la probabilit` a di osservare un valore di X maggiore od uguale a 28.04 se µ=26 e σ =5. In virt`u del teorema di limite centrale lo stimatore p X `e (almeno) approssimativamente normale con media µ=26 e deviazione standard σ/ n=5/6. Si ha quindi

p = P (X ¸ 28.04 j µ=26 , σ =5) = P

 X ¡ 26 28.04 ¡ 26  ¸ = 5/6 5/6

¼ P [Z ¸ 2.45] = 1 ¡ P [Z · 2.45] ¼ 1 ¡ 0.9929 = 0.0071 .

La probabilit` a che X assuma un valore maggiore di 28.04 `e dunque molto piccola. Ci sono due possibili spiegazioni per questo fatto. O l’ipotesi nulla `e vera e noi abbiamo osservato un campione veramente raro che per caso ha una media grande, oppure l’ipotesi nulla `e falsa e il nuovo processo di costruzione delle auto ha effettivamente portato ad un aumento delle miglia percorse per gallone di benzina. La seconda spiegazione `e di gran lunga quella pi` u ragionevole! Infatti il valore p trovato rappresenta la probabilit` a dell’errore di I specie che si commette rifiutando H0 a favore di HA quando si assume come regione di rifiuto R = [28.04 , +1). E nel caso specifico p `e minore dell’1%.

L’esempio proposto permette di capire meglio il significato del valore p. Pi`u piccolo `e p, pi`u fortemente il test suggerisce il rigetto dell’ipotesi nulla a favore di quella alternativa.

109

3.12 TEST RIGUARDANTI LA MEDIA DI UNA POPOLAZIONE NORMALE Tratteremo ora i test riguardanti la media affrontando dapprima il caso in cui la varianza `e nota e poi il caso in cui `e incognita.

a) Test nel caso di varianza nota Consideriamo un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n proveniente da una distribuzione normale. Per sottoporre a test l’ipotesi di provenienza da una popolazione di media µ = µ0 , usiamo la statistica Z ' N (0, 1) che si ottiene, come abbiamo gi`a visto, normalizzando la media campionaria X, ossia X ¡ µ0 p Z= n, σ dove σ 2 `e la varianza della popolazione che assumiamo nota. Il problema `e quello di testare l’ipotesi nulla H0 : µ = µ0 contro l’ipotesi alternativa HA : µ6 = µ0 : l’ipotesi nulla `e da rifiutare se il valore osservato di Z `e “troppo grande” o “troppo piccolo”, dove “troppo grande” e “troppo piccolo” sono quantificati dal valore del rischio di prima specie che si intende correre. Pi` u precisamente, fissata uguale ad α la probabilit`a di tale rischio, e indicato con u α2 il quantile soluzione dell’equazione α Φ(u) = 1 ¡ , 2 per il rischio di errore di prima specie si ha

P



  X ¡ µ p  X ¡ µ p     0 0 =P = α. Z < ¡u α2 [ Z > u α2 n < ¡u α2 [ n > u α2 σ σ

Questa formula esprime la probabilit`a di rifiutare l’ipotesi nulla H0 : µ = µ0 quando essa `e vera. Pertanto la regione di rifiuto per questo test bilaterale `e costituita da tutti i valori di Z (o equivalentemente di X) per cui   X ¡ µ p      0  Z < u α ossia n < u α2 .  2  σ  Risolvendo rispetto a X si ottiene σ X < µ0 ¡ p u α2 n

Posto

oppure

σ x1 = µ0 ¡ p u α2 , n

σ X > µ0 + p u α2 . n

σ x2 = µ0 + p u α2 , n

abbiamo dunque determinato l’intervallo [x1 , x2 ], detto intervallo di accettazione. Se il valore osservato x di X cade esternamente ad esso, l’ipotesi nulla H0 : µ=µ0 sar`a da rifiutare in favore dell’ipotesi alternativa HA : µ 6 = µ0 . Se invece x 2 [x1 , x2 ], allora l’ipotesi nulla non sar`a da rifiutare, il che non equivale a dire che sia da accettare (come nell’esempio introduttivo del x 3.9). 110

Oltre al test bilaterale, esiste la possibilit`a di eseguire anche dei test unilaterali a seconda di esigenze tecniche specifiche. In questo caso si possono avere due ipotesi alternative: HA : µ< µ0 oppure HA : µ> µ0 . Indicato con uα il quantile soluzione dell’equazione Φ(u) = 1 ¡ α, valgono le seguenti relazioni: ' (   X ¡ µ0 p P Z < ¡uα = P n < ¡uα = α ; σ ' (   X ¡ µ0 p P Z > +uα = P n > +uα = α . σ Posto quindi σ σ ξ1 = µ0 ¡ p uα , ξ2 = µ0 + p uα , n n le due precedenti probabilit`a diventano P (X < ξ1 ) = α ;

P (X > ξ2 ) = α .

La prima delle due probabilit`a ci assicura che, nel caso HA : µ < µ0 , se rigettiamo l’ipotesi nulla a favore di quella alternativa quando il valore di x `e minore di ξ1 , l’errore di I a specie commesso `e uguale ad α. La seconda probabilit`a ci garantisce invece un errore dello stessa entit`a nel caso si rifiuti l’ipotesi nulla a favore dell’ipotesi alternativa HA : µ > µ0 se la media calcolata x risulta maggiore di ξ2 . Pertanto, nel caso di test unilaterale per la media (nota la varianza) si procede nel modo seguente: nel caso HA : µ < µ0 , l’ipotesi H0 si rigetta se x < ξ1 ; nel caso HA : µ > µ0 , H0 si rigetta se x > ξ2 . La tabella che segue riassume i casi considerati.

111

Osservazione. Gli intervalli di accettazione [x1 , x2 ] (nel caso di test bilaterale), [ξ1 , +1) e (¡1 , ξ2 ] (nel caso di test unilaterale) sono espressi nell’unit`a di misura dei dati del campione. Se la media osservata vi cade dentro, allora l’ipotesi nulla non pu`o essere rigettata. Le conclusioni del test possono per`o essere tratte, in maniera pi` u immediata, anche utilizzando la media osservata “standardizzata”, vale a dire x ¡ µ0 p z= n. σ Se questa cade all’interno dell’intervallo di accettazione per Z, allora l’ipotesi nulla non pu` o essere rigettata. Per quanto detto precedentemente gli intervalli di accettazione di Z, che per comodit`a chiameremo “intervalli standardizzati”, sono i seguenti: [¡u α2 , u α2 ]

se

H A : µ = µ0 ;

[¡uα , +1)

se

HA : µ < µ0 ;

(¡1 , +uα ]

se

HA : µ > µ0 .

b) Test nel caso di varianza incognita (test t) Consideriamo un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n proveniente da una distribuzione normale. Per sottoporre a test l’ipotesi di provenienza da una popolazione di media µ = µ0 , si usa la statistica Tn−1 , cio`e X ¡ µ0 p Tn−1 = n, S con S varianza campionaria. Come gi`a sappiamo, questa variabile casuale segue la distribuzione di Student con n¡1 gradi di libert`a. In questo caso il test viene spesso indicato come test t. Volendo testare l’ipotesi nulla H0 : µ=µ0 in contrapposizione con l’ipotesi alternativa HA : µ 6 = µ0 , in analogia con quanto appena fatto nel caso di varianza nota, fissata uguale ad α la probabilit`a del rischio di prima specie, si ha     α α P Tn−1 < ¡t 2 [ Tn−1 > t 2 = ' ( ' ( X ¡ µ0 p X ¡ µ0 p =P n < ¡t α2 [ n > t α2 = α, S S con t α2 soluzione dell’equazione

α . 2 Di conseguenza la regione aleatoria di rifiuto della ipotesi nulla diventa Tn−1 (t) = 1 ¡

S X < µ0 ¡ p t α2 n

oppure

S X > µ0 + p t α2 . n

Eseguito l’esperimento e indicato come in precedenza con σ ˆ il valore osservato di S, risulta dunque determinato il seguente intervallo di accettazione:   σ ˆ σ ˆ [x1 , x2 ] = µ0 ¡ p t α2 , µ0 + p t α2 . n n 112

Se il valore osservato x di X cade esternamente a questo intervallo, l’ipotesi nulla H0 : µ = µ0 `e da rifiutare in favore dell’ipotesi alternativa HA : µ 6 = µ0 . Se invece x 2 [x1 , x2 ], allora l’ipotesi nulla non potr`a essere rifiutata. Quando l’ipotesi alternativa `e HA : µ< µ0 oppure HA : µ> µ0 , si deve eseguire un test unilaterale. In tal caso, indicata con tα la soluzione dell’equazione: Tn−1 (t) = 1¡α , posto σ ˆ σ ˆ ξ1 = µ0 ¡ p tα , ξ 2 = µ 0 + p tα , n n si ha P (X > ξ2 ) = α . P (X < ξ1 ) = α ; La prima delle due probabilit`a ci suggerisce di rifiutare l’ipotesi nulla H0 a favore dell’ipotesi alternativa HA : µ< µ0 se la media x, calcolata approssimando σ con σ ˆ, risulta minore di ξ1 ; a sua volta la seconda probabilit`a suggerisce, nel caso HA : µ > µ0 , di rifiutare H0 se si ha x > ξ2 . Quanto affermato pu`o essere sintetizzato dicendo che, nel caso di test unilaterale, gli intervalli di accettazione sono: [ξ1 , +1)

se

HA : µ < µ0 ;

(¡1 , ξ2 ] se HA : µ > µ0 . La tabella data in precedenza per il caso “varianza nota” rimane quindi valida anche nel caso “varianza incognita” fatto salvo il fatto che ora l’intervallo [x1 , x2 ] e i valori ξ1 e ξ2 sono calcolati utilizzando i quantili della distribuzione di Student (ad N¡1 gradi di libert`a) anzich`e quelli della normale standardizzata. Osservazione. Analogamente a quanto osservato in precedenza nel caso di varianza nota, le conclusioni del test ora proposto possono essere tratte in maniera pi` u immediata ragionando direttamente sugli intervalli di accettazione per Tn−1 , che anche in questo caso chiameremo “intervalli standardizzati”: [¡t α2 , t α2 ]

se

HA : µ = µ0 ;

[¡tα , +1) (¡1 , +tα ]

se se

HA : µ < µ0 ; HA : µ > µ0 .

Se il valore osservato della statistica Tn−1 , cio`e x ¡ µ0 p t= n, σ ˆ cade esternamente all’intervallo di accettazione standardizzato, l’ipotesi nulla `e da rigettare. Esempio 3.12.1 Si supponga di avere un campione di 200 cambi per autovetture, supposti provenire da una popolazione distribuita normalmente avente σ = 3250 Km. a) Possiamo assumere con un rischio di prima specie pari al 5% che la durata media della popolazione costituita da tutti i cambi di quel tipo sia di 44800 Km, se la durata media del campione analizzato `e stata di 44500 Km ? b) Calcolare il valore p. a) Omettendo l’unit` a di misura (il Km), i dati che abbiamo sono i seguenti:

n = 200 ,

x = 44500

µ0 = 44800 , 113

σ = 3250 .

Seguiamo ora la procedura indicata precedentemente passo per passo: 1. I dati del campione sono assunti come provenienti da una popolazione normale (o approssimativamente tale) con varianza nota σ 2 . 2.

L’ipotesi nulla `e H0 : µ=µ0 =44800 contro l’ipotesi alternativa HA : µ6 = µ0 .

3.

La statistica da testare `e:

4.

Il rischio α di prima specie per questo test bilaterale `e uguale al 5%.

5.

Dalle tavole della normale standard ricaviamo: u α2 = u0.025 ¼ 1.96.

Z=

X ¡ µ0 X ¡ 44800 p ' . σ/ n 230

X 2 / [x1 , x2 ], con x1 = µ0 ¡ δ e x2 = µ0 + δ . Essendo σ δ = p u α2 =230¢1.96 ¼ 450 , tale regione corrisponde a n

6.

La regione di rifiuto `e:

X2 / [44350 , 45250] . Poich`e il valore calcolato di X , cio`e x, vale 44500, e quindi `e interno a questo intervallo, l’ipotesi nulla non pu` o essere rigettata. 6’. La regione di rifiuto pu` o essere espressa in modo pi` u immediato in forma “standardizzata”, nel qual caso `e data da: jZj > u α2 = u0.025 ¼ 1.96. Standardizzando quindi il valore osservato di X , si ottiene

z=

44500 ¡ 44800 x ¡ µ0 p = ¼ ¡1.305 . σ/ n 230

Essendo jzj < 1.96, come in precedenza arriviamo alla conclusione che l’ipotesi nulla non pu`o essere rifiutata. Osservazione. Se avessimo avuto x = 44300, l’ipotesi nulla, per la quale la durata media della popolazione costituita dai cambi `e 44800 Km, sarebbe stata da respingere a favore = 44800 km. dell’ipotesi alternativa HA : µ6

  p = 2 P (Z ¸ jzj) = 2P (Z ¸ 1.305) = 2 1¡ P (Z · 1.305) ¼ 2(1 ¡ 0.904) = 0.192 . Essendo p assai grande, risulta significativamente confermata la ”non rigettabilit` a” di H0 .

b)

Esempio 3.12.2

Riprendiamo l’esempio 3.5.2. I consumi di un motore sperimentale registrati durante 8 prove, per 100 Km di percorrenza, sono stati: 14, 12, 11, 13, 15, 12, 16, 13. Possiamo affermare che il consumo medio di benzina per quel tipo di motore non supera 12 litri per ogni 100 Km di percorrenza con un livello di significativit` a α=0.01 ? Come abbiamo gi` a visto nell’esempio 3.5.2, dai dati rilevati nelle prove si ottiene

σ ˆ ¼ 1.67 .

x = 13.25 ; La procedura da seguire `e la seguente:

1. I dati del campione sono assunti come provenienti da una popolazione normale (o approssimativamente tale) con varianza incognita. 2. L’ipotesi nulla corretta sarebbe H0 : µ · 12 contro l’ipotesi alternativa HA : µ > 12. Questo caso tuttavia, avendo a che fare con un’ipotesi nulla composta sarebbe di difficile trattazione. Conviene pertanto assumere l’ipotesi nulla semplice H0 : µ = µ0 = 12 e ragionare poi sui risultati ottenuti per trarre conclusioni sull’ipotesi nulla composta.

114

X ¡ µ0 p X ¡ 12 p n= 8. S S 4. Il rischio di prima specie che siamo disposti a correre `e: α = 1%.

3.

La statistica da testare `e:

5.

La regione di rifiuto `e:

T7 =

T7 > tα = t0.01 ¼ 2.998, da cui σ ˆ 1.67 X > ξ2 = µ0 + p tα = 12 + p ¢2.998 ¼ 12 + 1.77 = 13.77 . n 8

6. Essendo x (valore calcolato di X ) uguale a 13.25, l’ipotesi nulla H0 : µ = 12 non pu` o essere rigettata con un errore di prima specie dell’1%. 6’.

Il valore della statistica Tn−1 osservato dal campione vale:

x ¡ µ0 p 13.25 ¡ 12 p n= 8 ' 2.117 . σ ˆ 1.67 Essendo t minore di t0.01 =2.998, l’ipotesi nulla H0 : µ=12 non pu` o essere rigettata. t=

7. Consideriamo ora il caso in cui l’ipotesi nulla `e composta, cio`e H0 : µ· 12. Osserviamo o scriversi in funzione di µ0 : innanzitutto che il valore ξ2 della relazione di cui al punto 5) pu`

ξ2 (µ0 ) ¼ µ0 + 1.77 .

Ci` o premesso, si pu` o ragionare in questo modo: ogni ipotesi nulla semplice H0 : µ=µ∗ con µ∗ < 12 non potr`a essere rifiutata per ogni µ∗ tale che

X < ξ2 (µ∗ ) ¼ µ∗ + 1.77 ,

ossia

µ∗ > X ¡ 1.77 .

Tenendo conto del fatto che il valore osservato di X `e x = 13.25, ne consegue che l’ipotesi o essere nulla semplice H0 : µ=µ∗ , contrapposta all’ipotesi alternativa HA : µ> 12, non pu` rifiutata con un errore di prima specie dell’1% per

µ∗ 2 [13.25 ¡ 1.77 , 12] = [11.48 , 12]. Al contrario, se avessimo avuto H0 : µ=11.4, doveva essere rifiutata in favore di HA .

Esempio 3.12.3

In una clinica si vuole sperimentare un nuovo farmaco che dovrebbe servire per ridurre il tasso di colesterolo nel sangue. A tal fine vengono cercati 50 volontari tra quei pazienti che hanno un livello di colesterolo medio-alto (cio`e maggiore di 220), e a ciascuno viene somministrato il farmaco per un mese. Alla fine si riscontra una riduzione media di 14.8, con una deviazione standard campionaria di 6.4. Verificare, se `e possibile, che tale riduzione `e dovuta esclusivamente ad un fatto fortuito. Se la riduzione `e totalmente fortuita, le variazioni riscontrate sono distribuite normalmente con media nulla. Testiamo dunque l’ipotesi nulla H0 : µ=µ0 =0 contro l’ipotesi alternativa = 0. Procediamo rapidamente senza seguire passo per passo la procedura. HA : µ6 I dati sono i seguenti:

n=50 ,

x=14.8 ,

σ ˆ =6.4 ,

µ0 =0 .

Sappiamo che l’intervallo  di fiducia bilaterale al livello 1¡α, espresso in forma standardizzata, `e dato da ¡t α2 , +t α2 . Il problema `e che nessun α `e assegnato. Tuttavia, se si calcola la media standardizzata utilizzando la deviazione standard campionaria puntuale, si ottiene

t=

x ¡ µ0 p 14.8 p n= 50 ¼ 16.35 . σ ˆ 6.4

Dalla tabella dei quantili della legge di Student (non essendo riportato n=49 basta guardare T50 ), si vede subito che t `e esterno all’intervallo di fiducia per qualunque ragionevole livello

115

di significativit` a α. Dunque, in ogni caso, l’ipotesi nulla deve essere rigettata, il che esclude che la riduzione di colesterolo sia un fatto puramente fortuito.

L’esempio che segue `e storico; esso riprende esperimenti eseguiti da Student per confrontare le tecniche di trattamento dell’orzo utilizzate nella preparazione della birra, pi` u precisamente per valutare gli effetti dell’essicazione in forno prima della semina. A parte l’interesse storico, esso risulta utile ad illustrare come il problema di avvalorare oppure no una tesi di lavoro possa essere affrontato in due modi diversi, il primo “neutrale” rispetto alla scelta che il test potr`a suggerire, il secondo invece “sbilanciato” in favore dell’accettazione dell’ipotesi di lavoro. Esempio 3.12.4

Sono oggetto di indagine 11 variet` a d’orzo; per ciascuna si riporta la differenza di redditivit` a fra la variante essicata e quella non essicata, misurata in libbre per acro:

di : +106

¡20

+101

¡33

¡36

+72

+62

+38

¡70

+127

+24

Supposto che la differenza di redditivit` a abbia una distribuzione normale (di varianza incognita), si chiede di verificare l’ipotesi nulla H0 : µ = µ0 = 0, secondo la quale l’essicazione preliminare non avrebbe nessun effetto. Affronteremo il problema in due modi diversi: a) assumendo come ipotesi alternativa HA : µ6 = 0; b) assumendo come ipotesi alternativa HA : µ > 0. In ciascun caso lo faremo per α=10% , α=5% e α=1% . Essendo la varianza incognita, dovremo utilizzare la statistica ` facile verificare che i dati del campione di Student a 10 gradi di libert` a (essendo n=11). E ˆ ¼ 66.2. hanno media x ¼ 33.7 e scarto quadratico medio σ Derogando per semplicit` a dalla regola di svolgere l’esercizio seguendo passo per passo seguendo la procedura data per un test, si ha: a) Essendo HA : µ6 = 0, il test `e bilaterale. La regione di accettazione `e data da



  66.2  σ ˆ σ ˆ 66.2   µ0 ¡ p t α2 , µ0 + p t α2 = ¡ p t α2 , p t α2 = ¡19.95 t α2 , 19.95 t α2 . n n 11 11

Ora, essendo

t0.05 = 1.812 ,

t0.025 = 2.228 ,

t0.005 = 3.169 ,

le regioni di accettazione, nell’unit` a di misura dei dati del campione, sono per α = 0.10 per α = 0.05 per α = 0.01

)

) )

[¡36.15 , 36.15] ; [¡44.54 , 44.54] ; [¡63.35 , 63.35] .

Essendo x = 33.7, l’ipotesi nulla non pu` o essere rigettata per nessuno dei tre livelli di significativit` a presi in considerazione. Invece di determinare le regioni di accettazione nell’unit` a di misura dei dati del campione e verificare quindi se la media osservata x cadeva oppure no internamente a queste, avremmo potuto, in maniera pi` u rapida, ottenere t standardizzando x e verificare se jtj < t α2 oppure jtj¸ t α2 . In questo modo si sarebbe ottenuto

t=

x ¡ µ0 p 33.7 p n= 11 ¼ 1.688 , σ ˆ 66.2 116





che risulta all’interno dell’intervallo di accettazione ¡ t α2 , t α2 per tutti tre i valori di α considerati. Abbiamo cos`ı trovato conferma del fatto che per nessuno dei tre livelli di fiducia l’ipotesi nulla `e rigettabile. Il test fatto non smentisce l’ipotesi di lavoro µ = 0: ci` o indirizza verso la conclusione che l’essicazione pre-semina sia inutile. Ora affrontiamo il problema in maniera pi` u filologica: l’ipotesi alternativa sia HA : µ > 0, il che esclude a priori che possa essere µ< 0 (Student era sicuro che l’essicazione era b)

vantaggiosa). Il test `e unilaterale. La regione di accettazione `e data da

Essendo

    σ ˆ 66.2   ¡1 , µ0 + p tα = ¡1 , p tα = ¡1 , 19.95 tα . n 11 t0.10 = 1.372 ,

t0.05 = 1.812 ,

t0.01 = 2.764 ,

le regioni di accettazione sono per α = 0.10 per α = 0.05 per α = 0.01

) ) )

(¡1 , 27.37] ; (¡1 , 36.15] ; (¡1 , 55.14] .

La media calcolata, che vale 33.7, cade internamente alla zona di rifiuto relativa ad α = 0.10 ed esternamente a quelle relative agli altri due livelli di significativit`a. Ora pertanto, diversamente dal caso a), per α = 10% l’ipotesi nulla `e da rigettare in favore dell’ipotesi alternativa (che rappresenta quanto desiderato da Student). Ovviamente si giunge alle stesse conclusioni anche ragionando con gli intervalli di fiducia espressi attraverso la media standardizzata e quindi, essendo la varianza incognita, attraverso i quantili della distribuzione di Student. Nel caso di test unilaterale, con ipotesi alternativa HA : µ> µ0 , la regione di accettazione `e data da (¡1, tα ]. Essendo t=1.688, esso risulta maggiore di t0.10 e minore di t0.05 e t0.01 , col che ritorniamo (ovviamente) alle conclusioni precedenti. Dunque, passando da un test bilaterale ad uno unilaterale, e con un alto livello di significativit` a (in realt` a basso), il test pu` o portare a conclusioni pi` u favorevoli ai propri desideri. Questo esempio mostra che impostando il test in un modo o in un altro si possono anche assumere posizioni non del tutto imparziali rispetto alle ipotesi da rifiutare o avvalorare. A titolo d’esercizio si pu` o andare a calcolare il valore p del test. Chiaramente, essendo p il minimo α per cui l’ipotesi nulla deve essere rigettata, e sapendo gi`a che al livello di significativit` a α = 0.1 H0 deve essere rigettata, mentre non pu` o esserlo per α = 0.05, dovremo trovare un valore di p compreso fra 0.05 e 0.1. Nel caso in questione per definizione si ha: p = 1 ¡ P (T10 · t). Utilizzando un opportuno software contenente le funzioni distribuzione pi` u significative, indicata con t10 (x) la funzione distribuzione di T10 , si ricava

t10 (1.688) ¼ 0.939 ,

e quindi

p ¼ 0.061 .

Se avessimo calcolato il valore p anche nel caso del test bilaterale, avremmo avuto

    p = 2 1¡P (T10 · t = 2 1 ¡ t10 (1.688) ¼ 0.122 ,

a considerati. con conferma della non rigettabilit` a di H0 per tutti tre i livelli di significativit`

117

3.13 TEST RIGUARDANTI LA DIFFERENZA DELLE MEDIE DI DUE POPOLAZIONI NORMALI Una situazione che si presenta frequentemente nella statistica applicata all’ingegneria `e quella per cui occorre decidere se due diversi approcci allo stesso problema hanno portato allo stesso risultato oppure no. Una tale problematica viene spesso affrontata mediante un test dell’ipotesi che due popolazioni normali abbiano la stessa media. Ci`o considerando, l’argomento sar`a trattato in analogia con il x 3.7 e sfruttando le nozioni ivi introdotte. Siano dunque (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ) due campioni casuali indipendenti, di dimensioni n ed m rispettivamente, estratti da due popolazioni normali con media µ1 e varianza σ12 la prima, media µ2 e varianza σ22 la seconda. Come abbiamo visto nel paragrafo appena citato, il miglior estimatore per la differenza delle medie µ1¡µ2 `e il seguente: n m 1 1  X ¡Y = Xi ¡ Yi . n i=1 m i=1

Caso a)

Le varianze σ12 e σ22 sono note

Si vuole eseguire un test d’ipotesi con H0 : µ1 =µ2 ,

HA : µ1 6 = µ2 .

Riscritta l’ipotesi nulla come H0 : µ1 ¡µ2 , essa verr`a rigettata quando la differenza X ¡Y `e lontana da zero. In altre parole, la forma del test `e la seguente: se jX¡Y j > c se jX¡Y j · c

si rifiuta H0 non si rifiuta H0

per un opportuno valore di c. Dal x 3.7 sappiamo che  σ2 σ2  X ¡Y » N µ1 ¡µ2 , 1 + 2 n m

=)

X ¡Y ¡ (µ1 ¡µ2 )  » N (0, 1) . σ12 σ22 + n m

Dunque, dato H0 vero, per cui µ1 ¡µ2 = 0 , la statistica del test

$

X ¡Y

σ12 /n

+ σ22 /m

ha distribuzione normale standard, e quindi, assegnato un livello di significativit`a α, si ha   X ¡Y P ¡u α2 · $ 2 · u α2 = 1¡α , σ1 /n + σ22 /m

con u α2 quantile della normale standardizzata soluzione dell’equazione Φ(u) = 1¡ α2 . La regione di accettazione per la statistica del test `e dunque [¡u α2 , u α2 ], mentre per lo stimatore X¡Y `e la seguente     ¡u α2 σ12 /n + σ22 /m , u α2 σ12 /n + σ22 /m . 118

Volendo invece fare un test unilaterale, con ipotesi nulla H0 : µ1 = µ2 (oppure H0 : µ1 · µ2 ) ed ipotesi alternativa HA : µ1 > µ2 , l’intervallo di accettazione per X ¡ Y `e   $ ¡1, uα σ12 /n + σ22 /m , con uα tale che Φ(uα ) = 1¡α. Naturalmente per la statistica del test l’intervallo di accettazione `e (¡1, uα ].

Caso b)

Le varianze σ12 e σ22 non sono note, ma sono supposte uguali

Il test che si vuole eseguire `e lo stesso del punto a). Ora, per`o, abbiamo σ12 =σ22 =σ 2 , con σ incognita. La statistica usata in precedenza diventa X¡Y   . σ 2 1/n + 1/m

Come abbiamo visto nel x 3.7, la varianza σ 2 pu`o essere stimata dai dati utilizzando la varianza ponderata Sp2 cos`ı definita: Sp2 = ove

(n ¡ 1)S12 + (m ¡ 1)S22 , n+m¡2

n

S12 =

m

1  (Xi ¡ X)2 , n ¡ 1 i=1

S22 =

1  (Yi ¡ Y )2 . m ¡ 1 i=1

La statistica del test risulta quindi la seguente: Sp

$

X ¡Y

1/n + 1/m

» Tn+m−2 ,

che, come gi`a visto, segue una distribuzione di Student con n + m ¡ 2 gradi di libert`a. Assunto ancora α come livello di significativit`a del test ed indicato con t α2 il quantile soluzione dell’equazione Tn+m−2 (t) = 1¡ α2 , l’intervallo di accettazione bilaterale per lo stimatore X¡Y risulta   $ $ ¡t α2 Sp 1/n + 1/m , t α2 Sp 1/n + 1/m , mentre quello unilaterale sinistro `e   $ ¡1, tα Sp 1/n + 1/m .

Ricordando poi la notazione gi`a introdotta nel punto b) del x3.7,   2 = 1 + 1 S∆ S2 , n m p

2 indicato con σ ˆ∆ il valore di S∆ ricavato dal campione, i suddetti intervalli sono approssimati da     ¡t α2 σ ˆ∆ , t α2 σ ˆ∆ e ¡1, tα σ ˆ∆ .

Naturalmente, se ci si limita agli intervalli di accettazione per la statistica del test, quello per il test bilaterale `e [¡t α2 , t α2 ], mentre quello per il test unilaterale `e (¡1, tα ]. 119

Caso c)

Le varianze σ12 e σ22 sono ignote e diverse

Essendo questa situazione facilmente affrontabile sulla base di quanto appena visto e delle nozioni gi`a introdotte nel x 3.7 (punto c), la tratteremo rapidamente. La statistica da utilizzare `e σ ˆ12 σ ˆ22 2 + (X ¡ Y ) n m  ,¢ = Tℓ , ℓ =  2 σ 2 2 2 σ ˆ ˆ22 2 S1 S2 1 + n n m + m n¡1 m¡1

essendo σ ˆ12 e σ ˆ22 i valori di S12 e S22 calcolati tramite il campione. Indicati quindi con t α2 e tα i quantili soluzioni, nell’ordine, delle equazioni α Tℓ (t) = 1 ¡ e Tℓ (t) = 1 ¡ α , 2 le regioni di accettazione per i test bilaterale e unilaterale sinistro sono approssimate da ' (  (    σ ˆ12 σ ˆ12 σ ˆ12 σ ˆ22 σ ˆ22 σ ˆ22 ¡t α2 + , t α2 + , ¡1, tα + . n m n m n m

Caso d)

Campioni appaiati

Esaminiamo ora un caso di differenza di due medie particolare, ma assai interessante e frequente. Siano (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Yn ) due campioni casuali con la stessa numerosit`a n, non indipendenti. Un test su due campioni siffatti riguarda quelle analisi sperimentali in cui occorre verificare una variazione di valore medio prima e dopo un certo trattamento (oppure in presenza e assenza di una certa circostanza, con e senza un certo dispositivo, etc..). Essendo Xi e Yi variabili casuali associate alla stessa unit`a statistica, i due campioni non sono indipendenti. Un possibile approccio per verificare che le medie dei due campioni sono uguali consiste nel considerare le differenze Di = Xi ¡Yi , per i = 1, 2, ..., n, che sono tra loro indipendenti. L’analisi del campione casuale (D1 , D2 , ..., Dn ) riconduce il test che interessa ad un test sulla media di un campione casuale proveniente da una popolazione 2 . Le ipotesi nulla ed alternativa per un normale di media µD e varianza incognita σD test bilaterale sono ovviamente le seguenti: H0 : µD = 0 , HA : µD 6 = 0. Per quanto gi`a visto nel x 3.12 la statistica del test, tenuto anche conto dell’ipotesi nulla, `e p D n » Tn−1 . SD L’esercizio 3.12.4 rappresenta un esempio di test per ”campioni appaiati”.

120

3.14 CURVE CARATTERISTICHE OPERATIVE DEI TEST Vediamo ora il procedimento per il calcolo del rischio β di errore di seconda specie, una volta che siano stati specificati l’ipotesi nulla H0 : µ=µ0 ed il rischio α di errore di prima specie, in funzione di ipotesi alternative diverse. Prendiamo come riferimento l’esempio 3.11.1, che riguardava la durata dei cambi. Il problema `e stato affrontato utilizzando un test bilaterale con l’ipotesi nulla H0 : µ= = 44800, con un rischio di prima specie µ0 =44800 contro l’ipotesi alternativa HA : µ6 (o livello di significativit`a) del 5%. Ipotizziamo ora che che l’ipotesi nulla H0 : µ=44800 non sia vera, ma lo sia invece un’ipotesi alternativa HA : µ = µA = 44900. Il rischio di seconda specie rappresenta la probabilit`a di accettare, a torto, l’ipotesi nulla, cio`e la probabilit`a di osservare medie campionarie entro la regione di accettazione del test pur essendo µ=44900. Come abbiamo visto nell’esempio in questione, la regione di accettazione (o, meglio, di non rifiuto) `e l’intervallo [x1 , x2 ] = [µ0 ¡ δ , µ0 + δ] = [44800 ¡ 450 , 44800 + 450] = [44350 , 45250] . Tale intervallo `e dunque centrato in µ0 ed ha ampiezza 2δ data da σ α δ = p u α2 con u α2 soluzione dell’equazione Φ(u) = 1 ¡ . n 2 I valori estremi x1 =44350 e x2 =45250 rapresentano rispettivamente il valore minimo e il valore massimo delle medie (dei campioni con n=200) oltre i quali l’ipotesi nulla va rifiutata. Il rischio di seconda specie β `e quindi dato dalla probabilit`a di osservare(ovviamente per campioni della stessa dimensione) medie comprese fra x1 e x2 quando sia vera l’ipotesi altenativa HA : µ=µA =44900, o equivalentemente    β = P x1 · X · x2 HA : µA =44900 .

Standardizzando questa relazione si ottiene: x ¡ µ   X ¡ µA x ¡µ  1 p A · p · 2 p A = P z1 · Z · z2 = Φ(z2 ) ¡ Φ(z1 ) , β=P σ/ n σ/ n σ/ n essendo x1 ¡ µ A x2 ¡ µ A p , p . z1 = z2 = σ/ n σ/ n Per µA =44900, ricordando che n=200 e σ =3250 (da cui ¡Φ

 44350 ¡ 44900 

¼ 230), si ha

 350   550  ¡Φ ¡ ¼ 230 230 230 230 ¼ Φ(1.52) ¡ Φ(¡2.39) = Φ(1.52) + Φ(2.39) ¡ 1 ¼ 0.936 + 0.992 ¡ 1 = 0.928

β¼Φ

 45250 ¡ 44900 

√σ n



` evidente che il rischio di seconda specie β dipende da µA ; in altre parole β = β(µA ). E Per avere un’idea di questa funzione si pu`o calcolare β per diversi valori di µA . Ne risulta la tabella riportata alla pagina che segue. Il grafico riportato accanto alla tabella `e ottenuto ponendo in ascissa µA ed in ordinata β. Esso costituisce la curva caratteristica operativa. In alternativa si poteva porre in ordinata 1¡β: in questo caso avremmo ottenuto la curva di potenza. 121

Va fatto notare che che la scelta in alternativa tra un test unilaterale o bilaterale dipende dallo specifico quesito posto e dalle caratteristiche del problema esaminato. In ogni caso si pu`o affermare che la potenza di un test bilaterale, cio`e la probabilit`a di rifiutare H0 quando H0 `e falsa, a parit`a di dimensione del campione e di livello di fiducia, `e minore rispetto a quella del corrispondente test unilaterale. Ci`o risulta evidente dalla figura che segue, dove sono messe a confronto le curve caratteristiche operative per il test bilaterale HA : µ6 = 44800 e per il test unilaterale HA : µ< 44800.

` importante notare che per i principali test statistici le curve caratteristiche sono diE sponibili gi`a tabulate in funzione della differenza o del rapporto tra il valore ipotizzato nell’ipotesi nulla e quello nell’ipotesi alternativa, naturalmente in forma standardizzata. I grafici che seguono l’Esempio 11.9 mostrano le curve caratteristiche operative X ¡ µ0 p n, con rischio di prima specie α = 0.05, per test relative alla statistica Z = σ unilaterali e test bilaterali. In ascissa ci sono i valori assunti dal rapporto jµ0 ¡ µA j/σ, dove µ0 `e il valore della media ipotizzato nell’ipotesi nulla H0 e µA `e un preciso valore tra quelli considerati nelle ipotesi alternative, con σ scarto quadratico medio supposto noto.

122

Le curve caratteristiche operative si avvicinano all’asse delle ordinate e diventano pi` u ripide al crescere della dimensione n del campione, in quanto cos`ı il test diventa pi` u potente ed in sostanza aumenta la sua capacit`a di discriminazione tra ipotesi, anche in base a scarti di piccola entit`a. Le curve caratteristiche operative consentono quindi la determinazione razionale della dimensione del campione da utilizzare per un determinato test per rischi di errore di prima specie α e di seconda specie β specificati o, in alternativa, come modificare tali livelli per renderli compatibili con il numero di prove consentito da limiti di tempo e di spesa. Naturalmente i rischi devono essere valutati caso per caso in base alle implicazioni: le conseguenze di una rottura sono ben diverse a seconda che si tratti dello sterzo o del portacenere di un’auto. Nell’esempio che segue si vedr`a, fra l’altro, come si procede per la determinazione della dimensione del campione. Esempio 3.14.1

Un tecnico vuole determinare se un gruppo di 26 fili di rame proveniente da una ditta rispetta la specifica nominale di avere un diametro prefissato, pari a 1.54 mm. a) cosa pu` o affermare con un livello di fiducia del 95% se il diametro medio dei fili esaminati `e di 1.6 mm, supposto che le misure dei diametri siano distribuite normalmente con varianza σ 2 =0.0529 mm2 ? b) qual `e l’errore di seconda specie che il tecnico commette se la media del processo produttivo ha subito uno slittamento ed ora `e pari a 1.62 mm ? c) quale deve essere la dimensione del campione se si vuole testare l’ipotesi nulla H0 : µ=1.54 mm contro l’ipotesi alternativa HA : µ> 1.54 mm con un errore di prima specie del 5% se si volesse un errore di seconda specie del 10% relativamente all’ipotesi alternativa HA : µ=1.65 mm ? Tenendo presente i requisiti tecnici specifici, faremo uso anche per la prima parte di un test unilaterale superiore, rendendo cos`ı confrontabili i risultati dei tre quesiti posti. Procediamo secondo la sequenza di passi visti in precedenza (omettendo per semplicit` a, come abbiamo gi` a fatto negli esempi prededenti, le unit` a di misura). a) I dati del campione, che ha dimensione n=26, provengono da una popolazione normale con varianza σ 2 =0.0529 , da cui σ =0.23 . Inoltre, x=1.6. a1 ) L’ipotesi nulla `e H0 : µ = µ0 = 1.54 contro l’ipotesi alternativa HA : µ > 1.54 . La statistica da testare `e

Z=

X ¡ µ0 X ¡ 1.54 X ¡ 1.54 p = p = ; 0.0451 σ/ n 0.23/ 26

a2 ) il rischio di prima specie `e α=0.05 ; a3 ) la regione di rifiuto `e Z > u0.05 ¼ 1.645 o, equivalentemente,

σ X > ξ2 = µ0 + p uα ¼ 1.54 + 0.0451¢1.645 ¼ 1.614 ; n a4 ) l’intervallo di fiducia `e dunque [¡1, 1.614]. Poich`e la media calcolata x vale 1.6 e o essere rifiutata. E quindi vi cade internamente, l’ipotesi nulla H0 : µ0 = 1.54 non pu` questa `e la risposta alla prima domanda. b) Ora si sa che la media vale 1.62. Ci si chiede dunque qual `e il rischio β di seconda specie quando l’ipotesi alternativa `e HA : µA =1.62. Ci si chiede cio`e quanto vale β essendo

  β = P X · ξ2 j HA : µ = 1.62 . 123

Standardizzando si ha

 X ¡ 1.62  ξ2 ¡ 1.62  · ¼ P Z · ¡0.133] = 0.0451 0.0451 = 1 ¡ P [Z · 0.133] ¼ 1 ¡ 0.553 = 0.447 ¼ 45% .

β=P

Vi `e dunque una probabilit` a di circa il 45% di non rifiutare l’ipotesi che i fili di rame provengano da un processo produttivo con media 1.54 quando in realt` a tale media `e 1.62. c) Si deve ora determinare la dimensione n che dovrebbe avere il campione perch`e si abbia un errore di seconda specie del 10% relativamente all’ipotesi alternativa HA : µ = 1.65, fermo restando l’errore di prima specie del 5% per testare l’ipotesi nulla H0 : µ = 1.54 contro l’ipotesi alternativa HA : µ> 1.54. Il rischio β di seconda specie `e con quest’ultima ipotesi alternativa `e dato da

  β = P X · ξ2 (n) j HA : µ = 1.65 ,

dove ξ2 (n), che ora dipende da n, vale

0.3784 σuα . ξ2 (n) = µ0 + p ¼ 1.54 + p n n Essendo β noto ed uguale a 0.1, mediante standardizzazione la relazione scritta sopra porta alla seguente equazione in n:

'  X ¡ 1.65 p ξ2 (n) ¡ 1.65 p  P n· n =P Z· 0.23 0.23

0.3784 √ n

¡ 0.11 p

0.23

(

n = 0.1 ,

da cui, essendo φ0.1 = ¡φ0.9 ¼ ¡1.281, segue 0.3784 √ n

¡ 0.11 p

0.23

n = ¡1.281

p p p (0.3784 ¡ 0.11 n) n = ¡0.2946 n ,

da cui

e quindi

p 0.11 n = 0.673

ossia

n=

 0.673 2 0.11

¼ (6.12)2 ¼ 37.4 .

Dunque, la dimensione del campione che soddisfa alle condizioni poste nella domanda `e 38. Se avessimo voluto determinare n mediante le curve caratteristiche, avremmo dovuto procedere nel modo seguente. Calcolata l’ascissa

d=

jµ0 ¡ µA j j1.54 ¡ 1.65j = ¼ 0.48 , σ 0.23

essendo l’ordinata β uguale a 0.1, si individua la curva caratteristica, fra quelle per test unilaterali relative ad α=0.05, che “contiene” il punto (d, β) ¼ (0.48, 0.1). Dai grafici che seguono, per quanto un po’ grossolani, il valore che che si desume `e del tutto compatibile con n=38.

124

Curve caratteristiche operative per test unilaterali per la media della popolazione (varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per α=0.05.

Curve caratteristiche operative per test bilaterali per la media della popolazione (varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per α=0.05.

125

QUANTILI DELLA LEGGE NORMALE STANDARD:

x

P [N (0, 1)] · x

.00

.01

.02

.03

.04

.05

.06

.07

.08

.09

.0

.5000

.5040

.5080

.5120

.5160

.5199

.5239

.5279

.5319

.5359

.1

.5398

.5438

.5478

.5517

.5557

.5596

.5636

.5675

.5714

.5753

.2

.5793

.5832

.5871

.5910

.5948

.5987

.6026

.6064

.6103

.6141

.3

.6179

.6217

.6255

.6293

.6331

.6368

.6406

.6443

.6480

.6517

.4

.6554

.6591

.6628

.6664

.6700

.6736

.6772

.6808

.6844

.6879

.5

.6915

.6950

.6985

.7019

.7054

.7088

.7123

.7157

.7190

.7224

.6

.7257

.7291

.7324

.7357

.7389

.7422

.7454

.7486

.7517

.7549

.7

.7580

.7611

.7642

.7673

.7704

.7734

.7764

.7794

.7823

.7852

.8

.7881

.7910

.7939

.7967

.7995

.8023

.8051

.8078

.8106

.8133

.9

.8159

.8186

.8212

.8238

.8264

.8289

.8315

.8340

.8365

.8389

1.0

.8413

.8438

.8461

.8485

.8508

.8531

.8554

.8577

.8599

.8621

1.1

.8643

.8665

.8686

.8708

.8729

.8749

.8770

.8790

.8810

.8830

1.2

.8849

.8869

.8888

.8907

.8925

.8944

.8962

.8980

.8997

.9015

1.3

.9032

.9049

.9066

.9082

.9099

.9115

.9131

.9147

.9162

.9177

1.4

.9192

.9207

.9222

.9236

.9251

.9265

.9279

.9292

.9306

.9319

1.5

.9332

.9345

.9357

.9370

.9382

.9394

.9406

.9418

.9429

.9441

1.6

.9452

.9463

.9474

.9484

.9495

.9505

.9515

.9525

.9535

.9545

1.7

.9554

.9564

.9573

.9582

.9591

.9599

.9608

.9616

.9625

.9633

1.8

.9641

.9649

.9656

.9664

.9671

.9678

.9686

.9693

.9699

.9706

1.9

.9713

.9719

.9726

.9732

.9738

.9744

.9750

.9756

.9761

.9767

2.0

.9772

.9778

.9783

.9788

.9793

.9798

.9803

.9808

.9812

.9817

2.1

.9821

.9826

.9830

.9834

.9838

.9842

.9846

.9850

.9854

.9857

2.2

.9861

.9864

.9868

.9871

.9875

.9878

.9881

.9884

.9887

.9890

2.3

.9893

.9896

.9898

.9901

.9904

.9906

.9909

.9911

.9913

.9916

2.4

.9918

.9920

.9922

.9925

.9927

.9929

.9931

.9932

.9934

.9936

2.5

.9938

.9940

.9941

.9943

.9945

.9946

.9948

.9949

.9951

.9952

2.6

.9953

.9955

.9956

.9957

.9959

.9960

.9961

.9962

.9963

.9964

2.7

.9965

.9966

.9967

.9968

.9969

.9970

.9971

.9972

.9973

.9974

2.8

.9974

.9975

.9976

.9977

.9977

.9978

.9979

.9979

.9980

.9981

2.9

.9981

.9982

.9982

.9983

.9984

.9984

.9985

.9985

.9986

.9986

3.0

.9987

.9987

.9987

.9988

.9988

.9989

.9989

.9989

.9990

.9990

3.1

.9990

.9991

.9991

.9991

.9992

.9992

.9992

.9992

.9993

.9993

3.2

.9993

.9993

.9994

.9994

.9994

.9994

.9994

.9995

.9995

.9995

3.3

.9995

.9995

.9995

.9996

.9996

.9996

.9996

.9996

.9996

.9997

125

QUANTILI DELLA LEGGE

t

DI STUDENT:

P [Tn (x)] · α

n

α=0.90

α=0.95

α=0.975

α=0.98

α=0.99

α=0.995

1

3.078

6.314

12.71

15.894

31.821

63.66

2

1.886

2.920

4.303

4.849

6.965

9.925

3

1.638

2.353

3.182

3.482

4.541

5.841

4

1.533

2.132

2.776

2.999

3.747

4.604

5

1.476

2.015

2.571

2.757

3.365

4.032

6

1.440

1.943

2.447

2.612

3.143

3.707

7

1.415

1.895

2.365

2.517

2.998

3.499

8

1.397

1.860

2.306

2.449

2.896

3.355

9

1.383

1.833

2.262

2.398

2.821

3.250

10

1.372

1.812

2.228

2.359

2.764

3.169

11

1.363

1.796

2.201

2.328

2.718

3.106

12

1.356

1.782

2.179

2.303

2.681

3.055

13

1.350

1.771

2.160

2.282

2.650

3.012

14

1.345

1.761

2.145

2.264

2.624

2.977

15

1.341

1.753

2.131

2.249

2.602

2.947

16

1.337

1.746

2.120

2.235

2.583

2.921

17

1.333

1.740

2.110

2.224

2.567

2.898

18

1.330

1.734

2.101

2.214

2.552

2.878

19

1.328

1.729

2.093

2.205

2.539

2.861

20

1.325

1.725

2.086

2.197

2.528

2.845

21

1.323

1.721

2.080

2.189

2.518

2.831

22

1.321

1.717

2.074

2.183

2.508

2.919

23

1.319

1.714

2.069

2.177

2.500

2.807

24

1.318

1.711

2.064

2.172

2.492

2.797

25

1.316

1.708

2.060

2.167

2.485

2.787

26

1.315

1.706

2.056

2.162

2.479

2.779

28

1.313

1.701

2.048

2.154

2.467

2.763

30

1.310

1.697

2.042

2.147

2.457

2.750

32

1.309

1.694

2.037

2.141

2.449

2.738

35

1.306

1.690

2.030

2.133

2.438

2.724

40

1.303

1.684

2.021

2.123

2.423

2.704

50

1.299

1.676

2.009

2.109

2.403

2.678

60

1.296

1.671

2.000

2.099

2.390

2.660

1

1.282

1.645

1.960

2.054

2.326

2.576

126

QUANTILI DELLA LEGGE CHI-QUADRO:

n

0.005

0.01

0.025

0.05

1

.00004

.00016

.00098

2

0.0100

0.0201

0.0506

3

0.0717

0.115

4

0.207

0.297

5

0.412

0.554

6

0.676

0.872

7

0.989

8

1.344

P [χ2n (x)] · α

0.10

0.90

0.95

0.975

0.99

0.995

.0039

.015

2.706

3.841

5.024

6.635

7.879

0.103

0.211

4.605

5.991

7.378

9.210

10.597

0.216

0.352

0.584

6.251

7.815

9.348

11.345

12.838

0.484

0.711

1.064

7.779

9.488

11.143

13.277

14.860

0.831

1.145

1.610

9.236

11.070

12.832

15.086

16.750

1.237

1.635

2.204

10.645

12.592

14.449

16.812

18.548

1.239

1.690

2.167

2.833

12.017

14.067

16.013

18.475

20.278

1.647

2.180

2.733

3.490

13.362

15.507

17.535

20.090

21.955

9

1.735

2.088

2.700

3.325

4.168

14.684

16.919

19.023

21.666

23.589

10

2.156

2.558

3.247

3.940

4.865

15.987

18.307

20.483

23.209

25.188

11

2.603

3.053

3.816

4.575

5.578

17.275

19.675

21.920

24.725

26.757

12

3.074

3.571

4.404

5.226

6.304

18.549

21.026

23.337

26.217

28.300

13

3.565

4.107

5.009

5.892

7.041

19.812

22.362

24.736

27.688

29.819

14

4.075

4.660

5.629

6.571

7.790

21.064

23.685

26.119

29.141

31.319

15

4.601

5.229

6.262

7.261

8.547

22.307

24.996

27.488

30.578

32.801

16

5.142

5.812

6.908

7.962

9.312

23.542

26.296

28.845

32.000

34.267

17

5.697

6.408

7.564

8.672

10.085

24.769

27.587

30.191

33.409

35.718

18

6.265

7.015

8.231

9.390

10.865

25.989

28.869

31.526

34.805

37.156

19

6.844

7.633

8.907

10.117

11.651

27.204

30.144

32.852

36.191

38.582

20

7.434

8.260

9.591

10.851

12.443

28.412

31.410

34.170

37.566

39.997

21

8.034

8.897

10.283

11.591

13.240

29.615

32.671

35.479

38.932

41.401

22

8.643

9.542

19.982

12.338

14.041

30.813

33.924

36.781

40.289

42.796

23

9.260

10.196

11.689

13.091

14.848

32.007

35.172

38.076

41.638

44.181

24

9.886

10.856

12.401

13.848

15.659

33.196

36.415

39.364

42.980

45.558

25

10.520

11.524

13.120

14.611

16.473

34.382

37.652

40.646

44.314

46.928

26

11.160

12.198

13.844

15.379

17.292

35.563

38.885

41.923

45.642

48.290

27

11.808

12.878

14.573

16.151

18.114

36.741

40.113

43.195

46.963

49.645

28

12.461

13.565

15.308

16.928

18.939

37.916

41.337

44.461

48.278

50.994

29

13.121

14.256

16.047

17.708

19.768

39.087

42.557

45.722

49.588

52.335

30

13.787

14.953

16.791

18.493

20.599

40.256

43.773

46.979

50.892

53.672

32

15.134

16.362

18.291

20.072

22.271

42.585

46.194

49.480

53.486

56.328

34

16.501

17.789

19.806

21.664

23.952

44.903

48.602

51.966

56.061

58.964

36

17.887

19.233

21.336

23.269

25.643

47.212

50.998

54.437

58.619

61.581

38

19.289

20.691

22.878

24.884

27.343

49.513

53.384

56.895

61.162

64.181

40

20.707

22.164

24.433

26.509

29.051

51.805

55.758

59.342

63.691

66.766

45

24.311

25.901

28.366

30.612

33.350

57.505

61.656

65.410

69.957

73.166

50

27.991

29.707

32.357

34.764

37.689

63.167

67.505

71.420

76.154

79.490

60

35.534

37.485

40.482

43.188

46.459

74.397

79.082

83.298

88.379

91.952

70

43.275

45.442

48.758

51.739

55.329

85.527

90.531

95.023

100.425 104.215

80

51.172

53.140

57.153

60.391

64.278

96.578

101.879 106.629 112.329 116.321

90

59.196

61.754

65.647

69.126

73.291

107.565 113.145 118.136 124.116 128.299

100

67.328

70.065

74.222

77.929

82.358

118.498 124.342 129.561 135.807 140.170

127

BIBLIOGRAFIA

Anichini Giuseppe, Calcolo 4, Parte Prima, Elementi di calcolo delle probabilit` a e di inferenza statististica, Pitagora (Bologna), 1995. Ross Sheldon M., Probabilit` a e Statistica per L’Ingegneria e le scienze, Apogeo (Milano), 2003. Vicario Grazia, Raffaello Levi, Calcolo delle probabilit` a e statistica per ingegneri, Esculapio (Bologna), 2000. William Navidi, Probabilit` a e statistica per l’ingegneria e le scienze, McGraw-Hill, 2006.

— Ultime modifiche apportate il 16/4/2009 —

128