Elementi di Statistica Descrittiva - Dipartimento di Matematica

17 downloads 50 Views 4MB Size Report
Appendice : elementi di statistica descrittiva. Esercizio A.1.1. Per ciascuna delle distribuzioni alle figure 1-2-3-4, specificare l'insieme Ω delle “prove” e l'insieme ...

APPENDICE A

Elementi di statistica descrittiva Andrea Sambusetti e-mail: [email protected] URL: http://www.mat.uniroma1.it/people/sambusetti

La statistica descrittiva ha lo scopo di analizzare e interpretare delle serie di dati, allo scopo di suggerire tendenze e strategie, fornire test di verosimiglianza e creare modelli probabilistici che aiutino a prevedere (compito che `e pi` u specificatamente l’oggetto della statistica inferenziale e del calcolo delle probabilit` a).

1. Distribuzioni di dati, rappresentazione, frequenze Una distribuzione di dati `e descritta, in generale, da una funzione X : Ω → V, dove Ω `e l’insieme delle prove, o osservazioni, o popolazione, e V `e l’insieme dei valori che una certa osservazione pu` o dare. Ecco alcuni esempi di distribuzioni: • il valore di un carattere in una certa popolazione, come per es. le et`a degli studenti di una classe: qui Ω `e l’insieme degli studenti, V l’insieme delle et`a; • il risultato di un numero ripetuto di misurazioni, come per es. la temperatura rilevata in un certo sito al variare del tempo: qui Ω `e l’insieme dei tempi ai quali si effettua la misurazione, e V `e l’insieme delle temperature rilevate. Spesso, quando si tratta di prove o misure ripetute, Ω pu`o essere preso uguale all’insieme {1, ..., n} (dove n `e il numero delle prove); in tal caso, conoscere una distribuzione X vuol dire conoscere gli n valori X(i) = xi , dunque X pu`o essere assimilata ad una sequenza ordinata di valori (x1 , ..., xn ) (comunemente abbreviata con (xi )n ). Notiamo che l’insieme dei valori V di una distribuzione pu`o essere numerico o no. Per esempio: la distribuzione che indica il giorno della settimana di massima affluenza in ciascun ufficio postale di una citt` a (in cui l’insieme dei valori V `e l’insieme dei giorni della settimana); oppure, la stessa distribuzione delle et`a in una popolazione, se raccolte per intervalli (in cui l’insieme V `e un insieme di intervalli, per es. tra 0 e 10 anni, tra 11 e 20 ecc.), Tra i vari metodi utilizzati per riassumere e visualizzare le distribuzioni ci sono: diagrammi cartesiani per punti, spezzate o grafici. Di seguito, ecco un esempio per ognuno di essi: 1

2

Appendice : elementi di statistica descrittiva

Esercizio A.1.1. Per ciascuna delle distribuzioni alle figure 1-2-3-4, specificare l’insieme Ω delle “prove” e l’insieme V dei valori:

Figura 1. Distribuzione dell’et`a in una classe

Figura 2. Distribuzione degli intervalli di reddito medio per regione

Figura 3. Distribuzione dell’anomalia termometrica media terrestre in ◦ C

Un metodo sintetico alternativo per dare una distribuzione consiste nello specificare, per ciascun valore x ∈ V possibile, la sua frequenza: cio`e il numero f (x) = #X −1 (x) dei casi per i quali si ottiene il valore x. In questo modo la distribuzione pu`o essere “riassunta” da una tabella riportante per ogni x la relativa frequenza f (x). Per esempio, la tabella associata alla distribuzione delle et` a nell’esercizio A.1.1, Figura 1, `e: x = et` a 18 19 20 21 22 23 f (x) 7 17 13 7 3 3

A. Sambusetti

3

Si noti che tale tabella non contiene precisamente la stessa quantit`a di informazione della distribuzione iniziale (si pu` o dedurre da essa quali sono gli studenti che hanno 20 anni?) ma, per molti fini statistici, essa rimpiazza adeguatamente la conoscenza precisa della distribuzione. Si noti inoltre che la somma di tutte le frequenze `e sempre uguale al numero di prove n (perch´e?); i numeri fˆ(x)/n sono detti frequenze relative, e danno quindi sempre somma 1. Esercizio A.1.2. Scrivere le tabelle associate a tutte le distribuzioni dell’esercizio A.1.1.

Infine, `e bene conoscere un ulteriore metodo di rappresentazione della tabella di una distribuzione: gli istogrammi di frequenze e gli aerogrammi (o diagrammi a torta). Se X = (xi )n `e una distribuzione di dati, l’istogramma delle frequenze di X `e semplicemente il grafico della funzione-frequenze f (x) in funzione dei valori possibili x, i quali vengono rappresentati su un asse come intervallini. Si noti che le frequenze sono valori numerici pertanto `e sempre possibile confrontarli numericamente (al contrario dei valori x della distribuzione X, che possono non essere numerici): l’istogramma permette precisamente un confronto “visivo” immediato dei valori assunti con maggiore frequenza. Per rendere geometricamente pi` u intuitivo tale confronto, i valori possibili x vengono rappresentati con intervallini di uguale ampiezza, in modo che l’area dei rettangolini risultanti sia esattamente proporzionale alle frequenze 1. Un diagramma a torta per X consiste invece in un cerchio, suddiviso in tanti spicchi di area (o arco sotteso) proporzionale alla frequenze f (x); lo spicchio relativo ad un valore x corrisponde dunque ad un angolo al centro α(x) dato dalla proporzione f (x) : n = α(x) : 2π a quindi un’idea immediata della proporzione cio`e α(x) = ( 2π n )f (x). L’area degli spicchi d` ˆ delle frequenze relative f (x), cio`e il rapporto tra le varie frequenze ed il numero totale delle osservazioni. Esempio A.1.3. L’istogramma delle frequenze e l’aerogramma della distribuzione delle et` a nell’Esercizio A.1.1, Figura 1, sono:

Esercizio A.1.4. Costruire gli areogrammi delle altre distribuzioni dell’esercizio A.1.1, Figure 2 e 3. 1Qualora i valori x siano intervalli, ` e buona norma rappresentarli sull’asse con ampiezza proporzionale alla loro misura, in modo che le aree dei vari rettangolini dell’istogramma risulti proporzionale anche a tali ampiezze.

4

Appendice : elementi di statistica descrittiva

Infine, gi`a dalla Figura 3 dell’esempio A.1.1, osserviamo che pu`o essere utile prendere per insiemi Ω e V degli insiemi continui; quando, per esempio, l’insieme delle “osservazioni” tenda ad infittirsi in un intervallo reale, o quando la relazione tra osservazioni e valori sia meglio descritta da una legge empirica espressa da una funzione di variabile reale. Qui di seguito (Figura 4) portiamo un esempio in cui la distribuzione esprime la crescita di una coltura di batteri in funzione del tempo, e chiaramente il valore quantit`a di batteri `e misurato pi` u efficacemente come un volume (una quantit`a continua), piuttosto che dal loro numero (una quantit` a discreta), ed il tempo `e pensato come continuo. Figura 4. Distribuzione della crescita di una coltura batterica: X(t) = v0 2t

(cm3 di volume in funzione del tempo, espresso in giorni t ≥ 0)

Pu` o essere utile sapere cosa sono le “frequenze” nel caso di una distribuzione continua come in Figura 4. Difatti, se Ω `e un insieme infinito, come un intervallo, i numeri f (x) = #X −1 (x) perdono di senso (un valore pu` o essere assunto da un’infinit` a di “osservazioni”!). Ricordiamo che la propriet` a fondamentale delle frequenze `e di dare una misura di quante volte un certo valore `e assunto rispetto al numero di osservazioni totali; ovvero, il numero di osservazioni che danno un risultato compreso tra x1 e x2 si calcola tramite le frequenze come: X (1.1) #X −1 (x1 , x2 ) = #{i ∈ Ω | X(i) ∈ (x1 , x2 )} = f (x) x∈(x1 ,x2 )

Se desideriamo una nozione di frequenza con una propriet` a analoga, nel caso di una distribuzione data da una funzione continua di variabile reale X : Ω = [a, b] → V ⊂ R, si pu` o procedere nel seguente modo: – dobbiamo considerare una misura per sottoinsiemi A ⊂ R (e non pi` u il semplice “numero di punti”), Z che si definisce come `[A] = χA (t)dt R

dove χA `e la funzione caratteristica dell’insieme A: tale misura `e, per un’unione di intervalli, precisamente la somma delle loro ampiezze; – quindi introduciamo la funzione ripartizione F : R → R di X come F (x) = `[X −1 (−∞, x)] la funzione, cio`e, che d` a la misura del sottoinsieme di Ω su cui X vale meno di x; – infine definiamo la “frequenza” del valore x della distribuzione come f (x) = F 0 (x); solamente, nel contesto continuo, tale funzione frequenza si chiama densit` a (della distribuzione X, in x). Esempio A.1.5. Nel caso della distribuzione X(t) = v0 e2t in Figura 5, si ottiene: ( ( log2 (x/v0 ), se x ≥ v0 log2 (e/x) se x ≥ v0 F (x) = , f (x) = 0 se x < v0 0 se x < v0

.

A. Sambusetti

5

Qualora questo processo risulti possibile (il che dipende dalla bont` a della distribuzione iniziale X), la funzione densit` a f (x) sostituisce egregiamente l’idea di “frequenza del valore x” nel caso continuo; infatti si ha, per il teorema fondamentale del calcolo integrale: Z x2 (1.2) `[X −1 (x1 , x2 )] = `[X −1 (−∞, x2 )]−`[X −1 (−∞, x1 )] = F (x2 )−F (x1 ) = f (x)dx x1

cio`e la misura del sottoinsieme di Ω su cui X assume valori compresi tra x1 e x2 `e precisamente dato dall’integrale (non pi` u una somma) della funzione f sull’intervallo (x1 , x2 ). La formula (1.2) `e allora proprio l’analogo della (1.1) nel caso continuo. In queste note, comunque, ci limiteremo comunque quasi esclusivamente allo studio di distribuzioni discrete, cio`e per le quali l’insieme delle osservazioni Ω sia finito. 2

2. Indici di posizione Data una distribuzione di dati , `e spesso utile riassumere il suo andamento con dei numeri, o indicatori. Gli indicatori che andremo a definire sono di due tipi: indici di posizione (media, mediana, mode) e indici di dispersione (scarto assoluto e scarto quadratico medio). I primi indicano dei valori “tipici” (in un senso da precisare) della distribuzione, i secondi misurano quanto i valori della distribuzione si discostano da tali valori tipici. Definizione A.2.1. Sia X = (x1 , ..., xn ) una distribuzione n dati. Si definisce: P • media (aritmetica) della distribuzione X il numero M (X) = n1 ni=1 xi ; • mediana di X `e il numero ottenuto rinumerando gli (xi ) in ordine crescente, e quindi prendendo “il valore di mezzo”: ( x n+1 se n `e dispari 2 M e(X) = 1 n n se n `e pari 2 (x 2 + x 2 +1 ) • moda di X il valore M o(X) = {xi | fX (xi ) `e massimo} che ha frequenza massima. Si noti subito che: i) la media si pu` o calcolare anche come: M (X) =

1 n

Pn

xi 6=xj

fX (xi )xi .

ii) la mediana prova a rispondere al problema di trovare un valore y che divide la popolazione in due classi di ugual numerosit`a, una composta dalla parte della popolazione su cui la distribuzione vale meno di y, l’altra su cui vale pi` u di y. Me(X) risolve il problema nel caso n pari se i valori “centrali” x n2 , x n2 +1 sono differenti, o nel caso n dispari se il valore centrale x n+1 `e assunto una sola volta; altrimenti, pu`o comunque esserci uno squilibrio 2

numerico 3 tra il sottoinsieme della popolazione con valori inferiori a M e(X) e quello con valori superiori a M e(X) (come mostra il prossimo Esempio A.2.2). iii) la moda non `e necessariamente unica: se vi `e pi` u di un valore di frequenza massima, si sono vari massimi relativi, si parla di mode di X, e di distribuzione plurimodale 4. 2

Il termine “discreto” assume in matematica, per variabili aleatorie e per spazi astratti, un significato pi` u generale di quello utilizzato qui. 3Me(X) minimizza comunque la differenza di numerosit` a tra due classi della popolazione con la propriet` a di avere valori rispettivamente inferiore e superiore a un numero y fissato, cf. Teorema A.3.6(ii). 4Quindi, una distribuzione con due valori di frequenza massima si dir` a bimodale; ma si dir` a bimodale anche una distribuzione il cui grafico delle frequenze abbia due massimi relativi, non necessariamente uguali. In ogni caso, i valori corrispondenti si chiameranno prima, seconda moda, ecc. cf. Exempio A.3.4.

6

Appendice : elementi di statistica descrittiva

Notiamo inoltre che mentre media e mediana hanno senso solo per distribuzioni di dati numerici, la moda pu` o esser presa in considerazione per qualsiasi tipo di dati (p.es., se i valori sono giorni della settimana). Esempio A.2.2. Per la distribuzione dell’esercizio A.1.1, Figura 1, si ha: M (X) = 19.82, M e(X) = 20 e M o(X) = 19. Notare che il numero di studenti di et` a inferiore a M e(X) `e 24 ed il numero di studenti con et` a superiore `e 25!

Di seguito vediamo alcuni esempi che ci illustrano il tipico utilizzo di questi indici. Esercizio A.2.3 (♥). Il reddito mensile in una regione d’Italia `e distribuito per fasce (in percentuale ad una popolazione di N famiglie) secondo la seguente tabella: Keuro % Pop.

< .5 3

.5/1 7

1/1.5 25

1.5/2 28

2/2.5 20

2.5/3 10

3/3.5 3

3.5/4 2

4/4.5 1

4.5/5 1

Sapendo che ogni famiglia spende circa il 10% del suo reddito in beni voluttuari ed il 5% in energia, rispondere ai seguenti problemi: (i) la Electronics Spa vuole produrre dei lettori mp3 da vendere nella regione considerata. Qual `e il massimo prezzo di vendita che la Electronics pu` o fissare se desidera che il suo prodotto sia accessibile alla maggioranza delle famiglie? (ii) la Energy Spa ha il monopolio della produzione di energia nella regione. Quanti milioni di euro di energia al massimo la Energy ha interesse a produrre? Soluzione. In questo esempio, i valori sono intervalli [xi , yi ) (cio`e abbiamo coppie di valori) mentre la seconda riga d` a le frequenze fi , espresse in percentuale (dunque a somma n = 100). Nel caso (i), la Electronics `e interessata alle frequenze della distribuzione, e precisamente al valore x al di sotto del quale si trova il (10% del) reddito della maggioranza delle famiglie; pertanto si calcoler` a la mediana dei redditi, o pi` u precisamente un “intervallo mediano”, che ha estremi M e((xi )n ) = 1.5 e M e((yi )n ) = 2. La Electronics ha dunque interesse a produrre lettori di prezzo inferiore a 10% · 1.5kA C = 150 euro. Nel caso (ii), la Energy `e interessata pi` u al al totale dei redditi che alla distribuzione delle frequenze: essa deve provvedere al fabbisogno minimo di energia, e non superare il massimo vendibile; quindi deve produrre almeno il 5%xi di euro di energia per ogni i-ma fascia di reddito e non pi` u del 5%yi . Sapendo che N `e il numero totale di famiglie, segue che la Energy dovr` a produrre energia, in euro, compresa tra i valori X X N N x= 5%xi · fi · = 5%N · M ((xi )n ) ed y = 5%yi · fi · = 5%N · M ((yi )n ). 100 100 xi 6=xj

yi 6=yj

Come si vede, la risposta richiede dunque il calcolo delle medie M ((xi )n ) = 16 e M ((yi )n ) = 20.85, e fornisce x = 45 N e y = 1.0425N . Esercizio A.2.4 (♥). I clienti di una banca si distribuiscono agli sportelli secondo la seguente statistica settimanale Giorno lun mar mer gio ven % Clienti 30 20 30 15 5 (i) Secondo quale indicatore statistico un cliente (intelligente) sceglie il giorno in cui recarsi in banca? (ii) Secondo quale indicatore statistico il direttore misura l’efficienza della propria filiale, e cosa vorrebbe minimizzare? Soluzione. In questo caso, la distribuzione ha come valori i giorni della settimana, ed `e un esempio di utilit` a della moda. Si tratta chiaramente di una distribuzione bimodale, con due valori (il luned`ı e il mercoled`ı) che hanno frequenza massima: un cliente accorto tende ad evitare tali giorni i giorni, corrispondenti alle due mode pari al 30%. D’altronde, un direttore respondabile tender` a a influenzare il pubblico in modo che le frequenze fi dei vari giorni della settimana siano circa tutte uguali; poich´e il totale delle frequenze (espresse in percentuale) `e 100, ed i giorni lavorativi sono 5, il direttore vorrebbe ottenere delle frequenze fi il pi` u possibile vicine a 20, la media delle frequenze (attenzione: non la media deiPvalori, che non sono numerici!). Uno stima di quanto la filiale sia efficiente `e dunque dato dal numero i |fi − 20|: pi` u tale numero `e vicino a zero, pi` u si `e vicini alla situazione “ideale”.

A. Sambusetti

7

Esercizio A.2.5. I membri di un’amministrazione locale ha a disposizione i seguenti dati sulla natalit` a nella propria regione: N. figli 0 1 2 3 4 5 % Famiglie 20 40 30 7 2 1 (i) Dire quale indice statistico studieranno per sapere se la popolazione locale `e in aumento o in decremento, e per decidere una conseguente politica demografica; (ii) se vogliono scegliere un contributo minimo da erogare sulla base del numero di figli, assicurandosi la maggior parte dei consensi, quale indicatore sceglieranno e come lo useranno? Esercizio A.2.6. La seguente rappresenta la tabella del tasso di mortalit` a (percentuale dei decessi per fascia di et` a, sul totale della popolazione) di una regione italiana nel 2010. et` a mortalit` a

0 − 10 0.7%

11 − 20 0.05%

21 − 30 0.1%

31 − 40 0.2%

41 − 50 1%

51 − 60 2%

61 − 70 4%

71 − 80 1%

81 − 90 0.5%

91 − 100 0.2%

(i) In una conservatoria dell’anagrafe si vogliono distribuire le pratiche in due stanze di dimensioni pi` uo meno uguali. Quale criterio statistico si seguir` a per effettuare la divisione delle pratiche? (ii) L’INPS vuole avere una stima grezza del numero totale di anni di pensione che dovr` a pagare alla popolazione attuale della regione, immaginando che tutti vadano in pensione a 70 anni. Quale indicatore statistico studier` a e perch´e? Quanti sono gli anni attesi?

Per una persona di et` a x, il numero M (X) − x `e detto aspettativa di vita della persona. Una compagnia assicurativa, per le polizze-vita, chiede un premio che `e strettamente correlato (negativamente) all’aspettativa di vita della persona che lo richiede. Vediamo qui un primo esempio in cui le distribuzioni statistiche sono utlizzate per la creazione di modelli probabilistici, il cui studio ci porterebbe molto lontano. L’introduzione e la giustificazione di tali modelli a partire dai dati statistici `e oggetto del calcolo delle probabilit` a. Esistono analoghi indicatori per distribuzioni continue. Se X : [a, b] → V = [m, M ] ha funzione densit` a f : [m, M ] → R si definiscono, in completa analogia con il caso discreto: Rb RM 1 1 • media della distribuzione X, il numero M (X) = |b−a| X(t)dt = |b−a| xf (x)dx a m (questa ultima formula sarebbe da dimostrare!); • mediana di X, il valore M e(X) = x0 tale che `[X −1 (−∞, x0 )] = `[X −1 (x0 , +∞)], cio`e che separa [a, b] in due sottoinsiemi, che danno valori rispettivamente inferiori e superiori a x0 , di ugual misura (se si conosce la funzione di ripartizione F (x), `e l’unico valore x0 tale che F (x0 ) = 21 (b − a)); • mode M oi (X), cio`e i massimi relativi della funzione densit` a f (x) (ordinati in ordine decrescente).

3. Indici di dispersione Per stimare, come nell’Esercizio (ii), quanto i valori di una distribuzione siano distanti dal valore medio, si introducono gli indici di dispersione: Definizione A.3.1. Sia X = (x1 , ..., xn ) una distribuzione di n dati. Si definisce: • scarto di un valore x dalla media, il numero x − M (X); analogamente si parler`a di scarto assoluto e scarto quadratico per i numeri |x − M (X)| e (x − M (X))2 ; P • scarto assoluto medio della distribuzione X, il numero M AD(X) = n1 ni=1 |xi −M (X)| (MAD sta per “mean absolute deviation”) ; P • scarto quadratico medio5 o varianza di X, il numero V AR(X) = n1 ni=1 (xi − M (X))2 ; • deviazione standard di X, il numero σ(X) =

q P p V AR(X) = n1 ni=1 (xi − M (X))2 .

5In alcuni testi, con abuso di linguaggio, lo scarto quadratico medio ` e definito differentemente da qui come la radice della media degli scarti quadratici.

8

Appendice : elementi di statistica descrittiva

Si noti che: i) per una misura della bont` a delle distribuzione di X attorno al valore medio M (X), si prende la media degli scarti assoluti o quadratici, e non semplicemente la media degli scarti; ci`o in quanto la media degli scarti d`a sempre: P P  M ( (xi − M (X))n ) = n1 i (xi − M (X)) = n1 i xi − M (X) = 0 quindi non `e significativa! ii) la deviazione standard `e un indicatore preferibile rispetto alla varianza in quanto ha la piacevole propriet` a di essere dimensionalmente omogeneo con i dati (cio`e: se i dati sono in metri, anche la deviazione standard `e in metri, mentre la varianza `e in m2 ). iii) M AD(X) e σ(X) sono nulli se e solo tutti i valori xi sono uguali al valore medio, e crescono mano mano che ci sono pi` u valori distanti dal valore medio: in questo senso, sono degli stimatori di quanto la distribuzione `e prossima o lontana dalla media. ` importante notare che tutti gli indici sinora introdotti possono Osservazione A.3.2. E essere calcolati a partire dalla tabella della distribuzione, in quanto ottenuti conoscendo i valori xi e le rispettive frequenze fi , tramite le formule equivalenti: M AD(X) =

1 X fi |xi − M (X)| n xi 6=xj

V AR(X) =

1 X fi (xi − M (X))2 n xi 6=xj

Queste formule sono ottenute semplicemente raggruppando, nella definizione di M AD e V AR, gli fi addendi di ugual valore |xi − M (X)|, (xi − M (X))2 . La conoscenza precisa della funzione distribuzione (cio`e X : Ω → V) non `e richiesta; anzi, ai fini di una descrizione statistica, la tabella (cio`e l’istogramma delle frequenze) risulta sempre pi` u chiara e leggibile, come lo dimostra un tentativo di lettura della Figura 1 rispetto alla Figura 4.

Esempio A.3.3. Calcoliamo gli indici di dispersione per la distribuzione dell’esercizio A.1.1, Figura 1. Per non fare errori, `e consigliato di sistemare i dati parziali (somma delle frequenze, scarti assoluti, scarti quadratici ecc) in una tabella, quindi fare le somme:

Si tratta evidentemente di una distribuzione unimodale con dati distribuiti molto vicino al valore medio: σ(X) `e infatti piccola rispetto ai valori delle et` a.

Per distribuzioni con un gran numero di valori e frequenze, come il prossimo esempio, `e vivamente consigliato l’uso di un foglio di calcolo...

A. Sambusetti

9

Esempio A.3.4. Calcoliamo indici di posizione e indici di dispersione per la distribuzione dell’et` a dei professori ordinari in Italia:

Come si vede dall’istogramma delle frequenze, si tratta di una distribuzione bimodale, e non sembra troppo centrata attorno al valore medio. Eseguiamo i calcoli necessari alla verifica in una tabella:

10

Appendice : elementi di statistica descrittiva

Il calcolo degli indici di posizione e di dispersione ci d` a due risultati interessanti: – la media, in questo caso, `e poco rappresentativa; difatti non `e vero che la maggior parte dei docenti abbia et` a attorno ai 52 anni! Questa `e una caratteristica comune delle distribuzioni bimodali, le cui due mode siano relative a valori distanti; in tal caso la media dei due valori pi` u rappresentativi relativi alle due mode (in questo caso: 42 e 62) d` a un valore ottenuto con frequenza decisamente pi´ u bassa. – gli indici di dispersione sono piuttosto alti (sempre rispetto ai valori della distribuzione), e questo giustifica numericamente l’impressione di dispersione della distribuzione dal valore medio. Esercizio A.3.5. Calcolare media, mediana, mode, scarto assoluto medio, scarto quadratico medio e deviazione standard, e dire in ciascun caso cosa suggeriscono gli indicatori statistici, per: (i) le distribuzioni nell’ Esercizio A.1.1 (Figure 2 e 3); (ii) la distribuzione nell’Esempio A.2.3; (iii) la distribuzione delle frequenze nell’Esempio 3; (iv) la distribuzione nell’ Esercizio A.2.5; (v) la distribuzione nell’ Esercizio A.2.6.

Perch´e media e mediana si considerano valori caratteristici per una distribuzione di dati? Una ragione, oltre alle varie esposte precedentemente, `e la seguente propriet`a di questi due indici : Teorema A.3.6. Sia X = (x1 , ..., xn ) una distribuzione discreta di n dati, e sia y un numero fissato. Consideriamo le quantit` a n X M AD(X, y) = |xi − y|, detta scarto assoluto medio di X da y i=1

V AR(X, y) =

n X

(xi − y)2 ,

detta scarto quadratico medio di X da y

i=1

Allora: (i) M e(X) `e il valore di y per il quale M AD(X, y) `e minimo ; (ii) M (X) `e il valore di y per il quale V AR(X, y) `e minimo. Cio`e, se si vuole considerare una nozione di “dispersione”, o “distanza”, di una serie di dati da un valore fissato y (rispetto a misure naturali della dispersione come: somma degli scarti assoluti o quadratici da y), i valori pi` u adeguati per y sono proprio la media e mediana, in quanto minimizzano tale dispersione. Dimostrazione. (i) Sia y0 = M e(X). Per definizione, vi sono tanti valori xi minori (visualmente, “alla sinistra”) di y0 di quanti ve ne sono alla destra di y0 . Supponiamo ora che y = y0 + ∆, con ∆ > 0: allora, per tutti i valori xi a sinistra di y0 , si ha che |xi − y| `e uguale a |xi − y0 | aumentato di ∆, mentre per tutti i valori xi alla destra di y0 , si ha |xi − y| = |(xi − y0 ) − ∆| ≥ |xi − y0 | − ∆ (disuguaglianza stretta se tra y0 e y cade qualche xi ); pertanto la somma di tutti i termini |xi − y| risulta superiore o uguale alla somma di tutti i termini |xi − y0 |. Ci`o mostra che la funzione M AD(X, y) ha un minimo in y = y0 . (ii) Si ha (svolgendo i calcoli) !2 n n n n X X 1X 1 X 2 2 2 V AR(X, y) = xi − 2y xi + ny = n y − xi + (1 − ) xi n n i=1 i=1 i=1 i=1 P e questa funzione di y `e minima quando il termine (y − n1 i xi )2 `e minimo; ci`o accade quando fa zero, cio`e proprio per y = M (X). 

A. Sambusetti

11

Riassumiamo quanto imparato in questo capitolo dalla teoria e dagli esercizi in uno specchietto riepilogativo: indicatori di posizione M (X)

M e(X)

M o(X)

vantaggi – interessa il totale dei valori

– – – – – –

minimizza lo scarto quadratico medio descrive la maggioranza dei valori fa (in genere) parte dei valori di X poco sensibile ad errori nei dati minimizza lo scarto assoluto medio utile per distribuzioni non numeriche

svantaggi – poco rappresentativa se X ` e bimodale – non fa (in genere) parte dei valori di X – sensibile ad errori nei dati – X centrata vicino a M (X) sse σ(X) ` e piccolo

– scarsa rappresentazione del totale dei valori – X centrata vicino a M e(X) sse M AD(X) ` e piccolo – poco interessante se X non ha picchi

Gli indici di dispersione di una distribuzione continua X : [a, b] → V = [m, M ] si definiscono in maniera naturale, e si esprimono tramite la funzione densit` a f : V → R come Z b Z M 1 1 |X(t) − M (X)|dt = |x − M (X)|f (x)dx M AD(X) = b−a a b−a m Z b Z M p 1 1 V AR(X) = (X(t) − M (X))2 dt = [x − M (X)]2 f (x)dx σ(X) = V AR(X). b−a a b−a m

4. Cambi di scala. Una delle operazioni pi` u frequenti in statistica `e il cambio di scala. Ci`o significa, data una distribuzione X = (xi )n , applicare una trasformazione y = F (x) (biunivoca, monotona) a tutti gli xi , ottenendo una nuova distribuzione Y = (yi )n . I cambiamenti di scala pi` u comuni sono i cambi di scala lineari e logaritmici, corrispondenti cio`e a trasformazioni del tipo (4.1)

yi = mxi + q (m 6= 0) cambio di scala lineare6

(4.2)

yi = Log(pxi ) (pxi > 0) cambio di scala logaritmico

I riscalamenti lineari sono utilizzati per trasformare dei dati (xi ) in dati (yi ) in modo che yi − y1 =m xi − x1 cio`e tali rapporti siano indipendenti da i. I valori vengono quindi riscalati secondo un criterio di “giustizia”: a differenze uguali tra i valori xi corrispondono differenze uguali tra i dati riscalati yi . Per esempio : Esercizio A.4.1. Sia X = (2, 4, 5, 6, 10, 14, 18, 20) la distribuzione dei punti riportati da otto studenti al primo esonero, su un totale di 20 possibili per il totale degli esercizi. Riscalare linearmente i voti affinch´e 8 corrisponda al voto di 18 trentesimi e 20 corrisponda a 30 trentesimi. Soluzione. Questo esercizio `e importante per capire come procedere con i riscalamenti lineari. Siano xi i voti originali e yi i voti riscalati, da determinare. La formula di riscalamento lineare 4.1 rappresenta l’equazione di una retta nel piano oxy; in tale piano, un punto P rappresenta una coppia (x, y) la cui ascissa `e il valore x da riscalare, e la cui ordinata `e il valore riscalato y. Per trovare la formula di riscalamento con le propriet` a desiderate `e allora sufficiente scrivere l’equazione della retta r che passa per i due punti y−18 x−6 P1 = (x1 , y1 ) = (6, 18) e P2 = (x2 , y2 ) = (20, 30) data da r : 30−18 = 20−6 , cio`e y = 67 (x + 15). 6Un riscalamento lineare (4.1) si dir` a concorde se m > 0 (in tal caso, l’ordine dei dati `e conservato).

12

Appendice : elementi di statistica descrittiva

Le scale logaritmiche sono utilizzate invece per serie di dati di grandezza molto variabile; `e immediato verificare che se gli (yi ) sono ottenuti per riscalamento logaritmico dagli (xi ) secondo la formula (4.2), si ha xi yi − y1 = Log( ) x1 cio`e i rapporti uguali tra gli xi corrispondono differenze uguali tra i dati riscalati yi . Per esempio, per i terremoti, in cui l’ampiezza delle onde e dell’energia rilasciata pu`o avere variazioni molto grandi, si usa una scala logaritmica (la scala Richter): ad un’oscillazione x del sismografo a 100km dall’epicentro, si associa il valore y = Log(p · x) nella nuova scala (per una certa costante di calibrazione p): Esercizio A.4.2. La tabella mostra la scala Richter degli eventi a lato indicati:

Conoscendo la legge di riscalamento logaritmico della scala Richter sopra descritta y = Log(p · x): (i) calcolare la differenza di ampiezza delle onde sismiche tra quelle registrate per Chernobyl e quelle registrate per Haiti; (ii) trovare il valore delle ampiezze delle onde registrate, a partire dai dati sulla scala Richter (ammettiamo p = 1, per semplicit` a) e provare a fare un istogramma delle ampiezze. Soluzione. Per entrambi i punti, per recuperare i valori delle ampiezze x a partire dai valori y nella scala Richter, si deve invertire la formula y = Log(px). Per (i), sappiamo che y5 − y3 = 7 − 3.87 = 2.13 = Log(px5 ) − Log(px3 ) = Log( xx35 ) da cui x5 = 102.13 x3 . Cio`e le onde, nel caso di Haiti, sono state circa 100 volte pi` u ampie di quelle registrate a Chernobyl. 7 Quanto a (ii), la formula inversa `e x = p−1 10y quindi otteniamo (per p = 1) la tabella: scala Richter ampiezza 7

0.2 1.58

1 10

3.87 7413.1

5.5 316227.77

7 107

7.1 1.26E + 008

8.35 2.24E + 008

12.55 3.55E + 012

Notate che non c’`e stato bisogno di utilizzare il valore della costante di calibrazione p.

A. Sambusetti

13

dove gli ultimi dati sono scritti in notazione scientifica per il gran numero di cifre. Un tentativo di istogramma delle ampiezze darebbe:

Questo esempio dovrebbe convincervi del perch´e si usi una scala logaritmica: altrimenti l’istogramma risulta illeggibile!

La seguente proposizione mostra come cambiano gli indici di posizione e di dispersione quando si esegue un cambiamento di scala lineare: Proposizione A.4.3. Sia Y = (yi )n la distribuzione ottenuta riscalando linarmente la distribuzione X = (xi )n , secondo la formula yi = mxi + q. Allora si ha: (i) M (Y ) = mM (X) + q; (ii) M e(Y ) = mM e(X) + q; (ii) M o(Y ) = mM o(X) + q; (iii) M AD(Y ) = |m|M AD(X); (iv) V AR(Y ) = m2 V AR(X); (v) σ(Y ) = |m|σ(X). In particolare, ogni distribuzione X = (xi )n pu` o essere trasformata in una nuova distriˆ ˆ ˆ buzione X = (ˆ xi )n avente M (X) = 0 e σ(X) = 1, applicando il riscalamento lineare 1 x ˆi = (xi − M (X)) σ(X) Questo riscalamento riveste una particolare importanza, come vedremo nel prossimo paragrafo, ed `e detto riscalamento normale o standard di X. Dimostrazione. Se i dati X = (xi )n sono ordinati in ordine crescente, un riscalamento lineare preserva l’ordine se m > 0, o lo inverte se m < 0; in ogni caso, il valore mediano viene conservato, quindi la nuova mediana `e il valore della vecchia mediana, riscalato secondo la stessa legge. Discorso analogo per le mode: la nuova distribuzione ha per valori yi di frequenza massima (assoluti o relativi) quelli corrispondenti agli xi di frequenza massima della vecchia distribuzione. Ci`o dimostra (i) e (iii). Verifichiamo ora le altre formule: P P P M (Y ) = n1 ni=1 yi = n1 ni=1 (mxi + q) = m · n1 ni=1 xi + n1 · nq = mM (X) + q e dunque P P M AD(Y ) = n1 ni=1 |yi − M (Y )| = n1 ni=1 |mxi + q − mM (X) − q| = |m|M AD(X) P P V ARY ) = n1 ni=1 (yi − M (Y ))2 = n1 ni=1 (mxi + q − mM (X) − q)2 = m2 V AR(X) da cui segue anche la formula per la deviazione standard. 

14

Appendice : elementi di statistica descrittiva

5. Correlazione. Immaginiamo di avere due distribuzioni numeriche discrete di dati X = (xi )n ed Y = (yi )n , che non ci sembrino del tutto indipendenti l’una dall’altra. Potrebbe essere il caso, per esempio, per il numero di automobili che transitano vicino ad un certo sito archeologico, e l’indice di annerimento dei monumenti in quel sito. Viene spontaneo il problema di definire un indicatore statistico che misuri quanto i due dati siano effettivamente legati tra loro: questo problema `e oggetto della teoria della correlazione, di cui di seguito riportiamo i primi elementi. Due distribuzioni numeriche di n dati X = (xi )n ed Y = (yi )n possono essere visualizzate contemporaneamente come un insieme di punti Pi = (xi , yi ) nel piano cartesiano oxy. Esse appariranno a priori come una nuvola disordinata di punti: nel caso invece in cui tale “nuvola” approssimi l’andamento del grafico di una funzione y = f (x) `e naturale supporre l’esistenza di una legge (rilevata dalla statistica) che lega i dati yi ai dati xi . Esempio A.5.1. Guardiamo i dati dell’Esercizio A.1.1, Figura 1: sull’asse delle ascisse abbiamo i numeri di matricola X = (xi ) degli studenti, e sull’asse delle ordinate le rispettive et` a Y = (yi ). Le due distribuzioni di dati X, Y , visualizzate come punti (xi , yi ) formano un insieme disordinato di punti nel piano oxy, e non suggeriscono alcuna relazione tra essi: d’altronde, sarebbe ben strano che ci fosse un legame tra il numero di matricola e l’et` a di uno studente in una classe! 8

Esempio A.5.2. Guardiamo invece i dati dell’Esercizio A.1.1, Figura 3, limitandoci alle temperature nella seconda met` a del secolo:

Figura 5. Anomalia termometrica nella seconda met`a del secolo

L’andamento negli anni dell’anomalia termometrica (dati in rosso) sembra approssimabile grossolanamente all’andamento di una retta (disegnata in blu): questo suggerisce una correlazione lineare positiva tra il tempo e l’innalzamento della temperatura terrestre.

8

Sarebbe altrimenti se, per esempio, la tabella riportasse le distribuzioni delle et` a e dei numeri di matricola di tutti gli studenti di un’universit` a: in tal caso, probabilmente, i numeri di matricola pi` u bassi corrisponderebbero a studenti immatricolati anni prima, e dunque meno giovani, e dal grafico si riscontrerebbe una correlazione negativa: al crescere della matricola, l’et` a dovrebbe man mano scendere.

A. Sambusetti

15

Esempio A.5.3. Il volume X(t) di una coltura batterica, misurato ad intervalli di tempo regolari, fornisce i valori in rosso nella Figura 7. L’andamento suggerisce una legge esponenziale nel tempo, del tipo f (t) = 12 et , rappresentata in blu. In tal caso, si parla di correlazione esponenziale tra il tempo e la crescita della coltura.

Figura 6. Volume di una coltura batterica in funzione del tempo

Come mostrato nel precedente esempio, due distribuzioni di dati Y = (yi ), X = (xi ) possono suggerire un legame tra loro di tipo lineare (cio`e approssimabile con una legge di lineare del tipo y = f (x) = mx + q), ed in tal caso si parler`a di correlazione lineare; oppure una relazione di tipo esponenziale, come y = ax (si parla in tal caso di correlazione esponenziale); oppure polinomiale, come per es. y = xa (correlazione polinomiale), ecc. Nel seguito, noi ci interesseremo esclusivamente alla teoria della correlazione lineare: essa fornisce degli indicatori numerici precisi che misurano quanto sia corretto parlare di legame lineare tra due distribuzioni. Definizione A.5.4. Sia S = {(xi , yi )}, i = 1, .., n un insieme di punti nel piano oxy, ed r : y = mx + q una retta. La distanza lineare dell’insieme S dalla retta r `e definita come n X ∆(S, r) = |yi − (mxi + q)| i=1

e corrisponde a sommare tutte le distanze tra i punti (xi , yi ) e i punti su r di uguali ascisse. La distanza lineare `e una misura di quanto l’insieme S approssimi una retta (ovvero di quanto i valori yi dipendano linearmente dai valori xi ); essa `e nulla chiaramente se e solo se S ⊂ r, cio`e se esistono m, q tali che yi = mxi + q per ogni i = 1, ..., n. Teorema A.5.5. Siano X = (xi )n , Y = (yi )n due distribuzioni di n dati, ed S = {(xi , yi )} l’insieme dei punti corrispondenti nel piano oxy; supponiamo inoltre che esistano almeno x1 , x2 con x1 6= x2 (altrimenti i punti di S giacciono su una retta verticale). Definiamo covarianza delle due distribuzioni il numero n 1X [xi − M (X)] · [yi − M (Y )] COV AR(X, Y ) = n i=1

Allora, la retta r0 : y = m0 x + q0 con m0 =

COV AR(X, Y ) V AR(X)

q0 = M (Y ) − m0 M (X)

minimizza la distanza lineare da S, cio`e ∆(S, r0 ) ≤ ∆(S, r) per ogni altra retta r del piano.

16

Appendice : elementi di statistica descrittiva

La retta r0 del teorema `e detta retta di regressione di Y rispetto a X; essa `e la retta che meglio “approssima” l’insieme S dei punti (xi , yi ) definiti dalle due distribuzioni (nel senso spiegato dal teorema). Pi` u i punti Pi tendono ad essere allineati, pi` u la distanza ∆(S, r0 ) dalla retta di regressione diminuisce. Come caso limite, se ∆(S, r0 ) = 0 allora si deduce che tutti i punti sono sulla retta di regressione, ovvero esiste una relazione lineare yi = m0 xi + q0 tra i dati; in tal caso i dati (xi ), (yi ) di dicono perfettamente correlati. Quando m0 > 0, i dati si dicono correlati positivamente (in quanto al crescere degli xi , gli yi tendono a crescere); se invece m0 < 0, i dati si dicono correlati negativamente (in quanto al crescere degli xi , gli yi tendono a diminuire). ` chiaro infine che, maggiore `e m0 (in modulo), maggiore `e la variazione dei valori yi al E crescere degli xi , in quanto maggiore `e la pendenza della retta di regressione. Attenzione: la retta di regressione per le distribuzioni X, Y dipende da quale dei due insiemi di dati `e pensato come (possibilmente) dipendente dall’altro. Difatti, il coefficiente angolare m0 della retta di regressione ha al denominatore V AR(X), se si pensa ad una relazione di dipendenza del tipo yi = f (xi ), mentre avrebbe V AR(Y ) se si pensa che gli xi dipendano dagli yi . Per questo, nel calcolo della retta di regressione, va sempre specificato quale distribuzione di dati `e pensata dipendente dall’altra.

Dimostrazione. Sia r : y = mx + q una retta qualsiasi. Si ha: n X ∆(S, r) = (mxi + q − yi )2 = ∆(m, q) i=1

Per ogni m fissato, ∆(m, q) `e un polinomio di grado due in q, con termine di grado massimo uguale a nq 2 , dunque una parabola Pm con concavit`a rivolta verso l’alto. Senza fare troppi calcoli, il vertice di tale Pn parabola, cio`e il minimo di ∆(m, q) per m fissato, si trova imponendo ∂q ∆(m, q) = 2 i=1 (mxi +q −yi ) = 0 (dove ∂q indica la derivata rispetto a q, per m fissato), cio`e ! n n X X (5.1) n·q+ xi · m = yi . i=1

i=1

Analogamente, per ogni q fissato, P ∆(m, q) `e un polinomio di grado due in m, con termine di grado massimo uguale a ( ni=1 x2i )m2 , e rappresenta una parabola Pq con concavit`a rivolta verso l’alto. Il vertice di tale Pn parabola, cio`e il minimo di ∆(m, q) per q fissato, si trova imponendo ∂m ∆(m, q) = 2 i=1 (mxi + q − yi )xi = 0 (dove ∂m indica ora la derivata rispetto a m, per q fissato), cio`e (5.2)

n X i=1

! xi

·q+

n X i=1

! x2i

·m=

n X

xi yi

i=1

Si noti che il sistema in (m, q) ottenuto P dalle due equazioni (5.1) e (5.2) ha matrice dei coefficienti il cui determinante vale n1 i x2i − M (X)2 = V AR(X), ed `e non nullo poich´e esistono per ipotesi due valori x1 6= x2 . Il minimo di ∆(m, q) `e allora ottenuto dall’unica coppia (m0 , q0 ) che risolve tale sistema: infatti, per ogni altro m, q si ha ∆(m, q) ≥ ∆(m, q0 ) ≥ ∆(m0 , q0 ).

A. Sambusetti

17

Risolvendo con Cramer il sistema composto da (5.1) e (5.2) si trova l’unica soluzione P n y i i P P 1 P COV AR(X, Y ) i xi i x i yi i xi yi − M (X)M (Y ) n = m0 = = P 1 P 2 2 V AR(X) i xi − M (X) n n i xi P 2 P i xi i xi P Pn n x y i=1 i i=1 i Pn Pn P 2 1 P 2 xi · M (Y ) − n1 i xi yi · M (X) i=1 xi i=1 xi yi i n = q0 = = Pn 1 P 2 2 n i xi − M (X) n i=1 xi Pn Pn 2 i=1 xi i=1 xi  P − M (X)2 M (Y ) + M (X)2 M (Y ) − n1 i xi yi · M (X) = = 1 P 2 2 i xi − M (X) n ! 1 P i xi yi − M (X)M (Y ) n = M (Y ) − M (X) = M (Y ) − m0 M (X). 1 P 2 2 i xi − M (X) n 1 P

2 i xi

n

 Facciamo qualche esempio. Esercizio A.5.6 (♥). Sei reclute hanno ottenuto i seguenti voti V = (vi ) nelle prove fisiche; per ognuno di essi, indichiamo anche altezza H = (hi ) e peso P = (pi ): voto V altezza H peso P

12 168 72

25 176 90

10 170 70

20 178 94

20 167 85

18 175 90

(i) Calcolare media e deviazione standard delle distribuzioni V, H, P ; (ii) calcolare coefficiente angolare m0 ed intercetta q0 delle rette di regressione della distribuzione V in dipendenza da H, e della distribuzione V in dipendenza da P ; (iii) che tipo di correlazione c’`e tra i dati? Soluzione. Chiaramente, `e ragionevole pensare che ci sia una relazione di dipendenza dei risultati ottenuti nelle prove fisiche dalle caratteristiche fisiche (altezza, peso) delle reclute, e non certo il viceversa. Questo spiega perch´e V `e pensata dipendente da H e P . I calcoli diretti danno:

V H P

M 17.83 172.33 83.5

V AR 28.14 17.56 85.25

σ 5.3 4.19 9.23

COV AR(V, −)

m0 (V, −)

q0 (V, −)

10.06 41.58

0.57 0.49

−80.88 −22.9

Essendo m0 ∼ 0.5 in entrambi i casi, i calcoli sembrano dunque mostrare una leggera correlazione positiva di V con H e con P (le rette di regressione relative alle coppie (V, H) e (V, P ) hanno inclinazione α = arctan m0 ∼ 30◦ ). Questa conclusione andr` a rivista pi` u in l` a, quando parleremo di retta di regressione dei dati normalizzati.

18

Appendice : elementi di statistica descrittiva

Esercizio A.5.7 (♥). Una ditta di aspirapolvere pubblicizza i suoi prodotti tramite rappresentanti inviati porta a porta. Nella seguente tabella riportiamo i profitti p (in migliaia di euro) ottenuti e il numero c di clienti visitati da sei rappresentanti: Rappresentante p c

1 6 70

2 4, 5 40

3 3, 5 20

4 2, 5 10

5 4 35

6 5, 5 65

(i) Calcolare medie e deviazioni standard di ciascuna distribuzione; (ii) calcolare i coefficienti m0 , q0 della retta di regressione, prendendo p dipendente da c; (iii) che tipo di correlazione c’e’ tra i dati? Soluzione. I calcoli diretti danno in questo caso:

p c

M 4.33 40

V AR 1.39 475

σ 1.18 21.79

COV AR(p, −)

m0 (p, −)

q0 (p, −)

25.42

0.05

4.33

Essendo m0 = 0.05 ∼ 0, i calcoli sembrano mostrare una correlazione positiva dei profitti con il numero di clienti visitati, ma bassissima: la retta di regressione relativa alle coppie (p, s) `e infatti quasi orizzontale, dunque ad un aumento anche consistente di c corrisponde un aumento piccolissimo di p.... Anche in questo caso, la conclusione andr`a rivista fra breve.

I risultati ottenuti nei due esempi precedenti (soprattutto nel secondo) dovrebbero sollevare qualche obiezione nel lettore attento. La prima obiezione `e che la teoria della correlazione ha un senso per insiemi abbastanza numerosi di dati: si pensi al fatto che, se le distribuzioni avessero solo due dati, esisterebbe sempre una retta che contiene i due punti corrispondenti! Sei dati, come nei nostri esempi, sono certamente in numero insufficiente per dedurre una qualsiasi legge empirica che leghi due serie di dati (negli esempi, si `e scelto n = 6 solo per facilit`a di calcolo!). La seconda obiezione, pi` u seria, `e che le impressioni (grafiche e numeriche) di prossimit` a di una nuvola di punti alla retta di regressione, e di pendenza di tale retta (cio`e quanto fortemente gli yi siano influenzati da una variazione negli xi ) dipendono dalle scale scelte per misurare i dati! Se, per esempio, in ?? i profitti fossero misurati in euro, invece di migliaia di euro, la retta di regressione risulterebbe quasi verticale, indicando una correlazione fortissima tra numero di clienti visitati e profitti! Analogamente, il coefficiente angolare delle rette di regressione nell’Esercizio A.5.6 cambierebbe drasticamente se le misure delle reclute fossero prese in metri, grammi ecc.

A. Sambusetti

19

Si potrebbe pensare di ovviare a questo problema scegliendo, per ciascun tipo di dato possibile, una scala universalmente riconosciuta (per le lunghezze: i metri, per il denaro: gli euro, ecc.) ma questa `e solo una soluzione apparente. Come confronteremmo, infatti, l’influenza di due serie di dati X, X 0 non omogenee su una distribuzione Y ? Si pensi, per esempio, a misurare l’influenza di altezze e peso sui risultati nelle prove fisiche delle reclute: la pendenza delle rette di regressione risulterebbe comunque dipendente dalla nostra arbitraria scelta di scala. Facciamo un esempio ancora pi` u concreto: immaginiamo di essere chiamati a eseguire uno studio delle cause dell’annerimento dei monumenti in certi siti, al fine di stabilire una politica di preservazione: `e chiara la necessit`a di una misura asettica dell’influenza di un dato (traffico, precipitazioni...) sull’annerimento: Esercizio A.5.8 (♥). In cinque siti differenti si sono rilevati i seguenti dati, relativi all’anno 2008, sull’ indice di annerimento 9 A dei monumenti presenti, sul numero medio giornaliero N di automobili in transito in prossimit` a dei sito, e sulla quantit` a P di precipitazioni annue (espresse in mm): sito

torre asinelli (BO)

palazzo Pitti (FI)

S.Ambrogio (MI)

S.Chiara (NA)

S.Domenico (PA)

colosseo (RM)

A N P

6 7200 720

6 5000 600

10 8300 990

8 7100 670

4 4200 680

15 12000 690

(i) calcolare media e deviazione standard delle distribuzioni A, N e P ; (ii) calcolare coefficiente angolare m0 ed intercetta q0 delle rette di regressione della variabile A in dipendenza da N ed in dipendenza da P ; (iii) che tipo di correlazione c’e’ tra i dati?

I risultati nella scala sopra utilizzata sono addirittura paradossali (svolgere l’esercizio...). Qual `e dunque la “scala giusta” per misurare la correlazione tra due serie di dati? Il seguente risultato risolve i nostri dubbi, spiegando che la scala giusta `e quella normale: Teorema A.5.9. Siano X = (xi )n , Y = (yi )n due distribuzioni di n dati (con almeno ˆ = (ˆ due valori x1 6= x2 ) e siano X xi )n , Yˆ = (ˆ yi )n i riscalamenti normali delle due ˆ ha le seguenti propriet` distribuzioni. La retta di regressione rˆ di Yˆ rispetto a X a: (i) non dipende dalla scala lineare (purch´e concorde) scelta per misurare i dati (xi ), (yi ); (ii) ha equazione rˆ : y = Cx , dove Pn ˆ · Yˆ ˆ Yˆ ) (xi − M (X))(yi − M (Y )) X COV AR(X, pPn C= = = pPn i=1 2 2 ˆ ˆ |Yˆ | V AR(X) |X| i=1 (xi − M (X)) i=1 (yi − M (Y )) (iii) il coefficiente angolare C appartiene all’intervallo [−1, 1], e ˆ = Yˆ , cio`e i punti (ˆ • vale C = 1 se e solo se X xi , yˆi ) giacciono sulla bisettrice del I ˆ = −Yˆ , quadrante, ed i punti originali (xi , yi ) sono allineati (rispettivamente C = −1 ses X gli (ˆ xi , yˆi ) giacciono sulla bisettrice del IV quadrante, e i punti originali sono allineati); √ • se |C − 1| <  allora |ˆ yi − x ˆi | < 2n, cio`e pi` u C `e vicino ad 1 pi` u la differenza√ tra tutti i valori yˆi e x ˆi `e piccola (rispettivamente se |C − (−1)| <  allora |ˆ yi − (−ˆ xi )| < 2n). 9

La brillanza B di un insieme di monumenti `e la percentuale di superficie bianca sul totale (ad un certo momento T ), e pu` o essere misurata con appositi strumenti; l’annerimento `e la percentuale restante. L’indice di annerimento A(∆T ) `e la quantit` a di annerimento (ovvero di brillanza persa) in un certo periodo di tempo ∆T fissato.

20

Appendice : elementi di statistica descrittiva

Il coefficiente angolare C delle distribuzioni riscalate in modo normale `e dunque la giusta misura di correlazione tra le due serie di dati; questo importante coefficiente `e noto come indice di correlazione di Pearson. ˆ ed Yˆ nella formula (ii) per C denota il prodotto scalare tra Attenzione: il puntino tra X ˆ i vettori (n-dimensionali) X, Yˆ e non va confuso con l’usuale prodotto di due numeri! Dimostrazione. Per mostrare (i), supponiamo che X 0 = aX + b e Y 0 = cY + d siano due riscalamenti lineari concordi di X e Y (per es.: gli xi misurati in cm, e x0i in metri, oppure gli yi in gradi Celsius e gli yi0 in gradi Farhenheit...). Poich´e a > 0, dalle formule (ii) e (v) della Proposizione A.4.3, si deduce xb0i =

1 1 1 (x0i − M (X 0 )) = (axi + b − aM (X) − b) = (xi − M (X)) = x ˆi 0 σ(X ) aσ(X) σ(X)

ˆ Yˆ e di X b 0 , Yb 0 sono le stesse. ed analogamente ybi0 = yˆi . Pertanto le rette di regressione di X, Quindi, calcoliamo la covarianza delle distribuzioni X, Y riscalate normalmente: n n ˆ · Yˆ 1X 1X X ˆ ˆ ˆ ˆ (ˆ xi − M (X))(ˆ yi − M (Y )) = x ˆi yˆi = COV AR(X, Y ) = ˆ |Yˆ | n n |X| i=1 i=1 q √ 2 ˆ = M (Yˆ ) = 0 e |X| ˆ = P x ˆ = n, ed analogamente |Yˆ | = √n. in quanto M (X) nσ(X) i ˆi = ˆ Yˆ `e Pertanto il coefficiente angolare m ˆ 0 della retta di regressione di X, m ˆ0 =

n ˆ Yˆ ) ˆ · Yˆ (y − M (Y )) COV AR(X, 1X (x − M (X)) X q Pi q Pi = = ˆ ˆ |Yˆ | n n n 1 1 V AR(X) |X| 2 2 i=1 i=1 (xi − M (X)) i=1 (yi − M (Y )) n n

che d`a la formula annunciata in (ii). Il fatto poi che |m ˆ 0 | ≤ 1 segue dalla disuguaglianza di Cauchy-Schwarz: essa implica ˆ · Yˆ | ≤ |X| ˆ |Yˆ | |X ˆ · Yˆ = |X| ˆ |Yˆ | (rispettivamente, X ˆ · Yˆ = −|X| ˆ |Yˆ |) se e solo e dice che vale l’uguaglianza X ˆ per qualche λ > 0 (risp. per λ < 0); ma essendo Yˆ , X ˆ vettori di ugual norma, se Yˆ = λX √ ˆ ˆ ˆ Pertanto, uguale a n, questa condizione significa precisamente Y = X (risp. Yˆ = −X). ˆ cio`e i punti riscalati (ˆ m ˆ 0 = ±1 se e solo se, rispettivamente, Yˆ = ±X, xi , yˆi ) sono allineati sulla bisettrice del I o IV quadrante. Inoltre, poich´e un riscalamento lineare dei due assi del piano oxy trasforma rette in rette, ci`o accade se e solo se i punti originali (xi , yi ) erano a loro volta tutti allineati. ˆ Yˆ X· Supponiamo infine che |m ˆ 0 − 1| < ; allora |X| |Y | > 1 −  e si calcola: √ √ ˆ − Yˆ |2 = |X| ˆ 2 + |Yˆ |2 − 2X ˆ · Yˆ < |X| ˆ 2 + |Yˆ |2 − 2(1 − )|X|| ˆ Yˆ | = 2n − 2 n n + 2n |X √ il che prova che |yi − xi | < 2n e dimostra l’ultima asserzione in (iii). 

Ripetere i calcoli degli Esercizi A.5.6 e A.5.7 e A.5.8, prendendo come dati le distribuzioni normalizzate e calcolando l’indice di correlazione di Pearson. Reinterpretare quindi correttamente i risultati trovati.

A. Sambusetti

21

Esercizio A.5.10 (♥). Nelle seguenti citt` a si sono registrati, nel 2010, i seguenti dati di affluenza nei musei, espressi in termini di numero di biglietti B = (bi ): Roma 950.000, Madrid 500.000, Parigi 750.000, Londra 800.000, Berlino 550.000. Il numero di abitanti di queste citt` a (indicata con A = (ai )) `e riportata in tabella, espressa in milioni di abitanti:

(i) Calcolare medie e varianze della popolazione A ed del numero di biglietti B (espressi nella scala pi` u comoda) nelle cinque citt` a; (ii) calcolare la covarianza dei due insiemi di dati, indicando quale dei due ha senso considerare come variabile dipendente; (iii) calcolare l’indice di correlazione di Pearson C e l’angolo ϑ che la retta di regressione dei dati normalizzati forma con l’asse x; (iv) cosa si pu` o dedurre dall’analisi statistica di tali dati? Esercizio A.5.11 (♥). La tabella riporta, il numero A di automobili immatricolate (per migliaio di abitanti) ed il tempo medio H del tragitto da casa a lavoro (per abitante, espresso in minuti), nelle principali capitali europee: A H

Roma 45 720

Madrid 32 430

Parigi 30 100

Londra 25 330

Berlino 25 300

(i) Calcolare medie e varianze delle due distribuzioni; (ii) calcolare la covarianza dei due insiemi di dati, indicando quale dei due ha senso considerare come variabile dipendente; (iii) calcolare l’indice di correlazione di Pearson, l’equazione della retta di regressione dei dati normalizzati e l’angolo che essa forma con l’asse x; (iv) descrivere il tipo di correlazione lineare che sussiste tra i due insiemi di dati. (Costruire una tabella come quella dell’esercizio precedente). Esercizio A.5.12 (♥). I dati seguenti sono relativi al numero di decessi, in una determinata popolazione, dovuti a problemi cardiocircolatori e a tumori in 10 anni. anno (ai ) n. decessi n. decessi per malattie cardiache n. decessi per tumori

2001 500 250 160

2002 500 251 165

2003 520 266 180

2004 530 243 175

2005 540 245 190

2006 545 250 195

2007 570 255 200

2008 580 260 195

2009 590 270 198

2010 600 255 200

Si calcolino: (i) le percentuali C = (ci %) e T = (ti %) delle due differenti cause di decesso sul totale dei decessi, in ciascun anno A = (ai ); ˆ C, ˆ Tˆ riscalate in modo normale; (ii) le distribuzioni A, ˆ C, C, ˆ T, Tˆ; (iii) media e deviazione standard delle distribuzioni A, A, (iv) coefficienti angolari delle rette di regressione delle distribuzioni C, T in dipendenza dal tempo A; ˆ Tˆ in dipendenza da Aˆ (cio`e gli indici di calcolare gli stessi coefficienti per le distribuzioni normalizzate C, correlazione di Pearson); (v) che tipo di correlazione c’e’ tra i dati? E’ possibile dire che una delle due malattie ha seguito un evidente incremento/decremento lineare nel tempo? (Costruire una tabella come quella dell’esercizio precedente).

22

Appendice : elementi di statistica descrittiva

Soluzioni Soluzione corretta dell’Esercizio A.5.6. Le rette di regressione dei dati normalizzati mostrano una correlazione decisamente pi` u forte tra voti e peso (C(V, P ) = 0.85), piuttosto che tra voti e altezza (C(V, H) = 0.45), correlazione che non `e evidente dalle rette di regressione dei dati non normalizzati.

Soluzione corretta dell’Esercizio A.5.7. In questo esempio la differenza tra coefficiente angolare della retta di regressione rispetto ai dati iniziali e rispetto ai dati normalizzati `e ancora pi` u evidente. Chiaramente, la retta di regressione rispetto ai dati iniziali risulta molto schiacciata sull’asse x (m = 0.05) a causa della notevole differenza di scala utilizzata per studi e profitti. Il coefficiente di Pearson rivela invece una fortissima correlazione positva tra i due dati, quasi perfetta (C = 0.99).

Soluzione dell’Esercizio A.5.8. Anche in questo caso, i calcoli mostrano una correlazione positiva quasi perfetta tra indice di annerimento e numero di auto in transito, mentre la correlazione tra annerimento e precipitazioni `e positiva ma debole. Questa differenza non era evidenziata dai dati prima della normalizzazione (a causa della differenza notevole di scala tra i dati N, P ed A).

A. Sambusetti

23

Soluzione dell’Esercizio A.5.10. Si `e scelto di riportare i dati di affluenza in in decine di migliaia di biglietti (non dipendendo il risultato dell’analisi dalla scala lineare scelta). Il coefficiente di Pearson mostra che c’`e una correlazione positiva debolissima tra numero di abitanti e numero di biglietti venduti C = 0.15). L’affluenza ai musei dipende quindi da altri fattori che non semplicemente la numerosit` a della popolazione (pubblicit` a, livello di educazione medio ecc.)

Soluzione dell’Esercizio A.5.11. Il calcolo di C dimostra una correlazione positiva tra numero di auto immatricolate e tempo di percorrenza: l’angolo della retta di regressione `e infatti 38.3◦ , prossimo al massimo di 45◦ . (I dati sono veritieri)

Soluzione dell’Esercizio A.5.12. L’indice di Pearson dimostra una correlazione negativa notevole tra tempo e numero di decessi per malattie cardiocircolatorie (cio`e i casi di decesso per tali cause sono diminuiti linearmente in modo consistente anno per anno), essendo C ∼ −1. Non si pu` o dire uguale per il numero di decessi per malattie tumorali, che mostra una correlazione positiva, bench´e debole (C = 0.27), con il tempo. Si noti il riscalamento comodo (e ininfluente sul coefficiente di Pearson) degli anni tra 1 e 10.