NOTE DI STATISTICA DESCRITTIVA E PRIMI ELEMENTI ... - EDUCatt

8 downloads 403 Views 8MB Size Report
è disponibile gratuitamente per il download nell'area Freebooks di EDUCatt .... La statistica si interessa in particolare della variabilità accidentale variabilità ...
GIUSEPPE BOARI - GABRIELE CANTALUPPI

NOTE DI STATISTICA DESCRITTIVA E PRIMI ELEMENTI DI CALCOLO DELLE PROBABILITÀ

Sezione 1 Introduzione 1.1

Indice 1

Che cosa è la Statistica

1

2

Caratterizzazione dell’approccio deduttivo e dell’approccio induttivo

1

3

La variabilità accidentale

2

4

Il modello statistico

4

5

Caratterizzazione della componente di errore

4

6

Le branche della statistica

5

1

1.2

Che cosa è la Statistica • Diramazione delle Matematiche • Ausilio alle discipline sperimentali – Fisica – Chimica – Biologia – Medicina – Economia

Categorie di discipline scientifiche • DEDUTTIVE – matematica – geometria • INDUTTIVE – fanno ricorso alle indagini sperimentali empiriche 1.3

1

2

Caratterizzazione dell’approccio deduttivo e dell’approccio induttivo

Approccio deduttivo 1. Assunzione preliminare di certi enti e di alcune loro proprietà assiomi 2. Acquisizione di altri contenuti per via deduttiva dagli assiomi teoremi 1.4

Approccio induttivo (sperimentale)

osservazioni / nuovi fatti

IPOTESI

conferma sperimentale NO SI TEORIA (formulazione/aggiornamento) (il ciclo si riattiva quando si presentano fatti nuovi) 1.5

3

La variabilità accidentale

La statistica si interessa in particolare della variabilità accidentale variabilità accidentale esistono fenomeni caratterizzati da molteplici manifestazioni (risultati NON prevedibili con certezza) Le differenti manifestazioni di un fenomeno possono verificarsi a seguito di meccanismi di: • ripetitività virtuale • ripetitività attuale

1.6

fenomeni caratterizzati da ripetitività virtuale possono idealmente essere ripetuti nelle stesse condizioni sperimentali lancio di una moneta (T;C)

∼ 50%T

∼ 50%C

cause di variabilità: non si ripete l’esperimento nelle stesse condizioni 2

1.7

Riduzione delle fonti di variabilità 1. faccia della moneta posta in alto (T )

∼ 55%T

T

∼ 45%C

2. faccia della moneta posta in alto (T ) e supporto di lancio

∼ 80%T

T

∼ 20%C

3. faccia della moneta posta in alto (T ) e supporto di lancio e piano di atterraggio

∼ 99%T

T

∼ 1%C

1.8

Fenomeni caratterizzati da ripetitività attuale si sono già manifestati: i risultati che si osservano sono caratterizzati da una certa variabilità (molteplicità). Indagine sul reddito degli abitanti di una certa città a una certa data classi di reddito 0 a 20 20 a 30 superiore a 30

frequenza 10% 60% 30%

la variabilità dipende dalle differenti caratteristiche dei soggetti esaminati

1.9

Si può ridurre la variabilità, considerando altri fattori, che consentono di individuare insiemi più omogenei di unità statistiche 1. soggetti con età 40 a 50 classi di reddito frequenza 0 a 20 2% 20 a 30 33% superiore a 30 65% 2. soggetti con età 40 a 50 e professione impiegato classi di reddito frequenza 0 a 20 2% 20 a 30 13% superiore a 30 85% 3. soggetti con età 40 a 50 e professione impiegato e titolo di studio laurea classi di reddito frequenza 0 a 20 0% 20 a 30 5% superiore a 30 95% 1.10

3

4

Il modello statistico

MODELLO ≡ MECCANISMO GENERATORE • descrive i possibili risultati (osservazioni) • nell’ipotesi di ripetere più volte l’esperimento 1.11

Esempio 1. Relazione fra il peso (Y ) e la sola altezza (X) di n individui adulti Introduzione modello: yi = a + bxi + ei , i = 1, . . . , n Y = f (X) + E = legge + errore accidentale 100 90 80 70 60 50 40 150

160

170

180

190

200 1.12

5

Caratterizzazione della componente di errore

Accidentalità • non prevedibile con certezza • non presenta sistematicità ● ● ●







● ●













● ●



● ● ●













●● ●













●●

● ●● ● ●



● ● ● ●









● ●









● ●





● ● ● ● ●

















● ●









● ●●



● ● ●

●●



● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ●● ●● ● ● ●●●● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●●● ●● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ●● ●●● ●● ●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ●● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●●● ●●● ● ●● ● ●● ●● ● ● ● ●● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●





● ●







COMPITO DELLA STATISTICA





















● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ●● ●● ● ● ●●●● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●●● ●● ● ●● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ●● ●●● ●● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●















- identificazione dei modelli - verifica della loro validità ●

caratteristica minimale: compensazione tra errori positivi e negativi (somma nulla)

1.13

COMPITO DELLA STATISTICA • identificazione del modello più prossimo ai dati • verifica della validità del modello 4

FONTI DI INDETERMINATEZZA • Imperfetta specificazione del modello – forma delle relazioni presenti nel modello – variabili esplicative non incluse nel modello • Imprecisione degli strumenti di misura COME AFFRONTARE LA VARIABILITÀ • punto di vista deterministico cerca di eliminare la variabilità individuandone le fonti • approccio statistico separa la componente strutturale da quella aleatoria (segnale/rumore) f (X) la legge

da dall’

E errore accidentale 1.14

Osservazione a volte l’aleatorietà è parte essenziale dell’esperimento (es. giochi d’azzardo) Considerazione conclusiva Si accetta l’indeterminatezza quando: • l’eccessiva analiticità diventa troppo onerosa • la parte strutturale f (x) non è sovrastata dall’errore (rumore) compito della statistica PREVEDERE al meglio il valore della generica realizzazione del fenomeno oggetto di studio

6

1.15

Le branche della statistica

Statistica descrittiva sintesi delle osservazioni campionarie o dei dati censuari Statistica probabilistica studio del meccanismo generatore delle realizzazioni campionarie (modello → campione) Statistica inferenziale dal campione al suo meccanismo generatore (campione → modello) 1.16

5

Esempio 2 (Problema probabilistico). Si consideri una popolazione composta da 1000 consumatori, 200 dei quali sono nostri clienti.

200

800

C



Calcolare la probabilità che contattando un campione rappresentativo di 50 consumatori: • 5 di questi siano nostri clienti. • 10 di questi siano nostri clienti. • 20 di questi siano nostri clienti. Osservazione La nostra quota di mercato è del 20% e 10 corrisponde al 20% di 50. 1.17

Esempio 3 (Problema inferenziale). Solitamente la quota di mercato è incognita.

p?

(1 − p)?

C



Estratto un campione rappresentativo di 50 soggetti abbiamo che 10 di questi sono nostri clienti e 40 sono della concorrenza. A partire da questa informazione e con riferimento alla conoscenza del meccanismo di ’selezione’ del campione, si cerca una ’stima’ della nostra quota di mercato. Osservazione È impossibile fornire una risposta certa. Mediante gli strumenti della statistica inferenziale verrà, ad esempio, indicato un intervallo ( pˆ − ε, pˆ + ε) di valori plausibili con associato un predefinito livello di probabilità. 1.18

6

Sezione 2 Caratteri e scale di misura 2.1

Indice 1

Le fasi di una ricerca

7

2

La rilevazione dei dati 2.1 Oggetto della rilevazione (censimento/campione) . . . . . . . . . . . . .

7 8

3

Lo spoglio dei dati

15

4

Terminologia essenziale

15

5

Tipi di caratteri e scale di misura

16

6

I caratteri qualitativi

16

7

I caratteri quantitativi 7.1 Variazione assoluta, misura relativa e variazione relativa . . . . . . . . .

19 20

8

Scale per caratteri quantitativi

21

9

Alcune considerazioni sulle scale di misura

23

1

Le fasi di una ricerca 1. Identificazione del problema 2. Astrazione • individuazione variabili osservabili (proxy) 3. Rilevazione • sperimentazione, questionari, . . . 4. Spoglio dei dati (a) organizzazione dati (b) classificazione 5. Elaborazione dei dati (a) sintesi (b) interpretazione (c) inferenza

7

2.2

Osservazione una prima statistica consiste nel costruire le tabelle riassuntive 2.3

2

La rilevazione dei dati

Può essere effettuata tramite: • sperimentazione tipicamente in ambito industriale

• questionari anche in questo caso spesso si effettuano delle ’sperimentazioni’, come avviene ad esempio per la valutazione del gradimento di nuove caratteristiche di un prodotto/servizio

• basi dati aziendali interrogazioni dei data base aziendali con procedure SQL

• basi dati istituzionali Istat, Eurostat, Banca d’Italia, Uffici comunali dati statistici

• Internet, social networks, tweet tipicamente analisi testuali

Osservazione Il questionario ha anche finalità di comunicazione. 2.4

2.1

Oggetto della rilevazione (censimento/campione)

Definizione 1 (Rilevazione censuaria). Si rilevano dati su tutti i soggetti che costituiscono la popolazione di riferimento. Definizione 2 (Rilevazione campionaria). Si contatta solo un sottoinsieme (campione) della popolazione oggetto di studio. Osservazione Per garantire che il campione sia rappresentativo della popolazione, si utilizzano procedure di selezione di natura casuale.

8

2.5

HELP US TO IMPROVE THE MUSEUM AND BE OUR GUEST FOR A NIGHT! Knowing your opinion about your visit to Palazzo Reale will help us to satisfy better your expectations and the other visitors’ ones FILL IN THIS QUESTIONNAIRE in every form, assigning a value between 1 and 7 when prompted:



□□□□□□□

I don’t agree 1 2 3 4 5 6 7 I agree

INSERT YOUR E-MAIL ADDRESS AT THE END AND WE WILL SEND YOUR INVITATION TO BE OUR GUEST AT THE NEXT OPENING AT PALAZZO REALE

Date of the visit: . . . . . . . . . . . . . . . . . .

□ Morning □ Afternoon

Personal information

Your visit at the museum

1. Gender: □M □F

1. Who have you visited the museum with? □ Alone □ With your family/friends □ Group

2. Age: …………………….

2. Is this the first time you visit Palazzo Reale? □ Yes □ No

3. Italian city / Foreign state of residence: ……………… 4. Title of study: □ Elementary school grade □ Junior high school grade □ Superior high school grade □ University degree □ Other

3. Why did you choose to visit this exhibition? □ Personal interest for the artist/the works □ Study or professional interest □ Part of a tour of the city/country □ To take here some parents/friends □ Other (specify:…………………….)

5. Job: □ Student □ Employee/Professional □ Pensioner □ Unemployed/other

4. How many exhibition did you visit during the last 12 months? □ None □ From 1 to 3 □ From 4 to 6 □ 6 and more

1. Information availability

2. Impression at the visitor’s arrival

1. Information about the exhibition are easily available I don’t agree 1 2 3 4 5 6 7 I agree

1. The waiting times to enter the exposition are acceptable. I don’t agree 1 2 3 4 5 6 7 I agree

2. How did you notice about the exhibition? □ a newspaper article □ exhibition website □ manifests □ from a friend □ Other (specify: . . . . . . . . . . . . . . . . . . )

2. The number of operating counters is proportionate to visitors’ flux. I don’t agree 1 2 3 4 5 6 7 I agree

□□□□□□□

□□□□□□□ □□□□□□□

3. Was you aware of an on-line booking service? □ Yes □ No • If yes, I made use of it □ Yes □ No • If yes, the service is easy to use. I don’t agree 1 2 3 4 5 6 7 I agree

3. Did you use the Palazzo Reale website? □ No □ Yes • If yes, the site is accessible. I don’t agree 1 2 3 4 5 6 7 I agree • If yes, the site is acceptably complete. I don’t agree 1 2 3 4 5 6 7 I agree

□□□□□□□ □□□□□□□

□□□□□□□

4. The presence of contact personnel is proportionate to visitors’ flux. I don’t agree 1 2 3 4 5 6 7 I agree

□□□□□□□

Continua nella pagina seguente →

2.6

9

3. Logistical aspects

4. Expositive route

1. The main seat of the Palazzo is easily locatable. I don’t agree 1 2 3 4 5 6 7 I agree

1. The hall sequence provides a well-structured visit. I don’t agree 1 2 3 4 5 6 7 I agree

2. Opening days are suitable to your requirements. I don’t agree 1 2 3 4 5 6 7 I agree

2. The works positions is proper to the type of exposition (thematic, monographic, etc). I don’t agree 1 2 3 4 5 6 7 I agree

□□□□□□□

□□□□□□□

□□□□□□□

□□□□□□□

3. Opening hours are suitable to your requirements. I don’t’ agree 1 2 3 4 5 6 7 I agree

□□□□□□□

3. Information about the works are easily found near the works themselves I don’t agree 1 2 3 4 5 6 7 I agree

□□□□□□□

4. The fee is proportionate to the exhibition’s offer. I don’t agree 1 2 3 4 5 6 7 I agree

□□□□□□□

4. You visited the museum: □ Using a guided tour □ Using an audio guide □ Using a printed guide □ Without a guide

5. The system of signs provides complete information. I don’t agree 1 2 3 4 5 6 7 I agree

□□□□□□□

6. Have you found some deficiency you have to report? □ No □ Yes • If yes, the deficiency management is working

properly.

5. Guide services are useful. I don’t agree 1 2 3 4 5 6 7 I agree □ I did not use the service

□□□□□□□

□□□□□□□

I don’t agree 1 2 3 4 5 6 7 I agree □ I did not report the deficiency

5. Hall personnel

6. Extra services

1. The hall personnel is properly prepared. I don’t agree 1 2 3 4 5 6 7 I agree

1. Which of these services of Palazzo Reale did you use? □ Wardrobe □ Audio guide □ Bookshop and souvenir shop

□□□□□□□

2. Their explanations are complete and easy to understand. I don’t agree 1 2 3 4 5 6 7 I agree

□□□□□□□

3. The presence of hall personnel is proportionate to visitors’ flux. I don’t agree 1 2 3 4 5 6 7 I agree

□□□□□□□

2. Satisfaction Wardrobe Little satisfied 1 2 3 4 5 6 7 Very satisfied Audio guide Little satisfied 1 2 3 4 5 6 7 Very satisfied Bookshop and souvenir shop Little satisfied 1 2 3 4 5 6 7 Very satisfied

□□□□□□□ □□□□□□□ □□□□□□□

3. Which of the following services (not present at Palazzo Reale) do you consider essential? □ Restaurant/pub □ Internet Point

Overall valuation

Overall importance

Make an overall valuation of the following aspects:

Sign the level of importance, in your opinion, of the following aspects:

Cultural offer

1. Information availability

□□□□□□□

□□□□□□□

Little satisfied 1 2 3 4 5 6 7 Very satisfied

Little importance 1 2 3 4 5 6 7 Great importance

Personnel competence and efficiency

2. Impression at the visitor’s arrival

Global organization of the expositive route

3. Logistical aspects.

Extra services

4. Expositive route

□□□□□□□

□□□□□□□

Little satisfied 1 2 3 4 5 6 7 Very satisfied

Little importance 1 2 3 4 5 6 7 Great importance

□□□□□□□

□□□□□□□

Little satisfied 1 2 3 4 5 6 7 Very satisfied

Little importance 1 2 3 4 5 6 7 Great importance

□□□□□□□

□□□□□□□

Little satisfied 1 2 3 4 5 6 7 Very satisfied

Little importance 1 2 3 4 5 6 7 Great importance

5. Hall personnel

Overall valuation of the museum

□□□□□□□

Little importance 1 2 3 4 5 6 7 Great importance

□□□□□□□

Little satisfied 1 2 3 4 5 6 7 Very satisfied

6. Extra services

□□□□□□□

Little importance 1 2 3 4 5 6 7 Great importance

2.7

10

2.8

2.9

11

2.10

2.11

12

2.12

2.13

13

2.14

Una volta raccolti, i dati confluiscono nella cosiddetta matrice dei dati id matr 1234321 4321234 .. . 7654567

1 2 .. . n

1 2 .. . n

Esempio 3 (Matrice dati votazioni studenti). 1 2 3 4 ... cognome nome età voto stat . . . Astolfi Antonio 23 28 ... Bianchi Mario 22 31 ... .. .. .. .. . . . . Zito Mario 22 28 ...

id ragione soc. abc ayz .. . zyz

Esempio 4 (Matrice dati imprese). 1 2 3 settore dimensione n. dipendenti industria grande 123 terziario piccola 5 .. .. .. . . . industria media 60

k voto laurea 105 110L .. . 108 4 fatturato 2 050 234 520 342 .. . 520 420 2.15

• In ogni riga della matrice dei dati figurano tutte le informazioni riferite a un singolo soggetto. • In ogni colonna della matrice dei dati figurano le manifestazioni di una singola variabile per tutti i soggetti. 2.16

14

3

Lo spoglio dei dati

Esempio 5. Rilevazione tipologia ultima vacanza effettuata da un campione di n = 36 soggetti tipo mare montagna città d’arte agriturismo

conteggio — |||| — |||| — |||| |||| — |||| — |||| | |||| ||

n◦ 19 11 4 2 n = 36

v j = singoli valori ( j = 1, 2, . . . , n) (le osservazioni di base)

2.17

Formalizzazione Indicando con xi (i = 1, 2, . . . , k) le modalità distinte e con ni le rispettive frequenze abbiamo X = tipologia ultima vacanza xi = tipo x1 = mare x2 = montagna x3 = città d’arte x4 = agriturismo e, in estrema sintesi,

ni = frequenza n1 = 19 n2 = 11 n3 = 4 n4 = 2 n = 36 i = 1, 2, . . . , k}

X = {(xi , ni ),

2.18

4

Terminologia essenziale

Unità statistiche o sperimentali supporto fisico/materiale su cui si estrinseca il fenomeno • numero finito (popolazione) • infinità numerabile (universo) Caratteri proprietà dell’unità sperimentale • qualitativi • quantitativi Modalità del carattere • attributi o categorie (caratteri qualitativi) • misure (caratteri quantitativi) 2.19

15

5

Tipi di caratteri e scale di misura

Qualitativi / Categorici tipo sconnessi ordinati

scala scala nominale / per attributi scala ordinale

(non ha senso confrontare distanze tra categorie) Quantitativi / Metrici (sono misure espresse da numeri interi o reali) tipo discreti continui scale scala per intervalli scala per rapporti 2.20

6

I caratteri qualitativi

sconnessi (scala nominale) • comune di residenza • tipo di industria • tipo di fabbricazione .. . ordinati (scala ordinale) • • • •

titolo di studio grado di vendibilità tipo di abitazione risultato di un esame (A,B,C, . . . ) .. . 2.21

Esempio 6. Esprimi la tua opinione riguardo al prolungamento degli orari di apertura delle sale studio

molto d'accordo

indifferente

(punteggi espressi su scale convenzionali) (tipicamente la scala di Likert)

16

decisamente contrario

2.22

Indagine sulla soddisfazione dei clienti (’customer satisfaction’) Esempio 7. Grado di soddisfazione relativo al servizio di bookshop di un museo

poco

Insoddisfatto

indifferente

soddisfatto

soddisfatto

molto soddisfatto 2.23

Esempio 8. Grado di soddisfazione relativo al servizio di bookshop di un museo

1

2

3

4

5

con 1 = Insoddisfatto, ..., 5 = Molto soddisfatto 2.24

Esempio 9. Grado di soddisfazione relativo al servizio di bookshop di un museo

Molto soddisfatto

Insoddisfatto

2.25

Funzione di trasferimento tra status mentale e punteggio dichiarato

giudizio espresso M.sodd. 5 4 3 2

{ { { { {

1 Ins.

b

b

molto sodd.

insodd.

status mentale la trasformazione ideale è lineare (proporzionalità)

17

2.26

Funzione di trasferimento tra status mentale e punteggio dichiarato

giudizio espresso M.sodd. 5 4 3 2

b

{ { { { {

1 Ins.

b

molto sodd.

insodd.

status mentale Nella realtà difficilmente la trasformazione sarà lineare.

2.27

Osservazione Non ha senso confrontare distanze tra categorie (anche se codificate con valori numerici)

giudizio espresso M.sodd. 5 4 3 2

{ { { { {

1 Ins.

b

b

insodd.

a

b

c

d

molto sodd.

status mentale infatti ab 6= cd

mentre (2 − 1) = (5 − 4) 2.28

18

Osservazione Due soggetti potrebbero perfino avere funzioni di trasferimento diverse ed esprimere punteggi differenti in corrispondenza dello stesso livello di percezione della soddisfazione

giudizio espresso M.sodd. 5 4 3 2

{ { { { {

1 Ins.

b

soggetto A

soggetto B b

molto sodd.

insodd.

status mentale Quale tra i due soggetti è più severo nelle sue valutazioni?

7

2.29

I caratteri quantitativi modalità = misure

numeri reali che descrivono una proprietà oggettiva dell’unità statistica tipologia • continui insieme di modalità: intervallo • discreti insieme di modalità: finito o numerabile proprietà • ordinamento dei numeri reali • definibile una distanza d tra modalità

2.30

distanza 1. d(x1 , x2 ) = |x2 − x1 | = |x1 − x2 | ≥ 0 2. d(x1 , x2 ) = 0 ↔ x1 = x2 3. |x1 − x2 | ≤ |x1 − x3 | + |x2 − x3 | x3



x1●

x2



Osservazione Hanno senso le differenze (e le somme) e, quindi, per i caratteri quantitativi, è possibile effettuare operazioni aritmetiche (medie)

19

2.31

7.1

Variazione assoluta, misura relativa e variazione relativa

Si considerino due misurazioni x1 e x2 di una grandezza X. Esempi: • presenze alle esposizioni delle opere di Mirò e di Schiele • valore del titolo Sotheby’s al 30.01.2013 e al 28.02.2013 Si ipotizzi che x1 = 15 x2 = 20 Definizione 10 (Variazione assoluta tra x1 e x2 ).   > 0 se x2 > x1 = 0 se x2 = x1 ∆ = x2 − x1 =  < 0 se x2 < x1 ∆ = x2 − x1 = 20 − 15 = 5 2.32

Definizione 11 (Misura relativa di x2 rispetto a x1 ).   > 1 se x2 > x1 x2 = 1 se x2 = x1 =  x1 < 1 se x2 < x1 x2 20 = = 1.3333 x1 15 Se x1 e x2 sono due misurazioni di X in due istanti temporali, ad esempio t1 e t2 , la misura relativa viene denominata montante unitario. In ambito finanziario il montante unitario è il capitale che si riceve alla fine del periodo di investimento a fronte di un investimento unitario.

2.33

Definizione 12 (Variazione relativa tra x1 e x2 ).   > 0 se x2 > x1 x2 − x1 x2 = 0 se x2 = x1 = −1 =  x1 x1 < 0 se x2 < x1 x2 − x1 20 − 15 x2 5 20 = = −1 = = − 1 = 0.3333. x1 15 x1 15 15 La variazione relativa può essere espressa in termini percentuali       x2 − x1 x2 % = 100 −1 % 100 x1 x1 Rappresentazioni grafiche e con riferimento all’esempio abbiamo:

Cosa suggeriscono le seguenti rappresentazioni grafiche? (100 · 0.3333) % = 33.33%.

2.34

Esercizio 13 (Ideogrammi). Cosa suggerisce la seguente rappresentazione grafica? In seguito alle nuove assunzioni il numero di meccanici In seguito a nuove assunzioni il numero di meccanici

→ è raddoppiato è triplicato è quadruplicato

→ è raddoppiato è triplicato è quadruplicato

oppure

20



Cosa suggeriscono le seguenti rappresentazioni grafiche? le seguenti rappresentazioni grafiche?

Cosa suggeriscono Rappresentazioni grafiche

In seguito nuove assunzioni il numero di meccanici Cosa alle suggeriscono le seguenti rappresentazioni grafiche? In seguito alle nuove assunzioni il numero di meccanici In seguito alle nuove assunzioni il numero di meccanici  →  è raddoppiato è raddoppiato  è triplicato è triplicato →è quadruplicato è quadruplicato Esercizio Cosa suggerisce la seguente rappresentazione grafica? 14. è raddoppiato In seguito a nuove assunzioni il numero di meccanici è triplicato è quadruplicato oppure  → analogo a →  è raddoppiato è raddoppiato  è triplicato è triplicato → →è quadruplicato oppure è quadruplicato è raddoppiato è triplicato Esercizio Cosa suggerisce la seguente rappresentazione grafica? Di quanto è cresciuto il numero di abitazioni considerate 15. è quadruplicato Di quanto è cresciuto il numero di abitazioni considerate Di quanto è cresciuto numero di abitazioni considerate nell’ultima ricerca di mercato nell’ultima ricercail di mercato rispetto alle precedenti indagini? nell’ultima ricercaindagini? di mercato rispetto alle precedenti indagini? rispetto alle precedenti Di quanto è cresciuto il numero di abitazioni considerate nell’ultima ricerca di mercato rispetto alle precedenti indagini?  oppure  →  del 100%  del 150%  del 300% del 100% del 150% del 300%

2.35

2.36

2.37

→16. Cosa suggerisce la seguente rappresentazione grafica? Esercizio del 100% il numero oppure del 150% del Di quanto è cresciuto di abitazioni considerate nell’ultima ricerca di mercato   300% → oppure → rispetto alle precedenti indagini?  del 100% del 100% →

 del 150% del 150% analogo a

 del 200% del 200% →

del 100%

del 150%

del 200%

Letture di approfondimento Huff D. (1954) How to Lie with Statistics, Norton & Company. Spirer F.H., Spirer L., Jaffe A.J. (1998) Misused Statistics, 2nd ed., Marcel Dekker.

2.38 2.39

8

2.40

Scale per caratteri quantitativi

Definizione 17 (Scala per intervalli). È caratterizzata dalle seguenti due proprietà • zero convenzionale • unità di misura convenzionale Esempio: temperature, date di calendario, anno di nascita, . . . (confrontabili differenze semplici, non percentuali) 30◦

2.41

15◦

Esempio 18. Una temperatura di non è il doppio di una di invece la differenza tra 30◦ e 34◦ è doppia che tra 20◦ e 22◦ Si considerino le misurazioni in gradi Fahrenheit (F = 32 + 1.8C) ◦C

◦F

0 15 20 22 30 34

32.0 59.0 68.0 71.6 86.0 93.2 21

34 − 30 = 4 93.2 − 86 = 7.2 30/15 = 2

= 2(22 − 20) = 2 · 2 = 2(71.6 − 68) = 2 · 3.6 6= 86/59 = 1.4576

non ha quindi senso calcolare ’misure relative’ e nemmeno ’variazioni relative’.

2.42

Esempio 19. Se la temperatura in gradi Celsius passa da 20 a 24 si ha un aumento del 20% ◦C

◦F

20 24

68.0 75.2

In corrispondenza F(20) = 68 e F(24) = 75.2 e si registra un aumento del 10.59%

2.43

Definizione 20 (scala per rapporti). È caratterizzata dalle seguenti tre proprietà • zero oggettivo (naturale) • unità di misura convenzionale • modalità positive Esempio: peso, lunghezza, velocità, età (ha senso trattare le variazioni percentuali) Esempio 21. Una variazione di velocità da 60 a 90 km/h corrisponde all’incremento percentuale tra le stesse velocità misurate, ad esempio, in m/s Ricordando che 1km/h = 1000m/3600s = 0.2778m/s km/ora 60 90

2.44

m/sec 16.6667 25.0000

e la variazione relativa in termini percentuali risulta     25 − 16.6667 90 − 60 % = 50% = 100 · %. 100 · 60 16.6667 2.45

Osservazione I numeri indici (misure relative) (anno base = 100) sono definiti solo per caratteri misurati su scale per rapporti. Osservazione Le variazioni assolute, calcolate su un carattere definito su scala per intervalli, sono definite su scala per rapporti.

2.46

Esempio 22. L’anno 2000 non rappresenta il doppio dell’anno 1000 mentre un’età di 30 anni è superiore del 50% di quella di 20 anni (età = differenza tra anno corrente e anno di nascita) L’età ha uno zero oggettivo (età alla nascita). Esempio 23. La differenza tra 30◦ e 34◦ è doppia che tra 20◦ e 22◦ ●



0 convenzionale



20 22



30

34

32

68 71.6

86

93.2

oggettivo 0 2 oggettivo 0 3.6

oggettivo 0 oggettivo 0

7.2

si crea uno zero oggettivo.



4

2.47

22

9

Alcune considerazioni sulle scale di misura

L’impostazione seguita nella presentazione delle scale di misura fa riferimento a Stevens SS 1946 On the Theory of Scales of Measurement. Science 103, 677-680. Problema (Lord FM 1953 On the statistical treatment of football numbers. American Psychologist, 8, 750-775) A ciascun componente di 2 squadre universitarie (matricole, 2◦ anno) di football americano viene assegnato in maniera casuale il numero di maglia. Ricevuti i numeri i componenti della squadra del 1◦ anno lamentano che i numeri loro assegnati sono troppo bassi. Quesiti • Come possiamo classificare il carattere ’numeri assegnati’? • È possibile considerare il carattere ’numeri assegnati’ come un carattere di tipo quantitativo e utilizzare le conseguenti misure di sintesi per risolvere il problema? 2.48

Risposte • Si tratta di un carattere qualitativo sconnesso. • I sostenitori dell’approccio cosiddetto ’operazionalista’ affermando «Since the numbers don’t remember where they came from ...» applicherebbero ’senza farsi troppi scrupoli’ la media aritmetica per confrontare i due gruppi di numeri. In base alla classificazione proposta da Stevens tale prassi non può essere ammessa. Una possibile soluzione può essere individuata adottando un’approccio cosiddetto pragmatico. 2.49

Approccio pragmatico (Hand DJ 2004 Measurement theory and practice. The world through quantification, Wiley). Occorre definire in maniera molto accurata il contesto e le finalità dell’applicazione che stiamo conducendo. • nel caso in oggetto non esiste relazione alcuna tra i numeri assegnati e il sistema empirico basato sul livello di abilità dei giocatori. • l’applicazione dei metodi statistici propri dei caratteri quantitativi può avere senso solo se si considerano i due gruppi di numeri solo ’come numeri’, tenendo presente che non descrivono l’abilità dei giocatori. 2.50

Quesiti • La famosa batteria di test relativi al Quoziente Intellettivo che porta all’indicatore QI misura l’ ’intelligenza’ di un individuo? • Su quale scala è espressa? 2.51

Risposte • La batteria dei test misura, in realtà, il concetto sotteso all’insieme di quesiti proposti. La batteria di test e, in generale, ogni questionario rappresentano uno strumento di misurazione. 23

• In base all’approccio pragmatico possiamo dire che: «The precise property being measured is defined simultaneously with the procedure for measuring it, under the assumption of explicitly defining the meaning of the concept one is measuring» (Hand DJ in Kenett Salini (eds.) 2012 Modern Analysis of Customer Satisfaction Surveys, Wiley) e che «In a sense this makes the scale type the choice of the researcher» (Hand DJ 2004 Measurement theory and practice. The world through quantification, Wiley, p. 63.) 2.52

Osservazione Questi ragionamenti possono, in alcune situazioni, giustificare il trattamento delle scale presenti, ad esempio, nelle indagini di customer satisfaction che sarebbero da trattare come propriamente ordinali, ma che correntemente vengono utilizzate come se fossero di tipo metrico. (Essenzialità delle fasi di astrazione e di ricerca della definizione dei concetti che saranno oggetto di analisi.) Esercizio 24. Qual è la scala di misura della variabile ’quantità di cibo ingerito’? La risposta sembra ovvia: si tratta di un carattere quantitativo continuo misurato su scala per rapporti. E se questa variabile fosse considerata una misura del ’livello di fame/sazietà di un individuo’? 2.53

24

Sezione 3 Caratteri e loro rappresentazione grafica 3.1

Indice 1

2

1

Organizzazione dei dati elementari 1.1 Carattere qualitativo sconnesso . . . . . . . . . 1.2 Carattere qualitativo ordinato . . . . . . . . . . 1.3 Carattere quantitativo non raggruppato in classi 1.4 Carattere quantitativo raggruppato in classi . . 1.5 Riepilogo rappresentazioni grafiche . . . . . . 1.6 Esercizi . . . . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

Rappresentazione grafica delle serie storiche

25 26 30 33 35 44 45 47

3.2

Organizzazione dei dati elementari

Si costruiscono dei prospetti riassuntivi a partire dall’elenco delle osservazioni.

1 2 .. .

ragione soc. abc ayz .. .

n

zyz

matrice dati imprese settore dimensione n. dipendenti industria grande 123 terziario piccola 5 .. .. .. . . . industria media 60

fatturato 2 050 234 520 342 .. . 520 420

v1 , v2 , . . . , vn (generica colonna estratta dalla matrice dei dati) Se il numero di categorie/valori distinti è limitato risulta agevole raccoglierli in una tabella 3.3

Esempio 1.

n◦

imprese per settore xi agricoltura industria terziario

ni 76 195 257 528

tra le n = 528 unità sperimentali esistono n2 = 195 unità con modalità x2 = industria

25

3.4

Esempio 2. n◦ stanze per abitazione xi 1 2 3 4 5 6

ni 184 451 312 197 84 26 1254

tra le n = 1254 unità sperimentali esistono n3 = 312 unità con modalità x3 = 3

1.1

3.5

Carattere qualitativo sconnesso

carattere qualitativo sconnesso Si è rilevato il carattere X = ’tipologia dell’ultimo spettacolo di evasione a cui hai partecipato’, ottenendo, per 8 soggetti, le seguenti osservazioni ( f = film, t = teatro, c = concerto) soggetto 1 2 3 4 5 6 7 8 evento f f c c f t f c i valori possono essere riclassificati nella seguente tabella xi f t c

ni 4 1 3 8

fi 0.500 0.125 0.375 1.000

• xi : modalità • ni : frequenze assolute; numero di unità statistiche con modalità xi • fi = nni : frequenze relative; quota di unità statistiche con modalità xi 3.6

Definizione 3 (Mutabile statistica). L’insieme delle coppie {(xi , ni ), i = 1, . . . , k} è detto mutabile statistica. Perdita d’informazione xi f t c

ni 4 1 3 8

fi 0.500 0.125 0.375 1.000

Rispetto ai dati iniziali si è persa l’informazione su quale soggetto abbia partecipato a una determinata manifestazione.

26

3.7

Rappresentazione grafica (grafico a bastoncini o canne d’organo) ni oppure fi

xi f t c

ni 4 1 3 8

fi 0.500 0.125 0.375 1.000

f

t

c

xi

(modalità convenzionalmente equispaziate)

3.8

Il grafico di Pareto In presenza di un carattere qualitativo sconnesso l’ordine dato nella rappresentazione grafica alle categorie è arbitrario. Nel grafico di Pareto le categorie vengono ordinate in funzione decrescente delle rispettive frequenze. ni oppure fi

xi f t c

ni 4 1 3 8

fi 0.500 0.125 0.375 1.000

f

c

t

xi 3.9

27

frequenze assolute o relative? (1)

0.0e+00 2.0e+07 4.0e+07 6.0e+07 8.0e+07 1.0e+08 1.2e+08 1.4e+08

bovini suini ovini

numero capi USA CH 127976000 2005000 49602000 2006000 13346000 377000 190924000 4388000

composizione USA CH 0.67 0.46 0.26 0.46 0.07 0.09 1.00 1.00

ni

bovini

suini

ovini

xi

confronto in termini di dimensione 3.10

28

frequenze assolute o relative? (2) numero capi USA CH 127976000 2005000 49602000 2006000 13346000 377000 190924000 4388000

bovini suini ovini

composizione USA CH 0.67 0.46 0.26 0.46 0.07 0.09 1.00 1.00

0.0

0.2

0.4

0.6

0.8

1.0

fi

bovini

suini

ovini

xi

confronto in termini di composizione 3.11

È anche possibile costruire un grafico a torta (settori proporzionali alle frequenze) xi f t c

ni 4 1 3 8

fi 0.500 0.125 0.375 1.000

settore 180◦ 45◦ 135◦ 360◦

film

teatro

concerto

3.12

29

1.2

Carattere qualitativo ordinato

carattere qualitativo ordinato Si è rilevato il carattere X = ’votazione’ ottenuta da 8 soggetti, ottenendo le seguenti osservazioni (d = discreto, b = buono, o = ottimo) soggetto votazione

1 d

2 d

3 4 o o

5 d

6 b

7 d

8 o

i valori possono essere riclassificati nella seguente tabella (perdendo l’informazione sul voto conseguito da ciascun soggetto) xi d b o

ni 4 1 3 8

fi Ni 0.500 4 0.125 5 0.375 8 1.000

Fi 0.500 0.625 1.000

• xi : modalità • ni : frequenze assolute; numero di unità statistiche con modalità xi • fi = nni : frequenze relative; quota di unità statistiche con modalità xi 3.13

xi d b o • • • • •

ni 4 1 3 8

fi Ni 0.500 4 = 4 0.125 5 = 4 + 1 0.375 8 = 4 + 1 + 3 1.000

Fi 0.500 = 0.5 = 4/8 0.625 = 0.5 + 0.125 = 5/8 1.000 = 0.5 + 0.125 + 0.375 = 8/8

xi : modalità ni : frequenze assolute; numero di unità statistiche con modalità xi fi = nni : frequenze relative; quota di unità statistiche con modalità xi Ni : frequenze assolute cumulate; numero di unità statistiche con modalità fino a xi Fi = Nni = ∑ij=1 f j = n1 ∑ij=1 n j : frequenze relative cumulate; quota di unità statistiche con modalità fino a xi 3.14

30

Rappresentazione grafica (grafico a bastoncini o canne d’organo) ni oppure fi

xi d b o

ni 4 1 3 8

fi 0.500 0.125 0.375 1.000

d

b

o

xi

Per rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripartizione F(x)

3.15

Funzione di ripartizione • F(x) quota di unità statistiche con modalità fino a x La definizione di funzione di ripartizione ha carattere generale (anche per i caratteri quantitativi); Si osserva come x possa corrispondere anche a valori non osservati o inesistenti; Nell’esempio in esame: una votazione insufficiente o compresa tra buono e ottimo o anche superiore a ottimo. 3.16

31

Grafico Funzione di Ripartizione F(x) quota di unità statistiche con modalità fino a x

1.0

F(x)

0.8



Fi 0.500 0.625 1.000



0.6

fi Ni 0.500 4 0.125 5 0.375 8 1.000



0.4

ni 4 1 3 8

0.0

0.2

xi d b o

d

o

b x

3.17

Grafico frequenze cumulate È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la funzione N(x) • N(x) numero di unità statistiche con modalità fino a x

N(x)

6

8







4

fi Ni 0.500 4 0.125 5 0.375 8 1.000

2

ni 4 1 3 8

0

xi d b o

d

b

o

x 3.18

32

1.3

Carattere quantitativo non raggruppato in classi

carattere quantitativo non raggruppato in classi Valgono le stesse considerazioni fatte per i caratteri qualitativi ordinati. Occorre solo tenere presente, nel costruire le rappresentazioni grafiche, che le modalità del carattere sono delle misure e quindi potrebbero essere non equispaziate. 3.19

Si è rilevata la variabile X = ’votazione’ riportata da 8 soggetti, considerata metrica secondo l’approccio pragmatico, ottenendo le seguenti osservazioni soggetto votazione

1 24

2 24

3 30

4 30

5 24

6 28

7 24

8 30

i valori possono essere riclassificati nella seguente tabella xi 24 28 30

ni 4 1 3 8

fi 0.500 0.125 0.375 1.000

Ni 4 5 8

Fi 0.500 0.625 1.000 3.20

xi 24 28 30

ni 4 1 3 8

fi 0.500 0.125 0.375 1.000

Ni 4 5 8

Fi 0.500 0.625 1.000

• • • •

xi : modalità ni : frequenze assolute; numero di unità statistiche con modalità xi fi = nni : frequenze relative; quota di unità statistiche con modalità xi Ni = ∑ij=1 n j : frequenze assolute cumulate; numero di unità statistiche con modalità minore o eguale a xi • Fi = Nni = ∑ij=1 f j : frequenze relative cumulate; quota di unità statistiche con modalità minore o eguale a xi 3.21

Definizione 4 (Serie statistica). L’insieme delle coppie {(xi , ni ), i = 1, . . . , k} è detto serie statistica. 3.22

33

Rappresentazione grafica (grafico a bastoncini) ni oppure fi

xi ni 24 4 28 1 30 3 8

fi 0.500 0.125 0.375 1.000

20

22

24

26

28

30

32

x 3.23

Grafico Funzione di Ripartizione Per rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripartizione F(x) • F(x) quota di unità statistiche con modalità minore o eguale a x

1.0

F(x)

0.8



Fi 0.500 0.625 1.000



0.6

Ni 4 5 8



0.4

fi 0.500 0.125 0.375 1.000

0.2

ni 4 1 3 8

0.0

xi 24 28 30

20

22

24

26

28

30

32

x 3.24

34

Grafico Frequenze cumulate È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la funzione N(x) • N(x) numero di unità statistiche con modalità fino a x N(x)

6

8







4

fi Ni 0.500 4 0.125 5 0.375 8 1.000

0

2

xi ni 24 4 28 1 30 3 8

20

22

24

26

28

30

32

x 3.25

1.4

Carattere quantitativo raggruppato in classi

Nel caso di variabile continua si hanno troppi valori distinti!! È possibile raggruppare i dati in classi. In genere le classi sono chiuse a destra (da . . . escluso, a . . . incluso] Esempio 5. Si è rilevata l’altezza di 10 individui ottenendo le seguenti misurazioni: soggetto altezza

1 175

2 168

3 165 ↑ min

4 172

5 180

6 185 ↑ max

7 178

8 172

9 174

3.26

10 183

I valori assunti dalle unità statistiche possono essere rappresentati come punti sulla retta reale.







● ●









165

168

172

174 175

178

180

183

185

3.27

35

Si consideri un intervallo (h0 , hk ] inclusivo di tutti i valori,







● ●









165

168

172

174 175

178

180

183

185

(

]

h0

hk

(ma anche di possibili valori che potrebbero essere rilevati su altre unità statistiche) quindi h0 < min teorico e hk ≥ max teorico 3.28

si definisca una partizione dell’intervallo in k sottoinsiemi (denominati classi)

classe 1

...

classe 2

classe k

(

](

]

(

]

h0

h1

h2

h k−1

hk

Le k classi (h0 , h1 ], (h1 , h2 ], . . . , (hk−1 , hk ] costituiscono una partizione dell’intervallo (h0 , hk ]: 1. sono intervalli (insiemi) disgiunti 2. la loro unione coincide con (h0 , hk ] 3.29

Nel caso in esame si ipotizzi di utilizzare k = 3 classi. soggetto altezza

1 175

2 168

3 165 ↑ min

4 172

5 180

6 185 ↑ max

7 178

8 172

9 174

10 183

È, quindi, possibile assegnare ciascuno dei valori osservati a una e una sola delle classi.

( 162





165

168

](

](



● ●









172

174 175

178

180

183

185

170

180

] 190

Si osserva il carattere esaustivo della classificazione operata 3.30

36

Una volta definiti gli estremi delle classi, i seguenti valori soggetto altezza

1 175

2 168

3 165

4 172

5 180

6 185

7 178

8 172

9 174

10 183

possono essere riclassificati in una tabella i 1 2 3

classe hi−1 a hi h0 = 162 a h1 = 170 h1 = 170 a h2 = 180 h2 = 180 a h3 = 190

ni 2 6 2 10

• hi−1 : estremo inferiore della classe i-esima • hi : estremo superiore della classe i-esima • ni : frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi 3.31

Definizione 6 (Seriazione statistica). L’insieme degli elementi {((hi−1 , hi ), ni ), i = 1, . . . , k} è detto seriazione statistica. Osservazione Nella determinazione delle classi (hi−1 a hi ) occorre evitare le seguenti situazioni: • poche classi con frequenze troppo elevate, • molte classi con frequenze troppo basse (≤ 15). 3.32

Il fenomeno può essere analizzato non solo in termini assoluti, ma anche in termini relativi hi−1 a hi 162 a 170 170 a 180 180 a 190

• fi =

ni n:

ni fi 2 0.2 6 0.6 2 0.2 10 1

frequenze relative; quota di unità statistiche con valore tra hi−1 e hi 3.33

e si possono anche costruire le frequenze cumulate hi−1 a hi 162 a 170 170 a 180 180 a 190 • • • • •

ni fi 2 0.2 6 0.6 2 0.2 10 1

Ni 2 8 10

Fi 0.2 0.8 1

hi−1 , hi : estremi inferiore e superiore della classe i-esima ni : frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi fi = nni : frequenze relative; quota di unità statistiche con valore tra hi−1 e hi Ni : frequenze assolute cumulate; numero di unità statistiche con modalità ≤ hi Fi : frequenze relative cumulate; quota di unità statistiche con modalità ≤ hi 3.34

37

Perdita d’informazione soggetto altezza

1 175

2 168

3 165

4 172

5 180

6 185

hi−1 a hi 162 a 170 170 a 180 180 a 190

7 178

8 172

9 174

10 183

ni 2 6 2 10

Rispetto ai dati iniziali non si è solo persa l’informazione su quale soggetto abbia una determinata altezza, ma non si hanno più nemmeno i valori delle singole altezze all’interno di ciascuna classe.

3.35

Ipotesi di equidistribuzione delle unità statistiche all’interno di ciascuna classe hi−1 a hi ni 162 a 170 2 170 a 180 6 180 a 190 2 10

( 162



](











170



](



180



]



190

È come se si suddividesse ciascuna classe hi−1 a hi in ni sottoclassi e si posizionassero i dati in corrispondenza degli estremi superiori di queste sottoclassi. 3.36

Definizione 7 (Densità di frequenza (assoluta)). Rapporto tra il numero, ni , di unità statistiche nella classe i e l’ampiezza della classe ai = hi − hi−1 di =

ni ai

Essa rappresenta il numero (medio) di unità statistiche che cadono in un generico intervallo di ampiezza unitaria. graficamente, nell’ipotesi che ni  1, abbiamo

(

]

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

hi−1

hi intervallo unitario 3.37

La densità di frequenza può, naturalmente, essere espressa anche in termini relativi. Definizione 8 (Densità di frequenza (relativa)). Quota (media) di unità statistiche che vengono a cadere in un generico intervallo di ampiezza unitaria all’interno della classe di =

fi ai

rapporto tra quota di unità statistiche nella classe e ampiezza della classe ai = hi − hi−1 3.38

38

Rappresentazione grafica (istogramma) Sull’asse delle ordinate si riportano le densità di frequenza (assolute o relative) hi−1 a hi 162 a 170 170 a 180 180 a 190

ni fi 2 0.2 6 0.6 2 0.2 10 1.0

ai di (assolute) di (relative) 8 0.25 0.025 10 0.60 0.060 10 0.20 0.020

160

170

ni ai oppure fi ai

150

180

190

200

x 3.39

Interpretazione istogramma L’area di ciascun rettangolo nell’istogramma coincide con la frequenza assoluta (relativa) della classe

ni ai

ai · naii = ni

fi ai

ai

ai · afii = fi ai 3.40

39

Funzione di ripartizione F(x) Quota di unità statistiche con modalità minore o eguale a x hi−1 a hi 162 a 170 170 a 180 180 a 190

ni 2 6 2 10

fi 0.2 0.6 0.2 1

Ni 2 8 10

Fi 0.2 0.8 1

1.0

F(x)

0.8



0.2

0.4

0.6



0.0



● 150

160

170

180

190

200

x

sulla base delle informazioni disponibili possiamo solo quantificare il valore di F(x) solo per x = hi , i = 1, . . . , k, x < h0 e x > hk 3.41

40

Ipotizzando però l’equidistribuzione delle unità statistiche all’interno di ciascuna classe possiamo individuare la posizione delle singole ni osservazioni di ciascuna classe ottenendo (cfr. rappresentazione per caratteri discreti) hi−1 a hi 162 a 170 170 a 180 180 a 190

ni 2 6 2 10

fi 0.2 0.6 0.2 1

Ni 2 8 10

Fi 0.2 0.8 1

1.0

F(x) ●

0.8





0.6





0.4





0.2





0.0



150

160

170

180

190

200

x 3.42

41

Quando il numero di unità statistiche risulta sufficientemente elevato in ciascuna classe, ni  1, otteniamo

1.0

F(x) ● ● ● ● ● ● ● ● ●

0.8

● ● ● ●

0.6

● ● ●

0.4

● ● ●

0.2

● ● ● ● ● ● ● ● ● ●

0.0



150

160

170

180

190

200

x 3.43

In tal caso la funzione a gradini può essere approssimata con una spezzata

1.0

F(x)

0.8



0.2

0.4

0.6



0.0



● 150

160

170

180

190

200

x

Questa rappresentazione viene comunque utilizzata anche nel caso di ni qualsiasi, facendo l’ipotesi che ni  1.

42

3.44

È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la funzione N(x) • N(x) numero di unità statistiche con modalità fino a x hi−1 a hi 162 a 170 170 a 180 180 a 190

ni 2 6 2 10

fi 0.2 0.6 0.2 1

Ni 2 8 10

N(x) 10



4

6

8



2



0

● 150

160

170

180

190

200

x 3.45

43

1.5

Riepilogo rappresentazioni grafiche

qualitativo sconnesso

Frequenze semplici ni , fi Tipologia carattere qualitativo quantitativo quantitativo ordinato no classi con classi ni ai oppure fi ai

3.46

qualitativo sconnesso

qualitativo ordinato

Frequenze cumulate Ni , Fi Tipologia carattere quantitativo no classi

quantitativo con classi ●









non definita





3.47

Osservazione Per ogni variabile presente nella matrice dei dati

1 2 .. .

ragione soc. abc ayz .. .

n

zyz

matrice dati imprese settore dimensione n. dipendenti industria grande 123 terziario piccola 5 .. .. .. . . . industria media 60

fatturato 2 050 234 520 342 .. . 520 420

siamo in grado di effettuare sintesi univariate (tabelle e grafici). Nel seguito considereremo ulteriori analisi (indici di posizione e variabilità). 3.48

44

1.6

Esercizi

Eventuali riferimenti in parentesi riportano numero del tema d’esame, data e numero di esercizio della corrispondente prova di Statistica I (Università Cattolica del Sacro Cuore, Milano, Facoltà di Economia, Interfacoltà di Economia-Lettere). Esercizio 9. Nella seguente figura sono riportate le Funzioni di Ripartizione relative alle seriazioni statistiche: • X: distribuzione dei redditi nella località A; • Y : distribuzione dei redditi nella località B. ●

1



A ●

0.8



0.7

B



0.2



0

10

20

30

40

50

60

In quale località si ha presenza di redditi più elevati? A ≺ B: i redditi in B sono superiori a quelli in A A  B: i redditi in A sono superiori a quelli in B 3.49

45

Esercizio 10 (T 162, 24.06.1998, A). Una delegazione provinciale della F.I.C. (Federazione Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio espletati dai suoi 8 componenti (A, B, . . . , H) durante l’anno. Si riportano il tipo di sport (S, nelle categorie n = nuoto, s = sci, c = ciclismo), la stagione del servizio (T , a = autunno, i = inverno, p = primavera, e = estate), la durata del servizio (D, in minuti) e l’entità del rimborso complessivamente percepito per il servizio (R, in e). serv cron S T D R

1 B n a 120 20

2 B n a 120 20

3 H c a 360 45

4 G c a 60 60

5 F n i 180 30

6 A s i 360 50

7 E s i 360 70

8 E n i 120 30

9 B s i 360 60

10 C n p 180 45

11 D s p 480 60

12 D s p 420 70

13 B c p 300 40

14 C c p 420 60

15 G n p 180 30

1. Si rappresenti graficamente la mutabile S. 2. Si rappresentino graficamente le frequenze assolute e la funzione di ripartizione della variabile D. 3. Si raggruppino i valori di R in tre classi chiuse a destra di ampiezza 25, considerando come estremo inferiore della prima classe il valore 10, e se ne dia una rappresentazione grafica. 3.50

Esercizio 11 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’): ’visitatori esperti’ hi−1 a hi fi 5 a 10 0.40 10 a 20 0.40 20 a 25 0.20 1.00

’visitatori occasionali’ hi−1 a hi fi 5 a 10 0.76 10 a 20 0.08 20 a 25 0.16 1.00

1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le due tipologie di visitatori. 3.51

Esercizio 12 (T 180, 14.09.2000, 1). Lo spessore X china è compreso tra 15.2 e 16.5 mm. Si individuino le ampiezze delle 4 classi (Ii ) in cui è modo tale che: I1 I2 I3 fi 0.05 0.09 0.72 di 0.25 0.45 2.40

delle lamine prodotte da una macripartito l’intervallo (15.1; 16.5] in I4 0.14 0.20

1. Si costruisca l’istogramma della variabile X. 2. Supponendo che dalla produzione vengano scartate le lamine con spessore minore di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito, la percentuale di lamine eliminate. 3.52

46

2

Rappresentazione grafica delle serie storiche

Le serie storiche Una serie storica {Xt } è una sequenza di valori x0 , x1 , . . . , xT registrati: • in corrispondenza degli istanti temporali t = 0, 1, 2, . . . , T • al termine degli intervalli (t − 1,t], t = 1, 2, . . . , T . Si pensi, ad esempio, alla quotazione giornaliera di un titolo di borsa oppure alla realizzazione mensile o trimestrale del fatturato di un’azienda. Serie storiche di stock e di flusso • La serie storica si definisce di stock se i riferimenti temporali sono istanti temporali (’capitale sociale’, ’quotazione di chiusura di un titolo’) • La serie storica si definisce di flusso se i riferimenti temporali sono degli intervalli temporali (’risultato economico di esercizio’, ’volume degli scambi’) 3.53

3.54

A partire dai valori osservati è possibile definire: • la sequenza delle variazioni assolute rispetto a un particolare istante temporale, ad esempio t = 0: x0 − x0 = 0, x1 − x0 , . . . , xT − x0 • la sequenza delle misure relative rispetto a un particolare istante temporale, ad esempio t = 0: x0 x1 xT = 1, , . . . , x0 x0 x0 • la sequenza delle variazioni relative rispetto a un particolare istante temporale, ad esempio t = 0: x0 − x0 x1 − x0 x1 xT − x0 xT = 0, = − 1, . . . , = −1 x0 x0 x0 x0 x0 47

che possono anche essere espresse come variazioni relative percentuali (se moltiplicate per 100):     xT − x0 x1 − x0 xT − x0 x1 − x0 ,..., = 100 0, ,..., % 0, x0 x0 x0 x0     x1 xT x1 xT 0, − 1, . . . , − 1 = 100 0, − 1, . . . , − 1 % x0 x0 x0 x0 3.55

Esempio 13. Serie storica {Xt } delle valutazioni contabili del patrimonio dell’azienda Y risultanti dai bilanci degli esercizi 2003, . . . , 2007 (dati in milioni di e); le sequenze delle xt variazioni assolute xt − xt−1 , delle misure relative xt−1 e delle variazioni relative semplici e percentuali,

xt −xt−1 xt−1

t 0 1 2 3 4

e 100

Anno 2003 2004 2005 2006 2007

xt −xt−1 xt−1 %,

xt 518 550 540 580 608

definite rispetto agli istanti temporali t − 1:

xt − xt−1

xt xt−1

xt −xt−1 xt−1

%

32 −10 40 28

1.0618 0.9818 1.0741 1.0483

0.0618 −0.0182 0.0741 0.0483

6.18 −1.82 7.41 4.83 3.56

650

Si riportano le possibili rappresentazioni grafiche delle serie storiche oggetto di analisi.

600



550



● ●

450

500



2002

2003

2004

2005

2006

2007

2008

Serie storica xt che descrive l’andamento del patrimonio dell’azienda Y tra il 2003 e il 2007 (dati in milioni di e) (stock)

48

3.57

50 40 30 20 10 0

2003

2004

2005

2006

2007

2008

−20

−10

2002

3.58

650

Serie storica xt − xt−1 che descrive le variazioni del patrimonio dell’azienda Y tra il 2003 e il 2007 (dati in milioni di e) (flusso)



550

● ●



450



2003

2004

2005

2006

2007

2008

2002

2003

2004

2005

2006

2007

2008

2002

2003

2004

2005

2006

2007

2008

0.90

1.00

1.10

−20

0

20

40

2002

xt Serie storiche xt , xt −xt−1 e xt−1 che descrivono rispettivamente il patrimonio dell’azienda Y , le sue variazioni semplici e i valori relativi, di anno in anno, tra il 2003 e il 2007.

49

3.59

40 20 0 −20

2003

2004

2005

2006

2007

2008

2002

2003

2004

2005

2006

2007

2008

2002

2003

2004

2005

2006

2007

2008

−0.04 0.00

0.04

0.08

−0.04 0.00

0.04

0.08

2002

Serie storiche che descrivono le variazioni assolute xt − xt−1 , le variazioni relative semplix −x x −x ci e percentuali, t xt−1t−1 e 100 t xt−1t−1 %, subite di anno in anno dal patrimonio dell’azienda Y tra il 2003 e il 2007.

3.60

Esercizio 14. Si ricostruiscano le rappresentazioni grafiche precedenti con riferimento alla seguente serie storica: t 0 1 2 3 4

Anno 2000 2001 2002 2003 2004

xt 100 50 100 150 100

xt − xt−1

xt xt−1

xt −xt−1 xt−1

100

xt −xt−1 xt−1 %

3.61

50

Sezione 4 La classificazione congiunta di due caratteri 4.1

Indice 1

La classificazione congiunta di due caratteri

1

51

4.2

La classificazione congiunta di due caratteri

Esempio 1. Con riferimento ai dati, inerenti 15 servizi di cronometraggio complessivamente espletati da 8 componenti della F.I.C. (Federazione Italiana Cronometristi), cfr. Esercizio nella sezione precedente. servizio D R

1 120 20

2 120 20

3 360 45

4 60 60

5 180 30

6 360 50

7 360 70

8 120 30

9 360 60

10 180 45

11 480 60

12 420 70

13 300 40

14 420 60

15 180 30

si vuole studiare il comportamento congiunto delle variabili D ed R. A tal fine si raggruppano i valori di D nelle tre classi (50, 180], (180, 360], (360, 480] e i valori di R nelle tre classi (10, 35], (35, 60], (60, 85]. D\R 50 a 180 180 a 360 360 a 480

10 a 35

35 a 60

60 a 85

Ciascuna unità statistica può essere assegnata a una e una sola delle celle nella tabella; occorre conteggiare quante unità statistiche corrispondono a ciascuna combinazione delle classi di D = durata del servizio e R = entità del rimborso D\R 50 a 180 180 a 360 360 a 480 n• j

10 a 35 5 0 0 5

35 a 60 2 4 2 8

60 a 85 0 1 1 2

4.3

ni• 7 5 3 15

Il valore 4 nella seconda riga, seconda colonna (parte interna della tabella) indica che tra le 15 unità statistiche ve ne sono 4 che hanno prestato una durata del servizio tra 180 e 360 minuti ricevendo un rimborso compreso tra 35 e 60 e. Esso viene indicato con n22 , dove il primo indice sta a indicare la classe della variabile D (indice di riga) mentre il secondo indice indica la classe della variabile R (indice di colonna). 51

4.4

Abbiamo quindi D\R 50 a 180 180 a 360 360 a 480 n• j

10 a 35 n11 = 5 n21 = 0 n31 = 0 n•1 = 5

35 a 60 n12 = 2 n22 = 4 n32 = 2 n•2 = 8

60 a 85 n13 = 0 n23 = 1 n33 = 1 n•3 = 2

ni• n1• = 7 n2• = 5 n3• = 3 n = 15

• ni j frequenze congiunte; numero di unità statistiche con modalità (appartenenti alla classe) corrispondente alla i-esima riga e j-esima colonna. • ni• frequenze marginali di D; numero di unità statistiche con i-esima modalità (appartenenti alla i-esima classe) di D; (somma delle frequenze congiunte nella i-esima riga; • n• j frequenze marginali di R; numero di unità statistiche con j-esima modalità (appartenenti alla j-esima classe) di R; (somma delle frequenze congiunte nella j-esima colonna. Si osserva come nella tabella D\R 50 a 180 180 a 360 360 a 480 n• j

10 a 35 n11 = 5 n21 = 0 n31 = 0 n•1 = 5

35 a 60 n12 = 2 n22 = 4 n32 = 2 n•2 = 8

60 a 85 n13 = 0 n23 = 1 n33 = 1 n•3 = 2

4.5

ni• n1• = 7 n2• = 5 n3• = 3 n = 15

figurino anche le frequenze assolute delle due variabili D e R separatamente considerate D 50 a 180 180 a 360 360 a 480

ni• 7 5 3 15

R 10 a 35 35 a 60 60 a 85

n• j 5 8 2 15

La frequenza n1• = 7, attinente alla classe 50 a 180 è stata ottenuta sommando n11 = 5, n12 = 2 e n13 = 0. Il simbolo • sostituisce l’indice rispetto al quale si è effettuata la somma: 3

7 = n1• = n11 + n12 + n13 =

∑ n1 j

j=1

4.6

Definizione 2 (Variabile/Mutabile statistica doppia). L’insieme (X,Y ) delle terne {xi , y j , ni j , i = 1, 2 . . . , h; j = 1, 2, . . . , k}, dove gli elementi xi , y j possono essere categorie, valori singoli, classi o valori centrali delle classi, è detto mutabile/variabile statistica doppia. 4.7

Le coppie di dati elementari {vr , wr } (r = 1, 2, . . . , n) sono riassunte in h modalità/classi xi e k modalità/classi y j X \Y x1 .. .

y1 n11 .. .

... ...

yj n1 j .. .

... ...

yk n1k .. .

ni• n1• .. .

xi .. .

ni1 .. .

...

ni j .. .

...

nik .. .

ni• .. .

xh n• j

nh1 n•1

... ...

nh j n• j

... ...

nhk n•k

nh• n

52

xi , y j = eventuali valori centrali ni• = totali di riga = ∑kj=1 ni j n• j = totali di colonna = ∑hi=1 ni j h

k

h

k

∑ ∑ ni j = ∑ ni• = ∑ n• j = n

i=1 j=1

i=1

j=1

Dalla mutabile/serie/seriazione doppia è possibile ricavare due distribuzioni marginali univariate.

4.8

Esempio 3. X = spessore, Y = durezza X \Y 5.5 a 7.5 7.5 a 9.5 9.5 a 11.5 11.5 a 13.5 n• j

70 a 80 6 25 7 2 40

80 a 90 9 29 10 4 52

90 a 100 9 25 9 5 48

ni• 24 79 26 11 140

Nel caso in esame siamo in presenza di una seriazione statistica doppia, le cui marginali sono xi 5.5 a 7.5 7.5 a 9.5 9.5 a 11.5 11.5 a 13.5

ni• 24 79 26 11 140

yj 70 a 80 80 a 90 90 a 100

n• j 40 52 48 140 4.9

Osservazione Non è immediato stabilire, con la semplice lettura della tabella, se lo spessore (X) induce un aumento di durezza (Y ); necessitano, a tale proposito, ulteriori strumenti statistici che verranno presentati nell’ambito dell’analisi statistica bivariata. 4.10

53

Sezione 5 Indici di posizione (1) 5.1

Indice 1

Indici sintetici o statistiche

55

2

Indici di posizione

55

3

La moda

57

4

I percentili

60

5

Box & Whiskers plot

74

6

Le medie potenziate 6.1 La media aritmetica (r = 1) . . . . . . . . . . . 6.2 La media armonica (r = −1) . . . . . . . . . . 6.3 La media quadratica (r = 2) . . . . . . . . . . 6.4 Il Teorema fondamentale sulle medie potenziate 6.5 La media geometrica (r = 0) . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

81 81 82 83 84 85

7

Esercizi

86

8

La media aritmetica è sempre media in senso stretto

88

9

L’operatore media aritmetica

90

10 Interpretazione fisica della media aritmetica

90

11 Media aritmetica di una trasformazione lineare

91

12 I momenti

92

1

Indici sintetici o statistiche

Date le n osservazioni campionarie v1 , v2 , . . . , vn , eventualmente raccolte in una serie statistica X = {(xi , ni ), i = 1, . . . , k},

55

5.2

un indice sintetico è una funzione I = α(v1 , v2 , . . . , vn ) = α(X) 5.3

2

Indici di posizione

? sono migliori gli studenti maschi o le femmine ? si mangiano più polli pro-capite in Italia o in Danimarca ? (si confrontano statistiche che rappresentano i livelli/valori tipici)

5.4

LA STATISTICA di Trilussa

Sai ched’è la statistica? È na’ cosa che serve pe fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che spósa. Ma pè me la statistica curiosa è dove c’entra la percentuale, pè via che, lì,la media è sempre eguale puro co’ la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche d’adesso risurta che te tocca un pollo all’anno: e, se nun entra nelle spese tue, t’entra ne la statistica lo stesso perch’è c’è un antro che ne magna due. A seconda della scala di misurazione un indice di posizione dovrà soddisfare le seguenti caratteristiche: • da nominale in su: modalità/valore più simile a tutti (o alla maggioranza) 1. internalità uno dei valori assunti dal fenomeno (condizione di Cauchy) • da ordinale in su: valore centrale della distribuzione 1. internalità xmin ≤ α(X) ≤ xmax (condizione di Cauchy) 56

5.5

2. monotonicità X ≤ Y → α(X) ≤ α(Y ) • da scala per intervalli (dati metrici): valore più vicino a tutti 3. moltiplicatività α(cX) = cα(X) con c costante arbitraria

5.6

È possibile definire i seguenti indici di posizione, in accordo alla scala di misurazione del carattere oggetto di studio • da nominale in su → moda (o norma) • da ordinale in su → mediana (o percentili) • da scala per intervalli (dati metrici) → medie

5.7

Osservazioni • la proprietà di Cauchy è irrinunciabile • 1) 2) e 3) media in senso stretto • se cade la proprietà di monotonicità la media si dice in senso lato Alcuni indici tipici • • • •

moda percentili x p di ordine p (0 ≤ p ≤ 1) mediana medie potenziate – aritmetica – armonica – geometrica – quadratica .. .

(la moda è definibile anche per caratteri qualitativi sconnessi)

3

La moda

Definizione 1 (Moda per caratteri qualitativi e caratteri quantitativi con valori non raggruppati in classi). Moda(X) = {x j : n j = max ni } = {x j : f j = max fi } (modalità/valore di massima frequenza)

57

5.8

5

ni oppure fi

ni 2 5 3 2 12 0

xi 2 4 7 8

0

2

4

Moda(X)=4

6

8

10

xi

5.9

Definizione 2 (Moda per caratteri quantitativi con valori raggruppati in classi).     nj fj ni fi Moda(X) = x j : = max = xj : = max aj ai aj ai (valore centrale classe di max densità di frequenza)

oppure 0

ni ai

xi ni di 2a4 6 3 4a5 4 4 5 a 7 10 5 7a8 8 8 8a9 2 2 30

fi ai

10

ni ai oppure fi ai

0

2

4

6

8

10

Moda(X)=7.5

5.10

(se Moda(X) esiste, cioè unimodale . . . ) Esempio 3. Si consideri la distribuzione degli spettacoli organizzati dalle associazioni culturali di una regione tipo spettacolo teatrale concerto musica classica concerto rock concerto big band totale

n. eventi 82 125 160 158 525

La distribuzione è quasi bimodale! La nozione di media espressa dalla moda può avere, a volte, un carattere molto incerto. Osservazione Cadendo la monotonicità la moda è media solo in senso lato. 58

5.11

Esempio 4. Distribuzione delle auto di servizio di 15 aziende X: osservazioni al tempo t, Y : osservazioni al tempo t + 1 yi ni ni 5 1 5 7 2 4 2 3 2 1 4 4 15 15 (3 aziende con due auto hanno raddoppiato il parco macchine) xi 1 2 3 4

tempo t: tempo t + 1:

1 1 =

1 1 =

1 1 =

1 1 =

1 1 =

2 2 =

Moda(X) = 2

2 2 =

2 2 =

2 2 =

2 3 >

2 3 >

2 4 >

3 4 >

3 4 >

4 4 =

Moda(Y ) = 1

anche se y( j) ≥ x( j) ( j = 1, . . . , 15) abbiamo Moda(Y ) < Moda(X)!!

5.12

Esempio 5 (Carattere qualitativo sconnesso). Si considerano le distribuzioni percentuali del colore dei capelli di alcune scolaresche colore nero castano biondo altro

S1 0.10 0.25 0.60 0.05 1

S2 0.30 0.30 0.30 0.10 1

S3 0.70 0.20 0.05 0.05 1

La moda è una delle modalità !!! Ha senso solo la moda (modalità comune al maggior numero di unità statistiche) Non è possibile calcolare mediana o media ! Osservazione S2 è plurimodale 5.13

Esercizio 6. Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’): ’visitatori esperti’ hi−1 a hi fi 5 a 10 0.40 10 a 20 0.40 20 a 25 0.20 1.00

’visitatori occasionali’ hi−1 a hi fi 5 a 10 0.76 10 a 20 0.08 20 a 25 0.16 1.00

1. Si rappresentino graficamente le funzioni di ripartizione. 2. In base ai grafici precedenti si individui la moda delle due distribuzioni. 5.14

59

4

I percentili • Cosa sono e come usarli (definizione preliminare) Si pensi ad esempio al problema della determinazione dei valori di reddito che definiscono gli scaglioni di imposizione fiscale. Un criterio è quello di considerare le quote di unità statistiche che risultano collocate in ciascuna classe di reddito.

• • • • •

Limiti della definizione preliminare Definizione formale ed esempi applicativi Procedura grafica semplificata Metodi di calcolo presenti nei software applicativi Esempi di calcolo della mediana 5.15

Cosa sono e come usarli (definizione preliminare) Si consideri una serie di n valori distinti riferiti a una variabile misurata su scala almeno ordinale (ad esempio l’altezza in cm di n = 150 individui) agt

zik

tjy

iwm

rqv

codice individuo

scl

heo

tka

qrh

gvm

koy

xhq

qsy

ueb

gyn

kpu

altezza 5.16

60

numero d'ordine individui per altezza (1,2,...,n)

Si cerca il valore x p che divide la distribuzione dei dati ordinati in due parti:

altezza

5.17

61

1−p

F(x)

p

p

altezza

xp

altezza

xp

• una quota p dei soggetti ha valore inferiore o uguale a x p • una quota 1 − p dei soggetti ha valore superiore o uguale a x p 5.18

Alcuni percentili notevoli • x0.25 = Q1 = 1◦ quartile • x0.50 = Q2 = 2◦ quartile = mediana • x0.75 = Q3 = 3◦ quartile 5.19

Esempio 7. Se il percentile di ordine 0.30 della distribuzione delle altezze dei soggetti di una collettività è pari a x0.30 = 130 cm, ciò significa che: • il 30% dei soggetti ha un’altezza minore o uguale a 130 cm • il 70% dei soggetti un un’altezza non inferiore a 130 cm.

Limiti della definizione preliminare Osservazione Il percentile è individuabile, in maniera univoca, solo in situazioni particolari (ad esempio, n  100 e variabile statistica continua che si manifesta con un elevato numero di valori distinti). 5.20

62

Esempio 8. Si vuole determinare x0.5 , percentile di ordine 0.5 dell’altezza delle seguenti n = 12 unità statistiche

xxx xxxxxx

x

xx

Una volta ordinate dalla più piccola alla più grande xx

xxxxxx

xxxx

si assegni la posizione (rango) all’interno dei dati ordinati x

x x

x x

x xxx

xxx

(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

Nessuna delle altezze assunte dai soggetti divide la distribuzione esattamente in 2 parti.

x

x x

x x

x xxx

5.21

xxx

(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

Ogni valore strettamente compreso tra l’altezza x(6) della sesta unità statistica e x(7) , altezza della settima unità statistica, divide la distribuzione esattamente in 2 parti: • la quota di soggetti con altezza non superiore a quel valore è esattamente pari al 50% (6/12). • la quota di soggetti con altezza non inferiore a quel valore è esattamente pari al 50% (6/12).

5.22

Esempio 9. Si vuole determinare x0.5 , percentile di ordine 0.5, per le seguenti n = 12 unità statistiche x

xxx xxxxxxx x

le si ordina e si assegna la posizione all’interno dei dati ordinati x x

x x

x xxxx

xxx

(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzione esattamente in 2 parti x x

x x

x xxxx

5.23

xxx

(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

Le altezze della sesta e settima (e ottava) unità statistica coincidono, diciamo sono uguali a c: • la quota di soggetti con altezza non superiore a c è superiore al 50% (8/12). • la quota di soggetti con altezza non inferiore a c è superiore al 50% (7/12). 5.24

Esempio 10. Si vuole determinare x0.5 , percentile di ordine 0.5, per le seguenti n = 5 unità statistiche

xxxxxx 63

le si ordina e si assegna la posizione all’interno dei dati ordinati x

x xx

x

(1)(2)(3)(4)(5)

Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzione esattamente in 2 parti x

x xx

5.25

x

(1)(2)(3)(4)(5)

Si consideri l’altezza della terza unità statistica x(3) : • la quota di soggetti con altezza non superiore a x(3) è superiore al 50% (3/5). • la quota di soggetti con altezza non inferiore a x(3) è superiore al 50% (3/5). Occorre, quindi, una definizione più generale di percentile.

5.26

Definizione formale ed esempi applicativi x p è un valore x: • non superato da almeno una frazione p delle unità statistiche e contemporaneamente • superato da almeno una frazione 1 − p delle unità statistiche x

x xxx

xxx

x xxxx

xxx

x x

x x

(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

x x

x x

(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

Definizione 11 (Percentile - definizione formale). ( " # " xp =

x:



fi ≥ p ∩

xi ≤x



#) fi ≥ (1 − p)

xi ≥x

x p = {x : [F(x) ≥ p] ∩ [1 − F(x) + f req(x) ≥ (1 − p)]} dove con f req(x) si è indicata la frequenza relativa corrispondente al valore x. 5.27

In particolare assumiamo che: • se p = 0 → x0 = xmin = x(1) • se p = 1 → x1 = xmax = x(n) Per determinare il percentile possiamo contemporaneamente fare riferimento: • alla funzione di ripartizione F(x) → quota di unità statistiche con modalità minore o uguale a x: → {x : F(x) ≥ p} • alla funzione di ripartizione retrocumulata R(x) → con modalità maggiore o uguale a x:

5.28

quota di unità statistiche

→ {x : R(x) ≥ (1 − p)} Definizione 12 (Funzione di ripartizione retrocumulata R(x)). Si definisce funzione di ripartizione retrocumulata, detta anche funzione di sopravvivenza, la funzione che a ogni x fa corrispondere la quota di unità statistiche con modalità non inferiore a x.

64

5.29

Relazione tra F(x) e R(x) Seriazioni statistiche Se il carattere è quantitativo continuo (classi) R(x) = 1 − F(x). F(x) e R(x) danno la ’stessa’ informazione con riferimento alla determinazione del percentile: x p = F −1 (p) = R−1 (1 − p). Mutabili/serie statistiche In presenza di un carattere qualitativo ordinato e di un carattere quantitativo non rilevato con classi vale: Ri = 1 − Fi + fi . 5.30

Calcolo Fi e Ri xi 2 4 5 7 8

ni 4 6 4 1 5 20

fi Fi 0.20 0.30 0.20 0.05 0.25 1

Ri

5.31

Per trovare x p dobbiamo cercare l’insieme dei valori che soddisfa le due condizioni  F(x) ≥ p R(x) ≥ 1 − p

5.32 5.33 5.34 5.35 5.36

xi 2 4 5 7 8

ni 4 6 4 1 5 20

fi 0.20 0.30 0.20 0.05 0.25 1

Fi 0.20 0.50 0.70 0.75 1.00

Ri 1.00 0.80 0.50 0.30 0.25

5.37 5.38 5.39 5.40 5.41 5.42

• p = 0.25 x0.25 = 4 F(4) = 0.5 ≥ 0.25

e R(4) = 0.8 ≥ 0.75

• p = 0.50 x0.5 = 4

ma anche

x0.5 = 5

F(4) = 0.5 ≥ 0.5

e

R(4) = 0.8 ≥ 0.5

F(5) = 0.7 ≥ 0.5

e

R(5) = 0.5 ≥ 0.5

4 ≤ x0.5

≤5

Si può utilizzare il valore centrale x0.5 =

x(10) + x(11) 4+5 = 4.5 = . 2 2 65

5.43

5.44

• p = 0.75 x0.75 = 7

ma anche

F(7) = 0.75 ≥ 0.75

e

F(8) = 1 ≥ 0.75

e

7 ≤ x0.75

x0.75 = 8

R(7) = 0.3 ≥ 0.25 R(8) = 0.25 ≥ 0.25 ≤8

Si può utilizzare il valore centrale x0.75 =

7+8 = 7.5. 2 5.45

66

Procedura grafica semplificata

1.0

Per determinare x p possiamo però anche fare riferimento alla sola funzione di ripartizione. Se il carattere è qualitativo ordinato oppure siamo in presenza un carattere quantitativo con valori non raggruppati in classi abbiamo

0.8



0.75



Ni 4 10 14 15 20

Fi 0.20 0.50 0.70 0.75 1.00

0.5



0.4

ni 4 6 4 1 5 20

0.2

0.25 ●

0.0

xi 2 4 5 7 8

0.6



0

2

4

5

7

8

10

x0.25

• p = 0.25

x0.25 = F −1 (0.25) = 4 x0.5 = F −1 (0.5) =??

x0.75 = F −1 (0.75) =?? 5.46

• p = 0.5 x(10) = 4 ≤ x0.5 < 5 = x(11) si ricorda che x(10) = 4 e x(11) = 5 soddisfano la definizione formale di mediana. Si può utilizzare il valore centrale x0.5 =

4+5 = 4.5. 2 5.47

• p = 0.75 x(15) = 7 ≤ x0.75 < 8 = x(16) si ricorda che x(15) = 7 e x(16) = 8 soddisfano la definizione formale di terzo quartile. Si può utilizzare il valore centrale x0.75 =

7+8 = 7.5. 2

67

5.48

1.0

In presenza di classi, se ni  1, abbiamo

0.9



0.6

fi Fi 0.2 0.2 0.1 0.3 0.3 0.6 0.3 0.9 0.1 1 1

0.3

F(x)





p 0.2

ni 200 100 300 300 100 1000



0.0

xi 2a4 4a5 5a7 7a8 8a9





2

4

xp

5

7

8

9

x0.25 = 4.5

1.0

5.49

0.9



0.6 0.3

F(x)





0.2

fi Fi 0.2 0.2 0.1 0.3 0.3 0.6 0.3 0.9 0.1 1 1

0.0

xi 2a4 4a5 5a7 7a8 8a9







2

4

5

7

8

9

x0.3

x0.3 = 5 x0.5 =?? 5.50

68

1.0

Per determinare il valore della mediana, percentile di ordine 0.5, identifichiamo in primo luogo la classe di appartenenza, 5 a 7 (corrispondente alla prima Fi ≥ 0.5)

0.9



0.6 0.3

F(x)



0.5



0.2

fi Fi 0.2 0.2 0.1 0.3 0.3 0.6 0.3 0.9 0.1 1 1

0.0

xi 2a4 4a5 5a7 7a8 8a9







2

4

5

x0.5

7

8

9

x

Osserviamo come il punto 0.5 sull’asse delle ordinate sia a 2/3 del segmento che unisce i punti 0.3 e 0.6; quindi anche x0.5 sull’asse delle ascisse sarà in posizione 2/3 sul segmento che unisce i punti 5 e 7, vale a dire x0.5 = 5 + 23 · 2 = 6.3333. Segue la formula teorica: x p = hi−1 +

5.51

p − Fi−1 p − Fi−1 ai = hi−1 + ai Fi − Fi−1 fi

dove: • • • •

hi−1 : estremo inferiore della classe (i) di appartenenza del percentile di ordine p, ai : ampiezza della classe i, Fi−1 e Fi : valori della funzione di ripartizione in hi−1 e hi , fi = Fi−1 − Fi : frequenza relativa della classe i.

69

5.52

Metodi di calcolo presenti nei software applicativi Come si è visto, in molte situazioni, la determinazione del percentile avviene in maniera ’convenzionale’. Con riferimento alla serie statistica xi 2 4 5 7 8

ni 4 6 4 1 5 20

fi 0.20 0.30 0.20 0.05 0.25 1

Fi 0.20 0.50 0.70 0.75 1.00

Ri 1.00 0.80 0.50 0.30 0.25

per la mediana, x0.5 , e per il terzo quartile, x0.75 , si sono scelti 4.5 e 7.5, valori intermedi tra 4 e 5 e tra 7 e 8. Si osserva come qualsiasi altro valore negli intervalli [4, 5] e [7, 8] avrebbe potuto essere utilizzato per x0.5 e per x0.75 . Se il numero delle unità statistiche è ridotto, i valori che soddisfano la definizione formale di percentile potrebbero anche essere molto dissimili tra loro.

5.53

Esistono in letteratura diverse formule per il calcolo dei percentili, si veda Hyndman, R. J., Fan, Y. (1996) Sample quantiles in statistical packages, American Statistician, 50, 361-365. Si riporta una delle definizioni, comunemente utilizzata nei pacchetti statistici di uso corrente.

5.54

Definizione 13 (Calcolo ’preciso’ x p ). x p = (1 − γ) · x( j) + γ · x( j+1) dove x( j) è l’elemento che occupa la posizione j all’interno dei dati ordinati con j = [np + (1 − p)] [·] parte intera dell’argomento, e γ = np + (1 − p) − j. 5.55

Esempio 14. Per calcolare il percentile di ordine 0.95 in corrispondenza dei redditi di n = 315 soggetti, si determinano innanzitutto la posizione ( j) e ( j + 1) dei due soggetti i cui valori x( j) e x( j+1) soddisfano la definizione formale di percentile di ordine p: j = [np + (1 − p)] = [315 · 0.95 + 0.05] = [299.3] = 299 La funzione [·] considera solo la parte intera (scartando le cifre decimali) dell’argomento. Il valore del percentile risulta una combinazione lineare dei valori x(299) e x(300) con pesi (1 − γ) = 0.7 e γ = 0.3. Si osserva come γ = 0.3 coincida con la parte decimale scartata per ottenere il risultato nella formula precedente. In presenza di x(299) = 60350 e x(300) = 61280 si ottiene x0.95 = 60629. In particolare, se p = 0.5, si ottiene  n se n è pari 2 j= n+1 se n è dispari 2 e  1 se n è pari 2 γ= 0 se n è dispari

5.56

5.57

70

Esempi di calcolo della mediana Segue la definizione di mediana, che distingue le situazioni di numerosità pari e dispari: Definizione 15 (Mediana). ( x0.5 =

  x( n ) + x( n +1) se n è pari 2 2 se n è dispari x( n+1 ) 1 2

2

Con riferimento all’esempio di n = 20 unità statistiche, la mediana risulta la semisomma degli elementi di posizione 10 e 11 nella serie dei dati ordinati x(10) + x(11) 4+5 = = 4.5. 2 2 Nel caso il carattere sia qualitativo ordinato o quantitativo non rilevato in classi, per la mediana si ottiene lo stesso risultato che si avrebbe con il metodo grafico della funzione di ripartizione. In presenza di una seriazione statistica, se ni non è elevato, abbiamo: (per n pari)

30



27

ni Ni 6 6 3 9 9 18 9 27 3 30 30



18 N(x)

xi 2a4 4a5 5a7 7a8 8a9

5.58



16 15

9



6



xn 0

2

xn

2+1



2

4

5

7

8

9

x

    x( n ) + x( n +1) 1 6 7 2 2 5+ ·2 + 5+ ·2 x0.5 = = = 6.4444 2 2 9 9  n n 2 + 1 − Ni−1 2 − Ni−1 x( n ) = hi−1 + ai x( n +1) = hi−1 + ai 2 2 Ni − Ni−1 Ni − Ni−1 5.59

Osservazione Se x( n ) e x( n +1) appartengono alla stessa classe si ottiene 2

2

x0.5 = hi−1 +

n+1 2



− Ni−1 ai Ni − Ni−1

Anche in presenza di una seriazione statistica con n dispari abbiamo la stessa formula  n+1 − Ni−1 2 x0.5 = x( n+1 ) = hi−1 + ai 2 Ni − Ni−1 5.60

71

Riepilogo ( xp =

"

x:

# "



fi ≥ p ∩

#) fi ≥ (1 − p)



xi ≤x

xi ≥x

• È possibile calcolare i percentili solo in presenza di dati ordinati. • Se i dati non sono raccolti in classi si può utilizzare la funzione di ripartizione F(x) nel modo seguente: – x p corrisponde al primo valore xi per cui Fi ≥ p xi +xi+1 2

1.0

– nel caso in cui risulti Fi = p allora, in genere(∗) , x p =

0.8



0.75

● ●

0.6

Fi 0.20 0.50 0.70 0.75 1.00

0.5



0.4

Ni 4 10 14 15 20

0.25 0.2

ni 4 6 4 1 5 20



0.0

xi 2 4 5 7 8

0

2

4

5

7

8

10

x0.25

x0.25 = 4

x0.50 = 4.5

x0.75 xi +xi+2 2

(∗)

= 7.5

1.0

Se Fi = p e ni+1 = 0, si dovrà porre x p = • In presenza di seriazioni statistiche (dati raccolti in classi) il percentile viene determinato mediante lettura inversa della funzione di ripartizione

0.9



0.6



0.3

F(x)





0.0

0.2

p ●



2

4

xp

5

7

8

9

• È possibile anche un un calcolo più preciso, attraverso i valori di N(x). 30



27



N(x)

18



16 15

9



6



xn 0

2

xn

2+1



2

4

5 x

72

7

8

9

5.61

5.62

Esercizio 16. Si fornisca una rappresentazione grafica e si riassumano opportunamente gli esiti riportati nel seguente prospetto vi scarso sufficiente discreto buono

ni 18 14 12 6 5.63

73

5

Box & Whiskers plot

Si considerino le seguenti osservazioni di un carattere quantitativo 20, 11, 11, 10, 15, 14, 30, 8, 12, 12, 7 Gli n = 11 valori sono dei punti sulla retta reale ● ●

7

8

● ● ● ● ●

● ●





10

14

15

20

30

11

12

1.0

Nel grafico si sono evidenziati i valori 11 e 12 con dei punti più grandi in quanto figurano 2 volte. Si procede al calcolo dei percentili di ordine 0.25, 0.5 e 0.75, primo quartile, mediana e terzo quartile della distribuzione.

5.64





0.8



0.75

Fi 0.09 0.18 0.27 0.45 0.64 0.73 0.82 0.91 1.00





0.6

Ni 1 2 3 5 7 8 9 10 11

0.5 ●

0.4

ni 1 1 1 2 2 1 1 1 1 11



0.25 0.2

xi 7 8 10 11 12 14 15 20 30



0.0



0

7

10

12

x0.25 x0.5

14

20

30

x0.75

Otteniamo: x0.25 = 10,

x0.5 = 12,

x0.75 = 15 5.65

Riportiamo, con tre segmenti, sul grafico in cui figurano le osservazioni i tre quartili. ● ●

7

8

● ● ● ● ●

● ●





10

14

15

20

30

11

12

Possiamo ora rappresentare ’in un altro modo’ i punti che figurano tra il primo e il terzo quartile. 74

Sappiamo che: • tra x0.25 e x0.5 figura una quota di osservazioni approssimativamente pari al 25%; • tra x0.5 e x0.75 figura una quota di osservazioni approssimativamente pari al 25%; • tra x0.25 e x0.75 figura una quota di osservazioni approssimativamente pari al 50%. ● ●

7

8

10

12

15





20

30

Nel grafico precedente abbiamo unito i 3 quartili costruendo una scatola (Box), che contiene i valori centrali della distribuzione I valori molto distanti dalla scatola sono qualificabili come valori anomali. Si definiscono, generalmente, anomali quei valori che hanno una distanza dalla scatola superiore a 1.5 · (x0.75 − x0.25 ) Identifichiamo, allora, sul grafico due limiti (Whiskers) al di fuori dei quali figurano gli anomali:

5.66

• baffo inferiore = max{xmin , x0.25 − 1.5(x0.75 − x0.25 )} • baffo superiore = min{xmax , x0.75 + 1.5(x0.75 − x0.25 )} ● ●





8

20

30

7

5.67

Concludiamo la costruzione del grafico lasciando solo il Box & Whiskers Plot e gli eventuali dati anomali. ●

7

10

12

15

22.5

30

In alcuni software applicativi la costruzione del grafico pone i baffi in corrispondenza di dati esistenti: nel caso in esame il baffo superiore viene posto a 20, ottenendo così una rappresentazione sintetica dei dati effettivamente osservati. ●

7

10

12

15

20

30

Il Box & Whiskers plot può essere ottenuto mediante il software statistico R con le seguenti istruzioni: • x 0 (eventualmente valori centrali) si definisce media potenziata di ordine r µ (r)

!1 r 1 k r xi ni = ∑ n i=1 !1 r k r ni x ∑ in = i=1

=

=

!1 r

k



xir fi

i=1

con fi = nni ed r = ±1, ±2, ±3, . . .. Nel caso di frequenze unitarie (o valori singoli v j , j = 1, . . . , n) µ (r) =

n

1 n

!1 r

∑ vrj

j=1

5.81

6.1

La media aritmetica (r = 1)

Definizione 24. µ (1) = µ = M(X) =

k 1 k xi ni = ∑ xi fi . ∑ n i=1 i=1

Osservazione È inessenziale la positività delle xi . Esempio 25. M(X) è il valore centrale di una successione aritmetica con un numero dispari di termini, ad esempio 1, 2, 3, 4, 5 si osservi che in questo caso ciascuna modalità figura una sola volta, ovvero k = n = 5 e n1 = n2 = . . . = nk = 1, quindi: µ = M(X) =

1 1 k ∑ xi ni = 5 (1 + 2 + 3 + 4 + 5) = 3. n i=1 5.82

81

Esempio 26. Avendo riclassificato i dati 2, 2.5, 1, 2.5, 2, 10, 2.5, 2, 2, 1 nella serie statistica xi 1 2 2.5 10

ni 2 4 3 1 10

(1)

si può procedere al calcolo della media aritmetica xi 1 2 2.5 10

µ = M(X) =

ni 2 4 3 1 10

xi ni 2 8 7.5 10 27.5

1 k 1 ∑ xi ni = 10 27.5 = 2.75. n i=1

5.83

Osservazione Nel caso di una seriazione statistica i valori xi sono i valori centrali delle classi hi−1 a hi 0.25 a 1.75 1.75 a 2.25 2.25 a 2.75 2.75 a 17.25

ni 2 4 3 1 10

xi 1 2 2.5 10



ni 2 4 3 1 10

M(X) = 2.75

5.84

Esercizio 27. Si supponga che il valore di ciascuna unità statistica aumenti di 1 unità; si ricalcoli il valore della media aritmetica; si ripeta l’esercizio nel caso in cui i valori raddoppino. 5.85

Osservazione La media potenziata di ordine r può essere riscritta nel seguente modo "

1 k r µ (r) = ∑ xi ni n i=1

#1 r

1

= [M (X r )] r

Radice r-esima della media aritmetica dei valori di X elevati a r.

6.2

5.86

La media armonica (r = −1)

Definizione 28.  −1 µ (−1) = M X −1 =

1 M

1 X

=

1 1 n

∑ki=1 x1i ni

Osservazioni La presenza di valori xi = 0 toglie significato all’espressione; Inoltre, valori xi positivi e negativi potrebbero rendere il denominatore nullo.

82

5.87

Esempio 29. µ (−1) è il valore centrale di una successione armonica con un numero dispari di termini, ad esempio 1 1 1 1 1, , , , 2 3 4 5 anche in questo caso siamo in presenza di valori singoli e, quindi, ciascuna modalità figura una sola volta: k = n = 5 e n1 = n2 = . . . = nk = 1 µ (−1) =

1 1 n

∑ki=1 x1i ni

1

=

1 5 (1 + 2 + 3 + 4 + 5)

=

1 3 5.88

Esempio 30. Avendo riclassificato i dati 2, 2.5, 1, 2.5, 2, 10, 2.5, 2, 2, 1 in serie statistica è possibile procedere al calcolo della media armonica xi 1 2 2.5 10

µ (−1) =

6.3

1 1 n

∑ki=1 x1i ni

ni xi

ni 2 4 3 1 10 =

2 2 1.2 0.1 5.3 1

1 10 5.3

=

1 = 1.8868 0.53 5.89

La media quadratica (r = 2)

Definizione 31.

v u k q u1 1   (2) 2 2 2 = M (X ) = t ∑ xi2 ni µ = M X n i=1

Osservazione La positività delle xi è inessenziale. 5.90

Esempio 32. Con riferimento alla precedente serie statistica abbiamo xi 1 2 2.5 10

ni 2 4 3 1 10

xi2 ni 2 16 18.75 100 136.75

v r u k u1 1 (2) t 2 µ = xi ni = 136.75 = 3.698 ∑ n i=1 10 Osservazione Vale l’ordinamento: xmin < µ (−1) = 1.8868 < µ (1) = 2.75 < µ (2) = 3.698 < xmax 5.91

83

6.4

Il Teorema fondamentale sulle medie potenziate

Teorema 33. La funzione !1 r

k

µ (r) =

∑ xir fi

(r = ±1, ±2, . . .)

i=1

con xi positivi (ordinati) e distinti 1. è monotona in senso stretto 2. asintoti lim µ (r) = x1

lim µ (r) = xk

r→−∞

r→+∞

3. ogni µ (r) è una media in senso stretto 4. media geometrica (r = 0) s lim µ

(r)

r→0

=

n

k



!1 n

k

xini

=

k

= ∏ xifi = µ (0) .

xini

∏ i=1

i=1

i=1

5.92

5

Esempio 34. Si riporta l’andamento della funzione µ (r) con riferimento alla seguente serie statistica

µ(r)

4

xmax ●

























● ● ● ●

3



µ(2) µ(1)

2

µ(0)







(−1)●

µ

● ● ●

1

ni 7 3 3 7 20

































xmin 0

xi 1 2 3 4

−20

−10

0

10

20

r

5.93

84

Definizione 35. Si definisce variabile statistica degenere una variabile statistica caratterizzata da valori tutti eguali fra loro: xi = c, ∀i (una sola modalità). Per tale variabile statistica, in base alla proprietà di Cauchy, µ (r) = c per qualsiasi valore dell’ordine r. Osservazione Per r = 0 la media non è definita (forma indeterminata 1∞ ); µ (0) è ottenuta con un’operazione di limite µ (0) = lim µ (r) r→0

5.94

6.5

La media geometrica (r = 0)

Definizione 36. k

µ (0) = ∏ xifi = µ (0) i=1

Osservazione La presenza di valori xi negativi potrebbe togliere significato all’espressione. 5.95

Esempio 37. Con riferimento alla precedente serie statistica abbiamo xi 1 2 2.5 10

ni 2 4 3 1 10

fi 0.2 0.4 0.3 0.1 1

xifi 1 1.3195 1.3164 1.2589 prodotto

k

µ (0) = ∏ xifi = 2.1867 i=1

5.96

Esempio 38. Si calcolano media armonica, geometrica, aritmetica e quadratica della seguente variabile statistica classi 7.5 a 9.5 9.5 a 11.5 11.5 a 15.5 15.5 a 21.5

xi 8.5 10.5 13.5 18.5

ni 40 25 120 145 330

µ(−1)

µ(0)

µ(1)

µ(2)

13.8577

14.3826

14.8636

15.2894









media

media

media

media

armonica

geometrica

aritmetica

quadratica

5.97

85

Riepilogo

Indice moda percentili media aritmetica media geometrica media armonica media quadratica medie potenziate minimo massimo

Tipologia carattere qualitativo qualitativo quantitativo sconnesso ordinato X X X X X X X X X X X X X X

Si osserva il carattere generale di applicazione dei percentili: attraverso il grafico Box & Whiskers plot abbiamo un’efficace descrizione di caratteri di tipo quantitativo. Nel seguito: • considereremo alcune proprietà della media aritmetica • descriveremo alcuni criteri che ci possono supportare nella scelta della media più adeguata per riassumere un carattere quantitativo. 5.98

7

Esercizi

Esercizio 39. Con riferimento alla variabile statistica xi 1 2 3 4 5

ni 2 4−θ 2 θ 2 10

1. indicare quali valori può assumere il parametro θ 2. si calcolino poi al variare di θ i valori della media armonica, geometrica, aritmetica e quadratica, della moda e della mediana 3. si commentino i risultati ottenuti con riferimento al Teorema sulle medie potenziate. 5.99

Esercizio 40. Si riportano i redditi di 5 soggetti (valori in migliaia di e) soggetto 1 reddito 15

2 22

3 25

4 28

5 35

1. Si calcoli la media aritmetica dei redditi. 2. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito raddoppi. 3. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito aumenti di 5000e. 5.100

86

Esercizio 41 (T 221, 08.09.2005, 1). Nel prospetto seguente sono riportate, con riferimento ai redditi di n soggetti (variabile X), le classi di rilevazione e le rispettive densità di frequenza. hi−1 a hi di 10 a 15 4 15 a 20 4 20 a 39 3 1. Si ricostruiscano le distribuzioni delle frequenze assolute e cumulate della variabile X e si dia una opportuna rappresentazione grafica di X e della sua funzione di ripartizione F(x). 2. Si calcoli la media e si identifichino su un grafico i quartili di X. 5.101

Esercizio 42. Si dia una rappresentazione grafica e si calcoli il valore della media armonica della seriazione statistica hi−1 a hi ni 1a3 1 3a6 9 6 a 10 10 10 a 20 20 5.102

Esercizio 43 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nella seguente tabella risulti µ (−∞) = 10 e µ (1) = 20 xi x1 30

ni n1 30 5.103

Esercizio 44. Indicare se le seguenti medie potenziate µ (0) = 6.3,

µ = 4.3,

µ (2) = 4.3

sono compatibili con la seguente serie statistica (della quale sono note solo alcune informazioni) xi 2.5 4 .. .

ni 20 22 .. .

16

10 5.104

Esercizio 45. Indicare se le seguenti medie potenziate µ (−1) = 5,

µ = 14,

sono compatibili con la seguente serie statistica (della quale sono note solo alcune informazioni) xi 11 12 14 .. . 87

ni 2 2 2 .. .

µ (2) = 13

5.105

Esercizio 46 (T 165, 30.09.1998, 3). Sia X una variabile statistica simmetrica rispetto al valore 85: xi 10 x2 2x2 − 10 x4

ni 10 n2 n3 10

1. Supponendo n = 100, si ricavi la distribuzione delle frequenze cumulate e se ne dia rappresentazione grafica. 5.106

Esercizio 47 (P 001, 10.03.1995, 2). Dire, motivando la risposta, se µ (39) , ovvero la media potenziata di ordine 39, può assumere il valore 39, con riferimento alla seguente v.s. X xi 4 12 20 28 36 ni 39 39 39 39 39 Calcolare la media geometrica di X e indicare l’intervallo di valori reali entro il quale può presentarsi la media armonica. 5.107

Esercizio 48. Dimostrare che con riferimento alla media geometrica di una variabile statistica X vale: k

µ (0) = ∏ xifi = eM[ln(X)] . i=1

5.108

8

La media aritmetica è sempre media in senso stretto

La definizione di media aritmetica si estende anche a v.s. generiche (xi sia positivi che negativi) mantenendo le proprietà di media in senso stretto 1. (Cauchy) Posto x(1) = min xi = x1 i

x(n) = max xi = xk i

abbiamo x1 ≤ xi ≤ xk moltiplicando tutti i termini della diseguaglianza per la costante non negativa fi il verso della diseguaglianza non cambia x1 fi ≤ xi fi ≤ xk fi la diseguaglianza vale per tutti i valori di X, possiamo quindi sommare rispetto all’indice i e il verso della diseguaglianza non cambia k

k

k

∑ x1 fi ≤ ∑ xi fi ≤ ∑ xk fi

i=1

i=1

88

i=1

x1 e xk sono delle costanti, non dipendono dall’indice i e possono essere portate fuori dalle sommatorie k

k

k

x1 ∑ fi ≤ ∑ xi fi ≤ xk ∑ fi i=1

i=1

i=1

la somma delle frequenze relative fi vale 1, quindi k

x1 ≤ ∑ xi fi ≤ xk i=1

vale a dire x1 ≤ µ ≤ xk

5.109

2. (moltiplicatività) Si ricorda che Y = cX ↔ yi = cxi La media di Y risulta k

M(Y ) = ∑ yi fi i=1

sostituendo cxi a yi abbiamo k

M(Y ) = ∑ cxi fi i=1

c è una costante moltiplicativa che può essere portata fuori dalla sommatoria, quindi k

M(Y ) = c ∑ xi fi = cM(X) i=1

ricordando che ∑ki=1 xi fi = M(X). 3. (monotonicità) Si ricorda che Y ≥X



yi ≥ xi ,

yi = xi + δi

i.e.

(δi ≥ 0)

La media di Y risulta k

M(Y ) = ∑ yi fi i=1

sostituendo xi + δi a yi abbiamo k

M(Y ) = ∑ (xi + δi ) fi i=1

possiamo sviluppare il prodotto (xi + δi ) fi k

M(Y ) = ∑ (xi fi + δi fi ) i=1

e scomporre la sommatoria nella somma di due sommatorie k

k

k

M(Y ) = ∑ xi fi + ∑ δi fi ≥ ∑ xi fi i=1

i=1

i=1

La diseguaglianza finale vale in quanto ∑ki=1 δi fi ≥ 0 in base alla chy applicata alla variabile statistica {(δi , ni ), i = 1, 2, . . . , k}.

89

proprietà di Cau5.110

9

L’operatore media aritmetica

Definizione 49 (Operatore media aritmetica). Si definisce operatore media aritmetica, indicato con M(X), la funzione che assegna a ogni variabile statistica X la sua media aritmetica k 1 k µ = ∑ xi ni = ∑ xi fi = M(X). n i=1 i=1 5.111

Nella letteratura anglosassone l’operatore media aritmetica M(X) viene indicato con E(X) (expected value).

10

5.112

Interpretazione fisica della media aritmetica

’centro di gravità’ o ’punto di equilibrio’ delle frequenze f2

f3 f1

f4

x1

x3

x2

x4

µ

xi − µ = braccio

k

k

fi = peso o forza

k

k

k

∑ (xi − µ) fi = ∑ (xi fi − µ fi ) = ∑ xi fi − ∑ µ fi = µ − µ ∑ fi = µ − µ = 0

i=1

i=1

i=1

i=1

i=1

5.113

90

11

Media aritmetica di una trasformazione lineare

Teorema 50. Se Y = aX + b con a, b ∈ ℜ, e, quindi, yi = axi + b, allora M(Y ) = aM(X) + b Dimostrazione. k

k

M(Y ) = ∑ yi fi

=

k

∑ (axi + b) fi = ∑ (axi fi + b fi )

i=1

i=1

i=1

k

=

k

k

k

∑ axi fi + ∑ b fi = a ∑ xi fi + b ∑ fi

i=1

i=1

i=1

i=1

= aM(X) + b 5.114

Osservazione Il teorema precedente afferma che l’operatore media aritmetica M(X) è un operatore lineare M(aX + b) = aM(X) + b Osservazione In particolare • M(b) = M(costante) = b dal momento che X = b è una variabile statistica degenere. • M(aX) = a M(X) in quanto la media aritmetica è media in senso stretto.

5.115

Definizione 51 (variabile scarto da un centro). Y = X −c Proprietà M(Y ) = M(X − c) = M(X) − M(c) = M(X) − c Definizione 52 (variabile scarto dalla media). Si ponga nella definizione precedente c = µ Y = X − µX ,

µX = M(X)

Proprietà M(Y ) = M(X − µX ) = M(X) − M(X) = 0 5.116

Segue che anche la somma degli scarti dalla media è nulla k

k

∑ (xi − µX )ni

=

i=1

∑ (xi ni − µX ni ) =

i=1 k

=

k

∑ xi ni − ∑ µX ni =

i=1

i=1

k

= nM(X) − µX ∑ ni = nM(X) − nM(X) = 0 i=1

5.117

91

12

I momenti

Definizione 53 (momenti di ordine s ≥ 1 da un centro). k

M [(X − c)s ] = ∑ (xi − c)s fi i=1

Definizione 54 (momenti di ordine s ≥ 1 dalla media). k

M [(X − µX )s ] = ∑ (xi − µX )s fi i=1

Utilizzeremo, nel seguito: h i • M (X − µX )2 misura della variabilità di una distribuzione h i • M (X − µX )3 misura di asimmetria di una distribuzione h i • M (X − µX )4 misura di curtosi di una distribuzione 5.118

Definizione 55 (momenti di ordine s ≥ 1 dall’origine, c = 0). k

M (X s ) = ∑ xis fi i=1

Abbiamo, in particolare, già visto che µ (r) = [M (X r )]1/r 5.119

92

Sezione 6 Indici di posizione (2) 6.1

Indice 1

Il problema della scelta della media

93

2

Media obiettivo secondo Chisini

93

3

Alcuni esempi di applicazione del criterio di scelta della media secondo Chisini 94

4

Scelta della media per minimizzazione del danno

5

Proprietà associativa della media aritmetica

101

6

Esercizi

104

7

Proprietà mediana e media aritmetica

105

1

97

6.2

Il problema della scelta della media

Si ricorda che lo studio di un fenomeno comporta, in genere, le seguenti fasi preliminari: 1. individuazione del carattere indicatore (proxy) 2. ricerca di opportuni indici sintetici α(X) = α(x1 , . . . , xk ; n1 , . . . , nk ) = α(v1 , v2 , . . . , vn ) • funzione dei dati • ma . . . quale forma funzionale ?? Criteri • media obiettivo • minimizzazione danno Chisini (1929) La ricerca della media ha lo scopo di semplificare una data questione, sostituendo a due o più quantità date una quantità sola, atta a sintetizzarle senza variare la visione del fenomeno in esame.

93

6.3

2

Media obiettivo secondo Chisini

Definizione 1 (Media Obiettivo secondo Chisini). Si consideri una v.s. X sulla quale è definita una particolare funzione φ (·) dei dati che fornisce un valore globale λ φ (X) = φ (x1 , . . . , xk ; n1 , . . . , nk ) = λ la media α deve soddisfare anch’essa il vincolo globale φ (α) = φ (α, . . . , α; n1 , . . . , nk ) = λ la media obiettivo o secondo Chisini è la soluzione dell’equazione φ (x1 , . . . , xk ; n1 , . . . , nk ) = φ (α, . . . , α; n1 , . . . , nk ) (non è garantito che α = α(X) sia una media in senso stretto) 6.4

3

Alcuni esempi di applicazione del criterio di scelta della media secondo Chisini

Esempio 2. La quantità totale di 26 gettoni è stata ripartita tra 10 soggetti nel modo seguente: 7 soggetti possiedono 2 gettoni 2 soggetti possiedono 3 gettoni 1 soggetto possiede 6 gettoni Problema Determinare la quantità media da assegnare a ciascun soggetto in modo da realizzare una ripartizione egalitaria del totale xi 2 3 6

ni xi ni 7 14 2 6 1 6 10 26 6.5

Soluzione Si può considerare come valore globale il totale assegnato λ = T ; quindi φ (x1 , . . . , xk ; n1 , . . . , nk ) = ∑ki=1 xi ni = T φ (α, . . . , α; n1 , . . . , nk ) = ∑ki=1 αni = T k

k

∑ xi ni = ∑ αni

i=1

i=1

k

k

∑ αni = ∑ xi ni

i=1

i=1

k

k

α ∑ ni = ∑ xi ni i=1

i=1

k

αn = ∑ xi ni i=1

94

da cui α=

1 k ∑ xi ni n i=1

la media α corrisponde alla media aritmetica delle xi .

6.6

Proprietà La media aritmetica è la quantità che sostituita alle modalità di una variabile statistica ne lascia invariato il totale. (criterio adatto alla maggior parte dei fenomeni naturali)

6.7

Esempio 3. Un investitore deposita al tempo 0 un capitale C0 presso un istituto di credito; la durata dell’investimento è pari a 5 anni; i tassi di interesse, definiti in regime di capitalizzazione composta, concordati nei diversi periodi sono: 1◦ 2◦ 3◦ 4◦ 5◦

periodo 3% periodo 5% periodo 3% periodo 5% periodo 2%

i1 = 0.03 i2 = 0.05 i3 = 0.03 i4 = 0.05 i5 = 0.02

u1 = 1.03 u2 = 1.05 u3 = 1.03 u4 = 1.05 u5 = 1.02

dove u j è il montante unitario riferito al periodo j. Problema Determinare il tasso di interesse medio corrisposto dall’istituto di credito nei 5 anni. Soluzione Si deve trovare il tasso di interesse medio i¯ = αI (i1 , . . . , i5 ), o equivalentemente il montante unitario medio u¯ = αU (u1 , . . . , u5 ),

6.8

che consente, partendo dalla somma iniziale C0 , di riprodurre il capitale finale C5 . Ricordiamo che per j = 1, 2, . . . , 5 abbiamo C j = C j−1 + I j , dove I j = C j−1 · i j è la somma corrisposta a titolo d’interesse alla fine del periodo j-esimo. Alla fine dei periodi: C1 = C0 + I1 = C0 · u1 C2 = C1 + I2 = C1 · u2 = C0 · u1 · u2 .. . C5 = C0 · u1 · u2 · u3 · u4 · u5 = C0 ∏5j=1 u j

6.9

C0 · u1 · u2 · u3 · u4 · u5 = C5 In base al criterio di scelta secondo Chisini dobbiamo individuare il montante unitario medio u¯ tale che C0 · u¯ · u¯ · u¯ · u¯ · u¯ = C0 u¯5 = C5 ovvero u1 · u2 · u3 · u4 · u5 = u¯ · u¯ · u¯ · u¯ · u¯ = u¯5 da cui

v u u 5 u¯ = t

5

5

∏ uj = j=1

!1

∏ uj j=1

5

5

1

= ∏ u j5 j=1

che corrisponde alla media geometrica dei montanti unitari, riferiti ai tassi di interesse i j . Nel caso in esame u¯ = 1.0359 95

da cui i¯ = u¯ − 1 = 1.0359 − 1 = 0.0359 = 3.59%. 6.10

Proprietà La media geometrica è la quantità che sostituita alle modalità di una variabile statistica ne lascia invariato il prodotto. 6.11

Esempio 4 (Portafoglio titoli). Un risparmiatore acquista un portafoglio composto da 2000e in BTP, 5000e in azioni e 3000e in obbligazioni e, tempo dopo, dismette il capitale investito, ottenendo i seguenti rendimenti: BTP: 3.8%, azioni: −1%, obbligazioni 3.5% Ci = quantità xi = rendimenti

Btp 2000 3.8%

Azioni 5000 -1%

Obbligazioni 3000 3.5%

Problema Determinare il tasso di rendimento medio, α(x1 , x2 , x3 ), espresso in funzione dei rendimenti parziali xi , considerando come ’quantità invariante’ equivalentemente: 1. il montante complessivo (M) 2. il guadagno complessivo (G) 6.12

Soluzione Si indichino con Mi i montanti e con Gi i guadagni, i = 1, 2, 3 dei tre investimenti. 1.

3

3

3

M = ∑ Mi = ∑ Ci (1 + xi ) = ∑ Ci (1 + α) i=1

2.

i=1

i=1

3

3

3

G = ∑ Gi = ∑ Ci xi = ∑ Ci α i=1

i=1

i=1

da cui, risolvendo rispetto ad α, si ottiene: α=

131 ∑3i=1 Ci xi = = 0.0131 = 1.31%. 3 10000 C ∑i=1 i

La media trovata α corrisponde alla media aritmetica dei tassi di interesse xi ponderati rispetto ai capitali investiti Ci . Esempio 5. Un automobilista percorre 100km e rileva le seguenti velocità: sulla prima tratta di 50km mantiene una velocità costante di 80km/h sulla seconda tratta di 40km una velocità costante di 120km/h sulla terza tratta di 10km una velocità costante di 40km/h Problema determinare la velocità media di percorrenza dei 100km vi 40 80 120

si 10 50 40 100

96

6.13

Soluzione si può considerare come carattere invariante il tempo totale T impiegato per compiere l’intero tragitto. E’ possibile determinare il tempo di percorrenza della singola tratta in funzione della relazione, V = TS , intercorrente tra velocità, spazio e tempo: T=

6.14

S ; V

con riferimento alla singola tratta risulta: si vi

ti =

Ne consegue un tempo totale di percorrenza pari a: s1 s2 s3 + + v1 v2 v3

T = t1 + t2 + t3 =

Se si indica con α la velocità media è possibile riscrivere la relazione che ’garantisce’ il rispetto del tempo totale di percorrenza T=

s1 s2 s3 + + . α α α 6.15

L’equazione conseguente, che consente di trovare l’espressione per α, è la seguente: s1 s2 s3 s1 s2 s3 + + = + + v1 v2 v3 α α α s1 s2 s3 s1 s2 s3 + + = + + α α α v1 v2 v3 1 s1 s2 s3 (s1 + s2 + s3 ) = + + α v1 v2 v3   1 1 s1 s2 s3 = + + α s1 + s2 + s3 v1 v2 v3  −1   −1 1 1 s1 s2 s3 = + + α s1 + s2 + s3 v1 v2 v3 α=

1 1 s1 +s2 +s3



s1 v1

+ vs22 + vs33

 6.16

La media trovata corrisponde alla media armonica delle velocità utilizzando ’come frequenze’ le lunghezze si delle diverse tratte vi 40 80 120

α=

1 1 100 1.2083

si ti = vsii 10 0.2500 50 0.6250 40 0.3333 100 1.2083 =

1 1 100 1.2083

97

= 82.761 6.17

4

Scelta della media per minimizzazione del danno

Definizione 6. Data la variabile statistica X si cerca l’indice di posizione α = α(x1 , . . . , xk ; n1 , . . . , nk ) = α(X) tale da minimizzare la sua distanza complessiva dai dati (perdita di informazione) misurata attraverso gli scarti zi = xi − α come D=

1 k ∑ d(zi )ni n i=1

dove d(z) è un’opportuna funzione di distanza che quantifica il danno (perdita di informazione) zi = xi − α in corrispondenza della generica unità statistica 6.18

1.5 0.0

0.5

1.0

|z|

2.0

2.5

3.0

Teorema 7 (Funzione di perdita valore assoluto).  z se z ≥ 0 d(z) = |z| = −z se z < 0

−3

−2

−1

0

1

2

3

z

D=

1 k ∑ |xi − α|ni n i=1

D = min ↔ α = x0.5 (mediana) In questo caso il danno è proporzionale rispetto all’errore.

6.19

Dimostrazione. Con riferimento ai dati v j ordinati, ovvero v( j) , D = 1n ∑nj=1 |v j − α|. Consideriamo v(1) e v(n) ●



v(1)

v(n)

α   ogni punto interno al segmento v(1) , v(n) è a distanza minima dagli estremi (si pensi ai punti esterni)





v(1)

v(n)

98

  lo stesso può dirsi per v(2) , v(n−1) . . . e così via Pertanto: • se n è dispari → α = v( n+1 ) 2 • se n è pari → v( n ) ≤ α ≤ v( n +1) 2 2 (va bene ogni punto del segmento) In particolare: x0.5 =

v( n ) + v( n +1) 2 2 2 6.20

Dimostrazione. Si considerino 9 punti distinti su una retta a b

c d e

f

gh i







● ● ●







Dobbiamo cercare il punto che minimizza la media o, equivalentemente, la somma delle distanze da tutti i 9 punti Consideriamo un punto compreso tra a e b La somma delle distanze è data dalla somma dei 9 segmenti in figura α a b c d e f gh i ●











● ● ●

Se consideriamo un punto compreso tra b e c la somma delle distanze si riduce: a e b sono più lontani dal nuovo punto, ma questo è più vicino agli altri 7 punti α a b c d e f gh i ●











● ● ●

Possiamo ulteriormente ridurre la somma delle distanze spostando α verso destra α a b c d e f gh i ●







99





● ● ●

6.21

La somma delle distanze risulta minima se α coincide con e. Infatti spostandosi ancora a destra la distanza si ridurrebbe per f , g, h, i, ma aumenterebbe per a, b, c, d ed e α a b c d e f gh i ●











● ● ●

e rappresenta il punto mediano. 6.22 6.23

Teorema 8 (Funzione di distanza quadratica).

6.24

d(z) = z2

6.25

0

2

4

z2

6

8

6.26

−3

−2

−1

0

1

2

3

z

D=

1 k ∑ (xi − α)2 ni n i=1

D = min ↔ α = µ (media aritmetica) In questo caso il danno è più che proporzionale rispetto all’errore. Si riportano due dimostrazioni del risultato Dimostrazione. Riscriviamo la funzione da minimizzare utilizzando l’operatore media aritmetica   1 k D = ∑ (xi − α)2 ni = M (X − α)2 . n i=1 Sommando e togliendo µ si ottiene   D = M (X − µ + µ − α)2 . Si sviluppa ora il quadrato del binomio con termini (X − µ) e (µ − α) n o D = M [(X − µ) + (µ − α)]2   = M (X − µ)2 + (µ − α)2 + 2(X − µ)(µ − α) . Tenendo conto che l’operatore media aritmetica è lineare otteniamo     D = M (X − µ)2 + M (µ − α)2 + 2M[(X − µ)(µ − α)].

100

6.27

  L’espressione (µ − α) è una costante; quindi M (µ − α)2 = (µ − α)2 nel secondo addendo e nel terzo addendo (µ − α) può essere portata fuori dall’operatore media   D = M (X − µ)2 + (µ − α)2 + (µ − α)2M[(X − µ)]. Tenendo conto che la variabile scarto dalla media (X − µ) è caratterizzata da media nulla, M[(X − µ)] = 0, il terzo addendo risulta nullo, quindi   D = M (X − µ)2 + (µ − α)2 . L’espressione risulta minima se α = µ = µ (1) = M(X). 6.28

Dimostrazione. Riscriviamo, anche per questa dimostrazione, la funzione da minimizzare utilizzando l’operatore media aritmetica D=

  1 k (xi − α)2 ni = M (X − α)2 . ∑ n i=1

Poniamo uguale a 0 la derivata della funzione obiettivo   d M (X − α)2 = 0. dα Dal momento che la media è un operatore lineare possiamo scambiare l’ordine dell’operatore derivata e dell’operatore media   d (X − α)2 M = 0. dα Ricordando la formula della derivata di una funzione composta otteniamo M [2(X − α)(−1)] = 0. I termini 2 e (−1) sono costanti moltiplicative e possono essere portati fuori dall’operatore media −2M(X − α) = 0. Ricordando che la media è un operatore lineare otteniamo M(X) − M(α) = 0 α è una costante, quindi M(α) = α M(X) − α = 0 In conclusione: α = µ = µ (1) = M(X). 6.29

Per verificare che effettivamente si tratta di un punto di minimo possiamo controllare il segno della derivata seconda della funzione da minimizzare in corrispondenza del punto estremante α = µ    2    d 2 M (X − α)2 d (X − α)2 d [−2(X − α)] =M =M = M(+2) = +2. dα 2 dα 2 dα La funzione è convessa e il punto estremante è di minimo. 101

6.30

5

Proprietà associativa della media aritmetica

Consente di esprimere la media generale come media delle medie parziali. Si considerino i dati elementari v1 , v2 , . . . , vn riuniti in h gruppi 1

2

...

h

n1

n2

...

nh

µ1

µ2

...

µh

(il raggruppamento in tabelle è uno dei possibili) il singolo valore viene ora indicato con xi j : j-esima osservazione ( j = 1, 2, . . . , ni ) nel gruppo i (i = 1, 2, . . . , h).

6.31

Definizione 9 (Proprietà associativa della media aritmetica). Sia data una popolazione suddivisa in h gruppi e sia 1 ni µi = ∑ xi j ni j=1 la media del gruppo i-esimo. La media generale (calcolata su tutte le unità statistiche) µ=

1 h ni ∑ ∑ xi j n i=1 j=1

può essere riespressa come µ

=

=

ni

1 h ni ∑ ni n i=1

j=1

1 h ∑ ni n i=1

1 ni

∑ xi j = !

ni

∑ xi j

=

j=1

1 h ∑ µi ni n i=1 6.32

vale a dire µ=

h 1 h µi ni = ∑ µi fi . ∑ n i=1 i=1 6.33

Esempio 10. Si consideri la seguente popolazione di unità statistiche raggruppate in 3 gruppi 1

3

2

4

5

4

6

6

6

7

6

8

8

Si calcolano in primo luogo le medie per i tre gruppi

102



1 µ1 = (4 + 5 + 6 + 7) = 5.5 4



1 µ2 = (4 + 6 + 6 + 8) = 6 4



1 µ3 = (6 + 8) = 7 2

6.34

È possibile ricostruire la variabile statistica medie di gruppo i 1 2 3

µi 5.5 6 7

ni 4 4 2 10

le cui modalità sono le medie di gruppo, con associate come frequenze le rispettive numerosità di gruppo. La media di tale variabile statistica risulta µi 5.5 6 7

µ=

ni 4 4 2 10

µi ni 22 24 14 60

1 3 1 ∑ µi ni = 10 60 = 6 n i=1

e coincide con la media generale calcolata su tutte le unità statistiche. Infatti: 1 µ = (4 + 5 + 6 + 7 + 4 + 6 + 6 + 8 + 6 + 8) = 6 10 ovvero xi 4 5 6 7 8

ni 2 1 4 1 2 10

xi 4 5 6 7 8

µ =6

µ=

distribuzione simmetrica

6.35

ni xi ni 2 8 1 5 4 24 1 7 2 16 10 60

1 5 1 xi ni = 60 = 6 ∑ n i=1 10 6.36

Esempio 11. Siano µ1 il voto medio delle n1 femmine µ2 il voto medio degli n2 maschi µ=

µ1 n1 + µ2 n2 n1 + n2 103

Esempio 12. Dai dati di produzione media giornaliera alla media mensile o trimestrale (NB solo se le medie parziali sono aritmetiche!!)

6.37

Osservazione Si consideri la formula della media aritmetica µ=

1 h ∑ µi ni . n i=1

Indicato con ti = µi ni il totale parziale; allora µ=

1 h T ∑ ti = n n i=1

dove T è il totale generale, che associa quindi i totali parziali 6.38

6

Esercizi

Esercizio 13. Definita una partizione degli abitanti di una regione in due gruppi, indicati nel seguito con 1 e 2, si sono costruiti i seguenti prospetti relativi alla distribuzione dei redditi in ciascun gruppo. Gruppo 1 Ri ni 10 a 15 1800 15 a 30 1500 30 a 50 2700

Ri 10 a 15 15 a 30 30 a 50

Gruppo 2 ni

fi 0.15 0.25 0.60

1. Sapendo che il reddito medio di tutti gli abitanti della regione è 30, si determini, per il gruppo 2, il numero ni di soggetti appartenenti a ciascuna delle classi di reddito. 6.39

Esercizio 14 (T 216, 04.02.2005, 1). Con riferimento al numero dei componenti delle 50.000 famiglie di una certa regione si sono calcolati i seguenti indici di posizione: m.geometrica = 2.7; m.quadratica = 3.8. 1. Calcolare approssimativamente il numero di abitanti della regione. 6.40

104

7

Proprietà mediana e media aritmetica

(se non specificato, per media si intende quella aritmetica) mediana • media in senso stretto • minimizza la somma degli scarti assoluti media • • • • •

media in senso stretto operatore lineare annulla la somma degli scarti relativi minimizza la somma degli scarti quadratici lascia invariato il totale 6.41

Osservazione La mediana, rispetto alla media, risente meno dei valori anomali X 0 1 2 3 4 ●

















Y 0 1 2 3

9

x0.5 = 2 = y0.5



M(X) = 2 < M(Y ) = 3

ma

6.42

105

Sezione 7 Variabilità (1) 7.1

Indice 1

Indici di variabilità

107

2

La variabilità per i caratteri qualitativi

108

3

Le situazioni estreme 109 3.1 La situazione di assenza di eterogeneità . . . . . . . . . . . . . . . . . . 109 3.2 La situazione di massima eterogeneità . . . . . . . . . . . . . . . . . . . 109

4

L’indice di eterogeneità di Gini

110

5

Gli indici normalizzati

111

6

L’indice di Frosini normalizzato

114

7

Utilizzo congiunto della Moda e dell’indice di eterogeneità

116

8

Esercizi

117

9

Libero Mercato, Monopolio e Oligopolio

117

1

7.2

Indici di variabilità • indice sintetico di posizione è utile per alcuni confronti • appare tuttavia insufficiente • sintesi troppo spinta fa perdere informazioni → POSIZIONE + VARIABILITÀ • interessano anche indicatori della molteplicità e della diversità dei valori di un carattere v1 , v2 , . . . , vn ? è più costante l’impegno degli studenti maschi o quello delle femmine ? c’è più sperequazione economica in Piemonte o in Lombardia ? 7.3

107

è più variabile (disperso) X oppure Y ? X



4

7

10

15









● ● ●

● ●

Y 0 234

78

18 20 ●



7.4

Esempio 1. Si considerino le votazioni riportate da due studenti in 25 esami xi 18 24 30

ni 12 1 12 25

yi 24

ni 25 25

• Come vengono qualificati i due studenti utilizzando solo una misura di posizione (media, mediana)? • Possiamo ritenere che l’impegno dedicato alla preparazione degli esami sia lo stesso per i due studenti? Definizione 2 (La variabilità). Si definisce variabilità l’attitudine di un fenomeno a manifestarsi con molteplici valori. 7.5

2

La variabilità per i caratteri qualitativi

Con riferimento ai caratteri qualitativi si parla di mutabilità o eterogeneità Esempio 3. Si considera il colore dei capelli di alcune scolaresche (distribuzioni %) colore S1 S2 nero 0.10 0.30 castano 0.25 0.30 biondo 0.60 0.30 altro 0.05 0.10 1 1

S3 0.70 0.20 0.05 0.05 1

• in quale scolaresca c’è minore variabilità? • in quale scolaresca c’è maggiore variabilità? 7.6

108

3

Le situazioni estreme

3.1

La situazione di assenza di eterogeneità

assenza di eterogeneità • quando tutti hanno lo stesso colore dei capelli colore nero castano biondo altro

fi 1 0 0 0 1

colore nero castano biondo altro

colore nero castano biondo altro

fi 0 1 0 0 1

fi 0 0 1 0 1

colore nero castano biondo altro

fi 0 0 0 1 1

• minima eterogeneità: ∃ fi = 1, f j = 0 se j 6= i • mutabile statistica degenere 7.7

3.2

La situazione di massima eterogeneità

massima eterogeneità • nel caso avessimo solo 4 soggetti – se 1 nero, 1 castano, 1 biondo, 1 con altro colore • e se i soggetti fossero 8? – se 2 neri, 2 castani, 2 biondi, 2 con altro colore colore nero castano biondo altro

ni 2 2 2 2 8

fi 0.25 0.25 0.25 0.25 1

• massima eterogeneità: f1 = . . . = fk =

1 k

• equidistribuzione delle frequenze 7.8

109

situazioni estreme ritornando all’esempio delle scolaresche colore nero castano biondo altro

S1 0.10 0.25 0.60 0.05 1

S2 0.30 0.30 0.30 0.10 1

S3 0.70 0.20 0.05 0.05 1

S4 0 1 0 0 1

S5 0.25 0.25 0.25 0.25 1

• minima variabilità: ∃ fi = 1, f j = 0 se j 6= i tutti i valori sono uguali (ad esempio S4) • massima variabilità: 1 f1 = . . . = fk = k equidistribuzione delle frequenze (S5) 7.9

4

L’indice di eterogeneità di Gini

Definizione 4 (Indice di eterogeneità di Gini). k

G = 1 − ∑ fi2 i=1

Osservazione L’indice di Gini viene usato anche per lo studio della concentrazione industriale o di mercato

7.10

Calcolo dell’indice di Gini Consideriamo la prima scolaresca S1 xi x1 x2 x3 x4

fi fi2 0.1 0.01 0.25 0.0625 0.6 0.36 0.05 0.0025 1 0.435

k

G = 1 − ∑ fi2 = 1 − 0.435 = 0.565. i=1

In base al valore ottenuto possiamo ritenere che sussiste un livello elevato o basso di eterogeneità? 7.11

110

5

Gli indici normalizzati

Gli indici normalizzati In genere, quando si costruisce uno strumento per misurare il livello I assunto da un determinato fenomeno (temperatura, peso, variabilità, tasso di umidità), è opportuno individuare le due situazioni estreme, corrispondenti a • Imin : minima presenza o assenza del fenomeno oggetto di studio • Imax : massima presenza teorica del fenomeno oggetto di studio la situazione osservata, caso reale, si posiziona in una situazione intermedia, quindi Imin ≤ I ≤ Imax Imin

I

Imax







7.12

Risulta più comodo costruire un indice che varia tra estremi prestabiliti Un indice normalizzato, IN , varia tra 0 e 1 Imin

I

Imax













0

IN

1

• IN = 0 quando I = Imin • IN = 1 quando I = Imax 7.13

Imin ≤ I ≤ Imax Imin

I

Imax







0

IN

1

0 ≤ IN ≤ 1 7.14

111

Imin ≤ I ≤ Imax Imin

I

Imax







0

IN

1

0 ≤ IN =

I − Imin ≤1 Imax − Imin 7.15

Definizione 5 (Indice normalizzato). IN =

I − Imin Imax − Imin

IN = 0



I = Imin

IN = 1



I = Imax

Interpretazione IN molto basso

0

basso

0.3

medio alto

medio

0.5

0.65

alto altissimo

0.8

0.9

1

Osservazione Gli indici normalizzati consentono anche di effettuare dei confronti tra situazioni diverse.

112

7.16

k

G = 1 − ∑ fi2 i=1

assenza mutabilità Gmin

xi x1 x2 x3 x4

fi 0 0 1 0 1

fi2 0 0 1 0 1

Gmin = 1 − 1 Gmin = 0

caso reale G

xi x1 x2 x3 x4

fi2 0.01 0.0625 0.36 0.0025 0.435

fi 0.1 0.25 0.6 0.05 1

massima mutabilità Gmax

xi x1 x2 x3 x4

G = 1 − 0.435 G = 0.565

GN =

fi 0.25 0.25 0.25 0.25 1

fi2 0.0625 0.0625 0.0625 0.0625 0.25

Gmax = 1 − 0.25 Gmax = 0.75

0.565 − 0 G − Gmin = = 0.7533 Gmax − Gmin 0.75 − 0 7.17

L’indice di Gini nella situazione di massima eterogeneità xi fi fi2 1 x1 f1 = k k12 x2 f2 = 1k k12 .. .. .. . . . 1 xk fk = 1k k2 1 k k12 k

7.18 7.19 7.20

k

1 1 1 = 1−k 2 = 1− 2 k k k i=1

Gmax = 1 − ∑ fi2 = 1 − ∑ i=1

GN =

G G − Gmin G−0 = = 1 Gmax − Gmin 1 − k − 0 1 − 1k 7.21

113

6

L’indice di Frosini normalizzato

L’indice di Gini Normalizzato, GN , assume valori elevati anche in situazioni che non possono ritenersi prossime a quella di massima eterogeneità, risultando così poco discriminante in situazioni ’vicine’ alla situazione di massima eterogeneità. Si consideri, a titolo esemplificativo la seguente generica mutabile statistica xi x1 x2 x3 x4

fi f1 = 1 − γ f2 = γ/3 f3 = γ/3 f4 = γ/3 1

al variare di γ nell’intervallo [0, 0.75]. In corrispondenza degli estremi di tale intervallo si hanno, infatti, le situazioni di massima eterogeneità e di assenza di eterogeneità. Nel seguente prospetto sono riportate 7 distribuzioni esemplificative. L’indice GN assume correttamente valore basso nelle situazioni a e b nelle quali le frequenze sono fortemente concentrate in una sola categoria, ma assume valore medio/alto nelle situazioni c e d, nelle quali le frequenze sono ancora concentrate nella sola categoria x1 . x1 x2 x3 x4 GN

a 1.0000 0.0000 0.0000 0.0000 0.0000

b 0.8750 0.0417 0.0417 0.0417 0.3056

c 0.7500 0.0833 0.0833 0.0833 0.5556

d 0.6250 0.1250 0.1250 0.1250 0.7500

e 0.5000 0.1667 0.1667 0.1667 0.8889

f 0.3750 0.2083 0.2083 0.2083 0.9722

7.22

g 0.2500 0.2500 0.2500 0.2500 1.0000 7.23

1.0

Si rappresenta graficamente l’andamento di GN al variare di γ. ●







GN

0.5



0.0





a assenza di eterogeneita'

b

c

d

e

f

g massima eterogeneita'

7.24

114

Una possibile soluzione è rappresentata dall’indice di Frosini normalizzato1 v ! u k u k p 1 fi2 − FN = 1 − t = 1 − 1 − GN . ∑ k − 1 i=1 k 7.25

Il seguente prospetto riporta anche il valore di FN per le 7 distribuzioni sopra considerate. L’indice FN è caratterizzato da una struttura più lineare. x1 x2 x3 x4 GN FN

1.0000 0.0000 0.0000 0.0000 0.0000 0.0000

0.8750 0.0417 0.0417 0.0417 0.3056 0.1667

0.7500 0.0833 0.0833 0.0833 0.5556 0.3333

0.6250 0.1250 0.1250 0.1250 0.7500 0.5000

0.5000 0.1667 0.1667 0.1667 0.8889 0.6667

0.3750 0.2083 0.2083 0.2083 0.9722 0.8333

7.26

1.0

Si completa la rappresentazione grafica con l’andamento di FN . ●

0.2500 0.2500 0.2500 0.2500 1.0000 1.0000







GN FN

0.5



0.0





a assenza di eterogeneita'

c

b

e

d

f

g massima eterogeneita'

7.27 1 La

relazione tra FN e GN vale in quanto: FN

=

=

v ! u k u k 2− 1 1−t f ∑ i k = k − 1 i=1 s ∑ki=1 fi2 − 1k 1− = k−1 k

s =

1−

∑ki=1 fi2 − 1k 1 − 1k

s

=

=

= =

=

∑ki=1 fi2 − 1 + 1 − 1k = 1 − 1k s  1 − 1k − 1 − ∑ki=1 fi2 1− = 1 − 1k s 1 − ∑ki=1 fi2 1− 1− = 1 − 1k p 1 − 1 − GN . 1−

115

Si osserva come gli indici di eterogeneità proposti soddisfano le seguenti proprietà: • non negatività; • sono nulli nella situazione di assenza di eterogeneità; • soddisfano la proprietà di coerenza: considerate due generiche frequenze fi e f j per le quali 0 < fi ≤ f j , se fi viene diminuita della quantità δ > 0, e corrispondentemente f j è aumentata della stessa quantità δ , gli indici di eterogeneità devono diminuire, o al più restare costanti (cfr. Frosini 2009 Metodi Statistici: teoria e applicazioni economiche e sociali. Carocci).

7

7.28

Utilizzo congiunto della Moda e dell’indice di eterogeneità

Utilizzo congiunto della Moda e dell’indice di eterogeneità Possiamo confrontare le 5 scolaresche in base alla Moda e alla mutabilità del colore dei capelli colore nero castano biondo altro

S1 0.10 0.25 0.60 0.05 1

S2 0.30 0.30 0.30 0.10 1

S3 0.70 0.20 0.05 0.05 1

S4 0 1 0 0 1

S5 0.25 0.25 0.25 0.25 1

Moda G GN FN

biondo 0.565 0.7533 0.5033

@ 0.72 0.96 0.8

nero 0.465 0.62 0.3836

castano 0 0 0

@ 0.75 1 1

• la moda è rappresentativa della distribuzione quando la mutabilità non è elevata • L’indice di Frosini Normalizzato fornisce un’informazione più realistica sul livello di eterogeneità per le scolaresche S3 ed S1. 7.29

Esempio 6. ni fi fi2 25 0.125 0.015625 35 0.175 0.030625 100 0.5 0.25 40 0.2 0.04 200 1 0.33625

xi x1 x2 x3 x4 k

G = 1 − ∑ fi2 = 1 − 0.33625 = 0.66375 i=1

Gmin = 0 1 Gmax = 1 − = 0.75 4 G − Gmin 0.66375 − 0 GN = = = 0.885 Gmax − Gmin 0.75 − 0 p √ FN = 1 − 1 − GN = 1 − 1 − 0.885 = 0.6609 • possiamo ritenere che sussiste un livello medio/alto di eterogeneità

116

7.30

8

Esercizi

Esercizio 7. [T 162, 24.06.1998, A] Una delegazione provinciale della F.I.C. (Federazione Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio espletati dai suoi 8 componenti (A, B, . . . , H) durante l’anno. Si riportano il tipo di sport (S, nelle categorie n = nuoto, s = sci, c = ciclismo), la stagione del servizio (T , a = autunno, i = inverno, p = primavera, e = estate), la durata del servizio (D, in minuti) e l’entità del rimborso complessivamente percepito per il servizio (R, in e). serv cron S T D R

1 B n a 120 20

2 B n a 120 20

3 H c a 360 45

4 G c a 60 60

5 F n i 180 30

6 A s i 360 50

7 E s i 360 70

8 E n i 120 30

9 B s i 360 60

10 C n p 180 45

11 D s p 480 60

12 D s p 420 70

13 B c p 300 40

14 C c p 420 60

15 G n p 180 30

1. Si confronti il grado di mutabilità di S e di T . 7.31

Esercizio 8 (T 224, 02.02.2006, 3). Con riferimento alla seguente v.s. X: xi a1 a2 a3

ni 30 ? ?

1. determinare n2 , n3 ed n in modo che Eterogeneità(X) = max teorico; 2. posto poi n = 120 ed n2 = n3 valutare il grado di eterogeneità presente nei dati. 7.32

9

Libero Mercato, Monopolio e Oligopolio

Libero Mercato, Monopolio e Oligopolio Sia X una variabile statistica le cui categorie x1 , x2 , . . . , xk sono le denominazioni sociali delle k imprese operanti su un mercato, mentre f1 , f2 , . . . , fk rappresentano le quote di mercato delle k imprese • in una situazione di perfetta concorrenza si potrebbe ipotizzare che le imprese abbiano tutte la stessa quota di mercato – equidistribuzione delle frequenze ↔ mutabilità massima • in una situazione di Monopolio il mercato è concentrato in una sola delle imprese – mutabile statistica degenere ↔ assenza di mutabilità • in una situazione di Oligopolio il mercato è concentrato in poche imprese. Che valore assumerà l’indice di eterogeneità? – possiamo aspettarci un valore elevato dell’indice di Frosini normalizzato; in una situazione di oligopolio esistono, infatti, accordi (cartelli) tra le imprese, che comunicano tra loro e possono definire quote di mercato omogenee. 7.33

117

Sezione 8 Variabilità (2) 8.1

Indice 1

La variabilità per caratteri quantitativi

2

Una classe di indici di variabilità globale 123 2.1 La differenza semplice media (r = 1) . . . . . . . . . . . . . . . . . . . 124 2.2 La differenza quadratica media (r = 2) . . . . . . . . . . . . . . . . . . . 124

3

Una classe di indici di dispersione 125 3.1 Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 ) . . . . . . 126 3.2 Lo scarto quadratico medio (r = 2, c = µ) . . . . . . . . . . . . . . . . . 127

4

Proprietà di minimo di D1 (x0.5 ) e di D2 (µ)

128

5

La varianza

129

6

Varianza di una trasformazione lineare

130

7

Gli indici relativi

131

8

Esercizi

133

1

119

La variabilità per caratteri quantitativi

Si ricorda che con riferimento ai caratteri quantitativi è possibile definire una distanza d tra le modalità xi , x j assunte da due generiche unità statistiche, tale che: 1. d(xi , x j ) = |x j − xi | = |xi − x j | ≥ 0 2. d(xi , x j ) = 0 ↔ xi = x j 3. |xi − x j | ≤ |xi − xk | + |x j − xk |

119

8.2

ni

xi x1 x2 x3 x4 x5

ni n1 n2 n3 n4 n5 n

x1

x3

x2

x5

x4

xi 8.3

Tipologie di indicatori elementari • indicatori elementari di variabilità globale • indicatori elementari di dispersione rispetto a un centro di riferimento c x2

x4 ●

x2



x4 ●





c

x1





x5

x1









x3

x3

ogni unità statistica viene confrontata con tutte le altre

ogni unità statistica viene confrontata con un valore c di riferimento

x5

8.4

120

Definizione 1 (Indicatori elementari di variabilità globale).

x2

x4 ●

x1







x5



x3 • |xi − x j |,

i = 1, . . . , k,

j = 1, . . . , k 8.5

Indicatori elementari di variabilità globale • |xi − x j |, i = 1, . . . , k, j = 1, . . . , k • quante coppie è possibile formare con elementi di due gruppi, il primo costituito da ni oggetti e il secondo da n j oggetti? • ad esempio se n1 = 3 ed n2 = 4 • gruppo 1 (a, a, a) e gruppo 2 (b, b, b, b) b b b b a (a,b) (a,b) (a,b) (a,b) a (a,b) (a,b) (a,b) (a,b) a (a,b) (a,b) (a,b) (a,b) (n1 = 3) · (n2 = 4) = 12 coppie • di indicatori elementari |xi − x j | calcolati con le modalità xi e x j ne esistono, quindi, ni · n j • il numero totale degli indicatori elementari di variabilità globale è n2 , avendo considerato anche il confronto di ogni unità statistica con se stessa 8.6

Esempio 2. 1 xi 1 3 5

ni 2 3 2 7

1

1 1 3 3 3 5 5

3

3

3

|xi − x j |

121

5

5

8.7

Definizione 3 (Indicatori elementari di dispersione rispetto a un centro c).

x2

x4 ●





c

x1





x5



x3 • |xi − c|,

i = 1, . . . , k 8.8

Indicatori elementari di dispersione rispetto a un centro c • |xi − c|, i = 1, . . . , k • di indicatori elementari di dispersione del tipo |xi − c|, calcolati con la modalità xi , ne esistono ni • il numero totale degli indicatori elementari di dispersione rispetto a un centro c è n 8.9

Esempio 4. 1 xi 1 3 5

ni 2 3 2 7

1

1 1 3 3 3 5 5

3

3

3

5

5

|xi − x j |

(49 indicatori) xi 1 3 5

ni 2 3 2 7

1

1

3 3 3 |xi − c|

5

5

(7 indicatori)

122

8.10

Interpretazione degli indicatori elementari indicatori elementari tutti nulli l assenza di variabilità l dati tutti eguali (v.s. degenere) Misure di variabilità In corrispondenza delle due tipologie di indicatori elementari è possibile definire delle misure di • variabilità globale V (X) • dispersione da un centro D(X) Tali misure sono funzione degli indicatori elementari • sono definite come medie potenziate degli indicatori elementari 8.11

Caratteristiche di base degli indici di variabilità • V (X) ≥ 0, D(X) ≥ 0 (non negatività) • V (X) = 0, D(X) = 0 se e solo se xi = c • monotonicità rispetto agli indicatori elementari |xi − x j | oppure |xi − c| 8.12

2

Una classe di indici di variabilità globale

Definizione 5 (Differenza media con ripetizione). Si definisce differenza media con ripetizione di ordine r la media potenziata di ordine r (r = 1, 2, . . .) degli indicatori elementari di variabilità globale |xi − x j |, i = 1, . . . , k, j = 1, . . . , k "

1 k k ∆r = 2 ∑ ∑ |xi − x j |r ni n j n i=1 j=1

#1/r (r = 1, 2, . . .)

Sono dette ’con ripetizione’ perchè vengono conteggiate anche le differenze |xi − xi | = 0. 8.13

Proprietà Essendo ∆r una media in senso stretto sono rispettate le caratteristiche degli indici di variabilità • condizione di Cauchy – min |xi − x j | = 0 ≤ ∆r ≤ max |xi − x j | quindi: * ∆r ≥ 0 (non negatività) * ∆r = 0 se e solo se xi = c • condizione di monotonicità – ∆r è funzione monotona crescente rispetto a |xi − x j | 123

Inoltre • proprietà moltiplicativa – Se Y = bX allora ∆r (Y ) = b∆r (X) • limite superiore medie potenziate – limr→+∞ ∆r = max |xi − x j | = xk − x1 = R dove R = Range o campo di variazione • invarianza per traslazione – Se Y = X + b allora ∆r (Y ) = ∆r (X + b) = ∆r (X) 8.14

Invarianza per traslazione Si consideri Y = X + 1, ad esempio:

ni

xi 2 4 7

ni 3 4 3 10

yi 3 5 8

ni 3 4 3 10

2

3

4

5

7

8

le distanze interne tra le modalità sono le stesse per X e Y 8.15

2.1

La differenza semplice media (r = 1)

Definizione 6. ∆1 =

1 k k ∑ ∑ |xi − x j |ni n j n2 i=1 j=1 8.16

2.2

La differenza quadratica media (r = 2)

Definizione 7. "

1 k k ∆2 = 2 ∑ ∑ (xi − x j )2 ni n j n i=1 j=1

124

#1/2

Osservazione È collegata al più importante indice di dispersione; si ha, infatti √ √ ∆2 = 2 · (scarto quadratico medio) = 2 · σ 8.17

3

Una classe di indici di dispersione

Definizione 8 (Le differenze medie di ordine r). Si considera la media potenziata di ordine r (r = 1, 2, . . .) degli indicatori elementari di dispersione dal centro di riferimento c, |xi − c|, i = 1, . . . , k "

1 k Dr (c) = ∑ |xi − c|r ni n i=1

#1/r = M [|X − c|r ]1/r

(r = 1, 2, . . .)

solitamente come centro c si può considerare: • un percentile (x p ) • la mediana (x0.5 ) • la media aritmetica (µ) 8.18

Proprietà Essendo Dr (c) una media in senso stretto sono rispettate le caratteristiche degli indici di variabilità • condizione di Cauchy – (min |xi − c| ≥ 0) ≤ Dr (c) ≤ max |xi − c| quindi: * Dr (c) ≥ 0 (non negatività) * Dr (c) = 0 se e solo se xi = c • condizione di monotonicità – Dr (c) è funzione monotona crescente rispetto a |xi − c| Inoltre • proprietà moltiplicativa – Se Y = bX allora Dr (bc)Y = bDr (c)X • invarianza per traslazione – se Y = X + b allora Dr (c)Y = Dr (c)(X+b) = Dr (c)X 8.19

125

Invarianza per traslazione Si consideri Y = X + 1, ad esempio:

ni

xi 2 4 7

ni 3 4 3 10

µX = 4.3

yi 3 5 8

ni 3 4 3 10

µY = 5.3

2

3

4

5

7

8

le distanze tra le modalità e la media sono le stesse per X e Y 8.20

3.1

Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 )

Definizione 9. D1 (x0.5 ) =

1 k ∑ |xi − x0.5 |ni n i=1

ovvero D1 (x0.5 ) = M [|X − x0.5 |] 8.21

Esempio 10. Calcoliamo D1 (x0.5 ) per la serie statistica xi 2 4 7

ni 3 4 3 10

In primo luogo si deve determinare il valore della mediana xi 2 4 7

ni 3 4 3

Ni 3 7 10

x0.5 =

126

x(5) + x(6) =4 2

Si calcolano poi gli scostamenti assoluti dalla mediana e li si moltiplica per le frequenze xi 2 4 7

ni |xi − x0.5 | |xi − x0.5 |ni 3 2 6 4 0 0 3 3 9 10 15 D1 (x0.5 ) =

3.2

1 15 = 1.5 10

8.22

Lo scarto quadratico medio (r = 2, c = µ)

Definizione 11. "

1 k D2 (µ) = ∑ (xi − µ)2 ni n i=1 ovvero

#1/2 =σ

r h i D2 (µ) = M (X − µ)2 = σ

Osservazione È collegato alla differenza quadratica media ∆2 =

√ 2·σ

per r = 2 l’indice di variabilità globale è direttamente proporzionale all’indice di dispersione riferito alla media. 8.23

Esempio 12. Con riferimento alla serie statistica xi 2 4 7

ni 3 4 3 10

xi ni 6 16 21 43

la media aritmetica risulta

1 43 = 4.3 10 Si calcolano gli scostamenti al quadrato da µ e li si moltiplica per le frequenze µ = M(X) =

xi 2 4 7

ni (xi − µ)2 3 5.29 4 0.09 3 7.29 10

(xi − µ)2 ni 15.87 0.36 21.87 38.10

Dividendo il totale ottenuto per la numerosità delle unità statistiche si ottiene il quadrato dello scarto quadratico medio   1 k 1 σ 2 = M (X − µ)2 = ∑ (xi − µ)2 ni = 38.10 = 3.81 n i=1 10 q √ σ = D2 (µ) = M [(X − µ)2 ] = 3.81 = 1.9519 8.24

127

4

Proprietà di minimo di D1 (x0.5 ) e di D2 (µ)

Uso combinato delle misure di posizione e di variabilità x0.5 e D1 (x0.5 ) µ

e

σ = D2 (µ)

Si ricorda che, in base al criterio di scelta della media per minimizzazione del danno: D=

1 k ∑ |xi − α|ni = min ↔ α = x0.5 n i=1

D=

1 k ∑ (xi − α)2 ni = min ↔ α = µ n i=1

valgono, quindi, le seguenti proprietà di minimo D1 (x0.5 ) = M [|X − x0.5 |] ≤ M [|X − α|] , ∀α ∈ ℜ     σ 2 = M (X − µ)2 ≤ M (X − α)2 , ∀α ∈ ℜ 8.25

128

5

La varianza

Definizione 13 (Varianza). [D2 (µ)]2 =

k 1 k (xi − µ)2 ni = ∑ (xi − µ)2 fi = σ 2 = Var(X) = σX2 ∑ n i=1 i=1

  σ 2 = Var(X) = M (X − µ)2 Formula operativa  σ 2 = Var(X) = M X 2 − µ 2 8.26

Dimostrazione. Sviluppando il quadrato che figura nella definizione h i  M (X − µ)2 = M X 2 − 2µX + µ 2 e ricordando che M(·) è un operatore lineare    M X 2 − 2µM(X) + µ 2 = M X 2 − 2µ 2 + µ 2 = M X 2 − µ 2 . 8.27

Esempio 14. Per calcolare la varianza della serie statistica xi 2 4 7

ni 3 4 3 10

xi ni 6 16 21 43

µ = M(X) =

1 43 = 4.3 10

una volta ottenuta la media, è sufficiente calcolare il momento secondo M(X 2 ) xi 2 4 7

ni xi ni 3 6 4 16 3 21 10 43

xi2 ni 12 64 147 223

M(X 2 ) =

1 k 2 1 ∑ xi ni = 10 223 = 22.3 n i=1

e applicare la formula operativa Var(X) = σ 2

= M[(X − µ)2 ] = = M(X 2 ) − µ 2 = = momento secondo − media2 = = 22.3 − 4.32 = 22.3 − 18.49 = 3.81. 8.28

129

6

Varianza di una trasformazione lineare

Teorema 15. Se Y = aX + b allora M(Y ) = aM(X) + b

(operatore lineare)

Var(Y ) = a2Var(X) (non è un operatore lineare) Dimostrazione. Si applichi la definizione di varianza alla variabile statistica Y e si esprima Y e µY = M(Y ) in funzione di X e µX = M(X): n o Var(Y ) = M[(Y − µY )2 ] = M [aX + b − (aµx + b)]2 = n o = M [aX + b − aµx − b]2 = n o = M [aX − aµx ]2 = n o = M [a(X − µx )]2 =   = M a2 (X − µx )2 =   = a2 M (X − µx )2 = a2Var(X). 8.29

Esempio 16. Si calcolino media e varianza della seguente serie statistica xi 2 3 4 5

ni 10 12 22 6

ni xi ni xi2 ni 10 20 40 1 µ = M(X) = 50 174 = 3.48 12 36 108 • 22 88 352 1 M(X 2 ) = 50 650 = 13 6 30 150 50 174 650 • Var(X) = M(X 2 ) − µ 2 = 13 − 3.482 = 13 − 12.1104 = 0.8896. xi 2 3 4 5

Sapendo che Y = 12 X + 4 si calcolino M(Y ) e Var(Y ) • M(Y ) = 21 M(X) + 4 = 12 3.48 + 4 = 5.74 2 • Var(Y ) = 21 Var(X) = 41 0.8896 = 0.2224.

130

8.30

7

Gli indici relativi

Indici relativi In generale: • gli indici, I, dipendono dall’unità di misura e dall’ordine di grandezza del fenomeno • non è possibile effettuare confronti Definizione 17 (Indice relativo). IR =

I opportuno indice di posizione

(numero puro) Definizione 18 (Coefficiente di variazione). CV =

σ µ

È un indice relativo: numero puro. Può essere definito solo per variabili statistiche che assumono valori positivi.

8.31

Esempio 19. Si consideri il peso di 4 soggetti misurato alla nascita, variabile X, e all’età di 30 anni, variabile Y . 1 2 3 4 xi 3 2.5 3.2 5 yi 73 57 69 85 Quale tra le due variabili presenta maggiore variabilità? Confrontando le medie aritmetiche M(X) = M(Y ) =

1 (3 + 2.5 + 3.2 + 5) = 3.425 4 1 (73 + 57 + 69 + 85) = 71 4

come ragionevolmente ci si può aspettare, il livello medio di Y è superiore a quello di X. Calcoliamo ora le varianze e i coefficienti di variazione

8.32

1 2 (3 + 2.52 + 3.22 + 52 ) = 12.6225 4 1 M(Y 2 ) = (732 + 572 + 692 + 852 ) = 5141 4 Var(X) = M(X 2 ) − µX2 = 0.8919 M(X 2 ) =

Var(Y ) = M(Y 2 ) − µY2 = 100 √ σX 0.8919 0.9444 CV (X) = = = = 0.2757 µX 3.425 3.425 √ σY 100 10 CV (Y ) = = = = 0.1408 µY 71 71 Dal confronto dei coefficienti di variazione si evince che il livello di variabilità di X (peso da bambini) è superiore a quello di Y (peso da adulti). Esempio 20. Volendo confrontare peso e altezza di n individui possiamo calcolare i seguenti indicatori 131

8.33

indicatore media aritmetica varianza scarto quadratico medio coefficiente di variazione

µ σ2 σ CV =

σ µ

unità di misura peso altezza kg cm kg2 cm2 kg cm kg cm = 1 kg cm = 1

Il confronto degli indici di posizione per variabili con differenti unità di misure non ha senso. Il coefficiente di variazione, che non dipende dall’unità di misura, rende possibile il confronto in termini di variabilità.

8.34

Esempio 21. Volendo sintetizzare i redditi di una famiglia e il prodotto interno lordo nazionale negli ultimi 10 anni possiamo calcolare i seguenti indicatori indicatore media aritmetica varianza scarto quadratico medio coefficiente di variazione

µ σ2 σ CV =

σ µ

ordine di grandezza in e famiglia nazione 103 109 6 10 1018 3 10 109 103 109 =1 =1 103 109

Non ha alcun senso confrontare il reddito medio della famiglia con il PIL medio. Il coefficiente di variazione, che non dipende dall’ordine di grandezza, rende possibile il confronto in termini di variabilità.

8.35

Teorema 22 (CV di una trasformazione lineare). Siano X > 0 e Y = aX + b con a > 0 e b tale che anche Y > 0. Allora: • se b < 0 vale CV (Y ) > CV (X), • se b = 0 vale CV (Y ) = CV (X), (b = 0 corrisponde a una sola trasformazione di scala) • se b > 0 vale CV (Y ) < CV (X). Dimostrazione. Se Y = aX + b abbiamo µY

= aµX + b

Var(Y ) = a2Var(X) σY Quindi: CV (Y ) =

= aσX aσX σY = . µY aµX + b 8.36

Analogamente al coefficiente di variazione (CV) è possibile definire un indice relativo, che denominiamo coefficiente di scostamento (CS), a partire dall’indice di dispersione di ordine 1, D1 (x0.5 ), scostamento medio assoluto dalla mediana. Definizione 23 (Coefficiente di scostamento). CS =

D1 (x0.5 ) x0.5

È un indice relativo: numero puro. Può essere definito solo per variabili statistiche che assumono valori positivi. 132

8.37

8

Esercizi

Esercizio 24 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nella seguente tabella: xi x1 30

ni n1 30

1. M(X 2 ) = 500, Var(X) = 100 e X risulti simmetrica. Esercizio 25 (T 180, 14.09.2000, 1). Lo spessore X china è compreso tra 15.2 e 16.5 mm. Si individuino le ampiezze delle 4 classi (Ii ) in cui è modo tale che: I1 I2 I3 fi 0.05 0.09 0.72 di 0.25 0.45 2.40

8.38

delle lamine prodotte da una macripartito l’intervallo (15.1; 16.5] in I4 0.14 0.20

1. Si costruisca l’istogramma della variabile X. 2. Si identifichi il valore della mediana e si calcoli un indice di variabilità di X. 3. Supponendo che dalla produzione vengano scartate le lamine con spessore minore di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito, la percentuale di lamine eliminate.

8.39

Esercizio 26 (T 248, 29.01.2009, 1). Il seguente prospetto riporta i valori rilevati in corrispondenza a 8 unità statistiche con riferimento a un carattere qualitativo X e a un carattere quantitativo Y : X a b b c a a c c Y 30 20 24 50 40 50 40 30 1. Si ricostruisca la mutabile statistica X e se ne dia una rappresentazione grafica. 2. Si riassumano con opportuni indici di posizione e di variabilità le distribuzioni X e Y , commentando opportunamente i risultati ottenuti. 3. Si indichi l’intervallo dei possibili valori che può assumere la media armonica di Y . 4. Si definiscano le relazioni esistenti rispettivamente tra le medie e le varianze di Y e di W = 100 − 2Y e si calcolino quindi media e varianza di W . -

8.40

Esercizio 27 (P 001, 10.03.1995, 1). Data la variabile statistica X con distribuzione di frequenze xj 1 2 4 7 n j 8 10 6 40 calcolare M(X) e Var(X). Calcolare inoltre la media aritmetica e la varianza delle v.s. Y = 6 + X,

Z = 7X,

W = X 3. 8.41

Esercizio 28 (P 001, 10.03.1995, 4). Date le v.s. X e Y caratterizzate dalle seriazioni (con classi chiuse a destra) xi 10 a 15 15 a 25 25 a 50 50 a 75

ni 21 38 51 20

yi ni 100 a 110 30 110 a 150 18 150 a 200 21 200 a 250 21

fornire un’adeguata rappresentazione grafica delle due distribuzioni e confrontarne media e variabilità.

133

8.42

Soluzione 29 (Esercizio 27). Procediamo, in primo luogo, al calcolo della media aritmetica di X, M(X) = 1n ∑ki=1 xi ni , e della varianza di X xi 1 2 4 7

ni xi ni xi2 ni 8 8 8 10 20 40 6 24 96 40 280 1960 64 332 2104

Otteniamo

1 332 = 5.1875 64 e, utilizzando la formula operativa della varianza: h i Var(X) = M (X − µ)2 =   = M(X 2 ) − M(X 2 ) = 1 = 332 − 5.18752 = 64 = 32.875 − 26.9102 = 5.9648. M(X) =

Per ricavare la media aritmetica e la varianza delle variabili statistiche Y = 6 + X e Z = 7X, ricordiamo che l’operatore media aritmetica è un operatore lineare e, quindi, M(aX + b) = aM(X) + b, mentre per l’operatore varianza vale Var(aX + b) = a2Var(X). Abbiamo, quindi: M(Y ) = M(6 + X) = 6 + M(X) = 6 + 5.1875 = 11.1875 M(Z) = M(7X) = 7M(X) = 7 · 5.1875 = 36.3125. Per ottenere media e varianza di W = X 3 occorre costruire la variabile statistica W , trasformando le modalità xi di X in xi3 , e procedere con i calcoli (si osserva come W non sia una trasformazione lineare di X) wi = xi3 ni wi ni w2i ni 1 8 8 8 8 10 80 640 64 6 384 24576 343 40 13720 4705960 64 14192 4731184 Abbiamo: M(W ) = M(X 3 ) =

1 14192 = 221.75 64

e   Var(W ) = M(W 2 ) − M(W 2 ) = 1 = 4731184 − 221.752 = 64 = 73924.75 − 49173.0625 = 24751.6875. 134

8.43

Soluzione 30 (Esercizio 28). Siamo in presenza di un carattere quantitativo con valori raggruppati in classi. Occorre, quindi, procedere al calcolo delle densità di frequenza per costruire gli istogrammi delle due distribuzioni. xi ni di 10 a 15 21 4.20 15 a 25 38 3.80 25 a 50 51 2.04 50 a 75 20 0.80

yi 100 a 110 110 a 150 150 a 200 200 a 250

ni 30 18 21 21

8.44 8.45

di 0.30 0.45 0.42 0.42

3

4.2 3.8

2.04

0.8 0.45 0.42

10

15

25

50

75

100

150

200

250

Per procedere al confronto di media e variabilità, procediamo al calcolo della media aritmetica e del coefficiente di variazione di X e di Y , considerando le serie statistiche ottenute sostituendo alle classi i corrispondenti valori centrali. xi 12.5 20 37.5 62.5

ni xi ni xi2 ni 21 262.5 3281.25 38 760 15200.00 51 1912.5 71718.75 20 1250 78125.00 130 4185 168325.00

yi 105 130 175 225

ni yi ni y2i ni 30 3150 330750 18 2340 304200 21 3675 643125 21 4725 1063125 90 13890 2341200

1 4185 = 32.1923, M(X) = 130 Var(X) = M(X 2 ) − M(X 2 ) = 1 = 130 168325 − 32.19232 = = 1294.8077 − 1036.3447 = 258.4630. CV (X) = σµXX = 16.0768 32.1923 = 0.4994.

1 M(Y ) = 90 13890 =154.3333,  Var(Y ) = M(Y 2 ) − M(Y 2 ) = 1 = 90 2341200 − 154.33332 = = 26013.3333 − 23818.7778 = 2194.5556. 46.8461 CV (Y ) = σµYY = 154.3333 = 0.3035.

Possiamo, quindi, concludere che: • il livello medio di Y è superiore a quello di X µX = 32.1923,

µY = 154.3333;

• la variabile X presenta un livello di variabilità superiore a Y CV (X) = 0.4994,

CV (Y ) = 0.3035. 8.46 8.47

135

Sezione 9 Variabilità (3) 9.1

Indice 1

Ulteriori considerazioni su media e varianza di una trasformazione lineare 1.1 X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 X ∗ = X − µX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . µX 1 X∗ X 1.3 Z = X−µ σX = σX X − σX = σX (variabile statistica standardizzata) . . . . 1.4 U = σXX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 W = 2X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

137 138 139 140 141 142

9.2

Ulteriori considerazioni su media e varianza di una trasformazione lineare

Considerazioni Se Y = aX + b allora M(Y ) = aM(X) + b

operatore lineare

Var(Y ) = a2Var(X) non è un operatore lineare 9.3

Si considerano, a titolo di esempio, le seguenti trasformazioni lineari di una seriazione stastica X 1. X ∗ = X − µX 2. Z=

X − µX σX

3. U=

X σX

4. W = 2X

137

9.4

1.1

X valori centrali 3 6 9

X 2a4 4a8 8 a 10

ni 4 8 8 20

fi 0.2 0.4 0.4 1

ai 2 4 2

di 0.1 0.1 0.2

xi ni 12 48 72 132

xi2 ni 36 288 648 972

0.0

0.1

0.2

0.3

0.4

0.5

M(X) = 6.6 = µ Var(X) = 48.6 − 6.62 = 5.04 sqm(X) = σX = 2.245

−5

0

5

10

15

20

9.5

138

1.2

X ∗ = X − µX valori centrali -3.6 -0.6 2.4

X −4.6 a −2.6 −2.6 a 1.4 1.4 a 3.4

ni 4 8 8 20

fi 0.2 0.4 0.4 1

ai 2 4 2

di 0.1 0.1 0.2

xi ni -14.4 -4.8 19.2 0

xi2 ni 51.84 2.88 46.08 100.8

0.0

0.1

0.2

0.3

0.4

0.5

M(X ∗ ) = 0 = µ Var(X ∗ ) = 5.04 − 02 = 5.04 sqm(X ∗ ) = σX ∗ = 2.245 o più semplicemente M(X ∗ ) = M(X) − M(X) = 0 Var(X ∗ ) = 12 ·Var(X) = Var(X)

−5

0

5

10

15

20

9.6

139

1.3



µX 1 X X Z = X−µ σX = σX X − σX = σX (variabile statistica standardizzata)

valori centrali -1.6036 -0.2673 1.069

X −2.049 a −1.1581 −1.1581 a 0.6236 0.6236 a 1.5145

ni 4 8 8 20

fi 0.2 0.4 0.4 1

ai 0.8909 1.7817 0.8909

di 0.2245 0.2245 0.449

xi ni -6.4143 -2.1381 8.5524 0

xi2 ni 10.2857 0.5714 9.1429 20

0.0

0.1

0.2

0.3

0.4

0.5

M(Z) = 0 = µ Var(Z) = 1 − 02 = 1 sqm(Z) = σZ = 1 o più semplicemente M(Z) = M(X)/σ − µ/σ = µ/σ − µ/σ = 0 Var(Z) = Var(X)/σ 2 = σ 2 /σ 2 = 1

−5

0

5

10

15

20

9.7

140

1.4 U =

X σX

valori centrali 1.3363 2.6726 4.0089

X 0.8909 a 1.7817 1.7817 a 3.5635 3.5635 a 4.4544

ni 4 8 8 20

fi 0.2 0.4 0.4 1

ai 0.8909 1.7817 0.8909

di 0.2245 0.2245 0.449

xi ni 5.3452 21.3809 32.0713 58.7975

xi2 ni 7.1429 57.1429 128.5714 192.8571

0.0

0.1

0.2

0.3

0.4

0.5

M(U) = 2.9399 = µ Var(U) = 9.6429 − 2.93992 = 1 sqm(U) = σU = 1 o più semplicemente M(U) = M(X)/σ Var(U) = Var(X)/σ 2 = σ 2 /σ 2 = 1

−5

0

5

10

15

20

9.8

141

1.5 W = 2X valori centrali 6 12 18

X 4a8 8 a 16 16 a 20

ni 4 8 8 20

fi 0.2 0.4 0.4 1

ai 4 8 4

di 0.05 0.05 0.1

xi ni 24 96 144 264

xi2 ni 144 1152 2592 3888

0.0

0.1

0.2

0.3

0.4

0.5

M(W ) = 13.2 = µ Var(W ) = 194.4 − 13.22 = 20.16 sqm(W ) = σW = 4.49 o più semplicemente M(W ) = 2 · M(X) Var(W ) = 22Var(X) = 4 ·Var(X)

−5

0

5

10

15

20

9.9

Definizione 1 (Variabile statistica standardizzata). Data una variabile statistica X con media µX e varianza σX2 si definisce variabile statistica standardizzata la seguente variabile statistica X − µX Z= σX Applicando le proprietà dell’operatore media e della varianza si dimostra che M(Z) = 0

e

Var(Z) = 1

La variabile statistica standardizzata • non ha unità di misura • non ha ordine di grandezza • risulta invariante rispetto a eventuali trasformazioni lineari operate su X Se Y = aX + b abbiamo, infatti: aX + b − (aµX + b) aX − aµX a(X − µX ) X − µX Y − µY = = = = σY aσX aσX aσX σX 9.10

142

Sezione 10 Variabilità (4) 10.1

Indice 1

La varianza di un miscuglio (h gruppi) 2 1.1 σBetween . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 σWithin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Applicazioni del risultato di scomposizione della varianza . 1.4 Il Rapporto di Correlazione . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

143 144 144 147 148

2

Esercizi

151

3

La diseguaglianza di Tchebychev

152

1

10.2

La varianza di un miscuglio (h gruppi)

Si considerino i dati elementari v1 , v2 , . . . , vn riuniti in h gruppi 1

2

...

h

n1

n2

...

nh

µ1 σ12

µ2 σ22

... ...

µh σh2

(il raggruppamento in tabelle è uno dei possibili). Il singolo valore viene ora indicato con xi j : j-esima osservazione ( j = 1, 2, . . . , ni ) nel gruppo i (i = 1, 2, . . . , h)

10.3

• media gruppo i-esimo µi =

1 ni

ni

∑ xi j

j=1

• varianza gruppo i-esimo σi2 =

1 ni

ni

∑ (xi j − µi )2

j=1

In base alla proprietà associativa della media aritmetica µ=

1 k ∑ µi ni n i=1

la media generale è la media delle medie di gruppo. 143

10.4

Teorema 1 (Scomposizione della varianza). La varianza di tutte le unità statistiche è pari alla somma di varianza between e varianza within σ 2 = σB2 + σW2

1.1

10.5

2 σBetween

Idea riguardo alla diversità dei gruppi: quanto sono diversi i gruppi tra di loro • quanto sono diverse le medie di gruppo µi • varianza delle medie di gruppo µi 2 Definizione 2 (σBetween ).

σB2 =

1.2

1 h ∑ (µi − µ)2 ni n i=1

10.6

2 σWithin

Idea riguardo alla variabilità all’interno dei gruppi: quanto sono variabili i gruppi al loro interno • media delle varianze dei gruppi σi2 2 Definizione 3 (σWithin ).

1 h 2 ∑ σi ni n i=1

σW2 =

10.7

Dimostrazione. σ2

=

1 h ni 1 h ni 2 (x − µ) = i j ∑∑ ∑ ∑ (xi j − µi + µi − µ)2 = n i=1 n j=1 i=1 j=1

=

1 h ni ∑ ∑ [(xi j − µi ) + (µi − µ)]2 = n i=1 j=1

=

 1 h ni  (xi j − µi )2 + (µi − µ)2 + 2(xi j − µi )(µi − µ) = ∑ ∑ n i=1 j=1

=

1 h ni 1 h ni 1 h ni 2 2 (x − µ ) + (µ − µ) + ∑ ∑ ij i n ∑ ∑ i ∑ ∑ 2(xi j − µi )(µi − µ) = n i=1 n i=1 j=1 i=1 j=1 j=1

=

1 h 1 ∑ ni ni n i=1

=

ni

ni

h

1

h

1

ni

∑ (xi j − µi )2 + n ∑ ∑ (µi − µ)2 + n ∑ ∑ 2(xi j − µi )(µi − µ) = i=1 j=1

j=1

h

h

h

h

1 1 ni σi2 + ∑ (µi − µ)2 ∑ n i=1 n i=1

(

i=1 j=1

)

( ) ni 2 ∑ 1 + n ∑ (µi − µ) ∑ (xi j − µi ) = j=1 i=1 j=1 ni

h

ni

0 h

=

1 1 2 ∑ ni σi2 + n ∑ (µi − µ)2 ni + n ∑ (µi − µ) · 0 = n i=1 i=1 i=1

=

1 h 2 1 h 2 2 σi ni + ∑ (µi − µ)2 ni = σWithin + σBetween ∑ n i=1 n i=1 10.8

144

Esempio 4. Si consideri la seguente popolazione di unità statistiche raggruppate in 3 gruppi 1 2 3 4 5 4 6 6 6 7 6 8 8 Abbiamo µ1

=

µ2

=

µ3

=

1 (4 + 5 + 6 + 7) = 5.5 4 1 (4 + 6 + 6 + 8) = 6 4 1 (6 + 8) = 7 2

e con riferimento alla proprietà associativa della media aritmetica: µ=

1 3 1 ∑ µi ni = 10 60 = 6 n i=1 10.9

A partire dalla variabile statistica medie di gruppo i 1 2 3

µi 5.5 6 7

ni 4 4 2 10

le cui modalità sono le medie di gruppo, con frequenze le numerosità di gruppo, possiamo calcolare media e varianza µi ni µi ni µi2 ni 5.5 4 22 121 6 4 24 144 7 2 14 98 10 60 363

µ

=

1 h 1 3 1 modalità · frequenze = ∑ µi ni = 60 = 6 ∑ n i=1 n i=1 10

σB2

=

1 3 1 3 1 (µi − µ)2 ni = ∑ µi2 ni − µ 2 = 363 − 62 = 36.3 − 36 = 0.3 ∑ n i=1 n i=1 10

la varianza delle medie di gruppo è la varianza Between. Calcoliamo ora le varianze nei tre gruppi: • 1 1 σ12 = (42 + 52 + 62 + 72 ) − 5.52 = 126 − 30.25 = 31.5 − 30.25 = 1.25 4 4 • •

1 1 σ22 = (42 + 62 + 62 + 82 ) − 62 = 152 − 36 = 38 − 36 = 2 4 4 1 1 σ32 = (62 + 82 ) − 72 = 100 − 49 = 50 − 49 = 1. 2 2 145

10.10

10.11

È possibile ricostruire la variabile statistica varianze di gruppo σi2 1.25 2 1

i 1 2 3

ni 4 4 2 10

le cui modalità sono le varianze di gruppo, con associate come frequenze le rispettive numerosità di gruppo. La media di tale variabile statistica risulta σi2 1.25 2 1

σW2 =

ni σi2 ni 4 5 4 8 2 2 10 15

1 h 1 3 1 modalità · frequenze = ∑ σi2 ni = 15 = 1.5. ∑ n i=1 n i=1 10 10.12

La varianza generale calcolata su tutte le unità statistiche può essere ottenuta come σ 2 = σB2 + σW2 = 0.3 + 1.5 = 1.8 Si può, infatti, verificare che σ2

= =

1 2 (4 + 52 + 62 + 72 + 42 + 62 + 62 + 82 + 62 + 82 ) − 62 10 1 378 − 36 = 37.8 − 36 = 1.8 10

ovvero xi 4 5 6 7 8

σ 2 = M(X 2 ) − µ 2 =

ni xi2 ni 2 32 1 25 4 144 1 49 2 128 10 378 1 378 − 62 = 37.8 − 36 = 1.8 10 10.13

146

1.3

Applicazioni del risultato di scomposizione della varianza

Il risultato di scomposizione della varianza 2 2 σ 2 = σBetween + σWithin

trova largo impiego nelle analisi di Marketing: è opportuno effettuare una segmentazione delle unità statistiche in funzione della variabile di raggruppamento utilizzata nello scomporre la varianza? Esempi • Studio del livello di spesa in funzione della fascia di età oppure della regione geografica. • Definizione della strategia di comunicazione aziendale: pianificare un’unica campagna o adottare comunicazioni diverse in funzione, ad esempio, dell’età o della zona di appartenenza? 10.14

Il risultato di scomposizione della varianza consente, infatti, di verificare se il comportamento delle unità statistiche può essere ritenuto sostanzialmente diverso tra i gruppi. • La varianza Between, varianza delle medie di gruppo, misura quanto sono tra loro diverse le medie di gruppo µi e, quindi, quanto diverso è il comportamento tra i soggetti appartenenti a diversi gruppi. • La varianza Within, media delle varianze di gruppo, fornisce una sintesi del livello di variabilità presente in ciascun gruppo: una sintesi di quanto le medie di gruppo sono rappresentative dei valori all’interno di ciascun gruppo. 10.15

Quando ha senso effettuare una segmentazione delle unità statistiche? Devono essere verificate entrambe le seguenti condizioni: 1. la varianza Between deve assumere valore grande σ 2 ≥ σB2  0 2. la varianza Within deve essere piccola σ 2  σW2 ≥ 0 • medie di gruppo tra loro diverse • medie di gruppo rappresentative dei rispettivi gruppi (omogeneità dei valori all’interno di ciascun gruppo) 10.16

147

1.4

Il Rapporto di Correlazione

Un indice sintetico che consente di stabilire se è opportuno effettuare una segmentazione delle unità statistiche è il Rapporto di Correlazione (normalizzazione della varianza Between) Definizione 5 (Rapporto di correlazione). η2 =

σB2 σ2

Proprietà • η 2 = 0 ↔ σB2 = 0 medie di gruppo tutte uguali • η 2 = 1 ↔ (σB2 = σ 2 e σW2 = 0) medie di gruppo diverse e fortemente rappresentative delle distribuzioni di gruppo, che risultano degeneri in quanto le varianze di gruppo sono tutte pari a 0 10.17

Con riferimento all’esempio precedente abbiamo ottenuto σB2 = 0.3

σW2 = 1.5

σ 2 = 1.8

quindi 0.3 = 0.1667 1.8 il rapporto di correlazione assume un valore molto basso; non ha, quindi, senso effettuare una segmentazione delle unità statistiche in funzione della variabile di raggruppamento che è stata presa in considerazione. Un’analisi grafica preliminare è sempre utile al fine di esaminare la possibilità di effettuare una segmentazione. Possiamo rappresentare i valori assunti dalle unità statistiche appartenenti ai 3 gruppi 1 2 3 4 5 4 6 6 6 7 6 8 8 η2 =











Gruppo 1

Gruppo 2

0

1

2

3

7

● ●



6



5



4

8

9

10

10.18

Gruppo 3

10.19

Possiamo aggiungere al grafico precedente le medie di gruppo 148

10 9 8









Gruppo 1

Gruppo 2

0

1

2

3

7



6

● ●



5



4



Gruppo 3

10.20











Gruppo 1

Gruppo 2

0

1

2

3

7

● ●



6



5



4

8

9

10

Dall’analisi del grafico si evince un’elevata dispersione dei valori di alcuni gruppi dalle rispettive medie

Gruppo 3

→ possibile sintomo che le medie non sono rappresentative

149

10.21

Un’efficace analisi grafica può anche essere condotta confrontando i Box & Whiskers Plot delle distribuzioni di gruppo, qui riferiti a esempi diversi da quello precedentemente discusso, con una numerosità adeguata delle unità statistiche. Esempio 6 (Distribuzione dello stipendio rispetto al genere).

40



● ●



● ●

30



● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●



10

20

● ● ● ● ● ● ● ● ● ● ●

0

1

10.22

Esempio 7 (Distribuzione dello stipendio rispetto al titolo di studio).

40



● ●

● ●

30

● ● ●

20



● ● ● ● ●

● ● ●

● ● ● ● ● ● ● ●

● ● ●

3

4

● ● ●

10



● ● ●

1

2

5

10.23

150

Esempio 8 (Distribuzione dello stipendio rispetto al genere & titolo di studio).

40



● ●



● ●

30



● ●

● ● ●



● ● ●



20

● ● ●



● ●

● ●

● ●

● ● ●

10





01



● ●

02

03

04

05

11

12

13

14

15

10.24

2

Esercizi

Esercizio 9 (T 206, 25.09.2003, 1). La qualità dei prodotti di un’azienda produttrice di materiali edili, strutturata su due differenti linee produttive (Li ; i = 1, 2), è misurata attraverso la resistenza a pressione (Y ) rilevata sui provini prodotti dalle due linee. Nel seguente prospetto sono riportati, per ciascuna delle due linee, la media ed il coefficiente di variazione di Y , calcolati su un certo numero di provini: linea L1 L2

n◦ provini 50 100

µi CVi 32 0.065 29 0.073

1. Calcolare media e varianza di Y sul totale dei 150 provini. 2. Valutare, tramite un opportuno indice, se possiamo ritenere diversi i livelli medi di resistenza dei prodotti nelle due linee. 10.25

Esercizio 10 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’): ’visitatori esperti’ hi−1 a hi fi 5 a 10 0.40 10 a 20 0.40 20 a 25 0.20 1.00

’visitatori occasionali’ hi−1 a hi fi 5 a 10 0.76 10 a 20 0.08 20 a 25 0.16 1.00

1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le due tipologie di visitatori e le si confronti mediante opportuni indici di posizione e di variabilità; 2. sapendo che la media di Y , riferita a tutte le 80 unità statistiche, è pari a 11.625 e che il numero di soggetti esperti è pari a 30 si calcoli, applicando il risultato della scomposizione della varianza, il valore della varianza della variabile Y riferita a tutte le 80 unità statistiche. 151

10.26

3

La diseguaglianza di Tchebychev

Definizione 11 (Diseguaglianza di Tchebychev). Sia X una variabile statistica con media µ = M(X) e varianza σ 2 = Var(X). Assegnato un qualsiasi valore t > 1 si consideri l’intervallo dei valori di X, centrato rispetto alla media µ e di raggio tσ (µ − tσ , µ + tσ ). La frequenza relativa, riferita alle unità statistiche che assumono valore al di fuori di tale intervallo, è al più eguale a t12 1 ∑ fi ≤ t 2 i:|x −µ|≥tσ i

10.27



i:|xi −µ|≥tσ

1 fi ≤ 2 t

di conseguenza la frequenza relativa, riferita alle unità statistiche che assumono valore all’interno dell’intervallo, sarà almeno pari a 1 − t12 valori tipici t t12 2 0.25 3 0.1111 4 0.0625 5 0.04

1 − t12 0.75 0.8889 0.9375 0.96 10.28

152

Esempio 12.

µ

µ − tσ

µ − tσ

• l’area in GRIGIO è al più pari a t12 • l’area in BIANCO è almeno pari a 1 − t12 10.29

0.00

0.05

0.10

0.15

0.20

0.25

Esempio 13.

10

15

20

25

µX = 16.6986 σX = 2.9653 t = 2 • l’area in GRIGIO è al più pari a 212 = 0.25 = 25% • l’area in BIANCO è almeno pari a 1 − 212 = 0.75 = 75%

153

10.30

Esempio 14.

350

400

µX = 375.8302

450

σX = 23.3231 t = 2.5

• l’area in GRIGIO è al più pari a 2.51 2 = 0.16 = 16% • l’area in BIANCO è almeno pari a 1 − 2.51 2 = 0.84 = 84%

10.31

Esempio 15.

77.0

77.5

µX = 78.0939

78.0

78.5

σX = 0.3815 t = 2.5 1 2.52

• l’area in GRIGIO è al più pari a = 0.16 = 16% • l’area in BIANCO è almeno pari a 1 − 2.51 2 = 0.84 = 84%

154

10.32

Sezione 11 Indici di forma 11.1

Indice 1

Asimmetria 1.1 Simmetria . . . . . . . . . . . . . . . . 1.2 Asimmetria . . . . . . . . . . . . . . . 1.3 Due particolari situazioni di asimmetria 1.4 Caratterizzazione indici di posizione (1) 1.5 Caratterizzazione indici di posizione (2)

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

155 155 158 159 160 160

2

Misure di asimmetria

3

Curtosi 164 3.1 Tipologie curtosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

4

Considerazioni conclusive sui Box & Whiskers plot

166

5

Esercizi

167

1 1.1

161

11.2

Asimmetria Simmetria

Definizione 1 (funzione (continua) simmetrica). Una funzione f (x) si definisce simmetrica rispetto a un centro c se ∀k > 0 vale: f (c − k) = f (c + k)

c

c−k

c

c+k

11.3

155

Esempio 2. Anche la seguente funzione (continua a intervalli) è simmetrica rispetto al centro c

c−k

c

c+k 11.4

Esempio 3. Anche la seguente funzione (di variabile discreta, ovvero definita su un insieme di valori discreti) è simmetrica rispetto al centro c

c−k

c

c+k 11.5

Definizione 4 (Variabile statistica simmetrica). Una variabile statistica X si definisce simmetrica rispetto al centro c se: • per ogni xi = c − k • esiste un valore corrispondente x j = c + k (simmetrico) tale che f (xi ) = f (x j ) X simmetrica → M(X) = c Si ricorda che la media aritmetica è il baricentro (punto di equilibrio delle frequenze) di ogni distribuzione; 156

in presenza di una variabile statistica X con distribuzione simmetrica rispetto a c vale M(X) = c = baricentro 11.6

X simmetrica → x0.5 = c Osservando il grafico di una variabile statistica simmetrica

c

c

si evince che (almeno) metà delle unità statistiche hanno valore non superiore a c e (almeno) metà delle unità statistiche hanno valore non inferiore a c; il punto c può, quindi, essere interpretato come la mediana della distribuzione. 11.7

X simmetrica → Moda = c Se la moda esiste, coincide con il centro di simmetria

c

c

11.8

  X simmetrica → M (X − µ)2r+1 = 0, r = 0, 1, 2, . . . Esplicitando l’espressione del momento centrale di ordine dispari rispetto alla media aritmetica abbiamo r   M (X − µ)2r+1 = ∑ (xi − µ)2r+1 fi = 0, r = 0, 1, 2, . . . i=1

c

c

Scarti di eguale entità ma con segno opposto sono ponderati con le medesime frequenze, quindi si compensano. Si ricordi per r = 0 l’interpretazione della media aritmetica come baricentro di una distribuzione di frequenze, M(X − µ) = 0. 11.9

157

X simmetrica → x0.5 − x p = x1−p − x0.5 , ovvero x0.5 = 12 (x p + x1−p ) con 0 ≤ p < 0.5 La frequenza delle unità statistiche con modalità minori o eguali a x p coincide con quella delle unità statistiche con modalità maggiori o eguali a x1−p .

11.10

Riepilogo • simmetria



• M(X) = x0.5 = c

M(X) = x0.5 = c ?



simmetria

Il fatto che la media aritmetica coincida con la mediana è solo un sintomo del fatto che la distribuzione possa essere simmetrica. • simmetria



  M (X − µ)2r+1 = 0,

r = 0, 1, 2, . . .

•   M (X − µ)2r+1 = 0,

r = 0, 1, 2, . . .



simmetria

Se tutti i momenti centrali rispetto alla media sono nulli allora la distribuzione è simmetrica. – Il momento centrale di ordine 1 rispetto alla media, M(X − µ), è sempre nullo, a prescindere dalla forma della distribuzione.   – Se verifico che il momento centrale di ordine 3 rispetto alla media, M (X − µ)3 , è nullo, ho solo un sintomo del fatto che la distribuzione possa essere simmetrica. • 1 simmetria → x0.5 − x p = x1−p − x0.5 ovvero x0.5 = (x p + x1−p ), 0 ≤ p < 0.5 2 11.11

1.2

11.12

Asimmetria

Esempio 5. Una funzione non simmetrica si definisce asimmetrica.

158

11.13

1.3

Due particolari situazioni di asimmetria

Definizione 6. Asimmetria positiva Una distribuzione unimodale si definisce asimmetrica positiva quando 12 (x p + x1−p ) > x0.5 per ogni 0 ≤ p < 0.5. Una distribuzione asimmetrica positiva è, quindi, caratterizzata da una coda destra più pesante (lunga) della sinistra (fat/heavy right tail). È anche detta obliqua verso destra.

xp

x0.5

x1−p

11.14

Definizione 7. Asimmetria negativa Una distribuzione unimodale si definisce asimmetrica negativa quando 12 (x p + x1−p ) < x0.5 per ogni 0 ≤ p < 0.5. Una distribuzione asimmetrica negativa è, quindi, caratterizzata da una coda sinistra più pesante (lunga) della destra (fat/heavy left tail). È anche detta obliqua verso sinistra.

xp

x0.5

x1−p

11.15

159

1.4

Caratterizzazione indici di posizione (1)

Nel caso di una distribuzione asimmetrica positiva vale il seguente ordinamento: Moda < x0.5 < µ

Moda

x0.5 µ

11.16

1.5

Caratterizzazione indici di posizione (2)

Nel caso di una distribuzione asimmetrica negativa vale il seguente ordinamento: µ < x0.5 < Moda

µ x0.5 Moda

11.17

160

2

Misure di asimmetria

Definizione 8 (Indice di asimmetria di Gini - Confronto Normalizzato tra media e mediana). µ − x0.5 µ − x0.5 = D1 (x0.5 ) M[|X − x0.5 |] • distribuzione asimmetrica positiva



0
σY2 . Di conseguenza, dovendo scegliere, tra diversi modelli, quale è più opportuno utilizzare per interpretare la variabile Y si dovranno confrontare i residui quadratici medi quando: • in qualcuno dei modelli in gioco manca l’intercetta, • l’intercetta è vincolata, • il modello è non lineare e si è operata una trasformazione che coinvolge la variabile dipendente per ricondursi alla forma linearizzata. In questi casi non ha senso calcolare l’indice di adattamento.

20.7

Esempio 1 (vincolo: retta passante in (0, a0 )). Y ∗ = a0 + bX

6

8

10

y

(a ≡ a0 = 10)



































2

4







0



0

2

4

6

x

8

20.8

a + bX 2 ).

Esempio 2 (trasformazione: modello Y = È possibile ricondursi al modello retta, considerando X 2 come variabile esplicativa. Nella prima delle seguenti rappresentazioni grafiche si stima il modello quadratico in X; nella seconda il modello lineare in X 2 ; si osserva come la struttura di variabilità della Y rimane immutata. I residui del primo modello sono identici a quelli del secondo, avendo operato una trasformazione solo della variabile esplicativa. Quindi il residuo quadratico medio assume lo stesso valore in entrambe le situazioni. y

10

10

y

4

















8







6

6





4

8



● ●











2

2















● ●





2

4

6

8

x2

0

0

x 0











● ●







0

10

20

30

40

50

20.9

aX b ).

Esempio 3 (trasformazione: modello Y = È possibile ricondursi al modello retta, operando la linearizzazione ln(Y ) = ln a + b ln(X) 287

Nella prima delle seguenti rappresentazioni grafiche si stima il modello non lineare in X; nella seconda il modello linearizzato in ln X e lnY . Si osserva come in questo caso la struttura di variabilità della Y cambia. Non si possono, quindi, utilizzare i residui e, tantomeno, l’indice di adattamento del secondo modello per valutare la bontà del primo. Occorre calcolare il residuo quadratico medio basandosi sui residui della prima figura. ln(y)

5

100

y

● ●

● ● ●



4

80

● ● ● ● ● ●

● ● ●







3

60

● ●





● ●

40





2





● ● ● ●



1

20

● ●



● ● ●

x

0



2

4

6

8

ln(x) 0



0



0.0

0.5

1.0

1.5

2.0

2.5

20.10

3

Indice di miglioramento

Dati due modelli possiamo classificare come ’migliore’ il modello che ha associato il residuo quadratico medio più piccolo e come ’peggiore’ quello che ha associato il residuo quadratico medio più grande. Definizione 4. Si definisce indice di miglioramento la riduzione relativa del residuo quadratico medio che si ottiene passando dal modello peggiore al modello migliore. pegg,migl ρ

2

=

RMS pegg − RMSmigl RMS pegg 20.11

4

Interpretazione del coefficiente b per alcuni modelli di regressione

I risultati seguenti valgono anche con riferimento ai modelli di regressione multipla (che verranno presentati in una Sezione successiva), ceteris paribus, ossia supponendo che rimanga immutato il livello di tutte le altre variabili eventualmente presenti nel modello e nell’ipotesi teorica che vi sia assenza di correlazione tra la componente di errore e i regressori. Si considerano le seguenti tipologie di relazioni lineari: • relazione lineare con trasformata logaritmica della variabile esplicativa • relazione lineare con trasformata logaritmica della variabile dipendente • relazione lineare con trasformata logaritmica della variabile dipendente e variabile esplicativa di tipo dummy • relazione lineare con trasformata logaritmica sia della variabile dipendente che della variabile esplicativa 20.12

288

4.1

Relazione lineare Y ∗ = a + bX

Se x0 → x0 + ∆x consegue che y∗0 = a + bx0 → a + bx0 + b∆x = y∗0 + b∆x, quindi

∆y∗ = b. ∆x b è la variazione assoluta di y∗ che consegue a una variazione assoluta unitaria di x. ∆y∗ = y∗0 + b∆x − y∗0 = b∆x

4.2

e

20.13

Trasformata logaritmica della variabile esplicativa Y ∗ = a + b ln(X)

Se x0 → x1 = x0 + ∆x = x0 + cx0 = (1 + c)x0 consegue che y∗0 → a + b ln[(1 + c)x0 ] = a + b ln(x0 ) + b ln(1 + c) = y∗0 + b ln(1 + c), quindi ∆y∗ = b ln(1 + c). Si osserva che il rapporto tra il nuovo valore di x, x1 = (1 + c)x0 e il valore iniziale x0 può essere interpretato come un valore relativo e risulta pari a 1 + c: x1 = (1 + c) x0 da cui consegue una variazione relativa di x pari a c. Si consideri lo sviluppo in serie di Taylor di ln(1 + c), vale: ln(1 + c) ' c. Per valori ’piccoli’ di c si può interpretare b ln(1 + c) ' bc come la variazione assoluta di y∗ che consegue a una variazione relativa di x pari a 100c%.

4.3

20.14

Trasformata logaritmica della variabile dipendente ln(Y ∗ ) = a + bX

Se x0 → x1 = x0 + ∆x consegue che ln(y∗0 ) → a + bx0 + b∆x = ln(y∗0 ) + b∆x. Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b∆x} e il valore iniziale y∗0 :  exp{ln(y∗0 ) + b∆x} exp ln(y∗0 ) + ln eb∆x y∗1 = = = y∗0 exp{ln(y∗0 )} y∗0   exp ln y∗0 · eb∆x y∗ · eb∆x = = 0 ∗ = eb∆x . ∗ y0 y0 Considerando lo sviluppo in serie di Taylor di eb∆x , abbiamo che eb∆x ' (1 + b∆x). Quindi, per valori piccoli di b e di ∆x si può interpretare b∆x come la variazione relativa di y∗ che consegue a una variazione assoluta ∆x di x. 289

20.15

4.4

Trasformata logaritmica della variabile dipendente e variabile esplicativa di tipo dummy

Si particolarizza il caso precedente tenendo presente che x può assumere solo i valori 0 e 1, rispettivamente nelle situazioni di assenza e presenza del carattere di cui è indicatrice.1 ln(Y ∗ ) = a + bX Se x0 = 0 → x1 = 1 consegue che ln(y∗0 ) = a → ln(y∗1 ) = a + b = ln(y∗0 ) + b. Il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b} e il valore iniziale y∗0 risulta:    exp ln y∗0 eb exp{ln(y∗0 ) + b} exp ln(y∗0 ) + ln eb y∗ eb y∗1 = = = = 0 ∗ = eb . ∗ ∗ ∗ ∗ y0 exp{ln(y0 )} y0 y0 y0 Quindi, dal momento che eb ' (1 + b) per valori piccoli di b, il coefficiente b può essere interpretato come la variazione relativa di y∗ che consegue al passaggio della variabile indicatrice x dallo stato 0 allo stato 1. Ad esempio l’incremento percentuale, ceteris paribus, del salario di un soggetto di genere maschile, x = 1, rispetto allo stipendio di un soggetto di genere femminile, x = 0.

4.5

Trasformata logaritmica sia della variabile dipendente che della variabile esplicativa ln(Y ∗ ) = a + b ln(X)

Se x0 → x1 = x0 + ∆x = x0 + cx0 = (1 + c)x0 consegue che ln(y∗0 ) = a + b ln(x0 ) → ln(y∗1 ) = a + b ln[(1 + c)x0 ] = = a + b ln(x0 ) + b ln(1 + c) = ln(y∗0 ) + b ln(1 + c). Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b ln(1 + c)} e il valore iniziale y∗0 : y∗1 y∗0

=

exp{ln(y∗0 ) + b ln(1 + c)} exp{ln(y∗0 ) + ln(1 + c)b } = = exp{ln(y∗0 )} y∗0

=

exp{ln[y∗0 (1 + c)b ]} y∗0 (1 + c)b = = (1 + c)b . y∗0 y∗0

1 Se, ad esempio, si è rilevato il genere G di 4 soggetti, la variabile X = maschio assume valore 1 per i soggetti maschi e 0 per le femmine soggetto G X 1 m 1 2 f 0 3 f 0 4 m 1 5 f 0

290

20.16

Si osservi come (1 + c)b ' (1 + bc), per valori piccoli di b e c; infatti (1 + c)b = exp[ln(1 + c)b ] = exp[b ln(1 + c)]; inoltre ln(1 + c) ' c e, infine, exp(bc) ' (1 + bc). 20.17

A una variazione relativa di x, pari a c (si ricordi che x1 /x0 = 1 + c) consegue, quindi, una variazione relativa di y∗ pari a circa bc y∗1 /y∗0

(infatti, ' 1 + bc). Dal momento che si considerano valori ’sufficientemente piccoli’ di b e c le variazioni dy∗ relative di x e y∗ possono rispettivamente indicarsi (nel continuo) con dx x e y∗ , da cui il rapporto dy∗ y∗ dx x

'

bc =b c

noto anche come elasticità di y∗ rispetto a x. Si osserva che la presente relazione corrisponde alla versione ’linearizzata’ di Y ∗ Y ∗ = αX b . 20.18

Prospetto riepilogativo • Y ∗ = a + bX b è la variazione assoluta di Y ∗ conseguente a una variazione assoluta di X = +1. • Y ∗ = a + b ln X bc è la variazione assoluta di Y ∗ conseguente a una variazione relativa di X pari a c = 100c%; se X aumenta dell’1% (variazione relativa di X = 0.01 = +1%) allora la variazione assoluta di Y ∗ è 0.01b. • lnY ∗ = a + bX b = 100b% è la variazione relativa (percentuale) di Y ∗ conseguente a una variazione assoluta di X = +1. • lnY ∗ = a + b ln X b è la variazione relativa percentuale di Y ∗ conseguente a una variazione relativa di X; se X aumenta dell’1% (variazione relativa di X = 0.01 = +1%) allora la variazione relativa di Y ∗ è 0.01b = 100 · 0.01b% = b%. Se X è una variabile indicatrice (dummy) abbiamo: • Y ∗ = a + bX b è la variazione assoluta di Y ∗ conseguente al passaggio di X dallo stato 0 allo stato 1. • lnY ∗ = a + bX b = 100b% è la variazione relativa (percentuale) di Y ∗ conseguente al passaggio di X dallo stato 0 allo stato 1. 291

20.19

20.20

5

Estensione del modello lineare bivariato • se ρ 2  ηY2|X → il modello è migliorabile (ad esempio aumentando il grado del polinomio) • se ρ 2 ' ηY2|X → il modello non è migliorabile 20.21

Esempio 5. Si riprenda l’esempio relativo alla lunghezza piede (Y ) e all’altezza (X) xi 160 170 180 190 fi• 0.189 0.411 0.322 0.078 µY (xi ) 39.43 41.04 42.14 44.14 σY2 (xi ) 2.37 2.83 1.84 1.55 M(X) = 172.89 Var(X) = 73.88 M(Y ) = 41.37 Var(Y ) = 3.81 Cov(X,Y ) = M(XY ) − µX µY = 10.56 avendo espresso M(XY ) come segue h

M(XY ) =

k

h

i=1 j=1 h

=

k

fi j

∑ ∑ xi y j fi j = ∑ fi• ∑ xi y j fi• i=1

k

fi j

j=1

h

h

∑ fi• xi ∑ y j fi• = ∑ fi• xi M(Y |xi ) = ∑ xi µY (xi ) fi•

i=1

j=1

i=1

i=1

media varianze condizionate = 2.32 varianza medie condizionate = 1.54 ηY2 = 0.399

ρ 2 = 0.391 20.22

Soluzione aggiungere variabili esplicative → analisi multivariata ad esempio: lunghezza piede = f (altezza, peso) 20.23

292

Sezione 21 Esempio stima modelli in presenza di tabella a doppia entrata 21.1

Indice 1

Funzione di regressione 294 1.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 295

2

Modello Y ∗ = a + bX

296

3

Modello Y ∗ = a + bX 2

296

4

Modello Y ∗ = bX

297

5

Modello Y ∗ = bX 2

297

6

Modello Y ∗ = aX b

298

7

Modello Y ∗ = aebX

299

8

Modello Y ∗ = abX

300

9

Modello Y ∗ = 5 + bX

300

10 Modello Y ∗ = 5 + bX 2

301

11 Schema riassuntivo Con riferimento ai dati raccolti nella tabella a doppia entrata

302

X \Y 1 2 3

5 0 0 9 9

15 0 8 1 9

26 4 3 0 7

4 11 10 25

si stimano i parametri e il residuo quadratico medio di alcuni modelli di regressione.

293

21.2

21.3

Si considerano le distribuzioni condizionate Y |X per il calcolo di medie e varianze condizionate Y |x = 1 n1 j 5 0 M(Y |x = 1) = 26 15 0 Var(Y |x = 1) = 0 26 4 4 Y |x = 2 5 15 26

n2 j Y |x = 2 · n2 j 0 0 8 120 3 78 11 198

M(Y |x = 2) = 18 Var(Y |x = 2) = 24

Y |x = 3 n3 j Y |x = 3 · n3 j 5 9 45 15 1 15 26 0 0 10 60

M(Y |x = 3) = 6 Var(Y |x = 3) = 9 21.4

1

Funzione di regressione

30

Rappresentazione grafica mediante bubble diagram con aggiunta delle medie condizionate M(Y |X)



20

25





10

15



0

5



0

1

2

3

4

21.5

Variabile statistica medie condizionate M(Y |X) xi 1 2 3

M(Y |xi ) ni M(Y |X)ni M(Y |X)2 ni 26 4 104 2704 18 11 198 3564 6 10 60 360 Somma 25 362 6628 modalità frequenze calcolo calcolo media momento secondo

media delle medie condizionate MX {M(Y |X)} = 294

362 = 14.48 25

varianza delle medie condizionate VarX {M(Y |X)} =

6628 − 14.482 = 55.4496 25

(varianza spiegata) 21.6

Variabile statistica varianze condizionate Var(Y |X) xi Var(Y |xi ) ni Var(Y |xi )ni 1 0 4 0 2 24 11 264 3 9 10 90 Somma 25 354 modalità frequenze calcolo media media varianze condizionate MX {Var(Y |X)} =

354 = 14.16 25

(varianza residua)

Calcolo media e varianza di Y yj 5 15 26

n j y j n j y2j n j 9 45 225 9 135 2025 7 182 4732 25 362 6982

M(Y ) = 362/25 = 14.48 M Y 2 = 6982/25 = 279.28 Var(Y ) = 279.28 − 14.482 = 69.6096 21.7

1.1

Rapporto di correlazione

Dai calcoli effettuati nelle pagine precedenti si ha che M(Y ) = MX {M(Y |X)} = 14.48 Var(Y ) Var(Y ) 69.6096

= VarX {M(Y |X)} = (varianza spiegata) = 55.4496

ηY2|X

=

ηY2|X

=

+ MX {Var(Y |X)} + (varianza residua) + 14.16

varianza spiegata funzione regressione Var(Y ) VarX {M(Y |X)} 55.4496 = = 0.7967 Var(Y ) 69.6096 21.8

295

Modello Y ∗ = a + bX

2





Cov(X,Y ) M(XY ) − M(X)M(Y ) = Var(X) M (X 2 ) − [M(X)]2 27.2 − 2.24 · 14.48 −5.2352 = = = −10.4204 5.52 − 5.0176 0.5024 = M(Y ) − bˆ M(X) = 14.48 + 10.4204 · 2.24 = 37.8217 =

[Cov(X,Y )]2 27.4073 = = 0.7837 Var(X)Var(Y ) 0.5024 · 69.6096 = −0.8853

ρ2

=

ρ

M(E 2 ) = Var(E) = varianza residua = 15.0568 = σY2 (1 − ρ 2 ) 21.9

Osservazione • dipendente = a + b · esplicativa bˆ aˆ

Cov(esplicativa, dipendente) Var(esplicativa) = M(dipendente) − bˆ M(esplicativa) =

• Nel caso in esame la variabile residuo, E = Y −Y ∗ , è caratterizzata da media nulla, quindi M(E 2 ) = Var(E), vale a dire il residuo quadratico medio coincide con la varianza dei residui. 21.10

3

Modello Y ∗ = a + bX 2

È possibile ricondursi al modello retta dipendente = a + b · esplicativa



= =



=

ρ2

=

ρ

=

   Cov X 2 ,Y M X 2Y − M X 2 M(Y ) = Var (X 2 ) M (X 4 ) − [M (X 2 )]2 57.44 − 5.52 · 14.48 −22.4896 = = −2.4634 39.6 − 5.522 9.1296 M(Y ) − bˆ M(X) = 14.48 + 2.4634 · 5.52 = 28.078  2 Cov X 2 ,Y 505.7821 = = 0.7958 2 Var (X )Var(Y ) 9.1296 · 69.6096 −0.8921

M(E 2 ) = Var(E) = varianza residua = 14.2113 = σY2 (1 − ρ 2 ) Anche nel caso in esame M(E) = 0 quindi M(E 2 ) = Var(E).

296

21.11

4

Modello Y ∗ = bX M (XY ) 27.2 bˆ = = = 4.9275. M (X 2 ) 5.52

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi    ˆ ˆ M(E 2 ) = M Y Y − bX = M Y 2 − bM(XY ) = 279.28 − 4.9275 · 27.2 = 145.252 Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della varianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ).

5

21.12

Modello Y ∗ = bX 2

Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b h 2 i bˆ = arg min M Y − bX 2 b

dM

h

Y − bX 2

2 i =0

db  # 2 2

"

d Y − bX =0 db    M 2 Y − bX 2 −X 2 = 0  M −X 2Y + bX 4 = 0   −M X 2Y + b M X 4 = 0 M

da cui segue bˆ =

 M X 2Y 57.44 = = 1.4505. M (X 4 ) 39.6 21.13

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi     ˆ 2 = M Y 2 − bM ˆ M(E 2 ) = M Y Y − bX X 2Y = 279.28 − 1.4505 · 57.44 = 195.9633 Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della varianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ).

297

21.14

6

Modello Y ∗ = aX b

È possibile linearizzare il modello lnY ∗ = ln a + b ln X e ricondursi al modello retta dipendente = ln a + b · esplicativa dove dipendente = lnY e esplicativa = ln X. Per calcolare i parametri conviene riferirsi alle variabili trasformate ln X \ lnY 0 0.6931 1.0986

1.6094 2.7081 0 0 0 8 9 1 9 9

3.2581 4 3 0 7

4 11 10 25

M(ln M(lnY ) = 2.4666  X) =0.744 M (ln X)2 = 0.6942 M[(lnY )2 ] = 1.6272 Var(ln X) = 0.14 Cov(ln X, lnY ) = M(ln X lnY ) − M(ln X)M(lnY ) = = 1.6272 − 0.744 · 2.4666 = −0.2090 Cov(ln X, lnY ) M(ln X lnY ) − M(ln X)M(lnY ) −0.2090 = = = −1.4929 Var(ln X) M [(ln X)2 ] − [M(ln X)]2 0.14 ln (a) ˆ = M(lnY ) − bˆ M(ln X) = 3.578 → aˆ = e3.578 = 35.8019. bˆ

=

21.15

Per il calcolo del residuo quadratico medio occorre, in primo luogo, determinare i valori assunti dal modello Y ∗ = 35.8019X −1.4929 con x = 1, 2, 3. Y ∗ (1) = 35.80,

Y ∗ (2) = 12.72,

Y ∗ (3) = 6.94

quindi, applicando la definizione di residuo quadratico medio M(E 2 ) = M

n

Y − 35.8019X −1.4929

2 o

=

2 1 h k y j − 35.8019xi−1.4929 ni j ∑ ∑ n i=1 j=1

calcolare la corrispondente media di una funzione di una variabile statistica doppia y j − 35.8019xi−1.4929 x1 = 1 x2 = 2 x3 = 3

2

ni j

y1 = 5 (5 − 35.80)2 · 0 (5 − 12.72)2 · 0 (5 − 6.94)2 · 9

y2 = 15 (15 − 35.80)2 · 0 (15 − 12.72)2 · 8 (15 − 6.94)2 · 1

y3 = 26 (26 − 35.80)2 · 4 (26 − 12.72)2 · 3 (26 − 6.94)2 · 0 1053.75

da cui M(E 2 ) =

1053.75 = 42.15. 25 21.16

298

7

Modello Y ∗ = aebX

È possibile linearizzare il modello lnY ∗ = ln a + bX e ricondursi al modello retta dipendente = ln a + b · esplicativa dove dipendente = lnY e esplicativa = X. Per calcolare i parametri conviene riferirsi alle variabili trasformate X \ lnY 1 2 3

1.6094 2.7081 0 0 0 8 9 1 9 9

3.2581 4 3 0 7

4 11 10 25

M(X) = 2.24 M(lnY ) = 2.4666 M[X 2 ] = 5.52 M(X lnY ) = 5.0995 Var(X) = 0.5024 Cov(X, lnY ) = 5.0995 − 2.24 · 2.4666 = −0.4256 Cov(X, lnY ) M(X lnY ) − M(X)M(lnY ) −0.4256 = = = −0.8470 Var(X) M (X 2 ) − [M(X)]2 0.5024 ln (a) ˆ = M(lnY ) − bˆ M(X) = 4.3639 → aˆ = e4.3639 = 78.5648. bˆ

=

21.17

Per il calcolo del residuo quadratico medio occorre, in primo luogo, determinare i valori assunti dal modello Y ∗ = 78.5648e−0.8470X con x = 1, 2, 3. Y ∗ (1) = 33.68,

Y ∗ (2) = 14.44,

Y ∗ (3) = 6.19

quindi, applicando la definizione di residuo quadratico medio M(E 2 ) = M

n

Y − 78.5648e−0.8470X

2 o

=

2 1 h k y j − 78.5648e−0.8470xi ni j ∑ ∑ n i=1 j=1

e calcolando la corrispondente media di una funzione di una variabile statistica doppia y j − 78.5786e−0.8471xi x1 = 1 x2 = 2 x3 = 3

2

ni j

y1 = 5 (5 − 33.68)2 · 0 (5 − 14.44)2 · 0 (5 − 6.19)2 · 9

y2 = 15 (15 − 33.68)2 · 0 (15 − 14.44)2 · 8 (15 − 6.19)2 · 1

y3 = 26 (26 − 33.68)2 · 4 (26 − 14.44)2 · 3 (26 − 6.19)2 · 0 729.83

da cui M(E 2 ) =

729.83 = 29.19. 25 21.18

299

8

Modello Y ∗ = abX

È possibile linearizzare il modello lnY ∗ = ln a + (ln b)X Si lascia per esercizio la stima dei parametri e del residuo quadratico medio  Cov(X, lnY ) −0.4256 = ln bˆ = = −0.8470 → bˆ = e−0.8470 = 0.4287 Var(X) 0.5024  ln (a) ˆ = M(lnY ) − ln bˆ M(X) = 4.3639 → aˆ = e4.3639 = 78.5648 n 2 o 729.83 M(E 2 ) = M Y − 78.5648 · 0.4287X = 29.19. = 25 Il modello in esame è equivalente a quello precedentemente stimato; vale infatti X

abX = aeln b = aeX ln b = ae(ln b)X = aecX . 21.19

9

Modello Y ∗ = 5 + bX

Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b h i bˆ = arg min M (Y − 5 − bX)2 b h i dM (Y − 5 − bX)2 =0 db " # d (Y − 5 − bX)2 M =0 db M [2 (Y − 5 − bX) (−X)] = 0 (è utile considerare Y − 5 come termine unico)   M −X (Y − 5) + bX 2 = 0  −M [X (Y − 5)] + b M X 2 = 0 da cui segue M [X (Y − 5)] 16 bˆ = = = 2.8986. M (X 2 ) 5.52 X \ Y −5 1 2 3

0 0 0 9 9

10 0 8 1 9

21 4 3 0 7

4 11 10 25

M[X 2 ] = 5.52 M[X(Y − 5)] = 16 M[(Y − 5)2 ] = 159.48 21.20

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi considerando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si è alterata la struttura di variabilità della Y ).   ˆ M(E 2 ) = M (Y − 5) Y − 5 − bX   = M (Y − 5)2 − bˆ M[X(Y − 5)] = 159.48 − 2.8986 · 16 = 113.1024. Si osserva come, essendo l’intercetta vincolata, non vale il risultato di scomposizione della varianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ). 300

21.21

10

Modello Y ∗ = 5 + bX 2

Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b h 2 i bˆ = arg min M Y − 5 − bX 2 b

dM

h

Y − 5 − bX 2 db

2 i =0

2 # d Y − 5 − bX 2 M =0 db    M 2 Y − 5 − bX 2 −X 2 = 0 "

(è utile considerare Y − 5 come termine unico)   M −X 2 (Y − 5) + bX 4 = 0    −M X 2 (Y − 5) + b M X 4 = 0 da cui segue bˆ = X \ (Y − 5) 1 2 3

  M X 2 (Y − 5) 29.84 = = 0.7535. 4 M (X ) 39.6 0 0 0 9 9

10 0 8 1 9

21 4 3 0 7

4 11 10 25

M[X 4 ] = 39.6 M[X 2 (Y − 5)] = 29.84 M[(Y − 5)2 ] = 159.48 21.22

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi considerando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si è alterata la struttura di variabilità della Y ).   ˆ 2 M(E 2 ) = M (Y − 5) Y − 5 − bX   = M (Y − 5)2 − bˆ M[X 2 (Y − 5)] = 159.48 − 0.7535 · 29.84 = 136.9956. Si osserva come, essendo l’intercetta vincolata, non vale il risultato di scomposizione della varianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ).

301

21.23

11

Schema riassuntivo

modello Y∗ = M(E 2 ) indice adatt.

I f .regress. 14.16 0.7967

II a + bX 15.0568 0.7837

III a + bX 2 14.2113 0.7958

IV V VI V II V III IX X bX bX 2 aX b aebX abX 5 + bX 5 + cX 2 145.25 195.96 42.15 29.19 29.19 113.10 136.996 non vale il teorema di scomposizione della varianza in quanto M(E) 6= 0 21.24

Il seguente prospetto riporta gli indici di miglioramento pegg,migl ρ

2

=

RMS pegg − RMSmigl RMS pegg

per i modelli considerati 2 riga,colonna ρ ∗ Y =

I II III IV V VI V II V III IX X

I f .regress. 0.0596 0.0036 0.9025 0.9277 0.6641 0.5149 0.5149 0.8748 0.8966

II a + bX

III a + bX 2

IV bX

V bX 2

VI aX b

V II aebX

V III abX

IX 5 + bX

X 5 + cX 2

0.7098 0.7849

0.7990 0.8510 0.3075

0.7990 0.8510 0.3075 0.0000

0.2213 0.4228

0.0568 0.3009

0.0562 0.8963 0.9232 0.6428 0.4842 0.4842 0.8669 0.8901

0.9022 0.9275 0.6628 0.5131 0.5131 0.8743 0.8963

0.6273 0.6923

0.0000 0.7419 0.7869

0.7419 0.7869

0.1744 21.25

302

Sezione 22 Esempio stima modelli in presenza di coppie di dati 22.1

Indice 1

Funzione di regressione 304 1.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 305

2

Modello Y ∗ = a + bX

306

3

Modello Y ∗ = a + bX 2

307

4

Modello Y ∗ = bX

308

5

Modello Y ∗ = bX 2

308

6

Modello Y ∗ = aX b

309

7

Modello Y ∗ = aebX

310

8

Modello Y ∗ = abX

311

9

Modelli Y ∗ = 5 + bX e Y ∗ = 5 + cX 2

312

10 Schema riassuntivo Con riferimento alle coppie di dati xi yi

312

22.2

3 2 1 4 2 6 4 4 6 5

si stimano i parametri e il residuo quadratico medio dei seguenti modelli • • • • • • • • • •

funzione di regressione Y ∗ = a + bX Y ∗ = a + bX 2 Y ∗ = bX Y ∗ = bX 2 Y ∗ = aX b Y ∗ = aebX Y ∗ = abX Y ∗ = 5 + bX Y ∗ = 5 + cX 2

22.3

303

1

Funzione di regressione i xi 1 3 2 2 3 1 4 4 5 2 Somma 12 Media 2.4

yi 6 4 4 6 5 25 5

6

7

Rappresentazione grafica punti e medie condizionate M(Y |X)





3

4





1

2

0

1

2

3

4

5



0

5

22.4

Variabile statistica medie condizionate M(Y |X) xi 1 2 3 4

M(Y |xi ) ni M(Y |X)ni M(Y |X)2 ni 4 1 4 16 4.5 2 9 40.5 6 1 6 36 6 1 6 36 Somma 5 25 128.5 modalità frequenze calcolo calcolo media momento secondo

media delle medie condizionate MX {M(Y |X)} =

25 =5 5

varianza delle medie condizionate VarX {M(Y |X)} =

128.5 − 52 = 0.7 5

(varianza spiegata) 22.5

304

Variabile statistica varianze condizionate Var(Y |X) xi Var(Y |xi ) ni Var(Y |xi )ni 1 0 1 0 2 0.25 2 0.5 3 0 1 0 4 0 1 0 Somma 5 0.5 modalità frequenze calcolo media media varianze condizionate MX {Var(Y |X)} =

0.5 = 0.1 5

(varianza residua) 22.6

1.1

Rapporto di correlazione

Dai calcoli effettuati nelle pagine precedenti si ha che M(Y ) = 5 = MX {M(Y |X)} Var(Y ) = VarX {M(Y |X)} + MX {Var(Y |X)} Var(Y ) = (varianza spiegata) + (varianza residua) 0.8 = 0.7 + 0.1

ηY2|X

=

ηY2|X

=

varianza spiegata funzione regressione Var(Y ) VarX {M(Y |X)} 0.7 = = 0.875 Var(Y ) 0.8 22.7

305

Modello Y ∗ = a + bX

2

bˆ aˆ ρ2

Cov(X,Y ) 0.8 = = 0.7692 Var(X) 1.04 = M(Y ) − bˆ M(X) = 3.1538 =

=

[Cov(X,Y )]2 0.64 = = 0.7692 Var(X)Var(Y ) 1.04 · 0.8

M(E 2 ) = Var(E) = varianza residua = σY2 (1 − ρ 2 ) = 0.1846 xi yi xi yi xi2 y2i 3 6 18 9 36 2 4 8 4 16 1 4 4 1 16 4 6 24 16 36 2 5 10 4 25 12 25 64 34 129 2.4 5 12.8 6.8 25.8 M(X) M(Y ) M(XY ) M X 2 M Y2   Var(X) = M X 2 − [M(X)]2 = 1.04 Var(Y ) = M Y 2 − [M(Y )]2 = 0.8 Cov(X,Y ) = M(XY ) − M(X)M(Y ) = 0.8 i 1 2 3 4 5 Somma Media

22.8

Osservazione • dipendente = a + b · esplicativa bˆ aˆ

Cov(esplicativa, dipendente) Var(esplicativa) = M(dipendente) − bˆ M(esplicativa) =

• Nel caso in esame la variabile residuo E = Y −Y ∗ è caratterizzata da media nulla, quindi M(E 2 ) = Var(E), vale a dire il residuo quadratico medio coincide con la varianza dei residui. 22.9

306

3

Modello Y ∗ = a + bX 2

È possibile ricondursi al modello retta dipendente = a + b · esplicativa

bˆ aˆ ρ2

   Cov X 2 ,Y M X 2Y − M X 2 M(Y ) 4 = = = = 0.1441 Var (X 2 ) M (X 4 ) − [M (X 2 )]2 27.76  = M(Y ) − bˆ M X 2 = 4.0202  2 Cov X 2 ,Y = 0.7205 = Var (X 2 )Var(Y ) M(E 2 ) = Var(E) = varianza residua = σY2 (1 − ρ 2 ) = 0.2236

Anche nel caso in esame M(E) = 0 quindi M(E 2 ) = Var(E). i 1 2 3 4 5 Somma Media

xi 3 2 1 4 2

yi xi2 xi2 yi xi4 y2i 6 9 54 81 36 4 4 16 16 16 4 1 4 1 16 6 16 96 256 36 5 4 20 16 25 25 34 190 370 129 5 6.8 38 74 25.8 M Y2 M X 2Y M X4 M(Y ) M X 2

    Var X 2 = M X 4 − [M X 2 ]2 = 27.76 Var(Y ) = M Y 2 − [M(Y )]2 = 0.8   Cov X 2 ,Y = M X 2Y − M X 2 M(Y ) = 4 22.10

307

4

Modello Y ∗ = bX

M(XY ) 12.8 bˆ = = = 1.8824 M (X 2 ) 6.8 Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi  ˆ M(E 2 ) = M[Y (Y − bX)] = M Y 2 − bˆ M(XY ) = 25.8 − 1.8824 · 12.8 = 1.7059 i 1 2 3 4 5 Somma Media

xi yi 3 6 2 4 1 4 4 6 2 5

xi yi xi2 y2i 18 9 36 8 4 16 4 1 16 24 16 36 10 4 25 64 34 129 12.8 6.8 25.8 2 M(XY ) M X M Y2 22.11

5

Modello Y ∗ = bX 2

Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b h 2 i bˆ = arg min M Y − bX 2 b h 2 i dM Y − bX 2 =0 db " #  2 d Y − bX 2 M =0 db    M 2 Y − bX 2 −X 2 = 0  M −X 2Y + bX 4 = 0   −M X 2Y + b M X 4 = 0 da cui segue bˆ =

 M X 2Y 38 = = 0.5135. 4 M (X ) 74 22.12

Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi     ˆ 2 = M Y 2 − bM ˆ X 2Y = 25.8 − 0.5135 · 38 = 6.287. M(E 2 ) = M Y Y − bX i xi yi 1 3 6 2 2 4 3 1 4 4 4 6 5 2 5 Somma Media

xi2 9 4 1 16 4

xi2 yi xi4 y2i 54 81 36 16 16 16 4 1 16 96 256 36 20 16 25 190 370 129 38 74 25.8 M X 2Y M X4 M Y2 22.13

308

6

Modello Y ∗ = aX b

È possibile linearizzare il modello lnY ∗ = ln a + b ln X e ricondursi al modello retta dipendente = ln a + b · esplicativa Per calcolare i parametri conviene riferirsi alle variabili trasformate bˆ ln aˆ

Cov(ln X, lnY ) M(ln X lnY ) − M(ln X)M(lnY ) = = 0.3310 Var(ln X) M [(ln X)2 ] − [M(ln X)]2 = M(lnY ) − bˆ M(ln X) = 1.3368 → aˆ = eln aˆ = e1.3368 = 3.8070 =

ln xi ln yi ln xi ln yi [ln xi ]2 1.0986 1.7918 1.9684 1.2069 0.6931 1.3863 0.9609 0.4805 0.0000 1.3863 0.0000 0.0000 1.3863 1.7918 2.4839 1.9218 0.6931 1.6094 1.1156 0.4805 3.8712 7.9655 6.5288 4.0897 0.7742 1.5931 1.3058  0.8179 M(ln X) M(lnY ) M(ln X lnY ) M (ln X)2   Var(ln X) = M (ln X)2 − [M(ln X)]2 = 0.2185 Cov(ln X, lnY ) = M(ln X lnY ) − M(ln X) M(lnY ) = 0.0723

i xi yi 1 3 6 2 2 4 3 1 4 4 4 6 5 2 5 Somma Media

22.14

Per calcolare il residuo quadratico medio M(E 2 ) = M

h

Y − Yˆ

2 i

=

1 n ∑ (yi − yˆi )2 n i=1

occorre determinare i valori assunti dal modello yˆi = 3.8070 · xi0.3310 yˆi (yi − yˆi )2 5.4766 0.2740 4.7887 0.6221 3.8070 0.0373 6.0237 0.0006 4.7887 0.0446 Somma 0.9786 Residuo Quadratico Medio = Media 0.1957 i 1 2 3 4 5

xi yi 3 6 2 4 1 4 4 6 2 5

22.15

309

7

Modello Y ∗ = aebX

È possibile linearizzare il modello lnY ∗ = ln a + b X e ricondursi al modello retta dipendente = ln a + b · esplicativa Per calcolare i parametri conviene riferirsi alle variabili trasformate bˆ ln aˆ aˆ

Cov(X, lnY ) M(X lnY ) − M(X)M(lnY ) = = 0.1544 Var(X) M[X 2 ] − [M(X)]2 = M(lnY ) − bˆ M(X) = 1.2226 =

= eln aˆ = e1.2226 = 3.3960 i 1 2 3 4 5 Somma Media

x i yi ln yi xi ln yi xi2 3 6 1.7918 5.3753 9 2 4 1.3863 2.7726 4 1 4 1.3863 1.3863 1 4 6 1.7918 7.1670 16 2 5 1.6094 3.2189 4 12 7.9655 19.9201 34 2.4 1.5931 3.9840 6.8 M(X) M(lnY ) M(X lnY ) M X 2

Var(X) = M(X 2 − [M(X)]2 = 1.04 Cov(X, lnY ) = M(X lnY ) − M(X) M(lnY ) = 0.1606 22.16

Per calcolare il residuo quadratico medio M(E 2 ) = M

h

Y − Yˆ

2 i

=

1 n ∑ (yi − yˆi )2 n i=1

occorre determinare i valori assunti dal modello yˆi = 3.3960 · e0.1544xi yˆi (yi − yˆi )2 5.3964 0.3643 4.6245 0.3899 3.9629 0.0014 6.2973 0.0884 4.6244 0.1410 Somma 0.9850 Residuo Quadratico Medio = Media 0.1970 i 1 2 3 4 5

xi yi 3 6 2 4 1 4 4 6 2 5

22.17

310

8

Modello Y ∗ = abX

È possibile linearizzare il modello lnY ∗ = ln a + ln b X e ricondursi al modello retta dipendente = ln a + ln b · esplicativa Per calcolare i parametri conviene riferirsi alle variabili trasformate ln bˆ bˆ ln aˆ aˆ

=

Cov(X, lnY ) M(X lnY ) − M(X)M(lnY ) = = 0.1544 Var(X) M[X 2 ] − [M(X)]2 ˆ

= eln b = e0.1544 = 1.1669 = M(lnY ) − ln bˆ M(X) = 1.2226 = eln aˆ = e1.2226 = 3.3960 i 1 2 3 4 5 Somma Media

x i yi ln yi xi ln yi xi2 3 6 1.7918 5.3753 9 2 4 1.3863 2.7726 4 1 4 1.3863 1.3863 1 4 6 1.7918 7.1670 16 2 5 1.6094 3.2189 4 12 7.9655 19.9201 34 2.4 1.5931 3.9840 6.8 M(X) M(lnY ) M(X lnY ) M X 2

Var(X) = M(X 2 − [M(X)]2 = 1.04 Cov(X, lnY ) = M(X lnY ) − M(X) M(lnY ) = 0.1606 22.18

Per calcolare il residuo quadratico medio h 2 i 1 n M(E 2 ) = M Y − Yˆ = ∑ (yi − yˆi )2 n i=1 occorre determinare i valori assunti dal modello yˆi = 3.3960 · 1.1669xi yˆi (yi − yˆi )2 5.3964 0.3643 4.6245 0.3899 3.9629 0.0014 6.2973 0.0884 4.6245 0.1410 Somma 0.9850 Residuo Quadratico Medio = Media 0.1970 i 1 2 3 4 5

xi yi 3 6 2 4 1 4 4 6 2 5

Il modello in esame è equivalente a quello precedentemente stimato; vale infatti abX

X

= aeln b

= aeX ln b = ae(ln b)X = aecX . 22.19

311

9

Modelli Y ∗ = 5 + bX e Y ∗ = 5 + cX 2

Si applica il criterio dei minimi quadrati per determinare l’espressione del coefficiente incognito, cfr. Sezione 21 anche per la formula del residuo quadratico medio.



=

M(E 2 ) = = cˆ = M(E 2 ) = =

M [X (Y − 5)] 0.8 = = 0.1176 M (X 2 ) 6.8   ˆ M (Y − 5) Y − 5 − bX   M (Y − 5)2 − bˆ M[X(Y − 5)] = 0.8 − 0.1176 · 0.8 = 0.7059   M X 2 (Y − 5) 4 = = 0.0541 M (X 4 ) 74   M (Y − 5) Y − 5 − cX ˆ 2   M (Y − 5)2 − cˆ M[X 2 (Y − 5)] = 0.8 − 0.0541 · 4 = 0.5836.

Si osserva come, in entrambi i casi, essendo l’intercetta vincolata, non vale il risultato di scomposizione della varianza. Non ha senso calcolare l’indice di adattamento. i 1 2 3 4 5 Somma Media

xi 3 2 1 4 2 12 2.4 M(X)

yi 6 4 4 6 5 25 5 M(Y )

yi − 5 1 −1 −1 1 0 0 0 M(Y − 5)

xi (yi − 5) 3 −2 −1 4 0 4 0.8 M[X(Y − 5)]

xi2 9 4 1 16 4 34 6.8 M X2

(yi − 5)2 1 1 1 1 0 4 0.8  M (Y − 5)2

xi2 (yi − 5) 9 −4 −1 16 0 20 4  M X 2 (Y − 5)

xi4 81 16 1 256 16 370  74 M X4 22.20

10

Schema riassuntivo

modello Y∗ = M(E 2 ) indice adatt.

I f .regress. 0.1 0.875

II a + bX 0.1846 0.7692

III a + bX 2 0.2236 0.7205

IV bX 1.7059

V VI V II V III IX X bX aX b aebX abX 5 + bX 5 + bX 2 6.287 0.1957 0.1970 0.1970 0.7059 0.5836 non vale il teorema di scomposizione della varianza in quanto M(E) 6= 0 22.21

Il seguente prospetto riporta gli indici di miglioramento pegg,migl ρ

2

=

RMS pegg − RMSmigl RMS pegg

per i modelli considerati. 2 riga,colonna ρ Y∗ =

I II III IV V VI V II V III IX X

I f .regress.

II a + bX

0.4583 0.5528 0.9414 0.9841 0.4890 0.4924 0.4924 0.8583 0.8286

0.1744 0.8918 0.9706 0.0567 0.0629 0.0629 0.7385 0.6837

III a + bX 2

0.8689 0.9644

IV bX

0.7287

0.6832 0.6169

V bX 2

VI aX b

V II aebX

V III abX

IX 5 + bX

X 5 + bX 2

0.1248 0.8853 0.9689

0.1190 0.8845 0.9687

0.1190 0.8845 0.9687

0.5862 0.8877

0.6579 0.9072

0.0066 0.0066 0.7228 0.6647

0.0000 0.7209 0.6624

0.0000 0.7209 0.6624

0.1733 22.22

312

Sezione 23 Regressione lineare multipla 23.1

Indice 1

Modello lineare multivariato

313

2

Modello di riferimento

314

3

Ricerca di aˆ con il metodo dei minimi quadrati

315

4

Esempio

315

5

Interpretazione dei coefficienti

316

6

Coefficienti standardizzati

317

7

Ulteriori ipotesi sul modello lineare

317

8

Modelli di regressione lineare multipla con presenza di variabili indicatrici 318

9

Esempio

1

318

Modello lineare multivariato Y = a0 + a1 X1 + a2 X2 + . . . + ak Xk + E

lineare nei parametri a j ( j = 0, 1, . . . , k) Esempio: X1

= X

X2

= X2

X3 .. .

= X3

313

23.2

oppure: Y

= prezzo di mercato

X1

= costo di produzione

X2

= quantità prodotte

X3

= quantità a magazzino

X4 X5

= grado sfruttamento impianti = prezzo periodo precedente .. . 23.3

Variabili generatrici . . . Xk

Y

X1

X2

i 1 2 .. .

y y1 y2 .. .

x1 x11 x21 .. .

x2 x12 x22 .. .

. . . xk . . . x1k . . . x2k .. .

i .. .

yi .. .

xi1 .. .

x12 .. .

...

n

yn

xn1

xn2

. . . xnk

Matrice delle osservazioni

xik .. . 23.4

2

Modello di riferimento

Posto, per definizione X0 ≡ 1 Definizione 1 (Modello di regressione multipla lineare). Y = a0 X0 + a1 X1 + . . . + ak Xk + E ovvero, per il soggetto i-esimo (i = 1, 2, . . . , n) yi = a0 xi0 + a1 xi1 + . . . + ak xik + ei . 23.5

Definizione 2 (Notazione matriciale modello di regressione multipla lineare sulle osservazioni).         y1 1 x11 . . . x1k e1 a 0  y2   1 x21 . . . x2k   e2          y =  .  a =  ...  X =  . e= .   . . .. ..   ..   ..  ..  ak yn 1 xn1 . . . xnk en y = Xa + e dove gli

ei = yi − y∗i

rappresentano gli scostamenti delle osservazioni dal modello teorico. 23.6

314

3

Ricerca di aˆ con il metodo dei minimi quadrati

Ricerca di aˆ con il metodo  dei minimi quadrati  !2   k aˆ = a ∈ ℜk+1 : M Y − ∑ a j X j = min   j=0 Con ovvie estensioni formali delle proprietà dell’operatore media al caso multivariato.

4

23.7

Esempio

Esempio 3 (Consumi settimanali pro-capite di gelato). Y X1 X2 n consumo kg prezzo/hg temp max ◦ F 1 0.386 0.230 41 2 0.374 0.240 56 3 0.393 0.235 63 4 0.425 0.238 68 5 0.406 0.231 69 6 0.344 0.262 65 7 0.327 0.275 61 8 0.288 0.307 47 9 0.269 0.305 32 10 0.256 0.319 24 11 0.286 0.324 28 12 0.298 0.311 26 13 0.329 0.272 32 14 0.318 0.287 40 15 0.381 0.249 55 16 0.381 0.258 63 17 0.470 0.252 72 18 0.443 0.249 72 19 0.386 0.277 67 20 0.342 0.277 60 21 0.319 0.292 44 22 0.307 0.287 40 23 0.284 0.332 32 24 0.326 0.285 27 25 0.309 0.282 28 26 0.359 0.265 33 27 0.376 0.265 41 28 0.416 0.225 52 29 0.437 0.228 64 30 0.548 0.221 71 media sqm

0.359 0.065

0.269 0.031

49.10 16.146 23.8

elaborazione con EXCEL Y = a0 + a1 X1 + a2 X2 + E 315

OUTPUT RIEPILOGO Statistica della regressione R multiplo 0.8929 R2 0.7972 R2 corretto 0.7822 Errore std 0.0307 Osservazioni 30 ANALISI VARIANZA gdl Regressione 2 Residuo 27 Totale 29

Intercetta prezzo temp

SQ 0.1001 0.0255 0.1255

MQ F 0.0500 53.0725 0.0009

Coefficienti Errore std Stat t 0.6435 0.0874 7.3612 −1.2999 0.2547 −5.1035 0.0013 0.0005 2.7472

Signif 0.0000 0.0000 0.0106

Significatività F 4.41599E-10

Inf 95% 0.4641 −1.8225 0.0003

Sup 95% 0.8228 −0.7773 0.0023 23.9

5

Interpretazione dei coefficienti Y = a0 + a1 X1 + a2 X2 + · · · + ak Xk + E

il coefficiente ai , i = 1, 2, . . . , k rappresenta la variazione (media) attesa nella variabile risposta Y conseguente a un incremento unitario della corrispondente variabile Xi , ceteris paribus, ossia supponendo che rimanga immutato il livello di tutte le altre variabili X j , j 6= i, e che vi sia assenza di correlazione lineare tra la componente stocastica di errore E e i regressori Xi , i = 1, 2, . . . , k. Con riferimento all’esempio sul consumo di gelato il parametro a1 = −1.2999 nel modello: Y ∗ = 0.6435 − 1.2999 · X1 + 0.0013 · X2

23.10

dove: • Y ∗ = consumo teorico di gelato • X1 = prezzo/hg • X2 = temperatura indica che, supponendo che non si modifichi il livello della temperatura (X2 ), una variazione positiva di una unità del prezzo implica un calo nei consumi individuali di 1.2999. 23.11

Una variabile esplicativa Xi ha, quindi, influenza sulla variabile dipendente Y solo se il corrispondente coefficiente ai risulta diverso da 0. Secondo un approccio di carattere inferenziale i valori aˆi costituiscono le migliori approssimazioni, secondo il criterio dei minimi quadrati, dei coefficienti incogniti ai . Tali coefficienti si ritengono significativamente diversi da 0 solo se il valore indicato nella colonna Signif è piccolo (in genere < 0.05 = 5% o < 0.01 = 1%). Tale valore, denominato p-value, indica la probabilità di commettere un errore affermando che il coefficiente ai è diverso da zero.

316

23.12

6

Coefficienti standardizzati

Per confrontare i coefficienti (se il modello è completo): Coeff std = βi = ai

σi σY

dove σi = sqm(Xi ) mentre β0 = 0 Y std = β1 X1std + β2 X2std + E std

Intercetta prezzo temp

Coeff std 0 −0.6238 0.3358

Il coefficiente standardizzato βi corrisponde alla variazione di Y dovuta a una variazione di Xi pari a σi , mentre il coefficiente ai corrisponde alla variazione di Y dovuta a una variazione unitaria di Xi .

7

23.13

Ulteriori ipotesi sul modello lineare

Le ipotesi, generalmente imposte al modello lineare, sono piuttosto forti. Presuppongono, infatti, anche che: • la correlazione tra Xi e tutte le altre X j sia trascurabile, • il contributo dato dalle componenti non considerate esplicitamente nel modello, in quanto riassunte dalla componente di errore E, sia in media nullo, • altre considerazioni sulla variabile di errore ai fini inferenziali; cfr. Statistica inferenziale.

23.14

317

8

Modelli di regressione lineare multipla con presenza di variabili indicatrici

È possibile tenere conto in un modello di regressione (lineare) anche della presenza di eventuali variabili esplicative di tipo qualitativo? Ad esempio formulare un modello per interpretare la variabile dipendente Y = ’salario’ in funzione della variabile esplicativa G = ’genere’, o in funzione della variabile L = ’livello di istruzione’? La risposta immediata è di ricorrere alla costruzione della funzione di regressione considerando la variabile G o la variabile L (ed eventualmente l’interazione tra le stesse) come variabile di raggruppamento. Esistono però anche delle soluzioni alternative.

9

23.15

Esempio

Esempio 4. Il presente esempio numerico considera 1472 osservazioni dall’indagine sul comportamento delle famiglie condotta dall’Unione Europea (anno 1994, Belgio). (Verbeek M, 2008, A Guide to Modern Econometrics John Wiley) Variabili presenti nel database: • • • •

wage: salario lordo orario in Euro educ: livello di istruzione da 1 [basso] a 5 [alto] exper: anni di esperienza male: dummy, 1 se maschio

Si desidera studiare la variabile wage in funzione delle altre variabili

318

23.16

Genere Si definisca una nuova variabile M a partire da G, ponendo in corrispondenza della ima unità statistica:  1 se gi = maschio mi = 0 se gi = femmina Si consideri il seguente modello di regressione lineare per interpretare la variabile Y in funzione della variabile indicatrice (chiamata variabile dummy) M: Y ∗ = a + bM 23.17

Interpretazione dei coefficienti b è la differenza tra lo stipendio medio dei maschi (variabile indicatrice che figura nel modello) e lo stipendio medio delle femmine, riassunto dalla costante a. I seguenti prospetti danno, quindi, informazioni coerenti. Funzione di regressione M(Y |gi ) indwages$MALE: 0 [1] 10.26154 ---------------------------------------------indwages$MALE: 1 [1] 11.56223 Modello lineare Call: lm(formula = WAGE ~ MALE, data = indwages) Residuals: Min 1Q Median -8.095 -2.864 -0.999

3Q Max 1.818 36.013

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 10.2615 0.1831 56.036 < 2e-16 *** MALE 1.3007 0.2351 5.532 3.74e-08 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 4.406 on 1470 degrees of freedom Multiple R-squared: 0.0204, Adjusted R-squared: 0.01973 F-statistic: 30.61 on 1 and 1470 DF, p-value: 3.737e-08 Nella presente situazione dal momento che la variabile esplicativa nel modello lineare (M = MALE) è una variabile indicatrice consegue che: Multiple R-squared = ηY2|M 23.18

319

Livello di istruzione La variabile L è stata codificata con i valori interi da 1 a 5. Si può, in primo luogo, osservare come non sia opportuno considerare il seguente modello di regressione lineare: Y ∗ = a + bL

Call: lm(formula = WAGE ~ EDUC, data = indwages) Residuals: Min 1Q -10.569 -2.731

Median -0.615

3Q 1.907

Max 34.190

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.18513 0.31830 19.43 |t|) i(Intercept) 6.60001 0.83243 7.929 4.36e-15 iMALE 2.38256 0.95008 2.508 0.01226 iL2 1.55273 0.95949 1.618 0.10582 iL3 2.74603 0.88956 3.087 0.00206 iL4 4.11928 0.88088 4.676 3.19e-06 iL5 5.87560 0.90204 6.514 1.01e-10 iMALE:L2 -0.93873 1.10093 -0.853 0.39398 iMALE:L3 -0.98718 1.03092 -0.958 0.33844 iMALE:L4 -0.83736 1.04059 -0.805 0.42113 iMALE:L5 0.08384 1.05027 0.080 0.93639 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1

*** * ** *** ***

1

Residual standard error: 3.992 on 1462 degrees of freedom Multiple R-squared: 0.8885, Adjusted R-squared: 0.8877 F-statistic: 1164 on 10 and 1462 DF, p-value: < 2.2e-16 23.27

Y∗

= a + gM + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 + c12 M · LL2 + c13 M · LL3 + +c14 M · LL4 + c15 M · LL5

La previsione del salario per un soggetto maschio (M = 1) con livello di istruzione 4 (LL4 = 1) risulta 6.60001 + 2.38256 + 4.11928 − 0.83736 = 12.26449. Per una femmina con livello di istruzione 5 abbiamo 6.60001 + 5.87560 = 12.47561. Anche in questo caso dal momento che le variabili esplicative nel modello lineare (LLi , i = 2, . . . , 5) sono variabili indicatrici o variabili ottenute dal prodotto di variabili indicatrici consegue che: Multiple R-squared = ηY2|M∗L 23.28

323

Genere e Livello di istruzione e anni di esperienza Y∗

= a + gM + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 + +c12 M · LL2 + c13 M · LL3 + c14 M · LL4 + c15 M · LL5 + dExper

Modello Lineare Call: lm(formula = WAGE ~ -1 + i + EXPER, data = indwages) Residuals: Min 1Q -13.9128 -1.8688

Median -0.3153

3Q 1.5982

Max 30.3096

Coefficients: Estimate Std. Error t value Pr(>|t|) i(Intercept) 2.094466 0.773842 2.707 0.00688 iMALE 1.808870 0.844576 2.142 0.03238 iL2 1.958518 0.852688 2.297 0.02177 iL3 4.377753 0.794609 5.509 4.25e-08 iL4 5.974984 0.788205 7.580 6.09e-14 iL5 7.970928 0.808374 9.860 < 2e-16 iMALE:L2 -0.169567 0.978878 -0.173 0.86250 iMALE:L3 -1.034530 0.915907 -1.130 0.25887 iMALE:L4 -0.709085 0.924519 -0.767 0.44322 iMALE:L5 0.038260 0.933099 0.041 0.96730 EXPER 0.191195 0.009666 19.780 < 2e-16 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1

** * * *** *** ***

*** 1

Residual standard error: 3.547 on 1461 degrees of freedom Multiple R-squared: 0.912, Adjusted R-squared: 0.9114 F-statistic: 1377 on 11 and 1461 DF, p-value: < 2.2e-16 23.29

Si osservi che nella presente situazione la variabile Exper = numero di anni di esperienza figura come variabile quantitativa e non è conveniente costruire la funzione di regressione dal momento che Exper assume parecchi valori distinti. Multiple R-squared esprime la quota di varianza di Y spiegata dal modello di regressione lineare riportato all’inizio della pagina. Non è inoltre ragionevole assumere che l’effetto dell’esperienza sul salario sia direttamente proporzionale al numero di anni (interpretazione del coefficiente d). Si potrebbe ovviare a tale inconveniente ricodificando anche la variabile esperienza con opportune variabili indicatrici che identifichino livelli bassi, medi e alti di esperienza. Una soluzione alternativa è quella di effettuare una trasformazione non lineare della variabile Exper.

324

23.30

Y∗

= a + gM + b2 LL2 + b3 LL3 + b4 LL4 + b5 LL5 + +c12 M · LL2 + c13 M · LL3 + c14 M · LL4 + c15 M · LL5 + d ln(Exper)

Call: lm(formula = WAGE ~ -1 + i + LNEXPER, data = indwages) Residuals: Min 1Q -12.8419 -1.9742

Median -0.2711

3Q 1.4507

Max 30.5102

Coefficients: Estimate Std. Error t value Pr(>|t|) i(Intercept) -1.73580 0.83950 -2.068 0.0388 iMALE 1.90487 0.83817 2.273 0.0232 iL2 1.79639 0.84623 2.123 0.0339 iL3 4.15723 0.78750 5.279 1.49e-07 iL4 5.72400 0.78077 7.331 3.76e-13 iL5 7.86340 0.80139 9.812 < 2e-16 iMALE:L2 -0.20095 0.97155 -0.207 0.8362 iMALE:L3 -1.10739 0.90916 -1.218 0.2234 iMALE:L4 -0.78301 0.91767 -0.853 0.3937 iMALE:L5 -0.08071 0.92624 -0.087 0.9306 LNEXPER 2.70650 0.13223 20.468 < 2e-16 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1

* * * *** *** ***

*** 1

Residual standard error: 3.521 on 1461 degrees of freedom Multiple R-squared: 0.9133, Adjusted R-squared: 0.9127 F-statistic: 1399 on 11 and 1461 DF, p-value: < 2.2e-16 23.31

La presente formulazione, considerando la trasformata logaritmica del numero di anni di esperienza, può consentire di tenere conto di un effetto non lineare dell’esperienza (si presuppone che gli effetti sulla variabile risposta siano legati in maniera meno che proporzionale al crescere del numero di anni di esperienza). Infatti: > 1:7 [1] 1 2 3 4 5 6 7 > diff(1:7) [1] 1 1 1 1 1 1 > round(log(1:7), 4) [1] 0.0000 0.6931 1.0986 1.3863 1.6094 1.7918 1.9459 > round(diff(log(1:7)), 4) [1] 0.6931 0.4055 0.2877 0.2231 0.1823 0.1542 La previsione del salario per un soggetto maschio (M = 1) con livello di istruzione 4 (LL4 = 1) e 10 anni di esperienza risulta −1.73580 + 1.90487 + 5.72400 − 0.78301 + 2.70650 · ln(10) = 11.34201. Per una femmina con livello di istruzione 5 e 7 anni di esperienza abbiamo −1.73580 + 7.86340 + 2.70650 · ln(7) = 11.39421. Per ulteriori approfondimenti si veda Verbeek M (2008) A Guide to Modern Econometrics John Wiley, testo da cui sono stati reperiti i dati relativi all’esempio considerato. 325

23.32

23.33

Esercizio 5. Facendo riferimento ai risultati della sezione 20.4 si dia un’interpretazione dei coefficienti nel seguente output relativo a due modelli di regressione utilizzati per interpretare il prezzo (1987) di un’abitazione, o il suo logaritmo, in funzione di alcune caratteristiche, Verbeek M (2008) A Guide to Modern Econometrics John Wiley, cap. 3. Dependent variable:

Constant

log(price)

price

(1)

(2)

7.745∗∗∗

−4,038.350 (3,409.471)

(0.216) 0.303∗∗∗ (0.027)

log(lot.size.in.sq.feet)

3.546∗∗∗ (0.350)

lot.size.in.sq.feet

number.of.bedrooms

0.034∗∗ (0.014)

1,832.003∗ (1,047.000)

number.of.full.bathrooms

0.166∗∗∗ (0.020)

14,335.560∗∗∗ (1,489.921)

dummy.there.is.central.air.conditioning

0.166∗∗∗ (0.021)

12,632.890∗∗∗ (1,555.021)

dummy.the.house.has.a.driveway

0.110∗∗∗ (0.028)

6,687.779∗∗∗ (2,045.246)

dummy.the.house.has.a.recreational.room

0.058∗∗ (0.026)

4,511.284∗∗ (1,899.958)

dummy.the.house.has.a.full.finished.basement

0.104∗∗∗ (0.022)

5,452.386∗∗∗ (1,588.024)

dummy.the.house.uses.gas.for.hot.water.heating

0.179∗∗∗ (0.044)

12,831.410∗∗∗ (3,217.597)

number.of.garage.places

0.048∗∗∗ (0.011)

4,244.829∗∗∗ (840.544)

dummy.located.in.the.preferred.neighbourhood.of.the.city

0.132∗∗∗ (0.023)

9,369.513∗∗∗ (1,669.091)

number.of.stories.excluding.basement

0.092∗∗∗ (0.013)

6,556.946∗∗∗ (925.290)

∗ p 0, ∃N0 (ε) : se N > N0 allora | f (N) − p| < ε

il gioco è equo non dà, infatti, luogo a guadagni o perd 0.3

andamento della convergenza della frequenza di “T” = testa in un dente evoluzione della situazione patrimoniale di un ipotetico gio 0

200

400

600

800

1000

A

B 35

0.7

0.7

30

0.65

0.65

25 0.6

Limite in senso probabilistico

0.6

20

0.55

15

0.5

10

0.55 0.5

5

0.45

0.45

0 0.4

limN→∞ f (N) = p

-5 0

0

N0 dipende anche dalla successione s di esperimenti.

400

600

800

1000

200

400

600

800

1000

0.4 0.35

-15

0.3

∀ε > 0, ∃N0 (ε, s) : se N > N0 allora | f (N) − p| < ε

200

-10

0.35

0.3

-20

0

0.7

70

0.7

0.65

60

0.65

0.6

50

0.55

0.6 0.55

40

0.5

0.5

30

0.45

0.45

20

0.4

0.4

10 0.35

0.35

0 0.3

0 0

200

400

600

800

1000

200

400

600

800

-10

1000

0.3 0

24.36

8.3

Lo schema della scommessa

Esempio 2 gioco della roulette

Si tratta di uno approccio soggettivo all’elicitazione della probabilità; può essere applicato 0, 00, 1, 2, 3, …, 36: I risultati possibili sono i simboli in presenza di esperimenti non necessariamenteinripetibili e, inoltre, può dare luogo aanche in questa situa base all’impostazione classica valutazioni soggettive differenti. ∀A ∈ S (Ω) la probabilità P(A) è quantificata come la 1 metrici: P(0) = P(00) = P(1) = … = P(36) = 38 ; posta p che il soggetto è disposto a pagare per riscuotere

in base all’impostazione soggettiva un soggetto razio 1 generico simbolo 38 unità per ricevere 1 (il rapporto tra In caso di uscita del simbolo su cui è stata effettuata u La scommessa deve essere coerente: non deve dar luogo a guadagni (perdite) certi. una somma pari a 36 e il guadagno risulta, quindi, pari • 1 se A si verifica • 0 se A non si verifica

Per garantire la coerenza la valutazione non deve cambiare se l’individuo passa da scommettitore a banco. Una valutazione coerente soddisfa gli assiomi.

perdita guadagno = vincita − posta

338

xi −1

24.37

35

il gioco NON è equo: ci si deve attendere una perdita c

9

Gioco equo

Il concetto di Gioco equo è strettamente legato a quello di scommessa coerente. Definizione 29 (Gioco equo). Un gioco si definisce equo se non dà luogo a guadagni o perdite certi, ovvero se il guadagno ’medio’ del giocatore è nullo. Osservazione Una scommessa su un evento A, per il quale P(A) = p, corrisponde a un gioco equo se puntando 1 vinco 1/p ovvero se puntando p vinco 1. 24.38

Esempio 30 (Lancio di una moneta equilibrata). I risultati possibili sono: T = testa e C = croce: • in base all’impostazione classica si tratta di eventi elementari simmetrici: P(T ) = P(C) = 0.5; • in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere, ad esempio, sull’evento T 0.5 unità per ricevere 1 (il rapporto tra posta e vincita è Probabilità di 1 a 2, ovvero punto 1 per ricevere 2);  0 se risultato = T¯ GIOCO EQUO quindi: posta = 1 vincita = 2 se arisultato = To perdite certi una scommessa non deve dar luogo guadagni risultato xi P(X = xi ) xi · P(X = xi ) Esempio 1 lancio di una moneta equilibrata ¯ T −1 −0.5 I risultati possibili sono: T = testa e C = croce: 0.5 T 1 0.5 0.5 in base all’impostazione classica si tratta di eventi elementari simmetrici: P(T) = P(C) = 0.5; 1 0 a scommettere, ad esempio, in base all’impostazione soggettiva un soggetto razionale è disposto sull’evento “T” 0.5 unità per ricevere 1 (il rapporto tra posta e vincita è di 1 a 2); dove xi = guadagno = vincita − posta quindi:

M(X)x = E(X) = 0 P(X = xi) xi⋅P(X = xi) i perdita 0.5 –0.5 −1 Il gioco è equo: non dà, infatti, luogo a guadagni o perdite certi. 24.39 1 0.5 0.5 guadagno = vincita − posta 1 0 • andamento della convergenza della frequenza di T = testa in una successione di lanci A) luogo a guadagni o perdite certi … in media il gioco1000 è equo non(grafici dà, infatti, • corrispondente evoluzione della situazione patrimoniale di un ipotetico giocatore andamento della convergenza della frequenza di “T” = testa in una successione di 1000 lanci (grafici A) e corrisponche scommette su T (grafici B) di un ipotetico giocatore che scommette su “T” (grafici B) dente evoluzione della situazione patrimoniale A

B

A

35

0.7

B 30

0.7

30

0.65

0.65

20

25 0.6

0.6

20

10

0.55

15

0.55

0.5

10

0.5

5

0.45

0 -5 0

0.4

200

400

600

800

1000

-10

0.35

0

200

400

600

800

1000

0.4

-20

0.35

-15

0.3

0

0.45

-10

200

400

600

800

1000

0.7

60

0.65

0

50

0.6

-10

0.55

-20

0.5

-30

40 30

0.35

0 800

1000

-10

400

600

800

1000

-70 0

600

200

-60

0.35

400

0

-50

0.4

10

200

1000

-40

0.45

20

0.4

0

800

10

70

0.3

600

-40

0.6

0.5

400

-30 0

0.7

0.45

200

0.3

-20

0.65

0.55

0

200

400

600

800

1000

0.3 0

200

400

600

800

1000

-80

Esempio 2 gioco della roulette I risultati possibili sono i simboli 0, 00, 1, 2, 3, …, 36: in base all’impostazione classica anche in questa situazione si considerano eventi elementari sim1339 metrici: P(0) = P(00) = P(1) = … = P(36) = 38 ; in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere, ad es., sul 1 generico simbolo 38 unità per ricevere 1 (il rapporto tra posta razionale e vincita è di 1 a 38); In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria si ottiene però solo una somma pari a 36 e il guadagno risulta, quindi, pari a 35:

24.40

Esempio 31 (Gioco della roulette). I risultati possibili sono i simboli 0, 00, 1, 2, 3, . . . , 36: • in base all’impostazione classica: P(0) = P(00) = P(1) = . . . = P(36) =

1 ; 38

• in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere 1 sul generico simbolo 38 unità per ricevere 1 (il rapporto tra posta razionale e vincita è di 1 a 38); In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria si ottiene però solo una somma pari a 36 e il guadagno risulta, quindi, pari a 35: xi = vincita − posta P(X = xi ) xi · P(X = xi ) 37 −1 − 37 38 38 35 1 35 38 38 2 1 − 38 = −0.05263 M(X) = E(X) < 0 Il gioco non è equo: ci si attende ’in media’ una perdita certa.

340

24.41

Sezione 25 Calcolo delle probabilità (2) 25.1

Indice 1

La probabilità condizionata P(A|B)

341

2

La probabilità composta

343

3

Indipendenza stocastica 344 3.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344

4

La probabilità composta (caso generale) 4.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . 4.2 Le permutazioni . . . . . . . . . . . . . . . . . . . 4.3 Le combinazioni . . . . . . . . . . . . . . . . . . 4.4 Il coefficiente binomiale . . . . . . . . . . . . . . 4.5 Combinazioni multiple e coefficiente multinomiale

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

345 345 346 347 348 350

5

Legge delle probabilità totali 350 5.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351

6

Formula di Bayes

7

I grafi di probabilità 354 7.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354

1

352

La probabilità condizionata P(A|B)

In presenza di due eventi A e B



A

B

341

25.2

siamo interessati a calcolare la probabilità dell’evento condizionato A|B, ossia la probabilità che si verifichi l’evento A a condizione che B si sia verificato. L’evento B deve potersi verificare: P(B) > 0. Si opera una restrizione dello spazio probabilistico Ω al solo evento B, che diventa lo spazio di riferimento (Ω∗ = B) su cui definire una nuova legge P∗ (A) = P(A|B).

25.3

È possibile utilizzare la legge P definita su Ω per costruire P∗ ?



A

B

L’evento A si verifica ora nella sola intersezione con B, quindi P(A|B) =

P(A ∩ B) . P(B)

Si osserva come con riferimento allo spazio Ω vale P(A) =

P(A ∩ Ω) P(A) = . P(Ω) 1 25.4

Definizione 1 (Probabilità condizionata). P(A|B) =

P(A ∩ B) , P(B)

P(B) 6= 0

Esempio 2. Si estragga una carta da un mazzo di 52 carte. Si calcoli la probabilità che sia un asso, condizionatamente al fatto che la carta estratta abbia il seme ’cuori’. • ottenere un asso all’interno delle cuori (A ∩ B) • considerando solo le uscite di cuori (B) A♥ A♦ A♣ A♠

2♥ 2♦ 2♣ 2♠

3♥ 3♦ 3♣ 3♠

4♥ 4♦ 4♣ 4♠

5♥ 5♦ 5♣ 5♠

6♥ 6♦ 6♣ 6♠

P(A|B) =

7♥ 7♦ 7♣ 7♠

8♥ 8♦ 8♣ 8♠

P(A ∩ B) = P(B)

9♥ 9♦ 9♣ 9♠ 1 52 13 52

=

10♥ 10♦ 10♣ 10♠

J♥ J♦ J♣ J♠

Q♥ Q♦ Q♣ Q♠

K♥ K♦ K♣ K♠

1 13

Si osserva come l’ultimo passaggio nella precedente espressione non sia una semplice semplificazione della formula. Il condizionamento rappresenta, infatti, una restrizione all’insieme condizionante (B).

342

25.5

Risulta, quindi, definita una nuova misura di probabilità P∗ riferita allo spazio probabilistico Ω∗ = B = carte di cuori. P(A ∩ B) = P(B)

1 52 13 52

=

#AC in Ω #casi poss. in Ω #C in Ω #casi poss. in Ω

=

1 #AC in B = = P∗ (A) 13 #casi poss. in B 25.6

Osservazione Con riferimento a particolari sequenze di eventi {A1 , A2 , . . . , An } il terzo postulato dell’impostazione assiomatica potrebbe applicarsi per P∗ definita su B e non per P definita su Ω.

Ω A1 B A2

A3 A4

A1 ∩ A2 6= ∅, A3 ∩ A4 6= ∅,

(A1 |B) ∩ (A2 |B) = (A3 |B) ∩ (A4 |B) = ∅ 25.7

2

La probabilità composta

Da P(B|A) =

P(B ∩ A) , P(A)

P(A) 6= 0

P(A|B) =

P(A ∩ B) , P(B)

P(B) 6= 0

segue la definizione di probabilità composta. Definizione 3 (Probabilità composta). P(A ∩ B) = P(A) · P(B|A) = P(B) · P(A|B)

343

25.8

3

Indipendenza stocastica

Definizione 4 (Indipendenza stocastica). Due eventi A e B si dicono stocasticamente indipendenti se P(A ∩ B) = P(A) · P(B) Se A e B sono stocasticamente indipendenti, dalla formula della probabilità condizionata segue che: • P(A ∩ B) P(A) · P(B) P(A|B) = = = P(A) P(B) P(B) l’evento B non ha alcuna influenza sulla manifestazione dell’evento A. • P(B ∩ A) P(B) · P(A) = = P(B) P(B|A) = P(A) P(A) l’evento A non ha alcuna influenza sulla manifestazione dell’evento B.

3.1

25.9

Esercizi

Esercizio 5. Due eventi disgiunti sono indipendenti? 25.10

Esercizio 6 (T 168, 19.02.1999, 4). La probabilità che si verifichi l’evento A e non si verifichi l’evento B è pari a 0.12. La probabilità che si verifichi l’evento B è pari a 2 volte la probabilità che si verifichi l’evento A. La probabilità che si verifichi l’evento A o non si verifichi l’evento B è pari a 0.68. 1. Calcolare la probabilità che si verifichi l’evento A e la probabilità che si verifichi l’evento B. 2. Calcolare la probabilità che si verifichi l’evento A dato che non si è verificato l’evento B. 3. Indicare, giustificando la risposta, se A e il complementare di B sono tra loro stocasticamente indipendenti. 4. Dimostrare che A e B sono tra loro stocasticamente indipendenti. 25.11

Esercizio 7 (T 156, 13.09.1997, 4). Dati due eventi tali che P(A) = 0.3, P(B) = 0.4; calcolare P(A ∪ B) nelle seguenti ipotesi: 1. A e B sono stocasticamente indipendenti; 2. A e B sono disgiunti; 3. P(A|B) = 0.8. 25.12

Esercizio 8 (T 173, 13.09.1997, 4). Sapendo che la probabilità che si verifichi l’evento A è pari a 0.4 e che la probabilità che si verifichi l’evento B è pari a 0.9, dire, giustificando la risposta data, se: 1. A e B sono due eventi incompatibili (o disgiunti); 2. A e B sono due eventi tra loro stocasticamente indipendenti, sapendo che P(A∪B) = 0.9.

25.13

Esercizio 9 (T 231, 11.01.2007, 4). Sapendo che A, B e C sono tre eventi che costituiscono una partizione dello spazio Ω e che P(A) = 0.2 e P(B) è 2 volte P(C): 1. calcolare P(B ∪C), P(A ∩C), P(A − B), P(A|B), 2. dire se A e C sono stocasticamente indipendenti. 25.14

344

4

La probabilità composta (caso generale)

Definizione 10 (Probabilità composta). Si considerino gli eventi A1 , A2 , . . . , An . Allora P(A1 ∩ A2 ∩ . . . ∩ An ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ) · . . . · P(An |A1 ∩ A2 ∩ . . . ∩ An−1 ) con P(A1 ∩ A2 ∩ . . . ∩ An ) 6= 0. Teorema 11. Si considerino gli eventi A1 , A2 , . . . , An con P(A1 ∩ A2 ∩ . . . ∩ An ) 6= 0. Allora 0 < P(A1 ∩ . . . ∩ An ) ≤ P(A1 ∩ . . . ∩ An−1 ) ≤ . . . ≤ P(A1 ) Dimostrazione. Dal momento che (A1 ∩ . . . ∩ An ) ⊂ (A1 ∩ . . . ∩ An−1 ) ⊂ . . . ⊂ (A1 ∩ A2 ) ⊂ A1 , la tesi segue applicando il Teorema della monotonicità. 25.15

4.1

Esercizi

Esercizio 12 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascuna recante impressa una lettera dell’alfabeto italiano. Calcolare la probabilità che estraendo contemporaneamente 5 palline escano: 1. 5 consonanti; 2. le 5 lettere che compongono il sostantivo ombra; (suggerimento: calcolare le seguenti probabilità: P(o1 ∩ m2 ∩ b3 ∩ r4 ∩ a5 ), P(a1 ∩ m2 ∩ b3 ∩ r4 ∩ o5 ); conteggiare poi il numero di sequenze che possono essere costruite con le lettere o, m, b, r, a, cfr. il paragrafo successivo ’le permutazioni’). 25.16

345

4.2

Le permutazioni

Esempio 13. Quante sequenze si possono costruire con le quattro lettere (elementi distinti) r, o, m, a r r r r r r o o o o o o m m m m m m a a a a a a

o o m m a a r r m m a a r r o o a a r r o o m m

m a o a o m m a r a r m o a r a r o o m r m r o

a m a o m o a m a r m r a o a r o r m o m r o r

4

3

2

1

In totale 24 sequenze, ottenibili mediante il prodotto 4 · 3 · 2 · 1 = 24

25.17

Definizione 14 (Permutazioni). Numero di sequenze che possono essere costruite con n elementi distinti: n · (n − 1) · . . . · 2 · 1 Definizione 15 (Fattoriale). Si definisce fattoriale di un numero n il prodotto dei numeri da 1 a n n! = n · (n − 1) · . . . · 2 · 1 Per definizione vale 0! = 1 Esempio 16 (Soluzione Esercizio 12). Abbiamo P(o1 ∩ m2 ∩ b3 ∩ r4 ∩ a5 ) = P(o1 ) · P(m2 |o1 ) · P(b3 |o1 ∩ m2 ) · P(r4 |o1 ∩ m2 ∩ b3 ) · 1 1 1 1 1 ·P(a5 |o1 ∩ m2 ∩ b3 ∩ r4 ) = · · · · . 21 20 19 18 17 Si osserva come valga P(a1 ∩ m2 ∩ b3 ∩ r4 ∩ o5 ) = P(o1 ∩ m2 ∩ b3 ∩ r4 ∩ a5 ) e come tale probabilità coincida con quella di qualsiasi sequenza che può essere costruita con le lettere o, m, b, r, a. 346

25.18

Il numero di tali sequenze (permutazioni) è pari a 5! = 120, abbiamo quindi: P(5 lettere o, m, b, r, a) = 5! ·

1 1 1 1 1 · · · · = n. sequenze · P(generica sequenza). 21 20 19 18 17 25.19

Esercizio 17 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascuna recante impressa una lettera dell’alfabeto italiano. Calcolare la probabilità che estraendo contemporaneamente 5 palline escano: 3. le 5 lettere che compongono il sostantivo sasso. 4. 3 vocali e 2 consonanti; (suggerimento: calcolare le seguenti probabilità: P(v1 ∩ v2 ∩ v3 ∩ c4 ∩ c5 ), P(c1 ∩ c2 ∩ v3 ∩ v4 ∩ v5 ); conteggiare poi il numero di sequenze che possono essere costruite con 3 vocali e 2 consonanti, cfr. il paragrafo successivo ’le combinazioni’). 25.20

4.3

Le combinazioni

Esempio 18. Si considerino 5 elementi dei quali 3 di un tipo e 2 di un secondo tipo (ad esempio 3 lettere f e 2 lettere g). Quante sequenze si possono costruire con i 5 elementi? Ipotizziamo in primo luogo che i 5 elementi siano distinti: a, b, c, d, e Il numero delle possibili sequenze è 5! = 5 · 4 · 3 · 2 · 1 = 120 abcde abced abdce abdec abecd abedc acbde acbed acdbe acdeb acebd acedb adbce adbec adcbe adceb adebc adecb aebcd aebdc aecbd aecdb aedbc aedcb

bacde baced badce badec baecd baedc bcade bcaed bcdae bcdea bcead bceda bdace bdaec bdcae bdcea bdeac bdeca beacd beadc becad becda bedac bedca

cabde cabed cadbe cadeb caebd caedb cbade cbaed cbdae cbdea cbead cbeda cdabe cdaeb cdbae cdbea cdeab cdeba ceabd ceadb cebad cebda cedab cedba

dabce dabec dacbe daceb daebc daecb dbace dbaec dbcae dbcea dbeac dbeca dcabe dcaeb dcbae dcbea dceab dceba deabc deacb debac debca decab decba

eabcd eabdc eacbd eacdb eadbc eadcb ebacd ebadc ebcad ebcda ebdac ebdca ecabd ecadb ecbad ecbda ecdab ecdba edabc edacb edbac edbca edcab edcba 25.21

Si sostituisca alle lettere a, b, c la lettera f .

347

Tutte le sequenze che contengono la coppia (d, e) in posizione prefissata, ad esempio in 4a e 5a posizione divengono indistinguibili abcde bacde cabde → f f f de acbde bcade cbade

Il numero di sequenze distinte (per l’ordine) risulta allora ridotto a 120 5! = = 20, 6 3! essendo 3!, permutazione delle 3 lettere a, b, c, il numero di elementi ’indistinguibili’ con d ed e in posizione prefissata e a, b, c sostituite con f f f f de f f f ed f fd fe f fefd

f f de f f f ed f fd f fe fef fd

fd fef fefd f f de f f f ed f f

d f f fe ef f fd d f fef ef fd f

d fef f efd f f de f f f ed f f f 25.22

Sostituendo, ora, alle lettere d, e la lettera g, il numero di sequenze distinte (per l’ordine) risulta 5! 120 = = 10, 3! · 2! 6 · 2 dove 2!, permutazione delle lettere d, e, è il numero di elementi ’indistinguibili’ con a, b, c (o f f f ) in posizione prefissata e d, e sostituite con g f f f gg f fgfg

f f gg f fgf fg

fgfgf f gg f f

gf f fg gf fgf

gfgf f gg f f f 25.23

In conclusione, disponendo di 5 elementi di cui 3 di un primo tipo e 2 di un secondo tipo, è possibile costruire 5! 120 = = 10 3! · 2! 6 · 2 ordinamenti (sequenze) distinte. Definizione 19 (Combinazioni). Il numero di sequenze che possono essere costruite con n elementi dei quali k di un primo tipo e n − k di un secondo tipo · · · ◦} •| •{z · · · •} ◦| ◦{z k n−k è pari a: n! . k! · (n − k)!

4.4

Il coefficiente binomiale

Definizione 20 (Coefficiente binomiale).   n n! = . k k! · (n − k)! 348

25.24

Per il calcolo del coefficiente binomiale risulta utile la seguente proprietà     n! n n! n = = = k k! · (n − k)! (n − k)! · k! n−k Inoltre   n n! = k! · (n − k)! k

= = =

n(n − 1) · . . . · (n − k + 1)(n − k)! k! · (n − k)! n(n − 1) · . . . · (n − k + 1) k(k − 1) · . . . · 1 k fattori decrescenti a partire da n . k fattori (i primi k interi) 25.25

Esempio 21. Si calcolino

80 70 70 78 , 3 , 66

    80 80 80 · 79 = 3160; = = 2·1 78 2   70 70 · 69 · 68 = 54740; = 3·2·1 3     70 70 70 · 69 · 68 · 67 = = = 916895. 66 4 4·3·2·1

25.26

Esempio 22 (Soluzione Esercizio 17). Abbiamo P(v1 ∩ v2 ∩ v3 ∩ c4 ∩ c5 ) = P(v1 ) · P(v2 |v1 ) · P(v3 |v1 ∩ v2 ) · P(c4 |v1 ∩ v2 ∩ v3 ) · 5 4 3 16 15 · · · · . ·P(c5 |v1 ∩ v2 ∩ v3 ∩ c4 ) = 21 20 19 18 17 Si osserva come valga P(v1 ∩ v2 ∩ v3 ∩ c4 ∩ c5 ) = P(c1 ∩ c2 ∩ v3 ∩ v4 ∩ v5 ) e come tale probabilità coincida con quella di qualsiasi sequenza che può essere costruita con 3 vocali e 2 consonanti (o, equivalentemente, con 2consonanti e 3 vocali).  Il numero di tali sequenze (combinazioni) è pari a 53 = 20 (equivalente a 52 = 20), abbiamo quindi:   5 5 4 3 16 15 P(3 vocali e 2 consonanti) = · · · · · = n. sequenze·P(generica sequenza). 3 21 20 19 18 17 25.27

Esercizio 23 (T 121, 26.06.1993, 5). Papà, mamma con i due figli vanno in gelateria e si siedono a un tavolo quadrato a 4 posti; determinare la probabilità che i due figli siano seduti uno di fronte all’altro, ritenendo equiprobabile ogni configurazione. 25.28

Esercizio 24 (T 158, 24.01.1998, 5). Sia dato un gruppo di n = 12 individui. 1. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, due persone si trovino vicine. 2. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, tre persone si trovino vicine. 25.29

349

4.5

Combinazioni multiple e coefficiente multinomiale

Esempio 25. Si considerino 7 elementi dei quali 1 di un primo tipo, 3 di un secondo tipo, 2 di un terzo tipo e 1 di un quarto tipo (ad esempio ahhhllg). Quante sequenze si possono costruire? Ipotizziamo in primo luogo che i 7 elementi siano distinti: a, b, c, d, e, f , g Il numero delle possibili sequenze è 7! = 5040. Si sostituisca alle lettere b, c, d la lettera h e alle lettere e, f la l Molte sequenze divengono indistinguibili, ad esempio abcde f g abdce f g acbde f g acdbe f g adbce f g adcbe f g → ahhhllg abcd f eg abdc f eg acbd f eg acdb f eg adbc f eg adcb f eg

Il numero totale di sequenze distinte (per l’ordine) risulta 7! = 420 1! · 3! · 2! · 1!

5

25.30

Legge delle probabilità totali

Si consideri una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak Ω A1

A2

...

Ak

Sk

Ai ∩ A j = ∅ (∀i 6= j) i=1 Ai = Ω, Si consideri ora un generico insieme B

25.31

Ω A1

A2

...

Ak

B

350

Si ha: B = Ω ∩ B = (A1 ∪ . . . ∪ Ak ) ∩ B = (A1 ∩ B) ∪ . . . ∪ (Ak ∩ B) pertanto P(B) = P(A1 ∩ B) + . . . + P(Ak ∩ B) e anche P(B) = P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak ) 25.32

Teorema 26 (Legge delle probabilità totali). Si consideri un insieme B e una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak , vale P(B) = P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak ) 25.33

5.1

Esercizi

Esercizio 27 (T 154, 28.06.1997, 5). Siano date due urne così composte: • la prima contiene 18 palline bianche, 17 palline rosse e 5 palline verdi, • la seconda contiene 10 palline bianche, 16 palline rosse e 24 palline verdi. Si proceda allo svolgimento del seguente esperimento casuale: si lanci un dado regolare. Se si ottiene un numero multiplo di 3 si estrae una pallina dalla prima urna contrariamente si estrae una pallina dalla seconda urna. Determinare la probabilità che la pallina estratta sia bianca. 25.34

Esercizio 28 (T 152, 22.02.1997, 4). Tre scatole contengono rispettivamente: • due palline bianche e una nera; • due palline nere e una bianca; • tre palline bianche. Estraendo in modo indipendente una pallina da ciascuna scatola, calcolare la probabilità di estrarre due palline bianche e una nera. 25.35

351

6

Formula di Bayes

Teorema 29 (Formula di Bayes). Si considerino • una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak • un insieme B. Si supponga di conoscere • P(A1 ), P(A2 ), . . . , P(Ak ) • P(B|A1 ), P(B|A2 ), . . . , P(B|Ak ) Allora P(Ai |B) =

P(Ai )P(B|Ai ) , P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak )

Dimostrazione. P(Ai |B) =

i = 1, . . . , k.

P(Ai ∩ B) P(Ai )P(B|Ai ) = k P(B) ∑i=1 P(Ai )P(B|Ai )

ricordando la formula della probabilità composta e la legge delle probabilità totali. 25.36

Interpretazione della Formula di Bayes Se si attribuisce agli eventi Ai il significato di possibili cause dell’effetto B, la formula di Bayes consente di effettuare uno ’scambio’ tra le cause e l’effetto. Infatti, note le probabilità, P(Ai ), di ciascuna causa e le probabilità dell’effetto data ciascuna causa P(B|Ai ), consente di determinare la probabilità P(Ai |B) della causa dato l’effetto, vale a dire che essendosi verificato l’evento B sia stata la causa Ai a determinarlo.

25.37

Esempio 30. Si consideri un paziente che si presenta dal medico con un determinato sintomo. Il medico sa che detto sintomo potrebbe essere causato da k patologie che si suppongono mutuamente esclusive. Sia B l’evento che rappresenta il sintomo e Ai l’evento che si identifica con la i-esima patologia (i = 1, 2, . . . , k). Il medico conosce (a priori) la probabilità P(B|Ai ) che si manifesti il sintomo B essendo il paziente affetto dalla patologia Ai . È, però, interessato a determinare la probabilità P(B|Ai ) che essendosi manifestato il sintomo B sia stata la patologia Ai a determinarlo. A tal fine può utilizzare la formula di Bayes.

25.38

Utilizzazione La formula di Bayes trova utilizzo nell’approccio soggettivo all’inferenza statistica, cosiddetta Bayesiana, nella quale in aggiunta al risultato sperimentale B, si suppone di disporre di una ’elicitazione’, come distribuzione di probabilità a priori, riguardo agli eventi Ai oggetto di inferenza. Esempio 31. Con riferimento all’Esempio 3 della Sezione 1, relativo alla determinazione della quota di mercato di un’azienda, si utilizzano, in aggiunta all’informazione campionaria, anche altre valutazioni (soggettive), in forma di distribuzione di probabilità a priori, relative ai possibili valori della quota di mercato oggetto di stima.

352

25.39

Esempio 32. Una linea di produzione è costituita da 3 macchinari, m1 , m2 , m3 , che contribuiscono rispettivamente al 20%, al 30% e al 50% della produzione. I 3 macchinari sono caratterizzati dai seguenti tassi di difettosità: 5%, 4% e 2%. • Si calcoli la probabilità che estratto a caso un pezzo dalla linea di produzione, questo sia difettoso. • Si calcoli la probabilità che avendo estratto un pezzo difettoso, questo provenga dal macchinario m1 . macchina % produzione % difettosità

m1 20% 5%

¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ DD ¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ D¯ DD

m2 30% 4%



Indicando con Mi l’evento ’pezzo prodotto da mi ’ e abbiamo: macchina m1 m2 P(Mi ) 0.20 0.30 P(D|Mi ) 0.05 0.04 Siamo interessati a conoscere P(D) e P(M1 |D) M3

M2

25.40

con D l’evento ’pezzo difettoso’ m3 0.50 0.02



D

ND

M1

m3 50% 2%

25.41

Abbiamo: P(D) = P ((M1 ∩ D) ∪ P(M2 ∩ D) ∪ P(M3 ∩ D)) = = P(M1 ∩ D) + P(M2 ∩ D) + P(M3 ∩ D) =

= P(M1 )P(D|M1 ) + P(M2 )P(D|M2 ) + P(M3 )P(D|M3 ) = = 0.20 · 0.05 + 0.30 · 0.04 + 0.50 · 0.02 = = 0.01 + 0.012 + 0.01 = 0.032

e P(M1 |D) =

P(M1 ∩ D) P(M1 )P(D|M1 ) 0.01 = = = 0.3125. P(D) P(D) 0.032 25.42

353

7

I grafi di probabilità

Sono delle strutture ’orientate’, denominate anche alberi di probabilità, costituite da nodi e archi, mediante le quali è possibile rappresentare la struttura di casualità di un problema. Ad esempio, con riferimento alla legge delle probabilità totali applicata agli eventi D e D¯ specificati nel precedente Esempio 32 abbiamo il grafo nella seguente figura. D 0.05

25.43

P (M1 ∩ D) = 0.2 · 0.05 = 0.01 = P (M1 )P (D|M1 )

M1 0.95 ¯ D

0.2

D 0.04 0.3

¯ = 0.2 · 0.95 = 0.19 = P (M1 )P (D|M ¯ 1) P (M1 ∩ D) P (M2 ∩ D) = 0.3 · 0.04 = 0.012 = P (M2 )P (D|M2 )

M2 0.96 ¯ D D

0.5

0.02

¯ = 0.3 · 0.96 = 0.288 = P (M2 )P (D|M ¯ 2) P (M2 ∩ D) P (M3 ∩ D) = 0.5 · 0.02 = 0.01 = P (M3 )P (D|M3 )

M3 0.98 ¯ D

¯ = 0.5 · 0.98 = 0.49 = P (M3 )P (D|M ¯ 3) P (M3 ∩ D)

• Dal nodo iniziale partono 3 archi relativi alla possibile ’scelta’ del macchinario; la somma delle probabilità a essa associate è pari a 1. • Da ciascun nodo intermedio partono 2 archi relativi alla realizzazione del prodotto effettuata mediante il macchinario Mi . Il prodotto può essere ’difettoso’ oppure ’non difettoso’ e la somma delle probabilità associate ai due eventi è sempre pari a 1. • Effettuando il prodotto tra i valori delle probabilità presenti lungo i diversi archi che portano dal nodo iniziale ai nodi terminali si ottengono le probabilità composte. 25.44

7.1

Esercizi

Esercizio 33 (T 214, 23.09.2004, 3). Un manager ha nel proprio ufficio tre linee telefoniche (A, B e C) che risultano libere con probabilità rispettivamente pari a 0.70, 0.20 e 0.40. 1. Scegliendo a caso una delle linee, si determini la probabilità che la linea scelta risulti essere libera. 2. Ipotizzando che la linea scelta sia libera, qual è la probabilità che sia la linea C? 25.45

354

Sezione 26 Calcolo delle probabilità (3) 26.1

Indice 1

La variabile casuale

355

2

Esperimenti aleatori descritti da variabili casuali discrete

356

3

La variabile casuale di Bernoulli

359

4

La variabile casuale binomiale

360

5

La variabile casuale ipergeometrica

363

6

La variabile casuale uniforme

366

7

Esercizi

366

8

La Funzione di Ripartizione

367

9

Altri esempi di variabili casuali

369

1

26.2

La variabile casuale

Denominata anche ’numero aleatorio’, è il corrispondente stocastico della serie statistica. Al posto degli eventi elementari ωi ∈ Ω abbiamo valori numerici appartenenti a un insieme S detto supporto. Gli eventi di interesse sono, in genere, insiemi numerici del tipo X = x0

X ≤ x0

a 8.72). Occorre passare alla variabile Normale standardizzata 

 X −µ 8.72 − µ P(X > 8.72) = P > = σ σ   8.72 − 5 = = P Z> 3 = P(Z > 1.24) = 1 − P(Z ≤ 1.24) = = 1 − 0.8925 = 0.1075. 27.11

Lettura diretta (4) Sia X ∼ N(µ = 5, σ 2 = 9) si calcoli P(X ≥ 1.28). Occorre passare alla variabile Normale standardizzata  X −µ 1.28 − µ ≥ = σ σ   1.28 − 5 = P(Z ≥ −1.24) = P Z≥ 3 

P(X ≥ 1.28) = P

Ora, tenendo conto che la distribuzione della variabile casuale Normale è simmetrica abbiamo (costruire il grafico della funzione di densità di probabilità) P(Z ≥ −1.24) = P(Z ≤ 1.24) = 0.8925. 27.12

Lettura diretta (5) Sia X ∼ N(µ = 5, σ 2 = 9) si calcoli P(X ≤ 1.28). Occorre passare alla variabile Normale standardizzata  X −µ 1.28 − µ P(X ≤ 1.28) = P ≤ = σ σ   1.28 − 5 = P Z≤ = P(Z ≤ −1.24) 3 

Ora, tenendo conto che la distribuzione della variabile casuale Normale è simmetrica abbiamo (costruire il grafico della funzione di densità di probabilità) P(Z ≤ −1.24) = P(Z ≥ 1.24) = 1 − P(Z < 1.24) = 1 − P(Z ≤ 1.24) = = 1 − 0.8925 = 0.1075. In definitiva Φ(−z) = 1 − Φ(+z). 27.13

375

Lettura indiretta (1) Sia Z ∼ N(µ = 0, σ 2 = 1). Sapendo che P(Z ≤ z) = 0.8925 si ricavi z. Dobbiamo ora cercare il valore 0.8925 all’interno della tavola.

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1.10 1.20 1.30 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 2.20 2.30 2.40 2.50 2.60 2.70 2.80 2.90 3.00

0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987

0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987

0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987

0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988

0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988

0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989

0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989

0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989

0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990

0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990

Il valore si ottiene in corrispondenza delle ’coordinate’ 1.20 (riga) e 0.04 (colonna), quindi risulta z = 1.24.

27.14

Lettura indiretta (2) Sia X ∼ N(µ = 5, σ 2 = 9). Sapendo che P(X ≤ x) = 0.8925 si ricavi x. Occorre passare alla variabile Normale standardizzata   X −µ x−µ P(X ≤ x) = P ≤ = σ σ   x−5 = P Z≤ = P(Z ≤ z) = 0.8925 3 All’interno della tavola della Normale standardizzata troviamo 0.8925 in corrispondenza delle ’coordinate’ 1.20 (riga) e 0.04 (colonna), quindi z = 1.24; x−5 = z = 1.24 3 x − 5 = 1.24 · 3 x = 5 + 1.24 · 3 = 8.72

376

27.15

2.2

Esercizi

Esercizio 2 (T 233, 08.02.2007, 4). Si supponga che X sia distribuita come una variabile casuale normale con media µ = 10 e varianza σ 2 incognita. Sapendo che P(X > 21) = 0.025 si determini il valore di σ 2 . 27.16

Esercizio 3 (T 219, 30.06.2005, 5). Una macchina produce pezzi meccanici la cui lunghezza X si distribuisce normalmente, con media pari a 10 cm e varianza pari a 2. Un pezzo è ritenuto difettoso se risulta più lungo di un certo valore ritenuto accettabile. Sapendo che i difettosi sono il 5%: 1. indicare il valore x0 al di sopra del quale si ritiene che un pezzo sia difettoso; 2. calcolare la probabilità che, estratti a caso 10 pezzi, uno sia difettoso. 27.17

Quadro riassuntivo Abbiamo visto • caso discreto – uniforme – binomiale – ipergeometrica – Poisson • caso continuo – normale o gaussiana – esponenziale negativa – gamma Si ricordi che al simbolo X corrispondono: • nel caso discreto valori xi e probabilità pi (distribuzione) • nel caso continuo supporto S e densità f (x) (x ∈ S) 27.18

3

Media e varianza di variabile casuale • caso discreto M(X) = ∑ xi pi = µ i

Var(X) = ∑(xi − µ)2 pi = σ 2 i

• caso continuo

Z +∞

M(X) = −∞

Z +∞

Var(X) = −∞

x f (x)dx = µ

(x − µ)2 f (x)dx = σ 2

377

27.19

parametri M(X)

X

Var(X)

uniforme

n

n+1 2

n2 −1 12

binomiale

n, p

np

np(1 − p)

np

np(1 − p) N−n N−1

n, p =

ipergeometrica

M N

normale

µ, σ 2

µ

σ2

Poisson

λ

λ

λ

esponenziale negativa

λ

1 λ

1 λ2

gamma

α, λ

α λ

α λ2 27.20

3.1

Esercizi

Esercizio 4 (T 156, 13.09.1997, 5). Sia X una variabile casuale Binomiale; sapendo che il suo valore atteso e la varianza assumono valori rispettivamente uguali a 2 e 1.2: 1. individuare n (numero di prove indipendenti) e p (probabilità del singolo successo); 2. calcolare la probabilità che X assuma valori maggiori o uguali a 4. 27.21

Esercizio 5 (T 216, 04.02.2005, 6). Si consideri l’esperimento di estrazione, con ripetizione, di n palline da un’urna contenente palline rosse e bianche in proporzione p e (1 − p). Sia X la v.c. n◦ di palline rosse estratte e Y n◦ di bianche. 1. Sapendo che M(X) = 3 e M(Y ) = 1, determinare n e calcolare P(X > 2). 2. Nel caso di 100 estrazioni con reimmissione dalla stessa urna, calcolare P(X > 70). 27.22

4

Schema interpretativo v.c. normale

Teorema 6 (del limite centrale). Sia Xn = µ + E1 + E2 + . . . + En con • {En } = successione di v.c. indipendenti • M(Ei ) = 0 (tipico della variabilità accidentale) • Var(Ei ) = σi2 (finita) Sotto ulteriori condizioni sui momenti terzi, posto Zn = q vale

Xn − µ σ12 + . . . + σn2

Z w

  1 1 √ exp − z2 dz = Φ(w). n→∞ 2 −∞ 2π La somma di v.c. indipendenti converge a una variabile casuale normale. lim P(Zn ≤ w) =

378

27.23

Si pensi, ad esempio, a un fenomeno aleatorio le cui manifestazioni sono caratterizzate da • livello deterministico µ • svariate perturbazioni accidentali indipendenti che agiscono in maniera additiva 27.24

5

Approssimazione della variabile casuale binomiale con la normale

Teorema 7 (Approssimazione della variabile casuale binomiale con la normale). Essendo la variabile casuale Bin(n, p) somma di v.c. Bin(1, p), allora     n i n−i ∼ x + 0.5 − np , per n → ∞ P(X ≤ x) = ∑ pq =Φ √ npq i≤x i dove • q = 1− p • Φ(·) = funzione di ripartizione di Z ∼ N(0, 1) normale standardizzata. La variabile casuale X ∼ Bin(n, p) è, quindi, approssimata da una normale con media µ = np e varianza σ 2 = np(1 − p). 27.25

Osservazione Si ha una buona approssimazione se valgono le seguenti condizioni:  np > 5 n(1 − p) > 5 ovvero

  p>0 p 0, a > 0, a 6= 1 a: base del logaritmo x: argomento della funzione loga c: esponente da assegnare alla base a per ottenere l’argomento x:

1

2

3

4

5

0

1

2

3

4

5

−3

−10

−2

−9

−1

−8

0

−7

1

−6

2

−5

3

−4

4

−3

5

−2

6

−1

0

7

0

8

1

9

2

10

3

ac = x

x

x

a>1

a 0 a: base della funzione esponenziale x: argomento della funzione esponenziale

0

1

2

3

4

5

−5

x

−4

−3

−2

−1

0

1

2

3

4

5

x

a>1

aY +2 A.41

10. Risolvete le seguenti diseguaglianze: (a) 3x ≥ 12, x≥4 (b) −3 ≤ (2x + 1)/5 < 3, −8 ≤ x < 7 (c) |x| ≤ 3. −3 ≤ x ≤ 3 A.42

11. Calcolate le seguenti espressioni: (a) y = 3 · x10 , ln y = . . ., ln y = ln 3 + 10 ln x (b) y = 10/x, ln y = . . .. ln y = ln 10 − ln x A.43

403

Riferimenti bibliografici [1] Bertoli Barsotti L. 1998 Probabilità: aspetti storici ed assiomatizzazione, Diritto allo Studio Universitario, Università Cattolica del Sacro Cuore, Milano. [2] Bonanomi A., Cantaluppi G. 2012 Measurement scales, in R. Kenett S. Salini, Modern Analysis of Customer Surveys: with applications using R, John Wiley, Chicester. [3] Borra S., Di Ciaccio A. 2008 Statistica. Metodologie per le scienze economiche e sociali, Seconda edizione. Mc-Graw-Hill, Milano. [4] Cantaluppi G., Bianchi B., Piraina D., La Placa F. 2011 A Structural Equation Model Proposal for evaluating Visitor Satisfaction at an Exhibition, Innovation and Society. Statistical methods for service evaluation, 30 May - 1 June 2011, Florence - Book of Abstracts, Facoltà di Economia, Università degli Studi di Firenze p. 52. [5] Cicchitelli G. 2012 Statistica: principi e metodi, Pearson Education, Milano. [6] Frosini B.V. 1990 Lezioni di Statistica. Parte prima, Vita e Pensiero, Milano. [7] Frosini B.V. 2009 Metodi statistici: teoria e applicazioni economiche e sociali, Carocci, Roma. [8] Greenacre M. 2007 Correspondence analysis in practice, Chapman & Hall, Bocan Raton, Fla. [9] Guseo R. 2006 Statistica, Terza edizione, CEDAM, Padova. [10] Landenna G. 1994 Fondamenti di statistica descrittiva, Il Mulino, Bologna. [11] Landenna G. 1997 Introduzione alla probabilità e all’inferenza statistica, Il Mulino, Bologna. [12] Landenna G., Marasini D., Ferrari P. 1997 Probabilità e variabili casuali, Il Mulino, Bologna. [13] Magagnoli U. 1993 Elementi di statistica descrittiva, CLUEB, Bologna. [14] Magagnoli U. 2010 Lezioni di statistica e calcolo delle probabilità, http://www.unife.it/scienze/lm.matematica/insegnamenti/statistica-1/materialedidattico/LEZIONI%20DI%20STATISTICA%20-%20Parte%20I.pdf. [15] Montinaro M., Nicolini G. 2007 Elementi di statistica descrittiva, UTET, Torino. [16] Pasetti P. 2002 Statistica del Turismo, Carocci, Roma. [17] Piccolo D. 2010 Statistica, Il Mulino, Bologna. [18] Predetti A. 2002 I Numeri Indici - teoria e pratica. Giuffré editore, Milano. [19] Santamaria L. 2006 Statistica descrittiva: applicazioni di carattere economico e aziendale, Vita e Pensiero, Milano. [20] Verbeek M. 2008 A Guide to Modern Econometrics, John Wiley, New York. [21] Zanella A. 1992 Lezioni di Statistica. Parte seconda. Strutture dei dati in due o più dimensioni. La connessione, Vita e Pensiero, Milano. [22] Zanella A. 2003 Elementi di statistica descrittiva. Una presentazione sintetica, CUSL, Milano. [23] Zani S. 1997 Analisi dei dati statistici. Voll. I,II. Giuffré editore, Milano. [24] Zenga M. 1998 Introduzione alla statistica descrittiva, Vita e Pensiero, Milano. [25] Zenga M. 2009 Lezioni di statistica descrittiva, Giappichelli, Torino.

405

B.1

EDUCatt - Ente per il Diritto allo Studio Universitario dell’Università Cattolica Largo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215 e-mail: [email protected] (produzione); [email protected] (distribuzione) web: www.educatt.it/libri