Elementi di Statistica descrittiva Parte II

28 downloads 324 Views 113KB Size Report
Paaina 1. Elementi di Statistica descrittiva – Parte II. Nella prima parte di queste note si sono illustrate le tecniche utilizzate per rappresentare i dati, in maniera ...
Elementi di Statistica descrittiva Parte II

1

Nella prima parte di queste note si sono illustrate le tecniche utilizzate per rappresentare i dati, in maniera sintetica, mediante tabelle e grafici. Tali tecniche sono applicabili sia a caratteri quantitativi che qualitativi. Da quanto visto finora, una popolazione (o un campione) è caratterizzata da una distribuzione di frequenze (a ogni valore distinto corrisponde una frequenza relativa, la somma delle frequenze relative è sempre 1, ma come sono distribuiti fra le varie frequenze i vari addendi che sommati danno 1?). Uno dei compiti principali della statistica descrittiva è lo studio delle distribuzioni. In questa seconda parte vediamo come sintetizzare, tramite un numero, i dati raccolti: alcune di queste tecniche possono essere usate solo con caratteri numerici, altre anche con caratteri qualitativi.

Elementi di Statistica descrittiva – Parte II

Paaina 1

Rappresentazione numerica Valori di sintesi

Indici di posizione

2

Gli indici di posizione (detti anche medie) servono a individuare un singolo valore rappresentativo della distribuzione. Se, come caso limite, tutti i valori fossero uguali fra di loro l’indice di posizione coinciderebbe con questo unico valore.

Elementi di Statistica descrittiva – Parte II

Paaina 2

Media

Siano u1,u2,…,un osservazioni numeriche, si definisce media aritmetica o media campionaria o semplicemente media:

1 u + u 2 + ... + u n x = 1 = n n

1 ui = n i =1 n

k j =1

njxj

Relativamente all’Esempio 1, esprimiamo la media sulle 40 osservazioni 1•1 + 2•6 + 3•10 + … = 154 154/40 = 3,85 3

La funzione MEDIA di Excel fornisce la media. Oltre alla media aritmetica si definisce anche una media geometrica, che qui non consideriamo.

Elementi di Statistica descrittiva – Parte II

Paaina 3

Proprietà della media

1 x = n

n i =1

ui

La media è sempre compresa fra il minimo e il massimo dei dati, non è detto che coincida con uno dei dati. La media della somma di più gruppi di osservazioni è uguale alla somma delle medie di ciascun gruppo. Il prodotto di n per la media è uguale alla somma degli n dati. Chiamando scarto la differenza di un dato dalla media, la somma degli scarti è nulla. 4

Si dimostra che la media è quel numero c che rende minima la somma (u1-c)2+(u2-c)2 +…+(un-c)2 (somma degli scarti elevati al quadrato). La media può essere calcolata solo per caratteri quantitativi.

Elementi di Statistica descrittiva – Parte II

Paaina 4

Media approssimata

Se gli n dati osservati sono attribuiti ad una variabile continua e se si dispone della tabella relativa ai dati raggruppati, si può dare una valutazione approssimata della media, media usando i valori centrali delle k classi e le frequenze assolute di ogni classe k

x =

i= 1

fi x *i n 5

La media approssimata viene utilizzata quando non si dispone dei dati grezzi, ma dei dati già raggruppati in classi (come capita spesso con variabili numeriche continue). x*i è il valore centrale della i-esima classe.

Elementi di Statistica descrittiva – Parte II

Paaina 5

Esempio: media approssimata

x=

classe

fa

17 − 17 . 5

1

17 . 5 − 18

3

18 − 18 . 5

3

18 . 5 − 19

4

19 − 19 . 5

1

19 . 5 − 20

0

20 − 20 . 5

4

20 . 5 − 21

3

21 − 21 . 5

1

tot

20

Relativamente all’Esempio 2, esprimiamo la media approssimata. (La media esatta è 19,28).

1⋅ 17.25 + 3 ⋅ 17.75 + 3 ⋅ 18.25 + 4 ⋅ 18.75 + 1.19.25 + 4 ⋅ 20.25 + 3 ⋅ 20.75 + 1⋅ 21.25 = 19.2 20 6

Esempio 2 della parte I. In questo caso abbiamo la variabile continua fornita raggruppata in classi di ampiezza 0,5. Il valore esatto 19,28 era stato calcolato utilizzando i dati grezzi (che ora supponiamo di non avere più a disposizione).

Elementi di Statistica descrittiva – Parte II

Paaina 6

Moda Siano x1,x2,…,xk k valori osservati caratterizzanti classi di frequenza di n osservazioni ed f1,f2,…,fk le relative frequenze, si definisce moda il valore osservato caratterizzante la classe che corrisponde alla massima frequenza La moda può non essere unica. Se è unica, la distribuzione si dice unimodale. Se non è unica, la distribuzione si dice bi-, tri,…-modale

classe

Relativamente all’Esempio 1, la moda è 4 e la distribuzione è unimodale

fa

1 2 3

1 6 10

4 5

12 6

6 9 tot

4 1 40 7

La scelta del valore più frequente è in alcuni casi più significativa della scelta della media. In particolare la moda è sempre un valore osservato, la media può non esserlo. La moda può essere determinata per qualunque tipo di carattere. Se la distribuzione è suddivisa in classi si ha, invece della moda, una classe modale (classe in corrispondenza della quala si ha la frequenza massima). La funzione MODA di Excel fornisce la moda.

Elementi di Statistica descrittiva – Parte II

Paaina 7

Mediana Siano u1,u2,…,un n valori osservati ordinati in modo crescente, mediana è il valore osservato che occupa la posizione centrale, se n è dispari, oppure la media aritmetica dei due valori centrali, se n è pari Relativamente all’Esempio 1, ordinando i 40 valori osservati in modo crescente:

1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4

20° valore 21° valore Otteniamo come mediana (4+4)/2 = 4

4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 9 8

La mediana può essere calcolata per caratteri quantitativi oppure per caratteri qualitativi ordinabili. Si dimostra che, nel caso di caratteri quantitativi, la mediana è quel valore c che rende minima la somma |u1-c|+ |u2-c|+…+|un-c| (somma dei valori assoluti degli scarti). La funzione MEDIANA di Excel determina la mediana.

Elementi di Statistica descrittiva – Parte II

Paaina 8

Quartili e percentili Se u1,u2,…,un sono ordinati in modo crescente, si dicono primo, secondo, terzo quartile (Q1,Q2,Q3) quei tre valori che dividono l’insieme dei dati in 4 parti uguali. I quartili sono dei punti di separazione tali che il 25% dei dati è