Sei sulla pagina 1di 27

Unidad N 2 Estadstica descriptiva

Tema(s) a desarrollar
Subtemas

Contenido complementario

No. de semanas que se le dedicarn a esta unidad

Repaso general medidas descriptivas


1.
Introduccin
1.1 Variable discreta
1.2 Variable continua
2. Estadsticos de tendencia central
2.1. La media
2.2. La mediana.
2.3. La moda
2.4. Relacin entre media, mediana y moda
3. Estadsticos de posicin
3.1. Percentiles
3.2. Deciles
3.3. Cuartiles
4. Medidas de variabilidad o dispersin
4.1. Rango
4.2. Rango Intercuartilico
4.3. Varianza
4.4. Desviacin tpica o estndar
4.5. Coeficiente de variacin
4.6. Diagrama de Tukey
5. Asimetra y apuntamiento
5.1. Estadsticos de asimetra
5.2. Estadsticos de apuntamiento
Taller sobre la Unidad
3 Semanas

1. Introduccin
1.1 Variable discreta
1.2 Variable continua

2. Estadsticos de centralizacin
Son medidas que buscan posiciones (valores) con respecto a los cuales los datos
muestran tendencia a agruparse.

2.1 Media (mean) Es la media aritmtica (promedio) de los valores de una variable.
Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con respecto a ese
valor. Muy sensible a valores extremos.
Centro de gravedad de los datos

2. Estadsticos de centralizacin
Son medidas que buscan posiciones (valores) con respecto a los cuales los datos
muestran tendencia a agruparse.

2.2 Mediana (median) Es un valor que divide a las observaciones en dos grupos
con el mismo nmero de individuos (percentil 50).
Mediana de 1,2,4,5,6,6,8 es 5
Si el nmero de datos es par, se elige la media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a valores
extremos.

Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

Altura mediana
Tema 2: Estadsticos

2.3 Moda (mode) Es cualquier valor de la variable que pose una frecuencia mayor
que su anterior y posterior (valor de la variable que mas se repite).
Ventajas:
No requiere clculos.
Puede usarse para datos tanto cuantitativos como cualitativos.
Fcil de interpretar.
No se ve influenciada por valores extremos.
Desventajas:
Para conjuntos pequeos de datos su valor no tiene casi utilidad, si es que de
hecho existe.
No utiliza toda la informacin disponible.
No siempre existe, si los datos no se repiten.
En ocasiones, el azar hace que una sola observacin sea no representativa se el
valor ms frecuente del conjunto de datos.
Difcil de interpretar si los datos tiene 3 o ms modas.

Relacin entre la media, la mediana y la moda

Cuando los datos son sesgados es mejor emplear la Md

3. Estadsticos de posicin
CUANTILES
Se define el cuantil de orden a como un valor de la variable por debajo
del cual se encuentra una frecuencia acumulada a.
Casos particulares son los percentiles, deciles, cuartiles quintiles,...
3.1 PERCENTILES
Percentil Pk: de orden k = cuantil de orden k/100 El percentil de orden 15
deja por debajo al 15% de las observaciones. Por encima queda el 85%.
3.2 DECILES Dividen a la muestra en 10 grupos con frecuencias
similares.

3. Estadsticos de posicin
3.3 CUARTILES Dividen a la muestra en 4 grupos con frecuencias
Similares.
Q1: Primer cuartil = Percentil 25 = Cuantil 0,25
Q2: Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Q3: Tercer cuartil = Percentil 75 = cuantil 0,75

Donde estamos:
Unidad N 2 Estadstica descriptiva
Tema(s) a desarrollar
Subtemas

Repaso general medidas descriptivas


1.
Introduccin
1.1 Variable discreta
1.2 Variable continua
2. Estadsticos de tendencia central
2.1. La media
2.2. La mediana.
2.3. La moda
2.4. Relacin entre media, mediana y moda
3. Estadsticos de posicin
3.1. Percentiles
3.2. Deciles
3.3. Cuartiles
4. Meidas de variabilidad o dispersin
4.1. Rango
4.2. Rango Intercuartilico
4.3. Varianza
4.4. Desviacin tpica o estndar
4.5. Coeficiente de variacin
4.6. Diagrama de Tukey

Contenido complementario

No. de semanas que se le dedicarn a esta unidad

5. Asimetra y apuntamiento
5.1. Estadsticos de asimetra
5.2. Estadsticos de apuntamiento
Taller sobre la Unidad
3 Semanas

4. Estadisticos de dispersin, variacin o


variabilidad.

Son importantes debido a que dos muestras de


observaciones con el mismo valor central pueden tener una
variabilidad muy distinta. Rango, Rango intercuartilico,
Varianza, Desviacin tpica, coefiente de variacin.

Variabilidad o dispersin

Los estudiantes de Estadstica de la UCO reciben diferentes calificaciones


en la asignatura (variabilidad). A qu puede deberse?

Diferencias individuales en el conocimiento de la materia.

Podra haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. Las notas seran las mismas en todos?
Seguramente No.

Dormir poco el da del examen, el croissant estaba envenenado...

El examen no es una medida perfecta del conocimiento.

Diferencias individuales en la habilidad para hacer un examen.

Variabilidad por error de medida.

En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige


la mala

Variabilidad por azar, aleatoriedad.

Tema 2: Estadsticos

11

Medidas de dispersin

P50

Mx.

P75

0.03
0.02

4.1 Amplitud o Rango (range):


Diferencia entre observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores extremos.
No proporciona una medida de variabilidad
de las observaciones con respecto al
centro de la distribucin.

P25

25%

25% 25%

25%

Rango intercuartlico
0.01

Mn.

0.04

0.05

Miden el grado de dispersin (variabilidad) de los datos, independientemente


de su causa.

0.00

Rango

4.2 Rango intercuartlico (interquartile range):


150
160
170
180
Es la distancia entre primer y tercer cuartil.
Rango intercuartlico = P75 - P25
Parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores.
No es tan sensible a valores extremos.
Tema 2: Estadsticos

190

12

4.3 Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado)


de las observaciones con respecto a la media.

Si la varianza de un conjunto de observaciones es grande se dice que los Datos


tiene una mayor variabilidad que un conjunto de datos que tenga un varianza
menor.

Sus unidades son el cuadrado de las de la variable. De interpretacin difcil para


un principiante. Siempre es mayor o igual a cero y menor que infinito.
Ventajas:
Es til cuando se compara la variabilidad de dos o ms conjuntos de datos.
Utiliza toda la informacin disponible.
Desventajas:
No proporciona ayuda inmediata cuando se estudia la dispersin de un solo
conjunto de datos.
Difcil de interpretar por tener sus unidades elevadas al cuadrado.
Es sensible a valores extremos (alejados de la media).
13

4.4 Desviacin tpica (standard deviation)


Es la raz cuadrada de la varianza
Tiene las misma dimensionalidad
(unidades) que la variable. Versin
esttica de la varianza.
Ventajas:
Esta
expresada en las mismas
unidades que la variable en estudio.
Utiliza todas las observaciones en su
clculo.
Fcil de interpretar.
Desventajas:
No tiene.

S S

Tema 2: Estadsticos

14

4.5 Coeficiente de variacin (Pearson)


Es la razn entre la desviacin tpica y la media.

Mide la desviacin tpica en forma de


qu tamao tiene con respecto a la media

Tambin se la denomina variabilidad relativa.

Es frecuente mostrarla en porcentajes

Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la variabilidad de


diferentes variables.

S
CV
x

Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms


dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0


sea una cantidad fijada arbitrariamente
Por ejemplo 0C 0F

Tema 2: Estadsticos

15

4.5 Coeficiente de variacin (Pearson)

S
CV
x

Ventajas:
Es la nica MD que permite comparar el nivel de
dispersin de dos muestras de variables diferentes.
Emplea toda la informacin disponible en su clculo.
Fcil de calcular.
Desventaja:
Ninguna significativa

Diagrama de cajas de Tukey: Resumen en 5 nmeros

0.02

Mnimo, cuartiles y mximo.


Suelen dar una buena idea
de la distribucin.

La zona central, caja,


contiene al 50% central de
las observaciones.

P25

Mn.

P50

P75

Mx.

0.00

0.04

Resumen con 5 nmeros:

densidad

0.06

0.08

4.6 Diagramas de Tukey

40

45

50

55

60

65

Velocidad (Km/h) de 200 vehculos en ciudad

Su tamao se llama rango


intercuartlico (R.I.)

Ms all de esa distancia se


consideran anmalas, y as
se marcan.

0.03
0.02
0.01

P25

Mn.

P50

P75

Mx.

0.00

Es costumbre que los


bigotes, no lleguen hasta los
extremos, sino hasta las
observaciones que se
separan de la caja en no
ms de 1,5 R.I.

densidad

0.04

Diagrama de cajas de Tukey: Resumen en 5 nmeros

80

90

100

110

120

130

140

Velocidad (Km/h) de 200 vehculos en autova

Tema 2: Estadsticos

17

5. Estadsticos de Forma: Asimetra y Apuntamiento


Las discrepancias entre las medidas de centralizacin son
indicacin de asimetra.

Estadsticos de Forma: Estadsticos para detectar


asimetra y apuntamiento.

Son medidas numricas que permiten determinar la


forma que tiene la curva de los datos, por lo tanto,
sirven para corroborar lo que los grficos muestran.

Medidas
de forma

-Asimetra

Coeficiente de Pearson
Coeficiente de Fisher

-Kurtosis o apuntamiento

5.1 Estadsticos de Forma: Asimetra


Coeficiente de Asimetra de Pearson:
Fcil de calcular e interpretar.
Clculo:

3 X Md
ASP
s

Si AP > 0, la distribucin es asimtrica positiva o a la


derecha.
Si AP = 0, la distribucin es simtrica.
Si AP < 0, la distribucin es asimtrica negativa o a la
izquierda.

Estadsticos para detectar asimetra


Coeficiente de Asimetra de Pearson:

0.15
0.05

0.1

0.05

0.2

0.10

0.10

0.3

0.15

0.4

0.20

0.5

0.20

Si AP < 0, la distribucin es asimtrica negativa o a la izquierda.


Si AP = 0, la distribucin es simtrica.
Si AP > 0, la distribucin es asimtrica positiva o a la derecha.

x s

66 %

0.00

x s
78 %

0.0

0.00

78 %

x s

10

12

14
x

16

18

20

-2

-1

1
x

10

12

14

21

Estadsticos de Forma: Asimetra


Coeficiente de Asimetra de Fisher:
No es de fcil clculo, pero si su interpretacin.

ASF

x
i fi
i 1

ns 3

Interpretacin:
= 0, Simtrica
ASF

> 0, Asimtrica Positiva


< 0, Asimtrica Negativa

5.2 Estadsticos de Forma: Kurtosis o apuntamiento

Miden si los valores de la distribucin estn ms o menos


concentrados alrededor de los valores medios de la muestra (zona
central de la distribucin).
Se definen tres tipos de distribucin segn su grado de Kurtosis
Leptocrtica: grado de concentracin elevado. curtosis > 0
Mesocrtica: grado de concentracin medio alrededor de los
valores centrales de la variable. curtosis = 0
Platicrtica: grado de concentracin reducido. curtosis < 0

Estadsticos de Forma: Kurtosis o apuntamiento (pc)


x X
n

Platicrtica (aplanada): curtosis < 0

CK

Mesocrtica (como la normal): curtosis = 0

ns

3 Datos No Agrupados

M X f
4

i 1

ns

3 Datos Agrupados

Apuntada

Apuntada como la normal

0.4
0.2

0.5

0.1

1.0

0.2

0.6

1.5

0.3

0.8

2.0

Aplanada

i 1

CK

Leptocrtica (apuntada): curtosis > 0

x s

x s

x s

68 %
0.0

82 %

0.0

0.0

57 %

0.0

0.2

0.4

0.6

0.8

1.0

-3

-2

-1

-2

-1

En el curso sern de especial inters las mesocrticas


y simtricas (parecidas a la normal).

24

Un brevsimo resumen sobre estadsticos

1. Centralizacin
Indican valores con respecto a los que los datos parecen
agruparse.

2. Posicin
Dividen un conjunto ordenado de datos en grupos con la
misma o diferente cantidad de individuos.

Cuantiles: percentiles, cuartiles, deciles,...

3. Dispersin
Indican la mayor o menor concentracin de los datos
con respecto a las medidas de centralizacin.

Media, mediana y moda

Desviacin tpica, coeficiente de variacin, rango


intercuartilico, varianza. RANGO

4. Forma
Asimetra
Apuntamiento o curtosis

25

Ejercicios Para Practicar (variable discreta)


Ejercicios Para Practicar (variable continua)

26

Lo que vimos: Unidad N 2 Estadstica descriptiva


Tema(s) a desarrollar
Subtemas

Repaso general medidas descriptivas


1.
Introduccin
1.1 Variable discreta
1.2 Variable continua
2. Estadsticos de tendencia central
2.1. La media
2.2. La mediana.
2.3. La moda
2.4. Relacin entre media, mediana y moda
3. Estadsticos de posicin
3.1. Percentiles
3.2. Deciles
3.4. Cuartiles
4. Medidas de variabilidad o dispersin
4.1. Rango
4.2. Rango Intercuartilico
4.3. Varianza
4.4. Desviacin tpica o estndar
4.5. Coeficiente de variacin
4.6. Diagrama de Tukey

Contenido complementario

No. de semanas que se le dedicarn a esta unidad

5. Asimetra y apuntamiento
5.1. Estadsticos de asimetra
5.2. Estadsticos de apuntamiento
Taller sobre la Unidad
3 Semanas

27

Potrebbero piacerti anche