Sei sulla pagina 1di 16

Estadística descriptiva

1. Introducción a la estadística

1.1- Conceptos básicos

Apunte de clase – Estadística – 2011

Se definen a continuación las palabras básicas del lenguaje estadístico

Individuo: es cualquier elemento (acotado en un tiempo y en un espacio determinados, con alguna característica común observable o medible) que porte información sobre el fenómeno que se estudia. Por ejemplo un día, un animal, una semilla, una planta, una persona, una localidad.

Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeno que se estudia. Por ejemplo días, animales, semillas, plantas, personas o localidades de una cierta región. La población puede ser:

o

Finita: está formada por una cantidad finita de elementos o individuos, pudiendo realizarse un enumeración finita de los mismos. Por ejemplo: la cantidad de vacunos en una región.

o

Infinita: no puede identificarse la cantidad de elementos de dicha población. Por ejemplo, la cantidad de peces en un río, las plantas de trigo de una parcela, etc.

Dato: valor en particular observable o medible en un individuo de la población.

Variable: es una característica, propiedad o atributo, con respecto a la cual los elementos de una población difieren de alguna forma. La variable se analiza mediante observaciones o mediciones sobre los elementos de una población obteniéndose datos para cada individuo. Las variables pueden ser de dos tipos:

o

Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo:

nacionalidad, color de la piel, sexo). Se llaman también variables categóricas, pues su escala de medida es un conjunto de categorías. Entre ellas podemos distinguir al menos:

Nominales: puede tomar un conjunto determinado de valores nominales. Por

ejemplo, la orientación de los vientos (que se podrían considerar como “Norte”, “Sur”, “Este”, “Oeste”); el color del tegumento de las semillas, el sexo, etc. Ordinales: indican un determinado orden o grado de intensidad. Por ejemplo, el grado de ataque de una virosis vegetal que puede ser "severo", "moderado" o "leve".

o

Variables cuantitativas: tienen valor numérico el cual representa una magnitud y sus respectivas unidades de medición. Por ejemplo medida de una cantidad física como longitud, masa, tiempo, energía, etc. Por su parte, las variables cuantitativas se pueden clasificar en:

Discretas: sólo pueden tomar valores enteros. En general las variables discretas surgen de conteos, como por ejemplo el número de días hasta la germinación del 50% de las semillas de una bandeja, número de colonias de microorganismos sobre plantas enfermas, el número de frutos de un árbol, el número de mazorcas en plantas de maíz, etc. Continuas: pueden tomar cualquier valor real en un intervalo, por ejemplo, las que surgen de mediciones como longitud, velocidad, temperatura, etc. Las variables también se pueden clasificar en:

o

Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alumnos de una clase).

o

Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y altura de los alumnos de una clase).

o

Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad, altura y peso de los alumnos de una clase).

T. Gibelli

- 1 -

Apunte de clase – Estadística – 2011

Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.

Experimento o muestreo: es un procedimiento mediante el cual se puede obtener

información acerca de una población. El objetivo principal es el obtener información acerca de la población bajo estudio, y a partir de ella obtener conclusiones. Para ello se recoge una muestra finita de la población. El experimento puede ser:

o

Determinístico: si al realizarse bajo las mismas condiciones se obtiene invariablemente en mismo resultado o dato.

o

Probabilístico o Aleatorio: si al realizarse bajo las mismas condiciones se obtienen resultados o datos diferentes

1.2-

Fundamentos de la estadística

La estadística es la parte de las matemáticas encargada de la presentación, análisis e interpretación de los datos de un experimento. La estadística interviene en la investigación a través de la experimentación. La investigación contempla una serie de pasos:

1. Formulación del Problema: precisar conceptos a utilizar, formulación clara de preguntas, detección de limitaciones del problema, etc.

muestra, elegir el

2. Diseño del Experimento: determinar tipo de muestreo y tamaño de la

método de obtención de un máximo de información minimizando costo y tiempo, etc.

3. Desarrollo del Experimento: recolección de datos.

4. Tabulación y descripción de resultados: construcción de tablas y gráficos.

5. Inferencia Estadística: formular conclusiones a partir de la muestra acerca de la población bajo estudio.

Normalmente la estadística se divide en:

ESTADÍSTICA DESCRIPTIVA: se encarga de la presentación adecuada de la información (tablas, gráficas, histogramas, etc.)

ESTADÍSTICA INFERENCIAL: se especializa en la estimación e inferencia de parámetros (promedio, desviación estándar, etc.).

A continuación veremos las formas principales de resumir la información que proveen muestras de una población (estadística descriptiva). Luego (en próximas unidades) se verá cómo, a partir de los resúmenes muestrales, se puede estimar o inferir acerca de los parámetros distribucionales (estadística inferencial).

T. Gibelli

- 2 -

2. Resumen de la información

Apunte de clase – Estadística – 2011

Se analiza una variable X de una cierta población y para ello se realiza un experimento y se toma una muestra de n individuos de esa población. Los valores observados de dicha variable para

cada individuo i lo notamos

Como el número de observaciones que puede ser muy grande y su simple listado es de poca relevancia en el sentido interpretativo. Es por esto deseable presentar las observaciones en forma resumida. A los fines de ordenar, resumir y presentar la información, se utilizan tablas (de distribución de frecuencias) y gráficos.

x

i

, con i = 1,2,, n .

2.1- Distribución de frecuencias

Supongamos que los valores observados de la variable X analizada, los agrupamos en clases:

C

j para j = 1,2,, k . Las clases pueden estar formadas por:

o

o

Para variable discreta: se eligen los k valores distintos observados:

Para variable continua: se agrupar los valores registrados mediante un conjunto de intervalos (que formarán las clases). La determinación de la cantidad y amplitud de los intervalos es arbitraria. Existen algunas sugerencias respecto a cómo obtener el número de intervalos:

x , x

1

2

,

,

x

k

.

por fórmula

k =

log

2

(

n +

1)

.

-

- por Regla de Sturgs: k = 1+ 3.3 log(n) .

Una regla práctica para definir la amplitud de los intervalos consiste en calcular el rango de la variable tomando la diferencia entre el mayor y el menor valor y dividir el rango por la cantidad de intervalos que se quiere tomar. El resultado de ese cociente es la amplitud que tendrá cada intervalo. Se considera para cada intervalo el punto medio que se denomina la marca de la

clase, y se nota con

para j = 1,2,, k (donde k es el número de intervalos

considerados).

Para variable cualitativa: los distintos atributos.

Cuando la cantidad de clases, es excesiva, se procede agrupando los valores posibles de la variable, formando así los llamados Intervalos de Clase. Este procedimiento se utiliza para variables que son del tipo numérica; discretas y continuas.

X

j

o

Se analizan las distintas frecuencias con que aparece cada clase

muestra analizada. Podemos diferenciar:

C

j

con j = 1,2,, k en la

Frecuencia absoluta: es el número de veces que la clase de variable se repite en el conjunto

de datos. Notamos con

n

j

al número de veces que se observa la clase

C

j

en la muestra.

Frecuencia relativa: es la frecuencia absoluta dividida por el número total de muestras.

Notamos

f

j

a la frecuencia relativa de la clase

C

j

. Entonces,

f

j =

n

j

n

, para j = 1,2,, k .

Cuando las clases

ordinales), se puede analizar la frecuencia acumulada:

C

j

para j = 1,2,, k se pueden ordenar (variables cuantitativas o cualitativas

Frecuencia absoluta acumulada: se obtiene, para cada clase

C de la muestra (con

j

j = 1,2,, k ), sumando las frecuencias absolutas observadas para las clases menores

se nota con

incluyendo la de

C

j

. La frecuencia absoluta acumulada de la clase categoría

C

j

N

j

. Entonces:

N

j

=

n

1

+

n

2

+

+

n

j

=

j

i = 1

n

i

.

T. Gibelli

- 3 -

Apunte de clase – Estadística – 2011

Frecuencia relativa acumulada: se obtiene, para cada clase

C de la muestra (con

j

j = 1,2,, k ), sumando las frecuencias relativas observadas para las clases menores

se nota con

.

F . Entonces:

incluyendo la de

j

C

j

F

j

=

. La frecuencia absoluta acumulada de la clase categoría

f

1

+

f

2

+

+

f

j

=

j

i = 1

f

i

C

j

La información podrá resumirse en un tabla de frecuencia de la siguiente manera:

Clases

 

Frecuencia absoluta

   

Frecuencia relativa

 

Simple

 

Acumulada

   

Simple

   

Acumulada

 

C

1

n

1

 

N

1

= n

1

f

1

= n

1

/ n

 

F

1

= f

1

C

2

n

2

 

N

2

= n

1

+ n

2

f

2

= n

2

/ n

 

F

2

= f

1

+ f

2

 

 

 

 

C

k

n

k

N

k

=

n

1

+

n

2

++

n

k

=

n

f

k

=

n

k

/

n

F

k

=

f

1

+

f

2

+

f

+

k

=

1

Como las tablas difieren para cada tipo de variable (variables numéricas, continuas o discretas, o bien, variables no numéricas o de naturaleza categórica) daremos ejemplos por separado.

Ejemplo 1.1: Variable discreta Un experimento consistió en contar el número de flores por planta de una muestra con n=50 plantas. Los valores resultantes del conteo fueron los siguientes:

Los valores resultantes del conteo fueron los siguientes: Los datos así presentados son de difícil interpretación,

Los datos así presentados son de difícil interpretación, por lo que se pueden resumir en la siguiente tabla de distribución de frecuencias:

en la siguiente tabla de distribución de frecuencias: ¿Qué información se obtiene de la tabla de

¿Qué información se obtiene de la tabla de frecuencias así construida? Los valores 6, 7 y 8 de la variable número de flores por planta, fueron los que se observaron con mayor frecuencia, 9 plantas (18%) presentaron 6 flores, 8 plantas (16%) tuvieron 7 flores, 7 plantas tuvieron 8 flores; pocas fueron las plantas sin flores (2%); el 10% de las plantas tuvieron 2 o menos flores; el número máximo de flores por planta en esta experiencia fue de 10 y sólo en el 6% de la muestra se registró este valor máximo.

T. Gibelli

- 4 -

Ejemplo 1.2: Variable continua

Apunte de clase – Estadística – 2011

Se toma una muestra de 100 espigas de trigo y en cada una de ellas se registra la longitud en cm. En este caso la variable X es longitud de espiga. Los resultados son los que se presentan a continuación:

Los resultados son los que se presentan a continuación: Aplicando la regla para calcular el número

Aplicando la regla para calcular el número de intervalos se tiene que: log (100 Para el cálculo de la amplitud de los intervalos en este ejemplo se tiene:

2

+

1)

7

.

El recorrido es 16 - 6.3 = 9.7

Como el número de intervalos a tomar es 7, la amplitud resultante es 9.7/7 = 1.39. Para facilitar la construcción de la tabla se redondea de 1.39 a 1.4. Por lo tanto, los conjuntos de

14.7 a 16.1 cm, constituyen los 7 intervalos para agrupar

valores de 6.3 a 7.7 cm, 7.7 a 9.1,

, los valores observados de la variable longitud de espiga. La tabla de distribución de frecuencias es la siguiente:

La tabla de distribución de frecuencias es la siguiente: Ejemplo 1.3: Variable cualitativa ordinal La calificación

Ejemplo 1.3: Variable cualitativa ordinal

La calificación de los consumidores para un nuevo producto en el mercado fue la siguiente, considerando una muestra de tamaño 40 personas: muy bueno, 8 personas; bueno 15; regular 10; malo 4 y muy malo 3. Considerando la variable X: calificación de los consumidores, la tabla de frecuencia será:

Calificación

n

i

N

i

f

i

F

i

Muy bueno

8

8

0.200

0.200

Bueno

15

23

0.375

0.575

Regular

10

33

0.250

0.825

Malo

4

37

0.100

0.925

Muy malo

3

40

0.075

1

T. Gibelli

- 5 -

Ejemplo 1.4: Variable cualitativa nominal

Apunte de clase – Estadística – 2011

En una cuidad balnearia de Argentina se recoge como dato la nacionalidad de los turistas que ingresan en el mes de Enero. Los datos pueden resumirse en la siguiente tabla de frecuencias:

Nacionalidad

n

i

f

i

Argentina

20

0.40

Boliviana

1

0.20

Brasileña

5

0.10

Venezolana

15

0.30

Total

50

1.00

En ese caso las frecuencias acumuladas no tienen sentido ya que las clases serán los distintos atributos, que no tienen un orden.

2.2-

Gráficos

Grafico de barras:

La información de una tabla de frecuencias también puede ser representada en un gráfico de barras llamado histograma, disponiendo en el eje de las ordenas las frecuencias absolutas o relativas y en el eje de las abscisas los distintos valores que toma la variable. La gráfica de las clases vs las frecuencias acumulas es conocida como ojiva.

Ejemplo: histograma de distribución de frecuencia del ejemplo 1.1:

histograma de distribución de frecuencia del ejemplo 1.1: Observación: para datos agrupados, como dentro de cada

Observación: para datos agrupados, como dentro de cada intervalo existen varios valores de la variable, se construirá una barra de altura igual a la frecuencia de dicho intervalo y ancho igual a la amplitud del mismo.

T. Gibelli

- 6 -

Apunte de clase – Estadística – 2011

Polígono de frecuencias que se construye uniendo los puntos medios de los extremos superiores de las barras de un histograma por segmentos de recta.

Ejemplo 1.5: histograma y polígono de frecuencias relativas del Ejemplo 1.2:

y polígono de frecuencias relativas del Ejemplo 1.2: Diagrama de torta Consiste en distribuir las frecuencias
y polígono de frecuencias relativas del Ejemplo 1.2: Diagrama de torta Consiste en distribuir las frecuencias

Diagrama de torta Consiste en distribuir las frecuencias relativas en el sector circular que corresponde a dicha proporción. Se utiliza generalmente, para representar gráficamente datos de variables cualitativas.

Ejemplo 1.6: diagrama en torta del ejemplo 1.4

cualitativas. Ejemplo 1.6: diagrama en torta del ejemplo 1.4 Diagrama de tallo y hoja Se utiliza

Diagrama de tallo y hoja Se utiliza para variables cuantitativas. Se presentan los datos empleando los dígitos que constituyen los valores observados. Cada dato observado se divide en dos partes:

el tallo: el (los) dígito(s) principal(es)

la hoja: los dígitos posteriores al principal.

El diagrama se construye considerando todos los datos observados, ubicando los tallos a los largo del eje principal (primera columna), y luego en la fila de cada tallo, se ubican las todas las hojas (tantas como datos) correspondientes a ese tallo.

Ejemplo 1.7: Consideremos los siguientes datos sobre puntajes obtenidos en un examen en un curso de 19 alumnos: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 El diagrama de tallo y hoja considerando como dígito principal la decena es:

   
   

5

2

6

6

8

2

7

6

4

6

8

2

6

8

4

8

2

6

4

2

8

9

6

2

Puede observarse que los puntajes están centrados en los 70 puntos.

T. Gibelli

- 7 -

3. Medidas de resumen de la información

Consideraremos una muestra de tamaño n , donde

datos agrupados en k clases notamos con:

X

n

i

f

i

i

a la marca de la clase i-ésima

a la frecuencia absoluta de la i-ésima clase

a la frecuencia relativa de la i-ésima clase

x , x

1

2

,

Apunte de clase – Estadística – 2011

,

x

n son los valores observados. Para

Los aspectos relevantes de una muestra son generalmente descriptos usando medidas de posición y de dispersión.

3.1- Medidas de posición

Son aquellas medidas que nos ayudan a saber donde están los datos.

3.1.1- Medidas de tendencia central

Son funciones de los datos de una muestra que miden, según diferentes criterios, el centro de la distribución de frecuencias en la muestra. Las más usadas para este fin son:

Media: es el valor medio de los observados en la muestra. La notaremos X .

 

n

 

x

i

 

+

 

+

+

 

- Para datos no agrupados:

 

X

=

 

i

=

1

=

x

1

x

2

 

x

n

 
     

n

   

n

 

k

 

=

X

i

n

i

X

 

+

X

 

+

+

X

 

- Para datos agrupados:

X

i

=

1

 

=

1

n

1

2

n

2

k

   

n

 

n

 
 

k

o

X =

X

i

f

i

= X

1

f

1

+ X

2

f

2

+

+ X

k

f

k

 

i =

1

Observación: La media aritmética es única y viene expresada en las mismas unidades que la variable. En su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información (es el centro de gravedad de toda la distribución). Sin embargo, presenta el problema de que su valor se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.

Mediana: es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50% son menores. La notaremos Me .

- Para datos no agrupados: si ubicamos los n valores observados ordenados, entonces:

o

Si n es impar:

Me

o

Si

n es par:

Me

=

=

x

n

x

(

/ 2

n

+1) / 2

+

x

(

n

(valor que está en el medio).

/ 2)+1

2

(valor promedio entre que los dos del medio)

- Para datos agrupados: se determina el intervalo i-ésimo que contiene a la mediana, es decir, aquel en el cual se encuentra el 50% de la frecuencia. Luego:

donde:

T. Gibelli

Me

=

L

i

+

c

  n

2

N

i 1

n

i

=

L

i

+

c

(

0.5

F

i 1

)

f

i

- 8 -

o

o

o

o

o

o

Apunte de clase – Estadística – 2011

L

i es el límite inferior del intervalo que contiene a la mediana

N i1

es la frecuencia absoluta acumulada en la clase anterior i-ésima

n i es la frecuencia absoluta de la clase que contiene a la mediana

es la frecuencia relativa acumulada en la clase anterior i-ésima

F

f

c

i

i1

es la frecuencia relativa en la clase que contiene a la mediana es el tamaño del intervalo de clase.

contiene a la mediana es el tamaño del intervalo de clase. Observación: la mediana es la

Observación: la mediana es la medida más representativa en el caso de variables que solo admitan la escala ordinal. Es fácil de calcular. En la mediana solo influyen los valores centrales y es insensible a los valores extremos o atípicos como lo es la media (a esta propiedad se la conoce como robustez). En su determinación no intervienen todos los valores de la variable.

Moda: es el valor que más se repite en la muestra (que ocurre con mayor frecuencia). La notaremos Mo .

- Para datos no agrupados: Mo es el valor que tiene la mayor frecuencia absoluta

- Para datos agrupados: Mo es la marca de clase que posee mayor frecuencia absoluta.

Observación: Pueden existir uno o más valores modales. Su cálculo es sencillo. Es de fácil interpretación. Es la única medida de posición central que puede obtenerse en las variables de tipo cualitativo. En su determinación no intervienen todos lo valores de la distribución. Para distribuciones simétricas unimodales, la media, la mediana y la moda corresponden al mismo valor.

Ejemplo 1.8:

Tabla de frecuencia:

Clases

Xi

ni

Ni

Xi*ni

52.5

-57.5

55

2

2

110

57.5

- 62.5

60

3

5

180

62.5- 67.5

65

4

9

260

67.5

-72.5

70

5

14

350

72.5

- 77.5

75

8

22

600

77.5

- 82.5

80

10

32

800

82.5

- 87.5

85

8

40

680

87.5

- 92.5

90

6

46

540

92.5

- 97.5

95

4

50

380

 

Total

3900

T. Gibelli

Las medidas de posición son:

3900 • media: X = = 78 50  50  5 ⋅  
3900
• media:
X =
= 78
50
 50
5 ⋅
− 22 
2
mediana:
Me =
77.5
+
= 79
10
• moda:
Mo = 80
(marca de clases del

sexto intervalo).

- 9 -

Apunte de clase – Estadística – 2011

3.1.2- Medidas de posición no centrales (cuantiles)

Las medidas de posición no centrales permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias. Son valores de la variable caracterizados por superar a cierto porcentaje de observaciones en la población (o muestra). Tenemos fundamentalmente a los percentiles y, asociados a ellos, los cuartiles y deciles.

Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los

resultados. Se denotan con:

- Para datos no agrupados:

P

i

P

k

para i = 1,2,

,99

.

(percentil de orden k) es primer valor x observado, que deja

i

por debajo el k% de la población; es decir, el primer valor cuya frecuencia acumulada es

mayor o igual a

n

k

100

P

k

>

n

k

100

)

(es decir,

P

k

es el primero valor que verifica

- Para datos agrupados: se determina el intervalo i-ésimo donde se encuentra P (buscando el que deja debajo de si al k% de las observaciones), luego,

k

P

k

=

L

i

+

c

n

k

100

N

i

1

n

i

=

L

i

+

c

k

100

F

i

1

f

i

donde:

o

o

o

o

o

o

L

i es el límite inferior del intervalo que contiene al percentil

N i1

es la frecuencia absoluta acumulada en la clase anterior i-ésima

n i es la frecuencia absoluta de la clase que contiene al percentil

es la frecuencia relativa acumulada en la clase anterior i-ésima

F

f

c

i

i1

es la frecuencia relativa en la clase que contiene a la mediana es el tamaño del intervalo de clase.

Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los

(deja a su

resultados. Se denotan con:

Q

1

(deja a su izquierda el 25 % de los datos);

Q

2

izquierda el 50% de los datos), y

Observación: El cuartil

Q

3

(deja a su izquierda el 75% de los datos).

Q

2 es igual a la mediana.

Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los

resultados. Se denotan con:

D i para i = 1,2, ,9

Ejemplo 1.9:

Cuartiles de la muestra (datos no agrupados) que tiene la siguiente tabla de frecuencia:

no agrupados) que tiene la siguiente tabla de frecuencia: T. Gibelli • Primer cuartil: primera x

T. Gibelli

Primer cuartil: primera

x

i

Segundo cuartil: primera

Tercer cuartil: primera

x

i

tal que

N

x

i

tal que

tal que

N

i

i

1

> n

N

i

4

> n

3

> n

4

= 25

2

=

4

=

, luego

Q

50 , luego

Q

75 , luego

1

3

=

Q

2

=

2

=

4

3

- 10 -

Apunte de clase – Estadística – 2011

Ejemplo 1.10:

Cuartiles de la muestra (datos agrupados) que tiene la siguiente tabla de frecuencia:

Primer cuartil: el

la siguiente tabla de frecuencia: • Primer cuartil: el i -ésimo intervalo tal que N i

i -ésimo intervalo tal que

N

i

Q

1

=

L

i

+

c n

1

4

N

i

1

n

i

=

> 21

52

+

1

4

= 5,25

, es i = 3 , entonces:

(

7 5,25

5

)

7

= 52,25

Segundo cuartil: el i -ésimo intervalo tal que

2

N i 10,5 , es i = 3 , entonces:

> 21

4

=

Me

=

Q

2

=

L

i

+

c n

2

4

N

i

1

n

i

=

52

+

(

7 10,5

5

)

7

= 57,5

Tercer cuartil: el

i -ésimo intervalo tal que

Q

3

=

L

i

+

c n

3

4

N

i

1

n

i

N

=

i

> 21

, es
4

3 i = 5 , entonces:

= 15,75

66

+

(

7 15,75

15

)

6

= 66,875

Diagramas de Tukey (o diagrama de “caja y bigotes”) Se construye una “caja” que contiene a la mayoría de los valores observados (el 50%), que tiene

por extremos el primer cuartil

central de la caja. Luego se grafican los “bigotes” que son líneas que salen de los extremos de la

caja hasta los valor extremos que serán los percentiles

que están fuera de los “bigotes” valores anómalos o atípicos y suele dibujarse con un punto.

Q

1

y el tercer cuartil ( Q ). El segundo cuartil ( Q

3

P

5

(mínimo) y

P

95

2 = Me ) es la línea

(maximo). Los valores

Ejemplo 1.11:

segundo cuartil ( Q 3 P 5 (mínimo) y P 95 2 = Me ) es

T. Gibelli

- 11 -

3.2- Medidas de dispersión

Apunte de clase – Estadística – 2011

Los estadísticos de variabilidad o dispersión nos indican si los valores de la muestra analizada están próximos entre sí o si por el contrario están o muy dispersos.

Los más usados son:

Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo.

R = x

max

x

min

Observación: el rango es fácil de calcular y sus unidades son las mismas que las de la variable. No utiliza todas las observaciones (sólo dos de ellas) y se puede ver muy afectada por alguna observación extrema. El rango aumenta con el número de observaciones, o bien se queda igual (nunca disminuye).

Varianza y desvío estándar La varianza mide la distancia existente entre los valores de la muestra y la media. Se nota

- Para datos no agrupados: se calcula por la fórmula

S

2

=

n

=

1

i

(

x

i

X

)

2

n

1

S

2

.

La fórmula dada puede dar lugar a errores por redondeo, por lo que suele usarse una fórmula equivalente que suele ser más exacta:

S 2

=

1

n

1

  

n

=

1

i

x

2

i

n

=

1

i

x

i

2

n

 

- Para datos agrupados: se calcula por la fórmula

=

1

n 1

n

=

1

i

x

2

i

2

nX

S

2

=

n

=

1

i

(

x

i

X

)

2

n

i

n 1

De igual manera al caso de datos no agrupados, suele usarse la fórmula equivalente:

S 2

=

1

n 1

n

=

1

i

n x

i

2

i

n

=

1

i

n x

i

i

2

n

=

1

n 1

n

=

1

i

n x

i

2

i

2

nX

La varianza tiene como unidad el cuadrado de las unidades de las observaciones de la muestra. Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raíz cuadrada. Por ello se define el desvío estándar que se calcula como raíz cuadrada de la varianza:

S =

2 S
2
S

Observaciones:

1) Ambas son sensibles a la variación de cada una de las observaciones, es decir, si una observación cambia, cambia con ella la varianza. No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de tendencia central. 2) Siempre toman un valor mayor que cero. Mientras más se aproximas a cero, más concentrados están los valores de la muestra alrededor de la media. Por el contrario, mientras mayor sean, más dispersos están.

T. Gibelli

- 12 -

Apunte de clase – Estadística – 2011

Apunte de clase – Estadística – 2011 Distribuciones de frecuencia con diferentes desviaciones estándar s 1

Distribuciones de frecuencia con diferentes desviaciones estándar

s

1

< s

2

3) Interpretación del desvío estándar Los siguientes resultados dan una interpretación de los valores del desvío estándar que se puede emplear también para medir las variaciones de los valores con respecto a la media. Un valor pequeño de la desviación típica ó estándar indica una mayor probabilidad de obtener un valor más cercano a la media. Esta idea se expresa en un teorema enunciado por el matemático ruso Tchebycheff.

Teorema de Tchebycheff: La proporción de cualquier conjunto de valor observados que se

encuentra a menos de k desvíos estándar de la media es al menos de

1

1

k

2 .

Por ejemplo, si k = 2 el teorema indica que al menos una proporción de

1

1 1

2

2

=

1

4

(el 75 %) de los valores observados se encuentra en el intervalo: (X 2S, X + 2S)

= 0.75

en el intervalo: ( X − 2 S , X + 2 S ) = 0.75

Interpretación del teorema de Tchebycheff para k = 2

La siguiente regla establece una relación similar para distribuciones de tipo normal o gaussiana cuyos histogramas tienen una forma de “campana simétrica” (se definirá en detalle más adelante).

Regla de la normal: si la distribución es normal, entonces:

o

el 68% de las observaciones se encuentra en el intervalo: (X S, X + S)

o

el 95% de las observaciones se encuentra en el intervalo: (X 2S, X + 2S)

o

casi el 100% de las observaciones se encuentra en el intervalo: (X 3S, X + 3S)

T. Gibelli

- 13 -

Apunte de clase – Estadística – 2011

Apunte de clase – Estadística – 2011 Interpretación de la Regla de la Normal • Coeficiente

Interpretación de la Regla de la Normal

Coeficiente de variación: es el cociente entre la desviación típica y la media

Suele considerarse el siguiente criterio:

CV =

S

X

.

Grado de variabilidad

Coeficiente de variación

Variabilidad baja

menos de 0.1 (<10%)

Variabilidad moderada

entre 0.1 y 0.3 (10% a 30%)

Variabilidad alta

más de 0.3 (>30%)

Observación: elimina la dimensionalidad de las variables, al ser una proporción (porcentaje) permite comparar el nivel de dispersión de dos muestras. Además es invariante a cambios de escala (por ejemplo, el coeficiente de variación de una variable medida en metros no cambia si la medición se realiza en centímetros). Sólo se debe calcular para variables con todos los valores positivos.

Ejemplo 1.12: considerando los datos de la tabla referida a edades de un grupo de personas:

datos de la tabla referida a edades de un grupo de personas: 2.065 X = S

2.065

X =

S

2

=

13,15

157

=

1

n

1

n

=

1

i

Media:

Varianza:

n x

i

2

i

2

nX

=

1

156

(

27.742,25

157 (13,15)

2

)

593,41

=

156

=

2 • Desvío estándar: S = S = 3,80 = 1,95 años S 1,95 •
2
• Desvío estándar:
S =
S
=
3,80
=
1,95
años
S
1,95
• Coeficiente de variación:
CV =
=
= 0.15
.
X
13,15

T. Gibelli

3,80

años 2

- 14 -

3.3- Medidas de forma

Apunte de clase – Estadística – 2011

Los estadísticos de forma hacen referencia a la forma que tiene la distribución de frecuencias. Los más usados son:

Asimetría o sesgo: Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a su valor promedio tomado como centro de gravedad. El coeficiente de asimetría más preciso es el de Fisher, que se define por:

g

1

=

m

3

S

3

, donde

m

3

=

n

=

1

i

(

x

i

X

)

3

n

i

n

El coeficiente de asimetría de Pearson es más fácil de calcular:

A k

=

3( X

Me )

S

El coeficiente se basa en el hecho de que cuanto mayor sea la asimetría, mayor será la diferencia entre la media y la mediana. Se analiza la simetría de acuerdo al siguiente criterio:

Grado de Valor del Gráfico asimetría coeficiente g 1 = 0 Simetría perfecta ( X
Grado de
Valor del
Gráfico
asimetría
coeficiente
g
1 = 0
Simetría
perfecta
(
X = Me = Mo )
Asimétrica
g
1 > 0
a derecha
(
X > Me > Mo )
(o positiva)
Asimétrica
g
1 < 0
a izquierda
(
X < Me < Mo )
(o negativa)

Curtosis: Sirve para medir si una distribución de frecuencias es muy apuntada (larga y estrecha) o no, tomando como patrón de referencia la distribución normal o gaussiana. El coeficiente de aplastamiento de Fisher (curtosis) se define como:

g

2

=

m

4

S

4

3 , donde

m

4

=

n

(

i

= 1

x

i

X

)

4

n

i

n

Se analiza la curtosis de acuerdo al siguiente criterio:

Curtosis Valor del Gráfico coef. Mesocúrtica (simula a la normal) g = 0 2 Leptocúrtica
Curtosis
Valor del
Gráfico
coef.
Mesocúrtica
(simula a la
normal)
g
= 0
2
Leptocúrtica
(más apuntada
que la normal)
g
> 0
2
Platicúrtica
(más achatada
que la normal)
g
< 0
2

T. Gibelli

- 15 -

Índice

Apunte de clase – Estadística – 2011

1. Introducción a la estadística

1

1.1-

Conceptos básicos

1

1.2-

Fundamentos de la estadística

2

2. Resumen de la información

3

2.1-

Distribución de frecuencias

3

2.2-

Gráficos

6

3. Medidas de resumen de la información

8

3.1-

Medidas de posición

8

3.2-

Medidas

de

dispersión

12

3.3-

Medidas

de

forma

15

T. Gibelli

- 16 -