Sei sulla pagina 1di 45

CURSO BSICO DE ESTADSTICA DESCRIPTIVA

-1-

NDICE

CAPTULO 1: INTRODUCCIN A LA ESTADSTICA Tema 1: Introduccin a la estadstica 1.1. Introducci n a la estadstica descriptiva 1.2. Nociones bsicas o 1.2.1. Noci ones tericas o 1.2.2. Ejemplos prcticos 1.3. Distribuciones unidimensionales o 1.3.1. Noci ones tericas o 1.3.2. Ejemplos prcticos 1.4. Distribuciones bidimensionales o 1.4.1. Noci ones tericas o 1.4.2. Ejemplos prcticos

-2-

CAPTULO 1: INTRODUCCIN A LA ESTADSTICA

1.1. Introduccin a la estadstica descriptiva

Tradicionalmente la aplicacin del trmino estadstica se ha utilizado en tres mbitos:

a) Estadsti ca como enu meracin de datos. b) Estadsti ca como descripcin, es decir, a travs de un anlisis de conjuntos coherentes de datos para su posterior comparacin y anlisis. (ESTADSTICA DESCRI PTIVA) c) Estadsti ca matemtica o inferencia, unida a la teora de de

probabilidades. Se encarga de extraer conclusiones a partir de una muestra al total de la poblacin con un pequeo margen de error. (ESTADSTICA INDUCT IVA) Por tanto se podra definir la estadstica como la ciencia que permite estudiar las regularidades o patrones en un conjunto de datos para tomar decisiones racionales.

Todo anlisis estadstico requiere seguir una serie de etapas:

1) Definicin del problema de estudi o y objetivos del mismo. 2) Seleccin de la informacin necesari a para realizar el estudio. 3) Recogida de la informacin que va a depender del presupuesto con el que contemos y de la calidad de los datos exigi da. 4) Ordenacin y clasificacin de la informacin en tablas y grficos. 5) Resumen de los datos mediante medidas de posicin, dispersin, asimetra y concentr acin. 6) Anlisis estadstico formal obteniendo hiptesis y contrastndolas. 7) Interpretacin de resultados y extraccin de concl usiones. 8) Extrapolacin y prediccin.

-3-

1.2. Nociones bsicas de estadstica descriptiva

La estadstica descriptiva es la ciencia que analiza series de datos (por ejemplo, edad de una poblacin, peso de los trabajadores de un determinado centro de trabajo, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estos elementos o vari ables. Las variables que se obser van y analizan pueden ser de dos tipos: a) Variables cualitativas o atributos : no se pueden medir numricamente, representan caractersticas o atributos de las variables (por ejemplo: nacionalidad, sexo, religin). b) Variables cuantitativas : tienen valor numrico (edad, altura, precio de un producto, ingresos anual es). Por su parte, las variables cuantitativas se pueden clasificar atendiendo a los valores que pueden tomar en discretas y continuas:

Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: nmero de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podr ser 3,45). Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h...etc.
Cualitativas

Tipo de variables

Discretas

Cuantitativas (recogidas en valor o en intervalo) Continas

-4-

Segn sea de un tipo u otro la variable podr medirse de distinta manera, o lo que es lo mismo en la terminologa estadstica, tendrn distintas escalas de medida.

Cualitativas

Escala nominal: Identifica la pertenencia de un elemento sujeto u objeto a un grupo u otro, a niveles generalmente mutuamente excluyentes. Permite la distincin entre elementos pero no su ordenacin. Escala ordinal: Identifica a cada elemento en una posicin de escala respecto a los otros.

Tipo de variables Escala por intervalo: Identifica la posicin ordinal de cada elemento y permite adems medir las distancias entre unos y otros utilizando una escala de medida subjetiva.

Cuantitativas

Escala de proporcin: Permite medir las distancias entre elementos utilizando una escala de objetiva y, por lo tanto, posibilita la utilizacin de razones o ratios comparativos.

La informacin que se recoge de una o varias variables se presenta en tablas que representan la distribucin de dichas variables y tambin se pueden clasificar en: a) Distribuciones unidimensionales: slo recogen informacin sobre una caracterstica (por ejemplo: edad de los al umnos/as de una clase). b) Distribuciones bidimensionales: recogen informacin sobre dos

caractersticas de cada elemento de la poblacin simultneamente (por ejemplo: edad y al tura de los alumnos/as de una clase) . c) Distribuciones multidimensionales: recogen informacin sobre tres o ms caractersticas de cada elemento (por ejemplo: edad, altura y peso de los alumnos/as de una clase).

-5-

1.3. Distribuciones unidimensionales

Despus de una primera aproximacin a los conceptos estadsticos ms importantes y bsicos, el analista de informacin estar preparado para abordar una de las fases ms importantes que todo anlisis estadstico requiere. Es decir, una vez que hemos definido los objetivos que queremos cubrir con el anlisis y obtenido la informacin relevante, debemos presentarla en tablas y grficos para conocer mejor el problema que estamos analizando. Las primeras herramientas para conocer y por tanto describir el problema que estamos analizando nos las proporciona la estadstica descriptiva a travs de las siguientes maner as de clasificar la informacin:

1.3.1. Tabulacin de la informacin

Consiste en presentar la informacin organizada en tablas v Valores de la variable sin agrupar

xi X1 X2

ni n1 n2

fi N1/N N2/N

Ni N1 N2 = n 1 + n 2

Fi F1 = f1 F 2 = f 1+ f 2

Xn

nn n=N

nn/N fi = 1

Nn = N

Fn = 1

xi ni

Valor de la variable Frecuencia absoluta: Nmero de veces que aparece un

determinado valor de x fi Frecuencia relativa: Nmero de veces que aparece un

determinado valor de x respecto al total Ni Frecuencia absoluta acumulada: Suma de la frecuencia

absoluta cor respondiente ms todas l as anteriores -6-

Fi

Frecuencia relativa acumulada: Suma de la frecuencia

relativa correspondiente ms todas l as anteriores N Tamao de l a muestra

Distribucin Representa los valores de la variable y la frecuencia con que aparecen dichos valores (xi , ni)

Recorrido Diferencia entre el mximo y el mnimo valor de la vari able

Se utiliza este tipo de distribucin cuando el nmero de valores diferentes que toma la variable no es grande, generalmente menos de 15 20 valor es (por ejemplo nmero de hijos). v Datos de la variable agrupados

Cuando el nmero de valores diferentes que puede tomar la variable es demasiado grande para que resulte fcil presentar la informacin de manera reducida se utilizan los intervalos (por ejemplo estatura de un grupo de alumnos).

En el caso en que tengamos variables agrupadas en intervalos, introducimos el concepto de marca de clase que es el punto medio del intervalo. En el caso de variables agrupadas en intervalos las frecuencias hacen referencia al intervalo y nunca a valores concretos de dicho intervalo. Puede haber intervalos de la misma o distinta amplitud (ci). La distribucin en este caso viene dada por el extremo inferior (Li-1), el extremo superior (Li) y la frecuencia (Li-1- Li, ni).

-7-

Ejemplo 1: Supongamos que queremos hacer un estudio en una clase de universitarios. Entre otras cosas, se les pregunta lo siguiente.

Pregunta 1: Edad del encuestado Pregunta 2: Ingresos anual es familiares

A la hora de tabular la informacin la primera pregunta, al referirse a una clase de universitarios donde aproximadamente casi todos los alumnos tienen la misma edad, se hace ms interesante recoger la informacin sin agrupar, es decir, la tabulacin quedar de la siguiente manera: -Cuadro 1-

Edad xi 18 19 20 21 43 45 N

Frecuencia absoluta ni 78 15 3 2 1 1 100

Frecuencia relativa fi 0,78 0,15 0,03 0,02 0,01 0,01

Frecuencia absoluta acumulada Ni 78 93 96 98 99 100

Frecuencia relativa acumulada Fi 0,78 0,93 0,96 0,98 0,99 1

A la hora de tabular la segunda pregunta, y como cada familia puede tener unos ingresos distintos, si representsemos los datos sin agrupar nos podramos encontrar con una tabla con un dato por individuo, por lo que es ms recomendable presentar la informacin de la variable agrupada en intervalos. De tal manera que la tabla resultante quedar de la siguiente maner a:

-8-

-Cuadro 2Ingresos xi Menos de 18.000 [ 18.000 - 24.000 ) [ 24.001 - 30.000 ) [ 30.001 - 36.000 ) [ 36.001 - 42.000 ) Ms de 42.000 N Frecuencia absoluta ni 5 10 10 30 30 15 100 Frecuencia relativa fi 0,05 0,10 0,10 0,30 0,30 0,15 Frecuencia absoluta acumulada Ni 5 15 25 55 85 100 Frecuencia relativa acumulada Fi 0,05 0,15 0,25 0,55 0,85 1

1.3.2. Representaciones grficas de la informacin

Las representaciones grficas de los datos ofrecen una idea ms intuitiva y ms fcil de interpretar de un conjunto de datos sometidos a investigacin. Por ello las representaciones grficas se convierten en un medio muy eficaz para el anlisis ya que las regularidades se recuerdan con ms faci lidad cuando se obser van grficamente. v Representaciones grficas para datos sin agrupar

Diagrama de barras: representa frecuencias sin acumular. Estos grficos son vlidos para datos cuantitativos (de tipo discreto) y cualitativos. En el eje y se pueden representar tanto las frecuencias absolutas como relativas

-9-

-Grfico 1- Diagrama de barras

-Frecuencia absoluta de la edad de los alumnos80 60 40 20 0 18 19 20 21 43 45

Diagrama de escalera: representa frecuencias acumuladas de un conjunto de datos. Este grfico puede representar tanto las frecuencias absolutas como relativas.
-Grfico 2- Diagrama de escalera
-Frecuencia absoluta acumulada de la edad de los alumnos100 90 80 70 60 50 40 30 20 10 0 18 19 20 21 43 45

- 10 -

v Representaciones grficas para datos agrupados

Histograma: representa frecuencias sin acumular. Este grfico es vlido para datos cuantitativos de tipo continuo o discreto si tiene un gran nmero de datos. El histograma est formado por rectngulos de rea igual o proporcional a la frecuencia observada.

rea = base * al tura ni = ci * altura altura = densidad de fr ecuencia = n i/ci Es decir la altura del rectngulo vendr dada por ni y ser

proporcional a dicho valor (tambin se llama funcin de densi dad). Por tanto en el caso de inter valos iguales, la altura nos est dando una idea de cual es el intervalo ms frecuente (aquel cuya barra del histograma sea ms alta). En el caso de construir el histograma utilizando fi la suma total del rea del histograma ser igual a 1.

A continuacin vamos a ver unos ejemplos de histogramas en los dos casos comentados anteriormente, es decir, con intervalos iguales y con intervalos distintos.

- 11 -

Intervalos distintos

Intervalos iguales:

40.000 39.000 38.000 37.000 36.000 35.000 34.000 33.000 32.000 31.000 30.000 29.000 28.000 27.000 26.000 25.000 24.000 23.000 22.000 21.000 20.000 19.000 18.000 17.000 16.000 15.000 14.000 13.000 12.000 11.000 10.000 9.000 8.000 7.000

-Grfico 4- Histograma serie de intervalos distintos


Salario inicial

-Grfico 3- Histograma serie de intervalos iguales

150

100

50

200

250

- 12 -

Frecuencia

Polgono de frecuencias acumuladas: representa frecuencias acumuladas. Su construccin se realiza levantando sobre las marcas de clase, localizadas en el eje de abscisas, puntos de altura igual a la frecuencia observada. La unin de estos puntos da lugar a una lnea poligonal denominada polgono de frecuencias.
-Grfico 5- Polgono de frecuencias acumuladas
Ingresos xi Menos de 18.000 [ 18.000 - 24.000 ) [ 24.001 - 30.000 ) [ 30.001 - 36.000 ) [ 36.001 - 42.000 ) Ms de 42.000 N Frecuencia absoluta ni 5 10 10 30 30 15 100 15.000 21.000 27.000 33.000 39.000 45.000 Marca de clase Frecuencia relativa fi 0,05 0,10 0,10 0,30 0,30 0,15 Frecuencia absoluta acumulada Ni 5 15 25 55 85 100 Frecuencia relativa acumulada Fi 0,05 0,15 0,25 0,55 0,85 1

40 30 20 10 0
de 42 .0 ) 00 00 0 00 0 0. 00 4. 0 6. 00 8. 0 2. 0 00 ) ) ) -3 -4 [3 6. 00 1

e1

os d

-3

-2

8. 00

M en

4. 00

Tanto los histogramas como los polgonos de frecuencia se pueden realizar con frecuencias absolutas o relativas.

- 13 -

[3

[1

[2

0.

00 1

M s

Grficos de sectores

Estos grficos se basan en un crculo o bien en un semicrculo y consiste en dividir el crculo o semicrculo en sectores cuyas reas sean proporcionales a cada uno de los trminos de la serie. Generalmente se utilizan para representar series de atributos o series cuantitativas presentadas en pocos intervalos.
-Grfico 6- Grfico de sectores
Xi 1-2 3-4 5-6 ni 10 22 8 40

20%

25%

55%

1-2

3-4

5-6

Diagramas Gannt

Estos diagramas nos permiten conocer la evolucin de una variable en estudio desde una situacin inicial hasta el momento actual. Es un grfico de mucha utilidad para analizar crecimientos, tendencias, en definitiva, la evolucin de la serie en el tiempo.

- 14 -

-Grfico 7- Diagrama de Gannt


T 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Xi 10 20 30 40 5 15 25 35 45 35 55 75 85 105 105

120 100 80 60 40 20 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

- 15 -

1.3.3. Medidas resumen de las distribuciones de frecuencias El siguiente paso que debe dar el analista de la informacin es resumir la informacin que tiene disponible una vez que la ha organizado y representado mediante la tabulacin y los grficos. Para resumir la informacin dispone de las siguientes medi das que son distintas funciones de la variable:

Medidas de posi cin Medidas de dispersin Medidas de asimetra Medidas de apuntami ento o curtosis Medidas de concentr acin

a) Medidas de posicin v Medidas de posicin central

Estas medidas pretenden caracterizar la distribucin de la variable/s que estamos analizando por los valores del centro. Es decir, son valores representativos de todos los valores que toma la variable. Media aritmtica: Representa el centro de gravedad de una distribucin y se define como la suma ponder ada de los valores de la variable por sus frecuenci as relativas y lo denotaremos por y se calcula mediante la expresin:

x = xi * f i =
i =1 i =1

xi * ni N

- 16 -

dnde xi representa el valor de la variable en distribuciones no agrupadas o la marca de clase en distribuciones agrupadas. Es decir, en este ltimo caso, se hace el supuesto que la frecuencia del intervalo est agrupada en la marca de clase. El inconveniente de la media aritmtica es que es muy sensible a los valores extremos de una di stribucin. Media aritmtica simple y ponderada

Hay veces donde hay que obtener una media aritmtica de variables cuyos valores observados tienen distinta importancia y por tanto se deben ponderar de distinta manera para obtener la media.

En el caso de que la ponderacin sea distinta estaremos hablando de una media ponderada y los valores por los cuales se ponderan los distintos valores se llaman pesos o ponderaci ones (wi)

x=

x w
i =1 n i

w
i =1

Mediana

La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra. Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua.

- 17 -

Clculo de la mediana en el caso discreto: Tendremos en cuenta el tamao de la muestra. Si N es Impar, hay un trmino central, el trmino

X N que ser el valor de la mediana.


2 +1

Si N es Par, hay dos trminos centrales, mediana ser la media de esos dos valores

XN,XN
2 2

+1

la

Clculo de la mediana en el caso de datos en i ntervalo: Para determinar el valor de la mediana en el caso de tener representada los valores de la variable en intervalos hay que par tir de una hiptesi s: la variable evoluciona de manera contina y uniforme dentro del propio intervalo. En este caso el clculo de la mediana consta de dos fases, la determinacin del intervalo que contiene la mediana y el clculo de su valor. 1 Para determinar el intervalo en el que se encuentr a la mediana se acumulan las frecuencias y el primer intervalo cuya frecuencia acumulada (Ni) sea mayor o igual a
N es el intervalo que contiene la 2

mediana. Si llamamos Li y Li+1 a los lmites del intervalo que contiene la mediana, ni a la frecuencia ordinaria de dicho intervalo, N i a la frecuencia acumulada, Ni-1 la frecuencia acumulada hasta el intervalo anterior y ci la amplitud del inter valo entonces la frmula es la siguiente:
N - N i -1 2 + ci ni

Me = Li -1

- 18 -

Para calcular la mediana no es preciso que todos los intervalos estn definidos. Del nico intervalo que necesitamos conocer la amplitud es del intervalo modal. Moda La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite, es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo. Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o polimodal segn el caso. Cuando los datos estn agrupados en intervalos se puede tomar la marca de clase o realizar una aproximacin mediante la siguiente frmula:

Moda = L1 +

ni +1 *c ni -1 + ni+1

donde : Li = lmite inferior de la clase modal c = amplitud del intervalo La moda se puede utilizar para datos cualitativos pero no tiene porqu situarse en la zona central del grfico.

- 19 -

v Medidas de posicin no central

Estas medidas dividen a la poblacin en partes iguales y sirven para clasificar a un individuo dentro de una determinada muestra o poblacin (mismo concepto que la mediana) Cuartiles

Medidas de localizacin que divide a la poblacin en cuatro partes iguales (Q1, Q2 y Q3).

Q1: Valor de la distribucin que dej a el 75% de los valores por encima Q2: Valor de la variable que deja el 50% de los valores de la variable por encima (coincide con la medi ana) Q3: Valor de la variable que deja el 25% de los valores de la variable por encima

Qt = Li -1

N - N i -1 4 + ci ni

Deciles

Medidas de localizacin que divide a la poblacin en diez partes iguales

dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el k10 % de la distribucin.

Dt = Li -1

N - N i -1 + 10 ci ni

- 20 -

Percentiles

Medidas de localizacin que divide a la poblacin en cien partes iguales. El primer percentil supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.

Pk = Percentil k-simo es aquel valor que deja a su i zquierda el K*1% de la distribucin

Pt = Li -1

N - N i -1 + 100 ci ni

- 21 -

Reflexiones sobre las medidas de posicin central

a) La media, la mediana y la moda coinciden en toda distribucin simtrica o normal

b) La media aritmtica es la medida de posicin que ms se utiliza pues normalmente es la que mejor representa los datos, al intervenir todos ellos en su deter minacin. Por otra parte permite la aplicacin del clculo de probabilidades. Ahora bien, tiene el inconveniente de que en el caso de que exista una gran diferencia entre los valores extremos pierda gran parte de su utilidad al estar afectada por ellos. Por ello en este caso es ms conveni ente el uso de la mediana.

c) Un promedio puede actuar como medida de tendencia central solamente si existe una cantidad considerable de concentracin en la distribucin de frecuencias, es decir, que la variacin no es demasiado grande.

d) Un promedio sirve como una medida til de localizacin para comparar dos o ms distribuciones de frecuencias solamente si las que se comparan tienen aproximadamente la misma forma.

- 22 -

b) Medidas de dispersin Hasta el momento hemos estudiado los valores centrales de la distribucin, pero tambin es importante conocer si los valores en general estn cerca o alejados de estos valores centrales, para ver si estos valores son o no son representativos. Es por esto por lo que surge la necesidad de estudiar medidas de dispersin. Los momentos son valores especficos de la distribucin y van ntimamente ligados a las medidas de dispersin y se hallan con la siguiente frmula:

Momento de or den r

M r = ( x i - ot ) r
i =1

ni N
Cuando O t = 0 Cuando O t = x

Momentos respecto al origen

(a1, a 2...)

Momentos respecto a la media (m1, m2)

El momento de or den r es el promedio de las desviaciones de los valores de una variable, con respecto al origen o a la media, elevadas a la potencia r.

Relacin entre momentos: m0 = a 0 a1= media m 1= 0

- 23 -

v Medidas de dispersin absolutas Rango o recorr ido

Es la diferencia entre el mayor valor de una variable y el menor. Depende mucho de los val ores extremos y esto puede dar una impresin falsa de la dispersin, por lo que se suele utilizar el rango intercuartlico que es la diferencia entre el tercer y primer cuartel (Q3 Q1) En valor absoluto

Estas medidas tienen las mismas unidades de medidas que la variable a la que hacen r eferencia (Xi)

! X
i =1

- promedio | ni / N

Con estas medidas de dispersin, slo se pueden comparar, en principio distribuciones con las mismas unidades de medi da.

- 24 -

Cuadrticas

Las unidades de medi da son las de la vari able elevada al cuadrado Varianza (2, s2): es la media aritmtica de los cuadrados de las desviaciones respecto a la media

(X
i =1

- promedio) 2 ni / N

Al igual que la media, en el caso de que los datos estn agrupados en clases, se tomar la marca de cl ase como x i. El problema de estas medidas es que para comparar variables s tienen diferentes unidades de medida no se pueden comparar. La solucin por tanto es eliminar las unidades de medida y por tanto necesito medidas que no estn af ectadas por las unidades.

Para solucionar este inconveniente se hace lo siguiente:

Desviacin tpica = = s = +

(X
i =1

- promedio ) 2 n i / N

Ambas medidas, tanto la varianza como la desviacin tpica siempre son positivas.

La desviacin tpica es la mejor medida de dispersin y la ms empleada. Cuando l as distribuciones de frecuencias se aproximan a una distribucin simtrica o normal entonces se verifica una propiedad muy importante que consi ste, en que aproxi madamente:

- 25 -

El 68% de los valores de la variable estn comprendidos entre


x s

El 95% de los valores de la variable estn comprendidos entre


x 2s

El 99% de los valores de la variable estn comprendidos entre


x 3s

v Medidas de dispersin relativas

Estas medidas no tienen unidades de medi da

Recorrido relativo Rr Nmero de veces que el recorrido contiene a la media


Rr = Re x

Recorrido semintercuartlico R

Rd =

c 3 - c1 c3 + 1

Coeficiente de apertur a Ap

Ap =

xn x1

Coeficiente de variacin de Pear son

A veces interesa comparar la variabilidad o dispersin de una poblacin desde dos puntos de vista diferentes e incluso comparar la variabilidad de dos poblaciones o muestras distintas. Cuando no podemos utilizar la desviacin tpica (porque las distribuciones son muy diferentes o porque las variables presentan distintas unidades de medida) se utiliza el

- 26 -

coeficiente de variacin ya que se obtienen medidas homogneas y por tanto comparables. Aqulla que mayor CV tenga nos indica una mayor dispersin en la distribucin

CV =

S x

c) Medidas de asimetra

v Asimetra

Estas medidas tratan de ver como se distribuye la variable en torno a un eje de simetra. Este eje de simetra se fija en una recta que pase por la media aritmtica de la distribucin. La asimetra tambin se utiliza para comparar distribuciones por que se pretende que estas medidas carezcan de uni dades.

La medida que da el grado de asimetra de una distribucin de datos es el sesgo. Existen varias frmulas para hallar el sesgo. Coeficiente de asimetra: cuanta de las desviaciones por encima de la media y la cuanta de las desviaciones por debajo.

Coeficiente de asimetra de Fisher: momento de orden 3 respecto a la media dividido por la desviacin tpica elevada al cubo. Este coeficiente se calcula para distribuciones acampanadas y en for ma de u.

(x - x)
g1 =
i =1

ni N

m3 S3

- 27 -

g1 > 0 g1 = 0 g1 < 0

Asimtrica positiva (Asimtrica por la izquierda) Simtrica Asimtrica negativa (Asimtrica por la derecha)

Coeficiente de asimetra de Pearson: Este coeficiente se calcula para distribuciones en forma de campana.
x - Mo S

Ap =

Ap > 0 Ap = 0 Ap < 0

Asimtrica por la derecha ( Mo > x ) Simtrica Asimtrica por la izquierda ( Mo < x )

Coeficiente de asimetra de Bowl ey

Ab =
Ab > 0 Ab = 0 Ab < 0

c 3 + c1 - 2Me c 3 - c1

Asimtrica por la derecha Simtrica Asimtrica por la izquierda

- 28 -

d) Medidas de apuntamiento o curtosis

Con el coeficiente de Curtosis se pretende observar como se distribuyen los valores centrales de nuestra variable. Para ello se compara la distribucin que se est analizando con la distribucin normal. Estas medidas nos van a indicar si la distribucin tiene una forma de campana ms o menos apuntada que la distribucin normal.

g2 =
g 2> 0 g2 = 0 g2 < 0

m4 -3 s4

Leptocrti ca (perfil estirado) Mesocrtica (perfil intermedio) Pleticrtica (perfil achatado)

El apuntamiento tiene como unidad de medida la curtosis. Para medir la curtosis (K) pueden utilizarse los cuartiles y per centiles:

k=
donde:

Q P90 - P10

K= coeficiente de curtosis percentlico Q= rango semiintercuartlico ( P90= Percentil 90 P10= Percentil 10


Q3 - Q1 ) 2

- 29 -

e) Medidas de concentracin

Estas medidas tienen por finalidad medir la uniformidad del reparto de la frecuencia total de una variable. Por ejemplo, si un grupo de trabajadores, percibieran el mismo salario, la uniformidad de la variable sera absoluta; por el contrario, en un caso hipottico, si la masa total de los salarios fuera percibida por un solo trabajador, entonces la falta de uniformidad sera totalen este caso diremos que la concentracin es mxima. Lgicamente, cuando se tiende a la uniformidad absoluta, la media aritmtica es perfectamente representativa de la distribucin de frecuencias,

contrariamente a lo que sucede cuando la concentr acin es mxima.

Las medias ms habituales para la medicin de la concentracin de una distribucin de frecuencia son: v Curva de Lorenz: Medida grfica

La curva de Lorenz es una representacin grfica que se obtiene de colocar en los ejes de abscisas y coordenadas los porcentajes acumulados del nmero de observaciones y del total del valor de la variable analizada. Por ser idnticos tanto la escala como el campo de variacin de cada uno de los ejes, la curva de Lorenz encaja perfectamente en un cuadrado. Se representa tambin la diagonal que arranca desde el origen, que se toma como punto de r eferencia de la curva.

Si la variable analizada fuese totalmente uniforme,

la curva de lorenz

coincidira con el dibujo de la diagonal dibujada. En el caso opuesto, la curva de Lorenz estara formada por los lados inferior y derecho del cuadrado.

- 30 -

v ndice de Gini

La curva de Lorenz es ilustrativa de la concentracin de una distribucin. Sin embargo, es conveniente disponer de un indicador que nos permita valor numricamente dicha concentracin y, al mismo tiempo, facilite la comparacin entre dos distribuciones. Este es el ndice de Gini o ndice de concentracin.

El ndice de Gini se define como el cociente entre el rea rayada entre la curva de Lorenz y la diagonal principal y el rea comprendida entre uno de los dos tringulos obtenidos por la diagonal principal.

El ndice de Gini, por tanto, vara entre 0 y 1, aproximndose a 1 cuando la concentracin tiende a ser mxima, y a 0 en caso con trario.

Numricamente, el ndice de Gini slo se puede calcular a travs de un sistema de cl culo de reas.

- 31 -

1.4. Distribuciones bidimensionales

La mayora de los fenmenos que se estudian en cualquier disciplina estn determinados por la observacin de distintas variables relativas a dicho fenmeno. Es decir, si queremos estudiar las caractersticas de un producto y compararlo con los de la competenci a normalmente se recoger informacin sobre distintos atributos del producto como por ejemplo tamao, color, precio, unidades vendidas, etc. Es decir, todas estas caractersticas son variables referentes a nuestro producto y por tanto tendremos distribuciones que no sern unidimensionales. En concreto vamos a analizar las distribuciones bidimensionales que consiste en el estudio de dos caractersticas a la vez en una muestra. Los dos caracteres observados no tienen por qu ser de la misma clase, as nos podemos encontr ar con las siguientes situaciones: Tipos
Variables cualitativas

variables ( X, Y )
Categrica / Categrica Discreta / Discreta

Ejemplo
Sexo y clase social Nmero de hermanos y nmero de hijos. Peso y altura Pulsaciones y temperatura cuerpo Sexo y nmero de cigarrillos Sexo e ingresos

Variables cuantitativas

Continua / Continua Discreta / Continua Categrica / Discreta

Cualitativa y cuantitativa Categrica / Continua

Otro factor a tener en cuenta es que el nmero de modalidades distintas que adopta el carcter X no tiene por qu ser el mismo que el que adopta el carcter Y: X = { x1, x2, x3, ..., xj} ; Y = { y1, y2, y3, ..., yk}

- 32 -

a) Tabulacin cruzada

En el caso de distribuciones bidimensionales a la hora de organizar los datos y observar la relacin entre dos variables se utilizan las tablas de doble entrada. Estas tablas t ienen la siguiente estructura:

y x X1 X2 . Xi . Xh n.j

Y1

Y2

Yj

Yk

ni.

n11

n12 n22

n1j n2j

n1k n2k

n 1. n2.

nij

ni.

nh1 n.1

nh2 n.2 n.j

nhk n.k

nh. N

nij : ni.: n.j: N: (xi y j nij): (xi n i.): (yj nj.):

Frecuencia conjunta Nmero de veces que aparece el valor Xi con Yj Frecuencia marginal de la variable X Frecuencia marginal de la variable y Suma del total de las observaciones Distribucin conjunta Distribucin marginal de X Distribucin marginal de y

En este tipo de representacin tambin podemos representar las frecuencias relativas. Basta con dividir las frecuencias conjuntas entre el nmero total de observaciones:

f ij =

nij N

- 33 -

La suma de las frecuencias absolutas es igual al nmero de pares observados (N):

n
i =1 j =1
h k h

ij

=N

La suma de l as frecuencias relativas es igual a la unidad:

f = N
i =1 j =1 ij i =1 j =1

nij

=1

Una tabla de doble entrada tambin se puede expresar como una tabla simple o marginal , de forma que siempre es posible pasar de una a otra segn convenga. Distribuciones Mar ginales Si en una tabla de doble entrada utilizamos solamente los valores correspondientes a X, sin que para nada intervengan los valores de la variable y, esta distribucin se denomina distribucin marginal de la variable X. Anlogamente cuando tomamos los valores de la variable y sin tener en cuenta los valores de la variable x estamos ante l a distribucin marginal de y. De las frecuencias absolutas marginales se obtienen las frecuencias relativas marginales. Y de igual forma podemos obtener las medias, varianzas y desviaciones tpicas marginales. Frecuencias absolutas marginales

n
i

i.

=N

n.
j

=N

Frecuencias relativas marginales


ni. N

f i. =

f.j =

n. j N

- 34 -

Medias marginales

x=

xi n.i
i =1

y=

y
j =1

n.i

Varianzas marginales

2 sx =

(x
i =1

i.

- x ) ni.
2

2 sy =

(y
j =1

.j

- y ) 2 n. j N

Desviaciones tpicas marginales


h

sx =

(x
i =1

i.

- x ) ni.
2

sy =

(y
j =1

.j

- y ) 2 n. j N

Distribuciones condicionadas En ocasiones podemos necesitar condicionar los valores de la variable Y a un determinado valor de X o viceversa. Estas distribuciones as obtenidas se denominan: distribucin de la variable Y condicionada a X=xi o distribucin de la variable X condi cionada a Y=y j

{n( xi / Y = y j } = {n1 j , n 2 j ,..n ij , n hj }

{n( y

/ X = xi } = {ni1 , ni 2 ,..nij , nik }

n( x i / Y = y j ) =

n( x i / Y = y j ) n. j

n( y j / X = x i ) =

n( y j / X = x i ) ni .

- 35 -

Dependiendo del tipo de variables con el que estemos construyendo la tabla hablamos de tabl as de contingenci a o tablas de correlacin:

Cualitativas (al menos 1)

TABLAS DE CONTINGENCIA

Tipo de variables

Cuantitativas

TABLAS DE CORRELACIN

b) Representacin grfica v DIAGRAMAS DE DISPERSIN El diagrama de dispersin es la representacin sobre unos ejes cartesianos de los distintos valores de la variable (X, Y). En el eje de abscisas representamos los valores de X y en el de ordenadas los valores de Y, de tal forma que cada par viene representado por un punto del plano XY. En el caso de que las dos variables estn agrupadas en intervalos el diagrama se construye mediante casillas que tienen dentro tantos puntos como el valor de la frecuencia absoluta correspondiente a los intervalos X e Y. Si las variables que componen el par son una discreta y otra continua se utilizan las marcas de clase, si endo un caso si milar al primero Los diagramas de di spersin tambin se conocen como nube de puntos.

- 36 -

DIAGRAMAS DE FRECUENCIAS

Como en un diagrama de dispersin no puede quedar reflejado las veces que se repite un par o un intervalo, hemos de recurrir a una representacin en tres dimensiones de (X, Y). Dos son para la variable bidimensional y una dimensin para expresar las frecuenci as. La figura adjunta representa los datos del ejemplo 1. La variable X toma los valores 10, 15,... y la variable Y los valores 0, 1,2,...; en el eje Z estn representadas las fr ecuencias absolutas del par (X, Y).

- 37 -

c) Medidas de resumen y asociacin A continuacin vamos a estudiar las medidas de resumen para el caso de distribuciones bidimensionales con variables cuantitativas. Cuando hay pocos datos o estn muy agr upados (tablas de 2 o 3 columnas)

Aparece un parmetro nuevo que es la covarianza que es la media aritmtica de las desviaciones de cada una de las variables respecto a sus medias respectivas. Es decir, representa la variacin conjunta de las dos variables que se estn analizando y pueden tener cualquier signo. Viene representada por la siguiente expresin:

Sxy = m11 =

(x
i =1 j =1

- x )( y j - y )

nij N

S Sxy es mayor que 0 las dos variables se mueven en el mismo sentido (D x D y) S S xy es menor que 0 las dos vari ables se mueven en distinto sentido ( D x D y) Cuando hay muchos datos (tablas de doble entr ada)

Puede pasar que se quiera medir la relacin que existe entre dos conjuntos de datos, es decir la dependencia o independenci a estadstica entre dos variables de una distribucin bidimensional. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relacin entre ambas variables: mientras ms alto sea el alumno, mayor ser su peso. Entonces vamos a obtener la correlacin o dependencia entre dos variables. Segn sean los diagramas de dispersin podemos establecer los siguientes casos:

- 38 -

o Independen cia funcional o correlacin nula: cuando no existe ninguna relacin entre las variables. (r = 0) o Dependenci a funcional o correlacin funcional: cuando existe una funcin tal que todos los valores de la variable la satisfacen (a cada valor de x le corresponde uno sol o de y o a la inversa) (r = 1) o Dependenci a aleatoria o correlacin lineal: cuando los puntos del diagrama se ajustan a una lnea recta o a una curva, puede ser positiva o directa, o negativa o inversa (-1<r<0 0<r<1)

Para establecer estas relaciones tenemos l as siguientes medidas

1. Coeficiente de correlacin lineal: es una forma de cuantificar ms precisa el tipo de correlacin que hay entre las dos vari ables.

2. Regresin: consiste en ajustar lo ms posible la nube de puntos de un diagrama de dispersin a una curva. Cuando esta es una recta obtenemos la recta de regresin lineal, cuando es una parbola, regresin parablica, cuando es una exponencial, r egresin exponenci al, etc. (lgicamente r debe ser distinto de 0 en todos los casos).

1. Coeficiente de correlacin lineal El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal (es decir, si representramos en un grfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta).

- 39 -

No obstante, puede que exista una relacin que no sea lineal, sino exponenci al, parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un grfico y ver que forma describen. El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Es decir: Numerador: se denomina covarianza . Se suma el resultado obteni do de todos los pares de valores y este resultado se divide por el tamao de l a muestra. Denominador: es la raz cuadrada del producto de las varianzas de "x" y de "y". Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1

Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se apr oxime a 1. Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.

- 40 -

Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos. Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.) De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto querra decir obligatoriamente que exi ste una relacin de causa -efecto entre las dos variables, ya que este resultado podra haberse debido al puro azar. 2. Regresin lineal Si representamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendenci a lineal:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la recta que mejor se ajusta a esta nube de puntos.

- 41 -

Una recta viene definida por la siguiente frmula: y = a + bx Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independi ente). Para definir la recta hay que determinar los valores de los parmetr os "a" y "b": El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parmetro "b" determina la pendiente de la recta, su grado de inclinacin. La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que me jor se ajusta a esta nube de puntos. El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos vari ables, dividida por la varianza de la variable "x". El parmetro "a" viene determinado por: a = y m - ( b * xm ) Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos cal culado.

- 42 -

Ejercicios:

1. El curso MEB de ESCP-EAP obtiene las siguientes puntuaciones en un test de habilidad mental

43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45 49 46 47 51 64 36 39 51 51 48 49 53 66 38 41 43 71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60 32 30 40 39 42 30 35 40 38 36 46 45 68 50 69 69

Se pide:

a) Formar una distribucin de frecuencias con 14 intervalos b) Hacer la representacin grfica del polgono de frecuencias c) Hacer la representacin grfica del histograma d) Hacer la representacin grfica de las frecuencias acumuladas relativas

2.

Las puntuaciones obtenidas por un grupo de alumnos de Primaria en un test de habi lidad sicomotora, ha dado las puntuaciones siguientes:
x xi 61,5 57,5 53,5 49,5 45,5 41,5 37,5 33,5 29,5 25,5 21,5 17,5 13,5 9,5 5,5 ni 2 12 18 36 38 20 18 10 8 6 4 2 0 0 1 175 ni xi 123 690 963 1782 1729 830 675 335 236 153 86 35 0 0 5,5 7642,5 Ni 2 14 32 68 106 126 144 154 162 168 172 174 174 174 175 fi 1% 7% 10% 21% 22% 11% 10% 6% 5% 3% 2% 1% 0% 0% 1% 100% Fi 1% 8% 18% 39% 61% 72% 82% 88% 93% 96% 98% 99% 99% 99% 100%

60-63 56-59 52-55 48-51 44-47 40-43 36-39 32-35 28-31 24-27 20-23 16-19 12-15 8-11 4-7 N

- 43 -

Se pide:

a) Hallar la media b) Hallar la mediana c) Hallar Q 1 y Q 3 d) Hallar los percentiles 18 y 84 e) Hallar la moda

3.

El primer curso de soci ologa ha obteni do una nota media al final del curso de 5,7 de un total de 110 alumnos. El segundo curso una nota media de 6,6 de un total de 60 alumnos y el curso tercero una nota media de 5,1 de un total de 48 alumnos. Cul es la nota media de los tres cur sos?

4.

Dada la tabl a siguiente:

15 19 31 30 23 76 13 35 27 32 77 35 24 18 18 15 45 76 81 27 76 23 18 18 75 15 69 14 75 63 29 19 81 15 29 81 45 17 15 41 18 31

Se pide: a) El recorrido de los datos b) Agrupar los datos en 8 intervalos c) Calcular la amplitud de los intervalos d) La desviacin media e) La desviacin tpica f) Los cuatro mo mentos g) La asimetra h) La curtosis

- 44 -

5.

Dada la siguiente distribucin calcular todos los coeficientes de asimetra y explicar el significado de su val or :

Puntuaciones 80-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49 40-44

ni 8 7 5 6 12 6 9 4 5 62

- 45 -

Potrebbero piacerti anche