Sei sulla pagina 1di 45

!

CURSO BSICO DE
ESTADSTICA DESCRIPTIVA"

-1-

NDICE
CAPTULO 1: INTRODUCCIN A LA ESTADSTICA
Tema 1: Introduccin a la estadstica
-

1.1. Introducci n a la estadstica descriptiva

1.2. Nociones bsicas


o 1.2.1. Noci ones tericas
o 1.2.2. Ejemplos prcticos

1.3. Distribuciones unidimensionales


o 1.3.1. Noci ones tericas
o 1.3.2. Ejemplos prcticos

1.4. Distribuciones bidimensionales


o 1.4.1. Noci ones tericas
o 1.4.2. Ejemplos prcticos

-2-

CAPTULO 1: INTRODUCCIN A LA ESTADSTICA


1.1. Introduccin a la estadstica descriptiva
Tradicionalmente la aplicacin del trmino estadstica se ha utilizado en tres
mbitos:
a) Estadstica como enumeracin de datos.
b) Estadstica como descripcin, es decir, a travs de un anlisis de
conjuntos coherentes de datos para su posterior comparacin y anlisis.
(ESTADSTICA DESCRI PTIVA)
c) Estadstica matemtica o inferencia, unida a la teora de de
probabilidades. Se encarga de extraer conclusiones a partir de una
muestra al total de la poblacin con un pequeo margen de error.
(ESTADSTICA INDUCTIVA)
Por tanto se podra definir la estadstica como ! la ciencia que permite
estudiar las regularidades o patrones en un conjunto de datos para tomar
decisiones racionales! .
Todo anlisis estadstico requiere seguir una serie de etapas:
1) Definicin del problema de estudi o y objetivos del mismo.
2) Seleccin de la informacin necesari a para realizar el estudio.
3) Recogida de la informacin que va a depender del presupuesto con el
que contemos y de la calidad de los datos exigi da.
4) Ordenacin y clasificacin de la informacin en tablas y grficos.
5) Resumen de los datos mediante medidas de posicin, dispersin,
asimetra y concentr acin.
6) Anlisis estadstico formal obteniendo hiptesis y contrastndolas.
7) Interpretacin de resultados y extraccin de concl usiones.
8) Extrapolacin y prediccin.

-3-

1.2. Nociones bsicas de estadstica descriptiva


La estadstica descriptiva es la ciencia que analiza series de datos (por
ejemplo, edad de una poblacin, peso de los trabajadores de un determinado
centro de trabajo, temperatura en los meses de verano, etc) y trata de extraer
conclusiones sobre el comportamiento de estos elementos o vari ables.
Las variables que se obser van y analizan pueden ser de dos tipos:
a) Variables cualitativas o atributos: no se pueden medir numricamente,
representan caractersticas o atributos de las variables (por ejemplo:
nacionalidad, sexo, religin).
b) Variables cuantitativas: tienen valor numrico (edad, altura, precio de un
producto, ingresos anual es).
Por su parte, las variables cuantitativas se pueden clasificar atendiendo
a los valores que pueden tomar en discretas y continuas:
Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: nmero de hermanos (puede ser 1, 2, 3....,etc, pero, por
ejemplo, nunca podr ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por
ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57
km/h...etc.
Cualitativas

Tipo de
variables

Discretas

Cuantitativas
(recogidas en valor
o en intervalo)
Continas

-4-

Segn sea de un tipo u otro la variable podr medirse de distinta manera, o lo


que es lo mismo en la terminologa estadstica, tendrn distintas escalas de
medida.

Escala nominal: Identifica la pertenencia de


un elemento sujeto u objeto a un grupo u
otro, a niveles generalmente mutuamente
excluyentes. Permite la distincin entre
elementos pero no su ordenacin.

Cualitativas

Escala ordinal: Identifica a cada elemento en


una posicin de escala respecto a los otros.
Tipo de
variables
Escala por intervalo: Identifica la posicin
ordinal de cada elemento y permite adems
medir las distancias entre unos y otros
utilizando una escala de medida subjetiva.

Cuantitativas

Escala de proporcin: Permite medir las


distancias entre elementos utilizando una
escala de objetiva y, por lo tanto, posibilita
la
utilizacin
de
razones
o
ratios
comparativos.

La informacin que se recoge de una o varias variables se presenta en tablas


que representan la distribucin de dichas variables y tambin se pueden
clasificar en:
a) Distribuciones unidimensionales: slo recogen informacin sobre una
caracterstica (por ejemplo: edad de los al umnos/as de una clase).
b)

Distribuciones

bidimensionales:

recogen

informacin

sobre

dos

caractersticas de cada elemento de la poblacin simultneamente (por


ejemplo: edad y al tura de los alumnos/as de una clase) .
c) Distribuciones multidimensionales: recogen informacin sobre tres o ms
caractersticas de cada elemento (por ejemplo: edad, altura y peso de los
alumnos/as de una clase).

-5-

1.3. Distribuciones unidimensionales


Despus de una primera aproximacin a los conceptos estadsticos ms
importantes y bsicos, el analista de informacin estar preparado para
abordar una de las fases ms importantes que todo anlisis estadstico
requiere. Es decir, una vez que hemos definido los objetivos que queremos
cubrir con el anlisis y obtenido la informacin relevante, debemos presentarla
en tablas y grficos para conocer mejor el problema que estamos analizando.
Las primeras herramientas para conocer y por tanto describir el problema que
estamos analizando nos las proporciona la estadstica descriptiva a travs de
las siguientes maner as de clasificar la informacin:
1.3.1. Tabulacin de la informacin
Consiste en presentar la informacin organizada en tablas
v Valores de la variable sin agrupar
xi

ni

fi

Ni

Fi

X1

n1

N1/N

N1

F1 = f 1

X2

n2

N2/N

N2 = n1 + n2

F2 = f1+ f2

Xn

nn

nn/N

Nn = N

Fn = 1

n=N

fi = 1

xi

Valor de la variable

ni

Frecuencia absoluta: Nmero de veces que aparece un

determinado valor de x

fi

Frecuencia relativa: Nmero de veces que aparece un

determinado valor de x respecto al total

Ni

Frecuencia absoluta acumulada: Suma de la frecuencia

absoluta cor respondiente ms todas l as anteriores


-6-

Fi

Frecuencia relativa acumulada: Suma de la frecuencia

relativa correspondiente ms todas l as anteriores

Distribucin

Tamao de l a muestra

Representa los valores de la variable y la frecuencia con que


aparecen dichos valores (xi , ni)

Recorrido
Diferencia entre el mximo y el mnimo valor de la variable

Se utiliza este tipo de distribucin cuando el nmero de valores


diferentes que toma la variable no es grande, generalmente menos de
15 20 valor es (por ejemplo nmero de hijos).
v Datos de la variable agrupados
Cuando el nmero de valores diferentes que puede tomar la variable es
demasiado grande para que resulte fcil presentar la informacin de
manera reducida se utilizan los ! intervalos" (por ejemplo estatura de un
grupo de alumnos).
En el caso en que tengamos variables agrupadas en intervalos,
introducimos el concepto de marca de clase que es el punto medio del
intervalo. En el caso de variables agrupadas en intervalos las
frecuencias hacen referencia al intervalo y nunca a valores concretos de
dicho intervalo. Puede haber intervalos de la misma o distinta amplitud
(ci). La distribucin en este caso viene dada por el extremo inferior (Li-1),
el extremo superior (Li) y la frecuencia (Li-1- Li, ni).

-7-

Ejemplo 1: Supongamos que queremos hacer un estudio en una clase


de universitarios. Entre otras cosas, se les pregunta lo siguiente.
Pregunta 1: Edad del encuestado
Pregunta 2: Ingresos anual es familiares
A la hora de tabular la informacin la primera pregunta, al referirse a una
clase de universitarios donde aproximadamente casi todos los alumnos
tienen la misma edad, se hace ms interesante recoger la informacin
sin agrupar, es decir, la tabulacin quedar de la siguiente manera:
-Cuadro 1-

Edad

Frecuencia
absoluta

Frecuencia
relativa

ni

fi

xi
18
19
20
21
43
45
N

78
15
3
2
1
1
100

0,78
0,15
0,03
0,02
0,01
0,01

Frecuencia
absoluta
acumulada
Ni
78
93
96
98
99
100

Frecuencia
relativa
acumulada
Fi
0,78
0,93
0,96
0,98
0,99
1

A la hora de tabular la segunda pregunta, y como cada familia puede


tener unos ingresos distintos, si representsemos los datos sin agrupar
nos podramos encontrar con una tabla con un dato por individuo, por lo
que es ms recomendable presentar la informacin de la variable
agrupada en intervalos. De tal manera que la tabla resultante quedar de
la siguiente maner a:

-8-

-Cuadro 2Ingresos
xi
Menos de 18.000 !
[ 18.000! - 24.000!
[ 24.001! - 30.000!
[ 30.001! - 36.000!
[ 36.001! - 42.000!
Ms de 42.000 !
N

)
)
)
)

Frecuencia
absoluta

Frecuencia
relativa

ni

fi
5
10
10
30
30
15
100

Frecuencia
absoluta
acumulada
Ni

0,05
0,10
0,10
0,30
0,30
0,15

5
15
25
55
85
100

Frecuencia
relativa
acumulada
Fi
0,05
0,15
0,25
0,55
0,85
1

1.3.2. Representaciones grficas de la informacin


Las representaciones grficas de los datos ofrecen una idea ms
intuitiva y ms fcil de interpretar de un conjunto de datos sometidos a
investigacin. Por ello las representaciones grficas se convierten en un
medio muy eficaz para el anlisis ya que las regularidades se recuerdan
con ms faci lidad cuando se obser van grficamente.
v Representaciones grficas para datos sin agrupar
Diagrama de barras: representa frecuencias sin acumular. Estos
grficos son vlidos para datos cuantitativos (de tipo discreto) y
cualitativos. En el eje ! y"

se pueden representar tanto las

frecuencias absolutas como relativas

-9-

-Grfico 1- Diagrama de barras

-Frecuencia absoluta de la edad de los alumnos80


60
40
20
0

18

19

20

21

43

45

Diagrama de escalera: representa frecuencias acumuladas de un


conjunto de datos. Este grfico puede representar tanto las
frecuencias absolutas como relativas.
-Grfico 2- Diagrama de escalera
-Frecuencia absoluta acumulada de la edad de los alumnos100
90
80
70
60
50
40
30
20
10
0

18

19

20

21

- 10 -

43

45

v Representaciones grficas para datos agrupados


Histograma: representa frecuencias sin acumular. Este grfico es
vlido para datos cuantitativos de tipo continuo o discreto si tiene
un gran nmero de datos. El histograma est formado por
rectngulos de rea igual o proporcional a la frecuencia
observada.
rea = base * al tura
ni = ci * altura
altura = densidad de fr ecuencia = n i/ci
Es decir la altura del rectngulo vendr dada por ni

y ser

proporcional a dicho valor (tambin se llama funcin de densi dad).


Por tanto en el caso de inter valos iguales, la altura nos est dando
una idea de cual es el intervalo ms frecuente (aquel cuya barra
del histograma sea ms alta). En el caso de construir el
histograma utilizando fi la suma total del rea del histograma ser
igual a 1.
A continuacin vamos a ver unos ejemplos de histogramas en los
dos casos comentados anteriormente, es decir, con intervalos
iguales y con intervalos distintos.

- 11 -

40.000
39.000
38.000
37.000
36.000
35.000
34.000
33.000
32.000
31.000
30.000
29.000
28.000
27.000
26.000
25.000
24.000
23.000
22.000
21.000
20.000
19.000
18.000
17.000
16.000
15.000
14.000
13.000
12.000
11.000
10.000
9.000
8.000
7.000

-Grfico 4- Histograma serie de intervalos distintos


Intervalos distintos

150

Frecuencia

-Grfico 3- Histograma serie de intervalos iguales


Intervalos iguales:
250

200

100

50

Salario inicial

- 12 -

Polgono de frecuencias acumuladas: representa frecuencias


acumuladas. Su construccin se realiza levantando sobre las
marcas de clase, localizadas en el eje de abscisas, puntos de
altura igual a la frecuencia observada. La unin de estos puntos
da lugar a una lnea poligonal denominada ! polgono de
frecuencias" .
-Grfico 5- Polgono de frecuencias acumuladas
Frecuencia
absoluta

Ingresos
xi
Menos de 18.000 !
[ 18.000! - 24.000!
[ 24.001! - 30.000!
[ 30.001! - 36.000!
[ 36.001! - 42.000!
Ms de 42.000 !
N

Frecuencia
absoluta
acumulada
Ni

Frecuencia
relativa

Marca de clase

ni

fi
5
10
10
30
30
15
100

)
)
)
)

15.000
21.000
27.000
33.000
39.000
45.000

0,05
0,10
0,10
0,30
0,30
0,15

5
15
25
55
85
100

Frecuencia
relativa
acumulada
Fi
0,05
0,15
0,25
0,55
0,85
1

40
30
20
10

de

0
00
2.
-4
!

1
6.
00
[3

M
s

0
00
6.
-3
!

1
0.
00
[3

Tanto los histogramas como los polgonos de frecuencia se pueden


realizar con frecuencias absolutas o relativas.

- 13 -

42 !
.0 )
00

)
!

0
00
-3
!

[2

4.
00

0
8.
00
[1

-2

4.

0.

00

.0
18
de
M
en
os

00

Grficos de sectores
Estos grficos se basan en un crculo o bien en un semicrculo y
consiste en dividir el crculo o semicrculo en sectores cuyas reas
sean proporcionales a cada uno de los trminos de la serie.
Generalmente se utilizan para representar series de atributos o
series cuantitativas presentadas en pocos intervalos.
-Grfico 6- Grfico de sectores
Xi
1-2
3-4
5-6

ni
10
22
8
40

20%

25%

55%
1-2

3-4

5-6

Diagramas Gannt
Estos diagramas nos permiten conocer la evolucin de una
variable en estudio desde una situacin inicial hasta el momento
actual. Es un grfico de mucha utilidad para analizar crecimientos,
tendencias, en definitiva, la evolucin de la serie en el tiempo.

- 14 -

-Grfico 7- Diagrama de Gannt


T

Xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

10
20
30
40
5
15
25
35
45
35
55
75
85
105
105

120
100
80
60
40
20
0
1

9 10 11 12 13 14 15

- 15 -

1.3.3. Medidas resumen de las distribuciones de frecuencias


El siguiente paso que debe dar el analista de la informacin es resumir la
informacin que tiene disponible una vez que la ha organizado y representado
mediante la tabulacin y los grficos. Para resumir la informacin dispone de
las siguientes medi das que son distintas funciones de la variable:
-

Medidas de posi cin

Medidas de dispersin

Medidas de asimetra

Medidas de apuntami ento o curtosis

Medidas de concentr acin

a) Medidas de posicin
v Medidas de posicin central
Estas medidas pretenden caracterizar la distribucin de la variable/s que
estamos analizando por los valores del centro. Es decir, son valores
representativos de todos los valores que toma la variable.
Media aritmtica:
Representa el centro de gravedad de una distribucin y se define como la
suma ponder ada de los valores de la variable por sus frecuenci as relativas y
lo denotaremos por

y se calcula mediante la expresin:


n

i =1

i =1

x = xi * f i =

- 16 -

xi * ni
N

dnde xi representa el valor de la variable en distribuciones no agrupadas o


la marca de clase en distribuciones agrupadas. Es decir, en este ltimo
caso, se hace el supuesto que la frecuencia del intervalo est agrupada en
la marca de clase.
El inconveniente de la media aritmtica es que es muy sensible a los
valores extremos de una di stribucin.
Media aritmtica simple y ponderada
Hay veces donde hay que obtener una media aritmtica de variables cuyos
valores observados tienen distinta importancia y por tanto se deben
ponderar de distinta manera para obtener la media.
En el caso de que la ponderacin sea distinta estaremos hablando de una
media ponderada y los valores por los cuales se ponderan los distintos
valores se llaman pesos o ponderaci ones (wi)
n

x=

x w
i =1
n

w
i =1

Mediana
La mediana es el valor central de la variable, es decir, supuesta la muestra
ordenada en orden creciente o decreciente, el valor que divide en dos
partes la muestra. Para calcular la mediana debemos tener en cuenta si la
variable es discreta o continua.

- 17 -

Clculo de la mediana en el caso discreto:


Tendremos en cuenta el tamao de la muestra.

Si N es Impar, hay un trmino central, el trmino

X N que ser el valor de la mediana.


2

+1

Si N es Par, hay dos trminos centrales,

XN,XN
2

+1

la

mediana ser la media de esos dos valores


Clculo de la mediana en el caso de datos en i ntervalo:
Para determinar el valor de la mediana en el caso de tener representada
los valores de la variable en intervalos hay que par tir de una hiptesi s: ! la
variable evoluciona de manera contina y uniforme dentro del propio
intervalo" .
En este caso el clculo de la mediana consta de dos fases, la
determinacin del intervalo que contiene la mediana y el clculo de su
valor.
1 Para determinar el intervalo en el que se encuentra la mediana se
acumulan las frecuencias y el primer intervalo cuya frecuencia
acumulada (Ni) sea mayor o igual a

N
es el intervalo que contiene la
2

mediana. Si llamamos Li y Li+1 a los lmites del intervalo que contiene la


mediana, ni a la frecuencia ordinaria de dicho intervalo, Ni a la frecuencia
acumulada, Ni-1 la frecuencia acumulada hasta el intervalo anterior y ci la
amplitud del inter valo entonces la frmula es la siguiente:

Me = Li -1

N
- N i -1
+ 2
ci
ni

- 18 -

Para calcular la mediana no es preciso que todos los intervalos estn


definidos. Del nico intervalo que necesitamos conocer la amplitud es
del intervalo modal.
Moda
La moda es el valor de la variable que tenga mayor frecuencia absoluta,
la que ms se repite, es la nica medida de centralizacin que tiene
sentido estudiar en una variable cualitativa, pues no precisa la
realizacin de ningn clculo.
Por su propia definicin, la moda no es nica, pues puede haber dos o
ms valores de la variable que tengan la misma frecuencia siendo esta
mxima. En cuyo caso tendremos una distribucin bimodal o polimodal
segn el caso.
Cuando los datos estn agrupados en intervalos se puede tomar la
marca de clase o realizar una aproximacin mediante la siguiente
frmula:

Moda = L1 +

ni +1
*c
ni -1 + ni+1

donde :
Li = lmite inferior de la clase modal
c = amplitud del intervalo
La moda se puede utilizar para datos cualitativos pero no tiene porqu
situarse en la zona central del grfico.

- 19 -

v Medidas de posicin no central


Estas medidas dividen a la poblacin en partes iguales y sirven para
clasificar a un individuo dentro de una determinada muestra o poblacin
(mismo concepto que la mediana)
Cuartiles
Medidas de localizacin que divide a la poblacin en cuatro partes
iguales (Q1, Q2 y Q3).
Q1: Valor de la distribucin que deja el 75% de los valores por encima
Q2: Valor de la variable que deja el 50% de los valores de la variable por
encima (coincide con la medi ana)
Q3: Valor de la variable que deja el 25% de los valores de la variable por
encima

Qt = Li -1

N
- N i -1
4
+
ci
ni

Deciles
Medidas de localizacin que divide a la poblacin en diez partes iguales
dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el
k10 % de la distribucin.

Dt = Li -1

N
- N i -1
10
+
ci
ni

- 20 -

Percentiles
Medidas de localizacin que divide a la poblacin en cien partes iguales.
El primer percentil supera al uno por ciento de los valores y es superado
por el noventa y nueve por ciento restante.
Pk = Percentil k-simo es aquel valor que deja a su izquierda el K*1% de
la distribucin

Pt = Li -1

N
- N i -1
100
+
ci
ni

- 21 -

Reflexiones sobre las medidas de posicin central


a) La media, la mediana y la moda coinciden en toda distribucin
simtrica o normal
b) La media aritmtica es la medida de posicin que ms se utiliza pues
normalmente es la que mejor representa los datos, al intervenir todos
ellos en su deter minacin. Por otra parte permite la aplicacin del clculo
de probabilidades. Ahora bien, tiene el inconveniente de que en el caso
de que exista una gran diferencia entre los valores extremos pierda gran
parte de su utilidad al estar afectada por ellos. Por ello en este caso es
ms conveni ente el uso de la mediana.
c) Un promedio puede actuar como medida de tendencia central
solamente si existe una cantidad considerable de concentracin en la
distribucin de frecuencias, es decir, que la variacin no es demasiado
grande.
d) Un promedio sirve como una medida til de localizacin para
comparar dos o ms distribuciones de frecuencias solamente si las que
se comparan tienen aproximadamente la misma forma.

- 22 -

b) Medidas de dispersin
Hasta el momento hemos estudiado los valores centrales de la
distribucin, pero tambin es importante conocer si los valores en
general estn cerca o alejados de estos valores centrales, para ver si
estos valores son o no son representativos. Es por esto por lo que surge
la necesidad de estudiar medidas de dispersin.
Los momentos son valores especficos de la distribucin y van
ntimamente ligados a las medidas de dispersin y se hallan con la
siguiente frmula:

Momento de orden r

M r = ( x i - ot ) r
i =1

Momentos respecto al origen

ni
N

(a1, a2...)

Cuando O t = 0

Momentos respecto a la media (m1, m2$ )

Cuando O t = x

El momento de orden r es el promedio de las desviaciones de los valores


de una variable, con respecto al origen o a la media, elevadas a la
potencia r.
Relacin entre momentos:
m0 = a0
a1= media
m1= 0

- 23 -

v Medidas de dispersin absolutas


Rango o recorr ido
Es la diferencia entre el mayor valor de una variable y el menor.
Depende mucho de los val ores extremos y esto puede dar una impresin
falsa de la dispersin, por lo que se suele utilizar el rango intercuartlico
que es la diferencia entre el tercer y primer cuartel (Q3 % Q1)
En valor absoluto
Estas medidas tienen las mismas unidades de medidas que la variable a
la que hacen r eferencia (Xi)
n

! X
i =1

- promedio | ni / N

Con estas medidas de dispersin, slo se pueden comparar, en principio


distribuciones con las mismas unidades de medi da.

- 24 -

Cuadrticas
Las unidades de medi da son las de la vari able elevada al cuadrado
Varianza ( 2, s2): es la media aritmtica de los cuadrados de las
desviaciones respecto a la media
n

(X
i =1

- promedio) 2 ni / N

Al igual que la media, en el caso de que los datos estn agrupados en


clases, se tomar la marca de clase como x i.
El problema de estas medidas es que para comparar variables s tienen
diferentes unidades de medida no se pueden comparar. La solucin por
tanto es eliminar las unidades de medida y por tanto necesito medidas
que no estn af ectadas por las unidades.
Para solucionar este inconveniente se hace lo siguiente:

Desviacin tpica = = s = +

(X

- promedio ) 2 n i / N

i =1

Ambas medidas, tanto la varianza como la desviacin tpica siempre son


positivas.
La desviacin tpica es la mejor medida de dispersin y la ms
empleada. Cuando l as distribuciones de frecuencias se aproximan a una
distribucin simtrica o normal entonces se verifica una propiedad muy
importante que consi ste, en que aproxi madamente:

- 25 -

El 68% de los valores de la variable estn comprendidos entre


x s

El 95% de los valores de la variable estn comprendidos entre


x 2s

El 99% de los valores de la variable estn comprendidos entre


x 3s

v Medidas de dispersin relativas


Estas medidas no tienen unidades de medi da
Recorrido relativo Rr
Nmero de veces que el recorrido contiene a la media
Rr =

Re
x

Recorrido semintercuartlico R

Rd =

c 3 - c1
c3 + 1

Coeficiente de apertur a Ap

Ap =

xn
x1

Coeficiente de variacin de Pearson


A veces interesa comparar la variabilidad o dispersin de una poblacin
desde dos puntos de vista diferentes e incluso comparar la variabilidad
de dos poblaciones o muestras distintas. Cuando no podemos utilizar la
desviacin tpica (porque las distribuciones son muy diferentes o porque
las variables presentan distintas unidades de medida) se utiliza el

- 26 -

coeficiente de variacin ya que se obtienen medidas homogneas y por


tanto comparables. Aqulla que mayor CV tenga nos indica una mayor
dispersin en la distribucin

CV =

S
x

c) Medidas de asimetra

v Asimetra
Estas medidas tratan de ver como se distribuye la variable en torno a un
eje de simetra. Este eje de simetra se fija en una recta que pase por la
media aritmtica de la distribucin. La asimetra tambin se utiliza para
comparar distribuciones por que se pretende que estas medidas
carezcan de uni dades.
La medida que da el grado de asimetra de una distribucin de datos es
el sesgo. Existen varias frmulas para hallar el sesgo.
Coeficiente de asimetra: cuanta de las desviaciones por encima de la
media y la cuanta de las desviaciones por debajo.
Coeficiente de asimetra de Fisher: momento de orden 3 respecto a la
media dividido por la desviacin tpica elevada al cubo. Este coeficiente
se calcula para distribuciones acampanadas y en for ma de ! u" .
n

g1 =

(x - x)
i =1

ni
N

- 27 -

m3
S3

g1 > 0

Asimtrica positiva (Asimtrica por la izquierda)

g1 = 0

Simtrica

g1 < 0

Asimtrica negativa (Asimtrica por la derecha)

Coeficiente de asimetra de Pearson: Este coeficiente se calcula para


distribuciones en forma de campana.

Ap =

x - Mo
S

Ap > 0

Asimtrica por la derecha ( Mo > x )

Ap = 0

Simtrica

Ap < 0

Asimtrica por la izquierda ( Mo < x )

Coeficiente de asimetra de Bowley

Ab =

c 3 + c1 - 2Me
c 3 - c1

Ab > 0

Asimtrica por la derecha

Ab = 0

Simtrica

Ab < 0

Asimtrica por la izquierda

- 28 -

d) Medidas de apuntamiento o curtosis


Con el coeficiente de Curtosis se pretende observar como se distribuyen los
valores centrales de nuestra variable. Para ello se compara la distribucin
que se est analizando con la distribucin normal. Estas medidas nos van a
indicar si la distribucin tiene una forma de campana ms o menos
apuntada que la distribucin normal.

g2 =

m4
-3
s4

g2> 0

Leptocrti ca (perfil estirado)

g2 = 0

Mesocrtica (perfil intermedio)

g2 < 0

Pleticrtica (perfil achatado)

El apuntamiento tiene como unidad de medida la curtosis. Para medir la


curtosis (K) pueden utilizarse los cuartiles y per centiles:

k=

Q
P90 - P10

donde:
K= coeficiente de curtosis percentlico
Q= rango semiintercuartlico (

Q3 - Q1
)
2

P90= Percentil 90
P10= Percentil 10

- 29 -

e) Medidas de concentracin
Estas medidas tienen por finalidad medir la uniformidad del reparto de la
frecuencia total de una variable. Por ejemplo, si un grupo de trabajadores,
percibieran el mismo salario, la uniformidad de la variable sera absoluta;
por el contrario, en un caso hipottico, si la masa total de los salarios fuera
percibida por un solo trabajador, entonces la falta de uniformidad sera totalen este caso diremos que la concentracin es mxima. Lgicamente,
cuando se tiende a la uniformidad absoluta, la media aritmtica es
perfectamente

representativa

de

la

distribucin

de

frecuencias,

contrariamente a lo que sucede cuando la concentracin es mxima.


Las medias ms habituales para la medicin de la concentracin de una
distribucin de frecuencia son:
v Curva de Lorenz: Medida grfica
La curva de Lorenz es una representacin grfica que se obtiene de colocar
en los ejes de abscisas y coordenadas los porcentajes acumulados del
nmero de observaciones y del total del valor de la variable analizada. Por
ser idnticos tanto la escala como el campo de variacin de cada uno de los
ejes, la curva de Lorenz encaja perfectamente en un cuadrado. Se
representa tambin la diagonal que arranca desde el origen, que se toma
como punto de r eferencia de la curva.
Si la variable analizada fuese totalmente uniforme,

la curva de lorenz

coincidira con el dibujo de la diagonal dibujada. En el caso opuesto, la


curva de Lorenz estara formada por los lados inferior y derecho del
cuadrado.

- 30 -

v ndice de Gini
La curva de Lorenz es ilustrativa de la concentracin de una distribucin.
Sin embargo, es conveniente disponer de un indicador que nos permita
valor numricamente dicha concentracin y, al mismo tiempo, facilite la
comparacin entre dos distribuciones. Este es el ndice de Gini o ndice de
concentracin.
El ndice de Gini se define como el cociente entre el rea rayada entre la
curva de Lorenz y la diagonal principal y el rea comprendida entre uno de
los dos tringulos obtenidos por la diagonal principal.
El ndice de Gini, por tanto, vara entre 0 y 1, aproximndose a 1 cuando la
concentracin tiende a ser mxima, y a 0 en caso con trario.
Numricamente, el ndice de Gini slo se puede calcular a travs de un
sistema de cl culo de reas.

- 31 -

1.4. Distribuciones bidimensionales


La mayora de los fenmenos que se estudian en cualquier disciplina estn
determinados por la observacin de distintas variables relativas a dicho
fenmeno. Es decir, si queremos estudiar las caractersticas de un producto y
compararlo con los de la competencia normalmente se recoger informacin
sobre distintos atributos del producto como por ejemplo tamao, color, precio,
unidades vendidas, etc. Es decir, todas estas caractersticas son variables
referentes a nuestro producto y por tanto tendremos distribuciones que no
sern unidimensionales. En concreto vamos a analizar las distribuciones
bidimensionales que consiste en el estudio de dos caractersticas a la vez en
una muestra.
Los dos caracteres observados no tienen por qu ser de la misma clase, as
nos podemos encontr ar con las siguientes situaciones:
Tipos

variables ( X, Y )

Ejemplo

Variables cualitativas

Categrica / Categrica

Sexo y clase social

Discreta / Discreta

Nmero de hermanos y nmero de hijos.

Continua / Continua

Peso y altura

Discreta / Continua

Pulsaciones y temperatura cuerpo

Categrica / Discreta

Sexo y nmero de cigarrillos

Categrica / Continua

Sexo e ingresos

Variables cuantitativas

Cualitativa y cuantitativa

Otro factor a tener en cuenta es que el nmero de modalidades distintas que


adopta el carcter X no tiene por qu ser el mismo que el que adopta el
carcter Y:
X = { x1, x2, x3, ..., xj}

Y = { y1, y2, y3, ..., yk}

- 32 -

a) Tabulacin cruzada
En el caso de distribuciones bidimensionales a la hora de organizar los datos y
observar la relacin entre dos variables se utilizan las tablas de doble entrada.
Estas tablas t ienen la siguiente estructura:
y

Y1

Y2

n11

n12
n22

Yj

Yk

ni.

n1j

n1k

n1.

n2j

n2k

n2.

x
X1
X2
.
Xi

nij

ni.

.
Xh

nh1

nh2

n.j

n.1

n.2

nij :

n.j

nhk

nh.

n.k

Frecuencia conjunta
Nmero de veces que aparece el valor Xi con Yj

ni.:

Frecuencia marginal de la variable X

n.j:

Frecuencia marginal de la variable y

N:

Suma del total de las observaciones

(xi yj nij):

Distribucin conjunta

(xi ni.):

Distribucin marginal de X

(yj nj.):

Distribucin marginal de y

En este tipo de representacin tambin podemos representar las frecuencias


relativas. Basta con dividir las frecuencias conjuntas entre el nmero total de
observaciones:

f ij =

nij
N

- 33 -

La suma de las frecuencias absolutas es igual al nmero de pares observados


(N):
h

n
i =1 j =1

ij

=N

La suma de l as frecuencias relativas es igual a la unidad:


h

i =1 j =1

f ij =
i =1 j =1

nij
N

=1

Una tabla de doble entrada tambin se puede expresar como una tabla simple
o marginal, de forma que siempre es posible pasar de una a otra segn
convenga.
Distribuciones Mar ginales
Si en una tabla de doble entrada utilizamos solamente los valores
correspondientes a X, sin que para nada intervengan los valores de la variable
y, esta distribucin se denomina distribucin marginal de la variable X.
Anlogamente cuando tomamos los valores de la variable y sin tener en cuenta
los valores de la variable x estamos ante l a distribucin marginal de y.
De las frecuencias absolutas marginales se obtienen las frecuencias relativas
marginales. Y de igual forma podemos obtener las medias, varianzas y
desviaciones tpicas marginales.
Frecuencias absolutas marginales

i.

=N

n.

=N

Frecuencias relativas marginales

f i. =

ni.
N

- 34 -

f.j =

n. j
N

Medias marginales
k

x=

xi n.i
i =1

y=

n.i

j =1

Varianzas marginales
k

s x2 =

(x
i =1

i.

- x ) 2 ni.
s y2 =

(y

.j

- y ) 2 n. j

j =1

Desviaciones tpicas marginales


k

sx =

( x i. - x ) 2 ni.
i =1

sy =

(y
j =1

.j

- y ) 2 n. j
N

Distribuciones condicionadas
En ocasiones podemos necesitar condicionar los valores de la variable Y a un
determinado valor de X o viceversa. Estas distribuciones as obtenidas se
denominan: distribucin de la variable Y condicionada a X=xi o distribucin de
la variable X condi cionada a Y=y j

{n( xi / Y = y j } = {n1 j , n 2 j ,..n ij , n hj }

{n( y

/ X = xi } = {ni1 , ni 2 ,..nij , nik }

n( x i / Y = y j ) =

n( y j / X = x i ) =

n( x i / Y = y j )
n. j

n( y j / X = x i )

- 35 -

ni .

Dependiendo del tipo de variables con el que estemos construyendo la tabla


hablamos de tabl as de contingenci a o tablas de correlacin:

Cualitativas
(al menos 1)

TABLAS DE CONTINGENCIA

Cuantitativas

TABLAS DE CORRELACIN

Tipo de
variables

b) Representacin grfica
v DIAGRAMAS DE DISPERSIN
El diagrama de dispersin es la representacin sobre unos ejes cartesianos de
los distintos valores de la variable (X, Y). En el eje de abscisas representamos
los valores de X y en el de ordenadas los valores de Y, de tal forma que cada
par viene representado por un punto del plano XY.
En el caso de que las dos variables estn agrupadas en intervalos el diagrama
se construye mediante casillas que tienen dentro tantos puntos como el valor
de la frecuencia absoluta correspondiente a los intervalos X e Y.
Si las variables que componen el par son una discreta y otra continua se
utilizan las marcas de clase, si endo un caso si milar al primero
Los diagramas de di spersin tambin se conocen como nube de puntos.

- 36 -

v DIAGRAMAS DE FRECUENCIAS
Como en un diagrama de dispersin no puede quedar reflejado las veces que
se repite un par o un intervalo, hemos de recurrir a una representacin en tres
dimensiones de (X, Y). Dos son para la variable bidimensional y una dimensin
para expresar las frecuenci as.
La figura adjunta representa los datos del ejemplo 1. La variable X toma los
valores 10, 15,... y la variable Y los valores 0, 1,2,...; en el eje Z estn
representadas las fr ecuencias absolutas del par (X, Y).

- 37 -

c) Medidas de resumen y asociacin


A continuacin vamos a estudiar las medidas de resumen para el caso de
distribuciones bidimensionales con variables cuantitativas.
Cuando hay pocos datos o estn muy agr upados (tablas de 2 o 3 columnas)
Aparece un parmetro nuevo que es la covarianza que es la media aritmtica
de las desviaciones de cada una de las variables respecto a sus medias
respectivas. Es decir, representa la variacin conjunta de las dos variables que
se estn analizando y pueden tener cualquier signo. Viene representada por la
siguiente expresin:

Sxy = m11 =

(x
i =1 j =1

- x )( y j - y )

nij
N

S Sxy es mayor que 0 las dos variables se mueven en el mismo sentido (D x D


y)
S S xy es menor que 0 las dos variables se mueven en distinto sentido (D x D y)
Cuando hay muchos datos (tablas de doble entr ada)
Puede pasar que se quiera medir la relacin que existe entre dos conjuntos de
datos, es decir la dependencia o independencia estadstica entre dos variables
de una distribucin bidimensional. Por ejemplo, si se analiza la estatura y el
peso de los alumnos de una clase es muy posible que exista relacin entre
ambas variables: mientras ms alto sea el alumno, mayor ser su peso.
Entonces vamos a obtener la correlacin o dependencia entre dos variables.
Segn sean los diagramas de dispersin podemos establecer los siguientes
casos:

- 38 -

o Independen cia funcional o correlacin nula: cuando no existe ninguna


relacin entre las variables. (r = 0)
o Dependenci a funcional o correlacin funcional: cuando existe una
funcin tal que todos los valores de la variable la satisfacen (a cada valor
de x le corresponde uno sol o de y o a la inversa) (r = 1)
o Dependenci a aleatoria o correlacin lineal: cuando los puntos del
diagrama se ajustan a una lnea recta o a una curva, puede ser positiva
o directa, o negativa o inversa (-1<r<0 0<r<1)
Para establecer estas relaciones tenemos l as siguientes medidas
1. Coeficiente de correlacin lineal: es una forma de cuantificar ms precisa el
tipo de correlacin que hay entre las dos variables.
2. Regresin: consiste en ajustar lo ms posible la nube de puntos de un
diagrama de dispersin a una curva. Cuando esta es una recta obtenemos la
recta de regresin lineal, cuando es una parbola, regresin parablica, cuando
es una exponencial, r egresin exponenci al, etc. (lgicamente r debe ser distinto
de 0 en todos los casos).

1. Coeficiente de correlacin lineal


El coeficiente de correlacin lineal mide el grado de intensidad de esta posible
relacin entre las variables. Este coeficiente se aplica cuando la relacin que
puede existir entre las variables es lineal (es decir, si representramos en un
grfico los pares de valores de las dos variables la nube de puntos se
aproximara a una recta).

- 39 -

No obstante, puede que exista una relacin que no sea lineal, sino exponenci al,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal
la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo
de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el
coeficiente de correlacin lineal, lo mejor es representar los pares de valores en
un grfico y ver que forma describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Es decir:
Numerador: se denomina covarianza. Se suma el resultado obteni do de todos
los pares de valores y este resultado se divide por el tamao de l a muestra.
Denominador: es la raz cuadrada del producto de las varianzas de "x" y de
"y".
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube
el de la otra). La correlacin es tanto ms fuerte cuanto ms se apr oxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.

- 40 -

Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable
disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto
ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir
otro tipo de correlacin (parablica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto
querra decir obligatoriamente que exi ste una relacin de causa -efecto entre las
dos variables, ya que este resultado podra haberse debido al puro azar.
2. Regresin lineal
Si representamos en un grfico los pares de valores de una distribucin
bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable
"y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue
una tendenci a lineal:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente,


existe relacin entre las dos variables. Una vez que se concluye que s existe
relacin, la regresin nos permite definir la recta que mejor se ajusta a esta
nube de puntos.

- 41 -

Una recta viene definida por la siguiente frmula:


y = a + bx
Donde "y" sera la variable dependiente, es decir, aquella que viene definida a
partir de la otra variable "x" (variable independi ente). Para definir la recta hay
que determinar los valores de los parmetr os "a" y "b":
El parmetro "a" es el valor que toma la variable dependiente "y", cuando la
variable independiente "x" vale 0, y es el punto donde la recta cruza el eje
vertical. El parmetro "b" determina la pendiente de la recta, su grado de
inclinacin. La regresin lineal nos permite calcular el valor de estos dos
parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos.
El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".


El parmetro "a" viene determinado por:
a = y m - ( b * xm )
Es la media de la variable "y", menos la media de la variable "x" multiplicada
por el parmetro "b" que hemos cal culado.

- 42 -

Ejercicios:
1. El curso MEB de ESCP-EAP obtiene las siguientes puntuaciones en un test
de habilidad mental
43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45 49 46 47 51 64 36 39 51 51
48 49 53 66 38 41 43 71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60 32 30
40 39 42 30 35 40 38 36 46 45 68 50 69 69
Se pide:
a) Formar una distribucin de frecuencias con 14 intervalos
b) Hacer la representacin grfica del polgono de frecuencias
c) Hacer la representacin grfica del histograma
d) Hacer la representacin grfica de las frecuencias acumuladas relativas
2.

Las puntuaciones obtenidas por un grupo de alumnos de Primaria en un


test de habi lidad sicomotora, ha dado las puntuaciones siguientes:
x

60-63
56-59
52-55
48-51
44-47
40-43
36-39
32-35
28-31
24-27
20-23
16-19
12-15
8-11
4-7
N

xi

ni
61,5
57,5
53,5
49,5
45,5
41,5
37,5
33,5
29,5
25,5
21,5
17,5
13,5
9,5
5,5

ni xi
2
12
18
36
38
20
18
10
8
6
4
2
0
0
1
175

Ni
123
690
963
1782
1729
830
675
335
236
153
86
35
0
0
5,5
7642,5

- 43 -

fi
2
14
32
68
106
126
144
154
162
168
172
174
174
174
175

Fi
1%
7%
10%
21%
22%
11%
10%
6%
5%
3%
2%
1%
0%
0%
1%
100%

1%
8%
18%
39%
61%
72%
82%
88%
93%
96%
98%
99%
99%
99%
100%

Se pide:
a) Hallar la media
b) Hallar la mediana
c) Hallar Q1 y Q3
d) Hallar los percentiles 18 y 84
e) Hallar la moda
3.

El primer curso de soci ologa ha obteni do una nota media al final del curso
de 5,7 de un total de 110 alumnos. El segundo curso una nota media de
6,6 de un total de 60 alumnos y el curso tercero una nota media de 5,1 de
un total de 48 alumnos. Cul es la nota media de los tres cursos?

4.

Dada la tabl a siguiente:

15 19 31 30 23 76 13 35 27 32 77 35 24 18 18 15 45 76 81 27 76 23 18 18
75 15 69 14 75 63 29 19 81 15 29 81 45 17 15 41 18 31
Se pide:
a) El recorrido de los datos
b) Agrupar los datos en 8 intervalos
c) Calcular la amplitud de los intervalos
d) La desviacin media
e) La desviacin tpica
f) Los cuatro mo mentos
g) La asimetra
h) La curtosis

- 44 -

5.

Dada la siguiente distribucin calcular todos los coeficientes de asimetra


y explicar el significado de su val or :
Puntuaciones
80-84
75-79
70-74
65-69
60-64
55-59
50-54
45-49
40-44

ni
8
7
5
6
12
6
9
4
5
62

- 45 -

Potrebbero piacerti anche