Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CURSO BSICO DE
ESTADSTICA DESCRIPTIVA"
-1-
NDICE
CAPTULO 1: INTRODUCCIN A LA ESTADSTICA
Tema 1: Introduccin a la estadstica
-
-2-
-3-
Tipo de
variables
Discretas
Cuantitativas
(recogidas en valor
o en intervalo)
Continas
-4-
Cualitativas
Cuantitativas
Distribuciones
bidimensionales:
recogen
informacin
sobre
dos
-5-
ni
fi
Ni
Fi
X1
n1
N1/N
N1
F1 = f 1
X2
n2
N2/N
N2 = n1 + n2
F2 = f1+ f2
Xn
nn
nn/N
Nn = N
Fn = 1
n=N
fi = 1
xi
Valor de la variable
ni
determinado valor de x
fi
Ni
Fi
Distribucin
Tamao de l a muestra
Recorrido
Diferencia entre el mximo y el mnimo valor de la variable
-7-
Edad
Frecuencia
absoluta
Frecuencia
relativa
ni
fi
xi
18
19
20
21
43
45
N
78
15
3
2
1
1
100
0,78
0,15
0,03
0,02
0,01
0,01
Frecuencia
absoluta
acumulada
Ni
78
93
96
98
99
100
Frecuencia
relativa
acumulada
Fi
0,78
0,93
0,96
0,98
0,99
1
-8-
-Cuadro 2Ingresos
xi
Menos de 18.000 !
[ 18.000! - 24.000!
[ 24.001! - 30.000!
[ 30.001! - 36.000!
[ 36.001! - 42.000!
Ms de 42.000 !
N
)
)
)
)
Frecuencia
absoluta
Frecuencia
relativa
ni
fi
5
10
10
30
30
15
100
Frecuencia
absoluta
acumulada
Ni
0,05
0,10
0,10
0,30
0,30
0,15
5
15
25
55
85
100
Frecuencia
relativa
acumulada
Fi
0,05
0,15
0,25
0,55
0,85
1
-9-
18
19
20
21
43
45
18
19
20
21
- 10 -
43
45
y ser
- 11 -
40.000
39.000
38.000
37.000
36.000
35.000
34.000
33.000
32.000
31.000
30.000
29.000
28.000
27.000
26.000
25.000
24.000
23.000
22.000
21.000
20.000
19.000
18.000
17.000
16.000
15.000
14.000
13.000
12.000
11.000
10.000
9.000
8.000
7.000
150
Frecuencia
200
100
50
Salario inicial
- 12 -
Ingresos
xi
Menos de 18.000 !
[ 18.000! - 24.000!
[ 24.001! - 30.000!
[ 30.001! - 36.000!
[ 36.001! - 42.000!
Ms de 42.000 !
N
Frecuencia
absoluta
acumulada
Ni
Frecuencia
relativa
Marca de clase
ni
fi
5
10
10
30
30
15
100
)
)
)
)
15.000
21.000
27.000
33.000
39.000
45.000
0,05
0,10
0,10
0,30
0,30
0,15
5
15
25
55
85
100
Frecuencia
relativa
acumulada
Fi
0,05
0,15
0,25
0,55
0,85
1
40
30
20
10
de
0
00
2.
-4
!
1
6.
00
[3
M
s
0
00
6.
-3
!
1
0.
00
[3
- 13 -
42 !
.0 )
00
)
!
0
00
-3
!
[2
4.
00
0
8.
00
[1
-2
4.
0.
00
.0
18
de
M
en
os
00
Grficos de sectores
Estos grficos se basan en un crculo o bien en un semicrculo y
consiste en dividir el crculo o semicrculo en sectores cuyas reas
sean proporcionales a cada uno de los trminos de la serie.
Generalmente se utilizan para representar series de atributos o
series cuantitativas presentadas en pocos intervalos.
-Grfico 6- Grfico de sectores
Xi
1-2
3-4
5-6
ni
10
22
8
40
20%
25%
55%
1-2
3-4
5-6
Diagramas Gannt
Estos diagramas nos permiten conocer la evolucin de una
variable en estudio desde una situacin inicial hasta el momento
actual. Es un grfico de mucha utilidad para analizar crecimientos,
tendencias, en definitiva, la evolucin de la serie en el tiempo.
- 14 -
Xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
10
20
30
40
5
15
25
35
45
35
55
75
85
105
105
120
100
80
60
40
20
0
1
9 10 11 12 13 14 15
- 15 -
Medidas de dispersin
Medidas de asimetra
a) Medidas de posicin
v Medidas de posicin central
Estas medidas pretenden caracterizar la distribucin de la variable/s que
estamos analizando por los valores del centro. Es decir, son valores
representativos de todos los valores que toma la variable.
Media aritmtica:
Representa el centro de gravedad de una distribucin y se define como la
suma ponder ada de los valores de la variable por sus frecuenci as relativas y
lo denotaremos por
i =1
i =1
x = xi * f i =
- 16 -
xi * ni
N
x=
x w
i =1
n
w
i =1
Mediana
La mediana es el valor central de la variable, es decir, supuesta la muestra
ordenada en orden creciente o decreciente, el valor que divide en dos
partes la muestra. Para calcular la mediana debemos tener en cuenta si la
variable es discreta o continua.
- 17 -
+1
XN,XN
2
+1
la
N
es el intervalo que contiene la
2
Me = Li -1
N
- N i -1
+ 2
ci
ni
- 18 -
Moda = L1 +
ni +1
*c
ni -1 + ni+1
donde :
Li = lmite inferior de la clase modal
c = amplitud del intervalo
La moda se puede utilizar para datos cualitativos pero no tiene porqu
situarse en la zona central del grfico.
- 19 -
Qt = Li -1
N
- N i -1
4
+
ci
ni
Deciles
Medidas de localizacin que divide a la poblacin en diez partes iguales
dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el
k10 % de la distribucin.
Dt = Li -1
N
- N i -1
10
+
ci
ni
- 20 -
Percentiles
Medidas de localizacin que divide a la poblacin en cien partes iguales.
El primer percentil supera al uno por ciento de los valores y es superado
por el noventa y nueve por ciento restante.
Pk = Percentil k-simo es aquel valor que deja a su izquierda el K*1% de
la distribucin
Pt = Li -1
N
- N i -1
100
+
ci
ni
- 21 -
- 22 -
b) Medidas de dispersin
Hasta el momento hemos estudiado los valores centrales de la
distribucin, pero tambin es importante conocer si los valores en
general estn cerca o alejados de estos valores centrales, para ver si
estos valores son o no son representativos. Es por esto por lo que surge
la necesidad de estudiar medidas de dispersin.
Los momentos son valores especficos de la distribucin y van
ntimamente ligados a las medidas de dispersin y se hallan con la
siguiente frmula:
Momento de orden r
M r = ( x i - ot ) r
i =1
ni
N
(a1, a2...)
Cuando O t = 0
Cuando O t = x
- 23 -
! X
i =1
- promedio | ni / N
- 24 -
Cuadrticas
Las unidades de medi da son las de la vari able elevada al cuadrado
Varianza ( 2, s2): es la media aritmtica de los cuadrados de las
desviaciones respecto a la media
n
(X
i =1
- promedio) 2 ni / N
Desviacin tpica = = s = +
(X
- promedio ) 2 n i / N
i =1
- 25 -
Re
x
Recorrido semintercuartlico R
Rd =
c 3 - c1
c3 + 1
Coeficiente de apertur a Ap
Ap =
xn
x1
- 26 -
CV =
S
x
c) Medidas de asimetra
v Asimetra
Estas medidas tratan de ver como se distribuye la variable en torno a un
eje de simetra. Este eje de simetra se fija en una recta que pase por la
media aritmtica de la distribucin. La asimetra tambin se utiliza para
comparar distribuciones por que se pretende que estas medidas
carezcan de uni dades.
La medida que da el grado de asimetra de una distribucin de datos es
el sesgo. Existen varias frmulas para hallar el sesgo.
Coeficiente de asimetra: cuanta de las desviaciones por encima de la
media y la cuanta de las desviaciones por debajo.
Coeficiente de asimetra de Fisher: momento de orden 3 respecto a la
media dividido por la desviacin tpica elevada al cubo. Este coeficiente
se calcula para distribuciones acampanadas y en for ma de ! u" .
n
g1 =
(x - x)
i =1
ni
N
- 27 -
m3
S3
g1 > 0
g1 = 0
Simtrica
g1 < 0
Ap =
x - Mo
S
Ap > 0
Ap = 0
Simtrica
Ap < 0
Ab =
c 3 + c1 - 2Me
c 3 - c1
Ab > 0
Ab = 0
Simtrica
Ab < 0
- 28 -
g2 =
m4
-3
s4
g2> 0
g2 = 0
g2 < 0
k=
Q
P90 - P10
donde:
K= coeficiente de curtosis percentlico
Q= rango semiintercuartlico (
Q3 - Q1
)
2
P90= Percentil 90
P10= Percentil 10
- 29 -
e) Medidas de concentracin
Estas medidas tienen por finalidad medir la uniformidad del reparto de la
frecuencia total de una variable. Por ejemplo, si un grupo de trabajadores,
percibieran el mismo salario, la uniformidad de la variable sera absoluta;
por el contrario, en un caso hipottico, si la masa total de los salarios fuera
percibida por un solo trabajador, entonces la falta de uniformidad sera totalen este caso diremos que la concentracin es mxima. Lgicamente,
cuando se tiende a la uniformidad absoluta, la media aritmtica es
perfectamente
representativa
de
la
distribucin
de
frecuencias,
la curva de lorenz
- 30 -
v ndice de Gini
La curva de Lorenz es ilustrativa de la concentracin de una distribucin.
Sin embargo, es conveniente disponer de un indicador que nos permita
valor numricamente dicha concentracin y, al mismo tiempo, facilite la
comparacin entre dos distribuciones. Este es el ndice de Gini o ndice de
concentracin.
El ndice de Gini se define como el cociente entre el rea rayada entre la
curva de Lorenz y la diagonal principal y el rea comprendida entre uno de
los dos tringulos obtenidos por la diagonal principal.
El ndice de Gini, por tanto, vara entre 0 y 1, aproximndose a 1 cuando la
concentracin tiende a ser mxima, y a 0 en caso con trario.
Numricamente, el ndice de Gini slo se puede calcular a travs de un
sistema de cl culo de reas.
- 31 -
variables ( X, Y )
Ejemplo
Variables cualitativas
Categrica / Categrica
Discreta / Discreta
Continua / Continua
Peso y altura
Discreta / Continua
Categrica / Discreta
Categrica / Continua
Sexo e ingresos
Variables cuantitativas
Cualitativa y cuantitativa
- 32 -
a) Tabulacin cruzada
En el caso de distribuciones bidimensionales a la hora de organizar los datos y
observar la relacin entre dos variables se utilizan las tablas de doble entrada.
Estas tablas t ienen la siguiente estructura:
y
Y1
Y2
n11
n12
n22
Yj
Yk
ni.
n1j
n1k
n1.
n2j
n2k
n2.
x
X1
X2
.
Xi
nij
ni.
.
Xh
nh1
nh2
n.j
n.1
n.2
nij :
n.j
nhk
nh.
n.k
Frecuencia conjunta
Nmero de veces que aparece el valor Xi con Yj
ni.:
n.j:
N:
(xi yj nij):
Distribucin conjunta
(xi ni.):
Distribucin marginal de X
(yj nj.):
Distribucin marginal de y
f ij =
nij
N
- 33 -
n
i =1 j =1
ij
=N
i =1 j =1
f ij =
i =1 j =1
nij
N
=1
Una tabla de doble entrada tambin se puede expresar como una tabla simple
o marginal, de forma que siempre es posible pasar de una a otra segn
convenga.
Distribuciones Mar ginales
Si en una tabla de doble entrada utilizamos solamente los valores
correspondientes a X, sin que para nada intervengan los valores de la variable
y, esta distribucin se denomina distribucin marginal de la variable X.
Anlogamente cuando tomamos los valores de la variable y sin tener en cuenta
los valores de la variable x estamos ante l a distribucin marginal de y.
De las frecuencias absolutas marginales se obtienen las frecuencias relativas
marginales. Y de igual forma podemos obtener las medias, varianzas y
desviaciones tpicas marginales.
Frecuencias absolutas marginales
i.
=N
n.
=N
f i. =
ni.
N
- 34 -
f.j =
n. j
N
Medias marginales
k
x=
xi n.i
i =1
y=
n.i
j =1
Varianzas marginales
k
s x2 =
(x
i =1
i.
- x ) 2 ni.
s y2 =
(y
.j
- y ) 2 n. j
j =1
sx =
( x i. - x ) 2 ni.
i =1
sy =
(y
j =1
.j
- y ) 2 n. j
N
Distribuciones condicionadas
En ocasiones podemos necesitar condicionar los valores de la variable Y a un
determinado valor de X o viceversa. Estas distribuciones as obtenidas se
denominan: distribucin de la variable Y condicionada a X=xi o distribucin de
la variable X condi cionada a Y=y j
{n( y
n( x i / Y = y j ) =
n( y j / X = x i ) =
n( x i / Y = y j )
n. j
n( y j / X = x i )
- 35 -
ni .
Cualitativas
(al menos 1)
TABLAS DE CONTINGENCIA
Cuantitativas
TABLAS DE CORRELACIN
Tipo de
variables
b) Representacin grfica
v DIAGRAMAS DE DISPERSIN
El diagrama de dispersin es la representacin sobre unos ejes cartesianos de
los distintos valores de la variable (X, Y). En el eje de abscisas representamos
los valores de X y en el de ordenadas los valores de Y, de tal forma que cada
par viene representado por un punto del plano XY.
En el caso de que las dos variables estn agrupadas en intervalos el diagrama
se construye mediante casillas que tienen dentro tantos puntos como el valor
de la frecuencia absoluta correspondiente a los intervalos X e Y.
Si las variables que componen el par son una discreta y otra continua se
utilizan las marcas de clase, si endo un caso si milar al primero
Los diagramas de di spersin tambin se conocen como nube de puntos.
- 36 -
v DIAGRAMAS DE FRECUENCIAS
Como en un diagrama de dispersin no puede quedar reflejado las veces que
se repite un par o un intervalo, hemos de recurrir a una representacin en tres
dimensiones de (X, Y). Dos son para la variable bidimensional y una dimensin
para expresar las frecuenci as.
La figura adjunta representa los datos del ejemplo 1. La variable X toma los
valores 10, 15,... y la variable Y los valores 0, 1,2,...; en el eje Z estn
representadas las fr ecuencias absolutas del par (X, Y).
- 37 -
Sxy = m11 =
(x
i =1 j =1
- x )( y j - y )
nij
N
- 38 -
- 39 -
No obstante, puede que exista una relacin que no sea lineal, sino exponenci al,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal
la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo
de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el
coeficiente de correlacin lineal, lo mejor es representar los pares de valores en
un grfico y ver que forma describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:
Es decir:
Numerador: se denomina covarianza. Se suma el resultado obteni do de todos
los pares de valores y este resultado se divide por el tamao de l a muestra.
Denominador: es la raz cuadrada del producto de las varianzas de "x" y de
"y".
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube
el de la otra). La correlacin es tanto ms fuerte cuanto ms se apr oxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
- 40 -
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable
disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto
ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir
otro tipo de correlacin (parablica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto
querra decir obligatoriamente que exi ste una relacin de causa -efecto entre las
dos variables, ya que este resultado podra haberse debido al puro azar.
2. Regresin lineal
Si representamos en un grfico los pares de valores de una distribucin
bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable
"y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue
una tendenci a lineal:
- 41 -
- 42 -
Ejercicios:
1. El curso MEB de ESCP-EAP obtiene las siguientes puntuaciones en un test
de habilidad mental
43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45 49 46 47 51 64 36 39 51 51
48 49 53 66 38 41 43 71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60 32 30
40 39 42 30 35 40 38 36 46 45 68 50 69 69
Se pide:
a) Formar una distribucin de frecuencias con 14 intervalos
b) Hacer la representacin grfica del polgono de frecuencias
c) Hacer la representacin grfica del histograma
d) Hacer la representacin grfica de las frecuencias acumuladas relativas
2.
60-63
56-59
52-55
48-51
44-47
40-43
36-39
32-35
28-31
24-27
20-23
16-19
12-15
8-11
4-7
N
xi
ni
61,5
57,5
53,5
49,5
45,5
41,5
37,5
33,5
29,5
25,5
21,5
17,5
13,5
9,5
5,5
ni xi
2
12
18
36
38
20
18
10
8
6
4
2
0
0
1
175
Ni
123
690
963
1782
1729
830
675
335
236
153
86
35
0
0
5,5
7642,5
- 43 -
fi
2
14
32
68
106
126
144
154
162
168
172
174
174
174
175
Fi
1%
7%
10%
21%
22%
11%
10%
6%
5%
3%
2%
1%
0%
0%
1%
100%
1%
8%
18%
39%
61%
72%
82%
88%
93%
96%
98%
99%
99%
99%
100%
Se pide:
a) Hallar la media
b) Hallar la mediana
c) Hallar Q1 y Q3
d) Hallar los percentiles 18 y 84
e) Hallar la moda
3.
El primer curso de soci ologa ha obteni do una nota media al final del curso
de 5,7 de un total de 110 alumnos. El segundo curso una nota media de
6,6 de un total de 60 alumnos y el curso tercero una nota media de 5,1 de
un total de 48 alumnos. Cul es la nota media de los tres cursos?
4.
15 19 31 30 23 76 13 35 27 32 77 35 24 18 18 15 45 76 81 27 76 23 18 18
75 15 69 14 75 63 29 19 81 15 29 81 45 17 15 41 18 31
Se pide:
a) El recorrido de los datos
b) Agrupar los datos en 8 intervalos
c) Calcular la amplitud de los intervalos
d) La desviacin media
e) La desviacin tpica
f) Los cuatro mo mentos
g) La asimetra
h) La curtosis
- 44 -
5.
ni
8
7
5
6
12
6
9
4
5
62
- 45 -