Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Curso Iberoamericano
de formacin permanente
de profesores de matemtica
Estadstica Descriptiva
Introduccin
Conceptos bsicos: Poblacin. Muestra. Mtodos estadsticos
Variables estadsticas: Tipos. Escalas de medicin
Tablas de frecuencias
Representacin grfica
Medidas estadsticas: tendencia central, posicin y dispersin
Nmeros ndice
Anexo: estadstica a travs de GeoGebra
Introduccin
El pensamiento estadstico ser un da tan necesario para el ciudadano eficiente como la capacidad de
leer y escribir
H. G. Wells
La estadstica actual es el resultado de la unin de dos disciplinas que evolucionan
independientemente hasta confluir en el siglo XIX: la primera es el clculo de probabilidades, que
nace en el siglo XVII como teora matemtica de los juegos de azar; la segunda es la Estadstica
(o ciencia del Estado, del latn Status) que estudia la descripcin de datos, y tiene unas races ms
antiguas. La integracin de ambas lneas de pensamiento da lugar a una ciencia que estudia cmo
obtener conclusiones de la investigacin emprica mediante el uso de modelos matemticos.
La estadstica acta como disciplina puente entre los modelos matemticos y los fenmenos reales
[] La Estadstica proporciona una metodologa para evaluar y juzgar estas discrepancias entre la
realidad y la teora.
Extrado de Estadstica Modelos y mtodos Daniel Pea
1. Conceptos bsicos
La estadstica hoy en da es considerada como una rama de las
Matemticas que se encarga de la recopilacin e interpretacin de datos
obtenidos mediante un estudio. La estadstica, tal y como hemos visto en
la introduccin, permite tomar decisiones en el mbito gubernamental,
pero tambin en el mundo econmico, cientfico y hasta personal.
Definicin Se denomina estadstica al conjunto de procedimientos y
tcnicas empleadas para recolectar, organizar y analizar
datos, los cuales sirven de base para tomar decisiones en las
situaciones de incertidumbre que plantean las ciencias
sociales o naturales.
2. Variables estadsticas
Definicin La variable estadstica es el conjunto de valores,
numricos o no, observados sobre un conjunto de individuos,
a partir de una determinada caracterstica.
Analfabeto
Sin estudios, pero sabe leer y escribir
Fue a la escuela pero no complet la Educacin bsica
Educacin bsica
Educacin media
Educacin superior
Analfabeto
Sin estudios, pero sabe leer y escribir
Fue a la escuela pero no complet la Educacin bsica
Educacin bsica
Educacin media
Educacin superior
3. Tablas de frecuencias
Cuando sobre una poblacin hemos realizado una encuesta o cualquier
registro para conocer los valores que toman las variables, nos
encontramos ante una gran cantidad de datos que debemos organizar. La
mejor forma de organizar esta informacin es mediante tablas que
llamaremos tablas de frecuencias.
Definicin La tabla de frecuencias es una ordenacin, en forma de
tabla, de los datos estadsticos, asignando a cada dato
su frecuencia correspondiente.
x1
x2
f1
f2
xk
fk
TOTAL
N=
f
i 1
Frecuencia
absoluta
9
25
27
16
12
8
3
N=100
TOTAL
Frecuencia relativa
Definicin La frecuencia relativa es el cociente entre la frecuencia
absoluta de un determinado valor y el nmero total de
datos. Se representa por fri , aunque algunos autores la
representan con h i o n i .
fi
N
fr 1
i 1
La frecuencia relativa
porcentajes: pi 100 fri
tambin
se
puede
expresar
en
forma
de
Frecuencia acumulada
Definicin La frecuencia acumulada es la suma de las frecuencias
absolutas de todos los valores inferiores o iguales al valor
considerado. Se representa por Fi .
k
Frecuencia
absoluta
Frecuencia
relativa
x1
f1
fr 1
x2
f2
fr 2
fk
fr k
f1
N
f2
N
Porcentajes
Frecuencias
acumuladas
p1 100 fr1
F1 f1
p2 100 fr2
F2 f1 f 2
pk 100 frk
Fk f1 f 2 ... f k
xk
TOTAL
N=
f
i 1
fr
fk
N
1
p
i 1
i 1
100
Frecuencia
relativa
9 / 100 0,09
25 / 100 0,25
27 / 100 0,27
16 / 100 0,16
12 / 100 0,12
8 / 100 0,08
3 / 100 0,03
Porcentajes
12
13
14
15
16
17
18
Frecuencia
absoluta
9
25
27
16
12
8
3
TOTAL
N=100
100
9%
25%
27%
16%
12%
8%
3%
Frecuencias
acumuladas
9
34
61
77
89
97
100
xi
ai 1 ai
2
35,2
40,8
48,3
52,8
55,6
59,0
63,2
69,6
36,1
40,9
48,7
52,9
55,8
59,3
63,8
70,1
37,0
41,1
49,0
53,0
55,8
59,3
64,6
70,3
37,9
45,0
49,1
53,3
55,8
60,1
65,0
72,5
38,5
45,2
49,1
53,5
56,0
60,4
65,0
72,5
38,5
46,0
49,2
54,0
56,2
60,5
65,0
73,0
39,1
47,3
50,3
54,2
56,4
60,5
65,5
79,0
39,6
47,7
50,5
54,9
57,4
60,7
65,6
80,4
40,0
47,8
50,5
55,1
58,1
62,5
65,7
80,7
40,4 40,4
48,0 48,2
50,6 50,9
55,3 55,3
58,0 58,9
62,7 63,0
65,8 68,2
85,8 108,4
Marca de
clase
35
45
55
65
75
85
95
105
Frecuencia
absoluta
9
22
33
22
6
3
0
1
Frecuencia
relativa
9 / 96 0,09
22 / 96 0,23
33 / 96 0,34
22 / 96 0,23
6 / 96 0,06
3 / 96 0,03
0 / 96 0
1 / 96 0,01
TOTAL
N=96
Porcentajes
9%
23%
34%
23%
6%
3%
0%
1%
Frecuencias
acumuladas
9
31
64
86
92
95
95
96
100
4. Representacin grfica
Los grficos muestran visualmente y de forma rpida la distribucin de los
datos y sus principales caractersticas, constituyen un importante
complemento en la presentacin de la informacin.
Podemos emplear distintos grficos estadsticos segn el tipo de variable
que representan, por el tipo de informacin que ofrece, o por el nfasis
que quiera poner el informador en los datos. Los ms habituales son los
siguientes: Diagrama de barras, Histograma, Polgono de frecuencias,
Diagrama lineal, Diagrama de sectores, Pictograma y Cartograma. Se
describen a continuacin cada uno de ellos:
11
B: mantenimiento
C: msica
D: cine
E: lectura
F: otros
AC
CE
AC
DE
AB
DEF
AF
BCE
CDF
AF
ACEF
ACD
ABCF
BDE
ADF
CF
ACF
AF
ACE
ABF
ACF
ACD
BE
CD
AB
ABCDEF
BC
ADF
ABCDEF
ADE
ABD
DE
AF
AC
CEF
ACF
ACF
BCF
AF
BF
AF
EF
DE
AC
ACE
DEF
AB
DF
ACF
AF
CEF
EF
ABF
CE
ACF
AF
CE
BEF
ACF
ACDF
CD
CDE
AEF
ACDE
ABCDEF
AC
CF
BCE
BDF
AC
AC
ACD
CF
CF
CEF
ACF
EF
CD
12
Frecuencia
absoluta
9
25
27
16
12
8
3
N=100
Su representacin
mediante un diagrama
de barras es
13
Deportes
Mantenimiento
Msica
Cine
Lectura
Otros
Frecuencia
absoluta
51
8
17
10
6
5
TOTAL
N=97
Valores
Frecuencia
relativa
0,5258
0,0825
0,1753
0,1031
0,0691
0,0515
1
Porcentaje
52,58%
8,25%
17,53%
10,31%
6,19%
5,15%
100 %
i 360 fri
Valores
Frecuencia
absoluta
Frecuencia
relativa
Deportes
51
0,5258
Mantenimiento
0,0825
Msica
17
0,1753
Cine
10
0,1031
Lectura
0,0691
Otros
0,0515
ngulo correspondiente
14
4.3. Histograma
Es un grfico similar a los diagramas de barras y se utilizan para
representar distribuciones de variables cuantitativas continuas, es decir,
agrupadas en intervalos. Consiste en dibujar rectngulos adosados, cuyas
bases coinciden con la amplitud de los intervalos y sobre cada uno de
estos intervalos se levanta un rectngulo de rea igual o proporcional, a la
frecuencia del mismo, que en principio puede ser absoluta o relativa.
Para determinar la altura hi del rectngulo correspondiente al intervalo
[ai 1 , ai ) de amplitud c i , para que su rea coincida con las frecuencias
absolutas ser tal que:
f i ci hi despejando obtenemos la expresin para el clculo de las
alturas
hi
fi
, i 1,....k
ci
15
Ejemplo.
Con los datos del peso y la altura de los alumnos hemos calculado el IMC (ndice
de Masa Corporal) que estn reflejados en la siguiente tabla de frecuencias:
Valores
[14.5, 16)
[16, 18.5)
[18.5, 25)
[25, 30)
[30, 30.5)
Frecuencia
absoluta
4
22
61
5
1
N=93
Si los intervalos tuvieran igual amplitud podras dibujar los rectngulos del
histograma con la altura igual a la frecuencia absoluta, pero al no ser igual
tenemos que calcular la altura de cada rectngulo para que tengan la superficie
proporcional a la frecuencia.
Valores
Amplitud
Frecuencia
absoluta
[14.5, 16)
1.5
[16, 18.5)
2.5
22
[18.5, 25)
6.5
61
[25, 30)
[30, 30.5)
0.5
Altura
4
2.67
1.5
22
h2
8.8
2.5
61
h3
9.4
6.5
5
h4 1
5
1
h2
2
0.5
h1
N=93
16
12
13
14
15
16
17
18
Frecuencia
absoluta
9
25
27
16
12
8
3
TOTAL
N=100
Valores
13
14
15
17
16
17
18
Frecuencia
absoluta
2
16
25
34
13
3
4
Frecuencia
relativa
0,0206
0,1649
0,2577
0,3505
0,1340
0,0309
0,0412
N=97
N=1
Porcentajes
2,06%
16,49%
25,77%
35,05%
13,40%
3,09%
4,12%
N=100
18
Frecuencia
absoluta
4
28
21
15
9
5
N=82
19
Nmero de alumnos
30
25
20
15
10
5
0
[0,4)
[4,8)
[8,12)
[12,16)
[16,20)
[20,24)
Horas de televisin
CARTOGRAMA
Es un grfico que se utiliza cuando nos interesa conocer la distribucin
geogrfica de una variable, por ello se construye sobre un mapa en el que
las zonas aparecen coloreadas segn los valores de la variable que se est
estudiando. Va acompaado de una leyenda en la que, por colores, se
indica la interpretacin.
Ejemplo.
La siguiente tabla muestra la distribucin de habitantes de Gran Canaria
por municipios. Le acompaa un cartograma que refleja los datos.
Siempre debes consultar la leyenda que acompaa al grfico para su
correcta interpretacin.
20
5. Medidas estadsticas
Las medidas estadsticas o parmetros estadsticos son valores
representativos de una coleccin de datos y que resumen en unos pocos
valores la informacin del total de datos. Estas medidas estadsticas nos
darn informacin sobre la situacin, dispersin y otros patrones de
comportamiento de los datos, de manera que sea posible captar
rpidamente la estructura de los mismos y tambin la comparacin entre
distintos conjuntos de datos. Las ms importantes son: las de tendencia
central o centralizacin, que indican el valor medio de los datos, las de
dispersin que miden la variabilidad de los datos respecto a los
parmetros de centralizacin y las de forma: simetra y apuntamiento,
que nos indican la forma de distribucin de los datos.
Estas medidas sern ms significativas cuanto ms homogneos sean los
datos y pueden ser engaosas cuando mezclamos poblaciones distintas.
Media ( x )
X
i 1
21
xi f i xi f i
f i
N
Para datos agrupados el valor de x i ser el de la marca de clase.
x
xi f i
xi f i
12
13
14
15
16
17
18
Frecuencia
absoluta
9
25
27
16
12
8
3
TOTAL
N=100
1433
Valores
xi f i 1433
14,33
f i
100
108
325
378
240
192
136
54
Caractersticas de la media:
- La media aritmtica slo se puede calcular para variables
numricas.
- Un conjunto de datos numricos slo tiene una media.
- La media es un parmetro sensible a la presencia de valores muy
separados del resto de datos.
Por ejemplo, la serie de valores, 1, 1, 2, 3, 3, 5, 7, 8, 8, 50
posee un valor extremo que es el 50. La media aritmtica
calculada con los 9 primeros valores es 4.2, lo que constituye un
valor central razonable. Por el contrario, si se considera tambin
el ltimo valor, la media aritmtica resulta ser 8.8, que es un
valor muy poco indicativo del conjunto pues est muy influido por
ese valor extremo.
Moda (Mo)
22
Deportes
Mantenimiento
Msica
Cine
Lectura
Otros
Frecuencia
absoluta
51
8
17
10
6
5
TOTAL
N=97
Valores
Mo= Deportes
Bimodal
Unimodal
26
23
20
17
14
11
8
5
Amodal
23
D1
) ci
D1 D2
Donde:
Li 1 = Lmite inferior de la clase modal.
D1 hi hi 1
D2 hi hi 1
hi
fi
ci
respectivamente.
En el caso de trabajar con intervalos de igual amplitud se puede trabajar
directamente con las frecuencias absolutas.
Ejemplo. Para datos agrupados
Vamos a calcular la moda del nmero de horas semanales que pasan los
alumnos del centro anterior viendo la televisin
Valores
[0,4)
[4,8)
[8,12)
[12,16)
[16,20)
[20,24)
TOTAL
Frecuencia
absoluta
4
28
21
15
9
5
N=82
24
Frecuencia
acumulada
4
32
53
68
77
82
D1 f i f i 1 =28-4=24
D2 f i f i 1 =28-21=7
ci = amplitud del intervalo=4
Mo 4
24
4 7.096
24 7
Caractersticas de la moda:
- La moda es de fcil interpretacin.
-
Mediana (Me)
25
Frecuencia
absoluta
4
28
21
15
9
5
Frecuencia
acumulada
4
32
53
68
77
82
N=82
82
41 . La primera frecuencia acumulada que supera N/2 es 53, por tanto la
2
Me 8
41 32
4 9.71
21
Caractersticas de la mediana:
- La mediana es sencilla de calcular y de interpretar.
- Por depender de los valores a travs de su orden, la mediana no
vara demasiado por los valores extremos, por ello, si nuestros
datos contienen valores de este tipo, ser preferible usar la
mediana en vez de la media aritmtica como medida central.
26
Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto
de datos ordenados en cuatro partes iguales. Q1 , Q2 y Q3 determinan los
valores correspondientes al 25%, 50% y 75% de los datos. Q 2 coincide
con la mediana.
Si tenemos n datos, para hallar el primer cuartil, se ordenan los valores
de menor a mayor y a continuacin se busca en dicha serie ordenada el
primer valor cuyo orden de lugar supere n/4.
27
Puede ocurrir que el valor coincida exactamente con n/4 (sucede cuando n
es mltiplo de 4), en tal caso, el primer cuartil se obtiene tomando dicha
observacin y la siguiente, y calculando su media aritmtica, tal y como
hacamos para la mediana. Veamos el siguiente ejemplo.
Ejemplo. Variable discreta
Vamos a calcular el primer y tercer cuartil de la distribucin de las edades de los
alumnos del centro
Valores
12
13
14
15
16
17
18
Frecuencia
absoluta
9
25
27
16
12
8
3
TOTAL
N=100
Frecuencias
acumuladas
9
34
61
77
89
97
100
Q1 N/4=25 buscamos aquel valor que su frecuencia acumulada sea mayor que
25, en este caso Q1 =13, es decir el 25% de los datos estn por debajo de esa
cantidad.
Q3 3N/4=75 buscamos aqul valor que su frecuencia acumulada sea mayor
que 75, en este caso Q3 =15, es decir el 75% de los datos estn por debajo de
esa cantidad.
28
Percentiles
Frecuencia
absoluta
4
28
21
15
9
5
Frecuencia
acumulada
4
32
53
68
77
82
Porcentajes
acumulados
4,87%
39,02%
64,63%
82,93%
93,90%
100%
N=82
82
25 20,50
100
.
La primera frecuencia porcentual que supera 25N/100 es 39,02%, por tanto la
clase del percentil 25 es el intervalo [4,8). Para calcular el valor aplicamos la
frmula:
N
K Fi 1
100
Pk Li 1
ci
fi
P25 4
20,50 4,87
4 6,23
28
29
Rango (R).
xi x f i
s
N
2
12
13
14
15
16
17
18
Frecuencia
absoluta
9
25
27
16
12
8
3
TOTAL
N=100
Valores
xi2
xi2 f i
144
169
196
225
256
289
324
1296
4225
5292
3600
3072
2312
972
1603
20769
20769
14,332 1,53
100
Y vemos que las edades difieren de la media en un ao y medio por encima y por
debajo. Teniendo en cuenta que el rango de edades es de 6 aos, los datos
presentan poca dispersin, aunque la conclusin de mucha o poca depende del
contexto del problema y de la comparacin con otras poblaciones o muestras.
s
.100
x
El coeficiente de variacin permitir comparar las dispersiones de dos
distribuciones distintas, siempre que sus medias sean positivas.
El coeficiente de variacin se suele expresar en porcentajes. C.V .
Ejemplo.
Una distribucin tiene x1 140 y s1 28,28 , y otra tiene x2 150 y s 2 24 . Cul
de las dos presenta mayor dispersin o es ms heterognea?
CV1
s
28,28
.100
.100 20,2%
x
140
CV2
s
24
.100
.100 16%
x
150
Puntuaciones tpicas.
z1
70 58,2
3,81
3,1
z2
65 52,4
2,47
5,1
Podemos decir que Jos es ms grueso con respecto a su grupo que Ana con
respecto al suyo.
32
6. Nmeros ndice
El nmero ndice es una medida que muestra los cambios de una variable
en funcin del tiempo, como por ejemplo el IPC (ndice de precios de
consumo), que mide la evolucin de los precios a lo largo de los meses o
aos. Es una medida relativa a un valor llamado base, y suele venir
expresada en porcentajes.
A los efectos de la elaboracin de un determinado ndice se debe tomar
como referencia un determinado perodo, el cual se le denomina perodo
base, con el que vamos a hacer la comparacin.
Un ndice se calcula dividiendo el precio, la cantidad, o el valor de un
momento determinado de un bien sobre el precio, la cantidad o el valor en
el momento base de ese bien multiplicado por 100.
Ejemplo. Nmeros ndices
Tomemos como ejemplo para la construccin de ndices la siguiente tabla que
muestra las exportaciones de bienes y servicios de un determinado pas.
Perodo
Cantidad
($ miles de
millones)
1988
34,4
1998
50,2
2007
50,9
2008
53,1
100
ndice
Aplicando este clculo obtenemos para 1998 un ndice de
indice
valor a calcular
50,2
100
100 145,93
valor base
34,4
33
Perodo
Cantidad
1988
34,4
1998
50,2
2007
50,9
2008
53,1
ndice
Variacin
100
145,93
45,93
147,97
47,97
154,36
54,36
Bibliografa:
Daniel Pea (1991). Estadstica Modelos y mtodos 1. Fundamentos. Ed.
Alianza Universidad Textos.
David Ruiz Muoz. Manual de Estadstica. Universidad Pablo de Olavide.
Martin Guzmn Conejo, M. P. (2006): Manual de estadistica descriptiva.
Madrid, Civitas
Fernndez, S.; Cordero, J. M.; Crdoba, A. (1996) Estadstica Descriptiva.
ESIC Editorial,
Fernando Garca y Fernando Garzo; Estadstica; Editorial McGraw-Hill;
Madrid
34
ANEXO
Estadstica a travs GeoGebra
Aunque por ahora no es la parte ms fuerte de GeoGebra, la
ofrecemos como alternativa al uso de la hoja de clculo o de otras
aplicaciones disponibles en Internet.
Adems de los comandos y opciones que el programa ofrece,
siempre nos queda la posibilidad de trabajar con aplicacin Hoja de
clculo a la que accederemos a travs del men que aparecer al pulsar
sobre Vista.
35
necesarios
para
obtener,
entre
otras,
las
medidas
de
Estadstica unidimensional
Iniciamos el trabajo con la hoja de clculo de GeoGebra con
distintos ejemplos que permitirn conocer algunas de sus caractersticas y
la forma de trabajar un conjunto de datos correspondientes a una variable
estadstica unidimensional para representarlos y calcular sus parmetros.
Proponemos la realizacin del siguiente ejemplo para acercar el
proceso que se realiza habitualmente en el aula, con lo que sera necesario
realizar utilizando una hoja de clculo.
Ejemplo 1
Se ha realizado la siguiente observacin de las notas correspondientes
a una determinada prueba
siguientes:
4
10
36
NOTA
N ALUM.
10
37
38
39
40
41
42
43
44
Ejemplo 2
Repetimos el estudio para los mismos datos del ejemplo anterior.
Se ha realizado la siguiente observacin de las notas correspondientes a
una determinada prueba
siguientes:
4
10
45
46
fi
47
frecuencias absolutas, sumando los valores obtenidos que habr que dividir
por el total de datos, como expondremos en el ejemplo siguiente:
Ejemplo 3
Calcular la nota media aritmtica de los datos correspondientes a las
notas de la prueba escrita realizada en el ejemplo 1.
Vamos a utilizar la hoja de clculo para completar nuevas columnas
que nos permitan calcular los valores que buscamos.
Recuperamos los datos del ejemplo 1 que corresponden a la tabla
siguiente:
NOTA
N ALUM.
10
48
49
50
Por
ejemplo,
51
52
(x
x)2 fi
2
i
fi
x2
Por lo que necesitamos una nueva columna con los valores de los
cuadrados de la variable estadstica (columna A) por sus correspondientes
frecuencias absolutas (columna B).
53
54
.
Bastar con ampliar el nmero de cifras decimales para obtener una
mejor aproximacin de la varianza, aunque debemos indicar que para
prximos clculos en los que necesite un valor de una celda la hoja utilizar
el valor exacto con el que la hoja lo representa de manera interna.
55
56
Ejemplo 4
El nmero de faltas de ortografa que ha cometido un grupo de
estudiantes en un texto ha sido:
0
57
58
Anlisis
Actividades propuestas
1. La siguiente tabla representa las puntuaciones obtenidas en una
prueba por los estudiantes de dos grupos de una misma escuela.
59
Qu
grupo
Puntuacin
Grupo A
Grupo B
de
alumnos
consideras
que
ha
obtenido
mejores
60