Sei sulla pagina 1di 60

Centro de Altos Estudios Universitarios de la OEI

Curso Iberoamericano
de formacin permanente
de profesores de matemtica

Tema 21: Estadstica descriptiva I

Estadstica Descriptiva
Introduccin
Conceptos bsicos: Poblacin. Muestra. Mtodos estadsticos
Variables estadsticas: Tipos. Escalas de medicin
Tablas de frecuencias
Representacin grfica
Medidas estadsticas: tendencia central, posicin y dispersin
Nmeros ndice
Anexo: estadstica a travs de GeoGebra

Introduccin
El pensamiento estadstico ser un da tan necesario para el ciudadano eficiente como la capacidad de
leer y escribir
H. G. Wells
La estadstica actual es el resultado de la unin de dos disciplinas que evolucionan
independientemente hasta confluir en el siglo XIX: la primera es el clculo de probabilidades, que
nace en el siglo XVII como teora matemtica de los juegos de azar; la segunda es la Estadstica
(o ciencia del Estado, del latn Status) que estudia la descripcin de datos, y tiene unas races ms
antiguas. La integracin de ambas lneas de pensamiento da lugar a una ciencia que estudia cmo
obtener conclusiones de la investigacin emprica mediante el uso de modelos matemticos.
La estadstica acta como disciplina puente entre los modelos matemticos y los fenmenos reales
[] La Estadstica proporciona una metodologa para evaluar y juzgar estas discrepancias entre la
realidad y la teora.
Extrado de Estadstica Modelos y mtodos Daniel Pea

El trmino estadstica se asocia al trmino del latn statisticum que


significa Estado y de su derivado italiano statista hombre de estado, y
parte de su origen es ese, pero fue Gottfried Achenwall (1749) quien
primero denominaba con la palabra alemana, Statistik, el anlisis
de datos del Estado, y no fue hasta el siglo XIX cuando el trmino
estadstica adquiri el significado de recolectar y clasificar datos. Este
concepto fue introducido por el ingls John Sinclair.
Aunque el trmino es relativamente reciente, los comienzos de los
procedimientos estadsticos son mucho ms antiguos.
En el antiguo Egipto los faraones lograron recopilar, hacia el ao 3050
antes de Cristo, datos relativos a la poblacin y la riqueza del pas. De
acuerdo al historiador griego Herdoto, dicho registro de riqueza y
poblacin se hizo con el objetivo de preparar la construccin de las
pirmides.

En el antiguo Israel, la Biblia da referencias, en el libro de los Nmeros, de


los datos estadsticos obtenidos en dos recuentos de la poblacin hebrea.
El rey David por otra parte, orden a Joab, general del ejrcito hacer un
censo de Israel con la finalidad de conocer el nmero de la poblacin.
Tambin los chinos efectuaron censos hace ms de cuarenta siglos. Los
griegos efectuaron censos peridicamente con fines tributarios, sociales
(divisin de tierras) y militares (clculo de recursos y hombres
disponibles). Pero fueron los romanos quienes mejor supieron emplear los
recursos de la estadstica. Cada cinco aos realizaban un censo de la
poblacin y sus funcionarios pblicos tenan la obligacin de anotar
nacimientos, defunciones y matrimonios, sin olvidar los recuentos
peridicos del ganado y de las riquezas contenidas en las tierras
conquistadas.
En un segundo perodo, la estadstica, sin abandonar su tarea
recopilatoria, empieza su avance tanto el terreno de la aplicacin del
mtodo cientfico a la recogida de datos, como tambin en el campo del
anlisis e interpretacin de los mismos. En Inglaterra, durante el siglo
XVII, se inicia y desarrolla lo que vino en llamarse Aritmtica Poltica. As,
en 1662 el londinense John Graunt 1620-1674), public su libro Natural
and Political Observations made upon the Bills of Mortality. En esta obra
se lleva a cabo el primer intento de interpretar fenmenos biolgicos y
sociales de la poblacin a partir de datos numricos. En su libro, Graunt
pone de manifiesto las cifras brutas de nacimientos y defunciones en
Londres durante el perodo comprendido entre 1604 y 1661, as como la
influencia ejercida en dichos fenmenos por causas naturales y sociales.
Hoy en da el uso de la estadstica se ha extendido ms all de sus
orgenes como un servicio al Estado, y las personas y organizaciones la
usan para entender datos y tomar decisiones en prcticamente todos los
campos sociales y cientficos.

1. Conceptos bsicos
La estadstica hoy en da es considerada como una rama de las
Matemticas que se encarga de la recopilacin e interpretacin de datos
obtenidos mediante un estudio. La estadstica, tal y como hemos visto en
la introduccin, permite tomar decisiones en el mbito gubernamental,
pero tambin en el mundo econmico, cientfico y hasta personal.
Definicin Se denomina estadstica al conjunto de procedimientos y
tcnicas empleadas para recolectar, organizar y analizar
datos, los cuales sirven de base para tomar decisiones en las
situaciones de incertidumbre que plantean las ciencias
sociales o naturales.

La estadstica se divide en dos ramas: la estadstica descriptiva y la


inferencia estadstica.
La estadstica descriptiva se refiere a la recoleccin, presentacin,
descripcin, anlisis e interpretacin de una coleccin de datos.
Esencialmente consiste en resumir stos mediante unos parmetros
(medidas descriptivas) que caracterizan la totalidad de los mismos. La
estadstica Descriptiva es el mtodo de obtener de un conjunto de datos
conclusiones sobre s mismos y no sobrepasan el conocimiento
proporcionado por stos.
Estadstica Inferencial se refiere al proceso de lograr generalizaciones
acerca de las propiedades del todo, poblacin, partiendo de lo especfico,
muestra. La estadstica inferencial es el conjunto de tcnicas que se utiliza
para obtener conclusiones que sobrepasan los lmites del conocimiento
aportado por los datos, busca obtener informacin de un colectivo
mediante un metdico procedimiento del manejo de datos de la muestra.
Los mtodos estadsticos-matemticos surgieron desde la teora de la
probabilidad.
Antes de continuar es conveniente que conozcamos algunos trminos
bsicos usados en estadstica.

Definicin Al conjunto de elementos, objetivo de la investigacin se le


denomina poblacin.
Individuo o Unidad estadstica: Cada uno de los elementos de la
poblacin.
Definicin Se denomina muestra a un subconjunto de la poblacin.

La estadstica inferencial, es el proceso por el cual se deducen (infieren)


propiedades o caractersticas de una poblacin a partir de una muestra,
extrada de la poblacin mediante mtodos de extraccin de muestras.
Estas tcnicas se utilizan cuando el estudio de la poblacin completa
puede ser de elevado coste o incluso imposible. Desde el punto de vista
de las tcnicas desarrolladas por la estadstica inferencial, la muestra debe
ser lo ms representativa posible.
Definicin La observacin de un individuo se traduce en la descripcin
de alguna cualidad o propiedad inherente al mismo. A esta
cualidad o propiedad se le denomina caracterstica.

Una caracterstica puede adoptar diferentes modalidades.


Modalidad: Diferentes posibilidades o variantes de una caracterstica.
Ejemplo.
Poblacin: alumnos de un centro
Caractersticas: sexo, edad, curso, nmero de hermanos, deporte que practican,
notas
Modalidades:
Sexo: hombre, mujer.
Edad: 1, 2, 3
Curso: primero, segundo, tercero, cuarto
Nmero de hermanos: 0,1,2,3...
Deporte que practica: natacin, baloncesto, ftbol, gimnasia
Notas: aprobado, complementario o bien 1, 2, 3

2. Variables estadsticas
Definicin La variable estadstica es el conjunto de valores,
numricos o no, observados sobre un conjunto de individuos,
a partir de una determinada caracterstica.

Las variables pueden ser de dos tipos:

2.1. Tipos de variables


Variables cualitativas o atributos: no se pueden medir
numricamente (por ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numrico (edad, precio de
un producto, ingresos anuales).
Las variables tambin se pueden clasificar en:
Variables unidimensionales: slo recogen informacin sobre una
caracterstica (por ejemplo: edad de los alumnos de una clase).
Variables bidimensionales: recogen informacin sobre dos
caractersticas de la poblacin (por ejemplo: edad y altura de los
alumnos de una clase).

Variables pluridimensionales: recogen informacin sobre tres o


ms caractersticas (por ejemplo: edad, altura y peso de los
alumnos de una clase).
Por su parte, las variables cuantitativas se pueden clasificar en discretas y
continuas:
Discretas: son aquellas que toman valores que se pueden contar y slo
toman valores aislados (1, 2, 8, -4, etc.). Por ejemplo: nmero de
hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podr ser
3,45).
Continuas: son aquellos valores que se pueden medir y pueden tomar
cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de
un vehculo puede ser 80,3 km/h, 94,57 km/h, etc.

2.2. Escalas de medicin


Cuando las variables son cuantitativas, sus diferentes modalidades son
cantidades numricas, como acabamos de ver. Pero tambin es posible
asignar cantidades numricas a las diferentes modalidades que presenta
un carcter cualitativo, es decir, codificar numricamente las diferentes
modalidades de un atributo.
Ejemplo.
1) Sexo: Hombre=0, Mujer=1
2) Gafas: No gafas=0, S gafas=1
3) Nivel de estudios:
1=
2=
4=
5=
6=
7=

Analfabeto
Sin estudios, pero sabe leer y escribir
Fue a la escuela pero no complet la Educacin bsica
Educacin bsica
Educacin media
Educacin superior

As, una variable estadstica presentar una serie de valores numricos,


cuyo significado depender de la escala que se haya empleado.
Para las variables cualitativas podemos distinguir dos tipos de escala:
Escala nominal: Dadas dos modalidades, slo podemos comprobar si son
iguales o distintas.
Ejemplo.
1) Sexo: Hombre=0, Mujer=1
2) Gafas: No gafas=0, S gafas=1

Escala ordinal: Adems de poder comprobar que dos modalidades dadas


son iguales o distintas tambin podremos establecer una relacin de
orden:
Ejemplo.
3) Nivel de estudios:
1=
2=
4=
5=
6=
7=

Analfabeto
Sin estudios, pero sabe leer y escribir
Fue a la escuela pero no complet la Educacin bsica
Educacin bsica
Educacin media
Educacin superior

3. Tablas de frecuencias
Cuando sobre una poblacin hemos realizado una encuesta o cualquier
registro para conocer los valores que toman las variables, nos
encontramos ante una gran cantidad de datos que debemos organizar. La
mejor forma de organizar esta informacin es mediante tablas que
llamaremos tablas de frecuencias.
Definicin La tabla de frecuencias es una ordenacin, en forma de
tabla, de los datos estadsticos, asignando a cada dato
su frecuencia correspondiente.

3.1. Tipos de frecuencias


Frecuencia absoluta
Definicin La frecuencia absoluta es el nmero de veces que
aparece un determinado valor en un estudio estadstico. Se
representa por f i .
Supongamos una variable estadstica X , constituida por N valores,
X 1 , X 2 , X 3 ..., X N procedentes de la observacin de una determinada
caracterstica sobre una poblacin o muestra compuesta por N individuos.
Y supondremos que toma k valores distintos que denotamos por
x1 , x2 , x3 ..., xk (con mayscula todos los datos de la poblacin y con
minscula los que son distintos y forman las modalidades o valores de la
variable).

La frecuencia absoluta f i es el nmero de veces que se repite el valor x i .


Estas frecuencias se disponen en forma de tabla, con la siguiente
estructura.
Valores Frecuencia
absoluta

x1
x2

f1
f2

xk

fk

TOTAL

N=

La suma de las frecuencias absolutas es igual al nmero total de


datos, que se representa por N.
f1 f 2 f 3 ... f k N

Para indicar de manera resumida estas sumas se utiliza la letra


griega (sigma mayscula) que se lee suma o sumatoria.
k

f
i 1

Ejemplo. Para una variable discreta


A 100 alumnos de un colegio se les pregunta la edad, obteniendo los siguientes
valores:
12 13 12 12 13 14 13 13 13 12 13 14 13 15 14 13 13 13 14 14
14 15 12 15 14 15 15 16 14 16 12 14 14 14 18 15 16 16 13 15
16 14 15 17 15 16 18 16 16 16 12 14 13 13 16 13 12 13 13 13
14 15 15 13 14 17 17 13 14 14 14 14 17 15 13 14 13 14 15 17
13 14 13 14 14 14 16 17 14 14 15 15 18 13 16 15 13 12 17 17

Vamos a indicar en la columna valores los valores distintos que toma la


variable, y en la columna Frecuencia absoluta el nmero de veces que se
repite cada uno de ellos.
Valores
12
13
14
15
16
17
18

Frecuencia
absoluta
9
25
27
16
12
8
3
N=100

TOTAL

Frecuencia relativa
Definicin La frecuencia relativa es el cociente entre la frecuencia
absoluta de un determinado valor y el nmero total de
datos. Se representa por fri , aunque algunos autores la
representan con h i o n i .
fi
N

La expresin para calcular la frecuencia relativa es: fri


La suma de las frecuencias relativas es igual a 1.

fr 1
i 1

La frecuencia relativa
porcentajes: pi 100 fri

tambin

se

puede

expresar

en

forma

de

Frecuencia acumulada
Definicin La frecuencia acumulada es la suma de las frecuencias
absolutas de todos los valores inferiores o iguales al valor
considerado. Se representa por Fi .
k

As, la frecuencia acumulada viene dada por la expresin: Fk f i


i 1

F1 f1 ; F2 f1 f 2 y sucesivamente hasta llegar a Fk f1 f 2 ... f k


Por tanto, la frecuencia acumulada del ltimo dato, ser siempre igual
al nmero total de datos, Fn N
Si completamos la tabla anterior con todas estas frecuencias, la tabla
quedara as:
Valores

Frecuencia
absoluta

Frecuencia
relativa

x1

f1

fr 1

x2

f2

fr 2

fk

fr k

f1
N
f2
N

Porcentajes

Frecuencias
acumuladas

p1 100 fr1

F1 f1

p2 100 fr2

F2 f1 f 2

pk 100 frk

Fk f1 f 2 ... f k

xk
TOTAL

N=

f
i 1

fr

fk
N
1

p
i 1

i 1

100

Ejemplo. Para una variable discreta


Completamos la tabla de frecuencias del ejemplo anterior correspondiente al
recuento de las edades de los 100 alumnos de un centro con los valores de las
frecuencias relativas, porcentuales y acumuladas.
Vamos a hacer el recuento de los datos y presentarlos en una tabla de
frecuencias:
Valores

Frecuencia
relativa
9 / 100 0,09
25 / 100 0,25
27 / 100 0,27
16 / 100 0,16
12 / 100 0,12
8 / 100 0,08
3 / 100 0,03

Porcentajes

12
13
14
15
16
17
18

Frecuencia
absoluta
9
25
27
16
12
8
3

TOTAL

N=100

100

9%
25%
27%
16%
12%
8%
3%

Frecuencias
acumuladas
9
34
61
77
89
97
100

3.2. Agrupacin en intervalos.


Cuando tenemos una variable que presenta una gran cantidad de datos
agrupamos los valores en intervalos para realizar el recuento ms
fcilmente, convirtiendo as la variable en una variable continua. Los
valores se agrupan usualmente en intervalos de la forma [a, b).
Para establecer el nmero adecuado de intervalos hay varios mtodos
entre los que destacan: la frmula de Sturges y la raz del nmero de
datos.

Nmero de intervalos k N , donde N es el nmero total de datos.

Frmula de Sturges: nmero de intervalos k 1 3,3 log N , donde N


es el nmero total de datos.

Para poca cantidad de datos, aproximadamente menos de 50, la raz


cuadrada es sencilla de calcular haciendo uso de la calculadora, pero
cuando este valor es grande el nmero de intervalos tambin aumenta.
Cuando ya hemos determinado el nmero de intervalos los construimos.
Generalmente los intervalos sern de la forma [ai1, ai) y, para construir la
tabla de frecuencias, a cada uno de ellos se le asocia un valor
representativo, denominado marca de clase, que se denota x i , y que
usualmente es el punto medio del intervalo, es decir:
10

xi

ai 1 ai
2

Ejemplo. Para una variable continua


A los 100 alumnos del colegio anterior tambin se les pregunta el peso,
obteniendo las siguientes respuesta en 96 casos (4 no respondieron):
34,5
40,5
48,3
52,3
55,4
58,9
63,1
68,4

35,2
40,8
48,3
52,8
55,6
59,0
63,2
69,6

36,1
40,9
48,7
52,9
55,8
59,3
63,8
70,1

37,0
41,1
49,0
53,0
55,8
59,3
64,6
70,3

37,9
45,0
49,1
53,3
55,8
60,1
65,0
72,5

38,5
45,2
49,1
53,5
56,0
60,4
65,0
72,5

38,5
46,0
49,2
54,0
56,2
60,5
65,0
73,0

39,1
47,3
50,3
54,2
56,4
60,5
65,5
79,0

39,6
47,7
50,5
54,9
57,4
60,7
65,6
80,4

40,0
47,8
50,5
55,1
58,1
62,5
65,7
80,7

40,4 40,4
48,0 48,2
50,6 50,9
55,3 55,3
58,0 58,9
62,7 63,0
65,8 68,2
85,8 108,4

Vamos a calcular el nmero de intervalos aplicando la frmula de Sturges:

k 1 3,3 log 96 7,541 8 intervalos


mayor valor-menor valor=108,4 34,5 = 73,9
73,9/8=9,24 10 amplitud de los intervalos
Valores
[30, 40)
[40, 50)
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)

Marca de
clase
35
45
55
65
75
85
95
105

Frecuencia
absoluta
9
22
33
22
6
3
0
1

Frecuencia
relativa
9 / 96 0,09
22 / 96 0,23
33 / 96 0,34
22 / 96 0,23
6 / 96 0,06
3 / 96 0,03
0 / 96 0
1 / 96 0,01

TOTAL

N=96

Porcentajes
9%
23%
34%
23%
6%
3%
0%
1%

Frecuencias
acumuladas
9
31
64
86
92
95
95
96

100

4. Representacin grfica
Los grficos muestran visualmente y de forma rpida la distribucin de los
datos y sus principales caractersticas, constituyen un importante
complemento en la presentacin de la informacin.
Podemos emplear distintos grficos estadsticos segn el tipo de variable
que representan, por el tipo de informacin que ofrece, o por el nfasis
que quiera poner el informador en los datos. Los ms habituales son los
siguientes: Diagrama de barras, Histograma, Polgono de frecuencias,
Diagrama lineal, Diagrama de sectores, Pictograma y Cartograma. Se
describen a continuacin cada uno de ellos:

11

4.1. Diagrama de barras


Para representar datos de variables cualitativas y cuantitativas discretas,
y en general para distribuciones de frecuencias de datos sin agrupar, se
utiliza el diagrama de barras. Este diagrama representa los valores de la
variable o las modalidades en el eje de abscisas levantando en cada punto
o modalidad, una barra de longitud proporcional a la frecuencia de ese
valor. El ancho de los rectngulos de las columnas ha de ser el mismo y
las divisiones de la escala, equitativas.
Es indiferente si se construyen con los valores de las frecuencias absolutas
o relativas, pero si los usamos para comparar datos de diferentes
conjuntos hay que utilizar las frecuencias relativas pues el total de datos
puede influir de manera indirecta en la representacin.
Ejemplo. Variable cualitativa
Preguntamos a los mismos alumnos del colegio por el empleo que hacen del
tiempo libre con las siguientes opciones:
A: deporte

B: mantenimiento

C: msica

D: cine

E: lectura

F: otros

obteniendo los siguientes datos que representamos debajo mediante un


diagrama de barras:
ACE

AC

CE

AC

DE

AB

DEF

AF

BCE

CDF

AF

ACEF

ACD

ABCF

BDE

ADF

CF

ACF

AF

ACE

ABF

ACF

ACD

BE

CD

AB

ABCDEF

BC

ADF

ABCDEF

ADE

ABD

DE

AF

AC

CEF

ACF

ACF

BCF

AF

BF

AF

EF

DE

AC

ACE

DEF

AB

DF

ACF

AF

CEF

EF

ABF

CE

ACF

AF

CE

BEF

ACF

ACDF

CD

CDE

AEF

ACDE

ABCDEF

AC

CF

BCE

BDF

AC

AC

ACD

CF

CF

CEF

ACF

EF

CD

12

Al ser una pregunta de respuesta mltiple la suma de las frecuencias no da


como resultado el nmero total de datos.

Ejemplo. Variable cuantitativa discreta


Usamos los datos de la edad de los alumnos cuya tabla de frecuencias
construimos anteriormente y que reflejaba los siguientes datos:
Valores
12
13
14
15
16
17
18
TOTAL

Frecuencia
absoluta
9
25
27
16
12
8
3
N=100

Su representacin
mediante un diagrama
de barras es

4.2. Diagrama de sectores


El diagrama de sectores consiste en dividir un crculo en tantas porciones
como clases existan, de modo que a cada clase le corresponde un sector

13

circular proporcional a su frecuencia absoluta o relativa. Se utiliza para


cualquier tipo de variable, especialmente cuando las frecuencias estn
expresadas en porcentajes. Siempre va acompaado de una leyenda.
Para calcular la amplitud de los sectores supongamos que a la modalidad
x i le corresponde una amplitud de i grados. Como podemos emplear
frecuencias absolutas o relativas, empleamos las relativas, entonces se
tiene que: i c fri , siendo c la constante de proporcionalidad, por lo que:

360 i c fri c fri c 1 i 360 fri


i

Y de esta forma se calculan las correspondientes amplitudes de cada


modalidad, en grados sexagesimales.
Ejemplo. Variable cualitativa
Se le pide a los alumnos cul es la actividad preferida de entre sus actividades de
ocio, obteniendo los datos que vaciamos en la siguiente tabla de frecuencias:

Deportes
Mantenimiento
Msica
Cine
Lectura
Otros

Frecuencia
absoluta
51
8
17
10
6
5

TOTAL

N=97

Valores

Frecuencia
relativa
0,5258
0,0825
0,1753
0,1031
0,0691
0,0515
1

Porcentaje
52,58%
8,25%
17,53%
10,31%
6,19%
5,15%
100 %

Calculamos la amplitud de los sectores para cada uno de los valores de la


variable con sus frecuencias dadas en forma porcentual:

i 360 fri
Valores

Frecuencia
absoluta

Frecuencia
relativa

Deportes

51

0,5258

deportes 3600,5258 189,3

Mantenimiento

0,0825

Msica

17

0,1753

Cine

10

0,1031

Lectura

0,0691

Otros

0,0515

matenimiento 3600,0825 29,7


msica 3600,1753 63,1
cine 3600,1031 37,1
lectura 3600,0691 24,9
otros 3600,0515 18,5

ngulo correspondiente

Dividiendo la superficie circular en los sectores con la amplitud calculada


obtenemos el siguiente grfico circular.

14

4.3. Histograma
Es un grfico similar a los diagramas de barras y se utilizan para
representar distribuciones de variables cuantitativas continuas, es decir,
agrupadas en intervalos. Consiste en dibujar rectngulos adosados, cuyas
bases coinciden con la amplitud de los intervalos y sobre cada uno de
estos intervalos se levanta un rectngulo de rea igual o proporcional, a la
frecuencia del mismo, que en principio puede ser absoluta o relativa.
Para determinar la altura hi del rectngulo correspondiente al intervalo
[ai 1 , ai ) de amplitud c i , para que su rea coincida con las frecuencias
absolutas ser tal que:
f i ci hi despejando obtenemos la expresin para el clculo de las

alturas

hi

fi
, i 1,....k
ci

Observemos que en un histograma, cuanto mayor es la amplitud del


intervalo menor ser la altura del rectngulo, pues el elemento del grfico
representativo es la superficie. De esta manera podemos obtener grficos
pocos estticos, si fuera as, podemos usar alturas proporcionales que
produzcan grficos ms armoniosos.
En el caso particular de que todos los intervalos tuvieran la misma
amplitud, las alturas pueden tomar el valor de las frecuencias.

15

Ejemplo.
Con los datos del peso y la altura de los alumnos hemos calculado el IMC (ndice
de Masa Corporal) que estn reflejados en la siguiente tabla de frecuencias:
Valores
[14.5, 16)
[16, 18.5)
[18.5, 25)
[25, 30)
[30, 30.5)

Frecuencia
absoluta
4
22
61
5
1
N=93

Si los intervalos tuvieran igual amplitud podras dibujar los rectngulos del
histograma con la altura igual a la frecuencia absoluta, pero al no ser igual
tenemos que calcular la altura de cada rectngulo para que tengan la superficie
proporcional a la frecuencia.
Valores

Amplitud

Frecuencia
absoluta

[14.5, 16)

1.5

[16, 18.5)

2.5

22

[18.5, 25)

6.5

61

[25, 30)

[30, 30.5)

0.5

Altura

4
2.67
1.5
22
h2
8.8
2.5
61
h3
9.4
6.5
5
h4 1
5
1
h2
2
0.5

h1

N=93

Construyendo los rectngulos de base la amplitud de los intervalos y altura las


calculadas obtenemos el siguiente histograma en el que el rea de los
rectngulos que lo forman es igual a las frecuencias absolutas de cada uno:

16

4.4. Polgonos de frecuencias


Este diagrama consiste en una serie de segmentos de recta que unen los
puntos cuyas abscisas son los valores de la variable, o las marcas de
clase, en el caso de variables continuas, y cuyas ordenadas son
proporcionales a sus frecuencias respectivas. Este grfico se puede
construir tanto para variables no agrupadas como agrupadas en
intervalos, y tanto con frecuencias absolutas como relativas.
Muchas veces este tipo de grfico se superpone a un diagrama de barras o
a un histograma.
Variables no agrupadas
Un polgono de frecuencias se forma uniendo los extremos de
las barras de
un diagrama
de
barras mediante
segmentos.
Tambin se puede realizar trazando los puntos que representan
las frecuencias y unindolos mediante segmentos.
Variables agrupadas
En el caso de variables agrupadas en intervalos para construir
el polgono de frecuencia se toma la marca de clase que coincide
con el punto medio de cada rectngulo de un histograma.
Ejemplo. Variable discreta
Vamos a construir el polgono de frecuencias de la variable edad de los alumnos
sobre el diagrama de barras construido en un ejercicio anterior.

12
13
14
15
16
17
18

Frecuencia
absoluta
9
25
27
16
12
8
3

TOTAL

N=100

Valores

Edades de los alumnos


entrevistados
30
25
20
15
10
5
0
12

13

14

15

17

16

17

18

Ejemplo. Variable continua


Vamos a construir el polgono de frecuencias de la variable altura de los alumnos
sobre el histograma. Al ser los intervalos de igual amplitud podemos establecer
la altura de los rectngulos como el valor de la frecuencia, en este caso
trabajaremos con la frecuencia relativa expresada en porcentajes.
Valores
[134, 143)
[143, 152)
[152, 161)
[161, 170)
[170, 179)
[179, 188)
[188, 197)
TOTAL

Frecuencia
absoluta
2
16
25
34
13
3
4

Frecuencia
relativa
0,0206
0,1649
0,2577
0,3505
0,1340
0,0309
0,0412

N=97

N=1

Porcentajes
2,06%
16,49%
25,77%
35,05%
13,40%
3,09%
4,12%
N=100

Altura de los estudiantes de 12 a 18 aos


40%
35%
30%
25%
20%
15%
10%
5%
0%
(134, 143] (143, 152] (152, 161] (161, 170] (170, 179] (179, 188] (188, 197]

Para construir el polgono de frecuencias sobre el histograma seguimos los


siguientes pasos:
- hallamos la marca de clase de cada intervalo
- marcamos sobre el grfico los puntos de interseccin de cada
punto medio de clase con su frecuencia respectiva
- finalmente unimos con segmentos los puntos de interseccin.

18

4.5. Otros grficos


PICTOGRAMA
Son grficos que utilizan dibujos que hacen referencia a la variable que se
est estudiando. El tamao o cantidad de cada dibujo es proporcional al
valor de la frecuencia de cada modalidad.
Ejemplo.
La siguiente tabla muestra el nmero de horas semanales que pasan los alumnos
del centro anterior viendo la televisin
Valores
[0,4)
[4,8)
[8,12)
[12,16)
[16,20)
[20,24)
TOTAL

Frecuencia
absoluta
4
28
21
15
9
5
N=82

Con estos datos construimos un histograma sustituyendo los rectngulos por el


dibujo de una televisin y convirtiendo as el grfico en un pictograma

19

Nmero de horas de televisin semanales

Nmero de alumnos

30
25
20
15
10
5
0
[0,4)

[4,8)

[8,12)

[12,16)

[16,20)

[20,24)

Horas de televisin

CARTOGRAMA
Es un grfico que se utiliza cuando nos interesa conocer la distribucin
geogrfica de una variable, por ello se construye sobre un mapa en el que
las zonas aparecen coloreadas segn los valores de la variable que se est
estudiando. Va acompaado de una leyenda en la que, por colores, se
indica la interpretacin.
Ejemplo.
La siguiente tabla muestra la distribucin de habitantes de Gran Canaria
por municipios. Le acompaa un cartograma que refleja los datos.
Siempre debes consultar la leyenda que acompaa al grfico para su
correcta interpretacin.

20

Extrado de Canarias en Cifras 2008. Instituto Canario de Estadstica

5. Medidas estadsticas
Las medidas estadsticas o parmetros estadsticos son valores
representativos de una coleccin de datos y que resumen en unos pocos
valores la informacin del total de datos. Estas medidas estadsticas nos
darn informacin sobre la situacin, dispersin y otros patrones de
comportamiento de los datos, de manera que sea posible captar
rpidamente la estructura de los mismos y tambin la comparacin entre
distintos conjuntos de datos. Las ms importantes son: las de tendencia
central o centralizacin, que indican el valor medio de los datos, las de
dispersin que miden la variabilidad de los datos respecto a los
parmetros de centralizacin y las de forma: simetra y apuntamiento,
que nos indican la forma de distribucin de los datos.
Estas medidas sern ms significativas cuanto ms homogneos sean los
datos y pueden ser engaosas cuando mezclamos poblaciones distintas.

5.1. Medidas de centralizacin


Nos dan los valores centrales de los datos obtenidos. Las ms usuales
son: la media, la moda y la mediana.

Media ( x )

Es el resultado de sumar el valor de la variable de todos los individuos y


dividir por el total de individuos.
n

X
i 1

21

supondremos que toma la variable X toma k valores distintos x1 , x2 , x3 ..., xk


que se repiten el nmero de veces que indica la frecuencia relativa f i ,
sustituyendo en la frmula, la expresin de la media quedara como:

xi f i xi f i

f i
N
Para datos agrupados el valor de x i ser el de la marca de clase.
x

Ejemplo. Variable discreta


Vamos a calcular la media de edad de los alumnos entrevistados. Aadimos a la
tabla de frecuencias absolutas la columna con el producto de cada valor de la
variable por su frecuencia

xi f i

xi f i

12
13
14
15
16
17
18

Frecuencia
absoluta
9
25
27
16
12
8
3

TOTAL

N=100

1433

Valores

xi f i 1433

14,33
f i
100

La media de edad de los alumnos del


centro entrevistados es de 14,33 aos.

108
325
378
240
192
136
54

Caractersticas de la media:
- La media aritmtica slo se puede calcular para variables
numricas.
- Un conjunto de datos numricos slo tiene una media.
- La media es un parmetro sensible a la presencia de valores muy
separados del resto de datos.
Por ejemplo, la serie de valores, 1, 1, 2, 3, 3, 5, 7, 8, 8, 50
posee un valor extremo que es el 50. La media aritmtica
calculada con los 9 primeros valores es 4.2, lo que constituye un
valor central razonable. Por el contrario, si se considera tambin
el ltimo valor, la media aritmtica resulta ser 8.8, que es un
valor muy poco indicativo del conjunto pues est muy influido por
ese valor extremo.

Moda (Mo)

La moda es el valor ms frecuente de la variable estadstica. La moda,


como la media, representa un valor central de la distribucin de datos y
su determinacin visual la podemos obtener a partir de la tabla de

22

frecuencias o de su grfico, en el caso de ser de columnas corresponde


con la columna ms alta.
Este parmetro se puede calcular para cualquier tipo de variable.
Ejemplo. Variable cualitativa
Podemos identificar la moda de la actividades del tiempo libre preferida de los
alumnos observando la tabla de frecuencias:

Deportes
Mantenimiento
Msica
Cine
Lectura
Otros

Frecuencia
absoluta
51
8
17
10
6
5

TOTAL

N=97

Valores

Mo= Deportes

El conjunto de datos puede ser unimodal (1 moda), bimodal (2 modas) o


amodal (sin moda), grficamente sera:

Bimodal

Unimodal

26
23
20
17
14
11
8
5

Amodal

Para datos agrupados


Para datos agrupados no se puede calcular exactamente el valor de la
moda. Sin embargo, se puede estimar utilizando los siguientes pasos:

23

Para obtener la moda en datos agrupados, se buscar la clase o intervalo


que tenga el mayor cociente entre frecuencia y amplitud, es decir, valor
f
mximo de hi i .
ci
Tal y como vimos en la construccin de los histogramas, esta clase estar
asociada al rectngulo de mayor altura. Si todos los intervalos tienen la
misma amplitud, dicho intervalo ser el de mayor frecuencia.
Esta clase o intervalo se denomina intervalo modal, y una vez hallado, se
aplica la siguiente expresin derivada del clculo de proporciones para
calcular la moda:
Mo Li 1 (

D1
) ci
D1 D2

Donde:
Li 1 = Lmite inferior de la clase modal.

D1 hi hi 1
D2 hi hi 1

hi

fi
ci

ci = amplitud del intervalo.


f i = frecuencia absoluta de la clase modal.
f i 1 y f i 1

= frecuencia absoluta de la clase inferior y superior

respectivamente.
En el caso de trabajar con intervalos de igual amplitud se puede trabajar
directamente con las frecuencias absolutas.
Ejemplo. Para datos agrupados
Vamos a calcular la moda del nmero de horas semanales que pasan los
alumnos del centro anterior viendo la televisin
Valores
[0,4)
[4,8)
[8,12)
[12,16)
[16,20)
[20,24)
TOTAL

Frecuencia
absoluta
4
28
21
15
9
5
N=82

24

Frecuencia
acumulada
4
32
53
68
77
82

La clase modal es [4,8), la de mayor frecuencia absoluta. Al tratarse de


intervalos de igual amplitud podemos sustituir en la frmula las frecuencias
absolutas:
Li 1 = 4

D1 f i f i 1 =28-4=24

D2 f i f i 1 =28-21=7
ci = amplitud del intervalo=4
Mo 4

24
4 7.096
24 7

Caractersticas de la moda:
- La moda es de fcil interpretacin.
-

Su clculo es sencillo para variables discretas y cualitativas pero


la expresin para variables agrupadas se complica.

No intervienen en su determinacin todas las observaciones.

Es til para detectar posibles mezclas de distintas poblaciones en


una misma masa de datos.

Se puede calcular para todo tipo de variable.

Mediana (Me)

La mediana es el valor de la variable que divide la serie estadstica


ordenada en dos partes iguales, dejando tantos valores por encima como
por debajo y por consiguiente la frecuencia a uno y a otro lado de la
mediana tambin son iguales.
Si los n datos no estn agrupados y estn enumerados del 1 al N el valor
de la mediana ser:
N 1
2

Si N es impar, el valor que ocupa el lugar

Si N es par, la media aritmtica de los valores que ocupan el


N
N
lugar
y
1.
2
2

Este procedimiento es til cuando disponemos de pocos datos, pero


cuando el nmero de estos es elevado es mejor incluir en la tabla de
frecuencias las frecuencias acumuladas.
Datos no agrupados: La mediana ser el primer valor cuya frecuencia
N
acumulada es Fi .
2

25

Datos agrupados: Se buscar la primera clase cuya frecuencia


acumulada supere la mitad de las observaciones. Esta clase se denomina
clase mediana y su marca de clase, se podra dar como una aproximacin
de la mediana. Sin embargo podemos obtener un valor ms aproximado
empleando la frmula siguiente:
N
Fi 1
2
Me Li 1
ci
fi
Donde:
Li 1 = Lmite inferior de la clase mediana.

ci = amplitud del intervalo.

f i = frecuencia absoluta de la clase mediana.


Fi 1 = frecuencia absoluta acumulada de la clase anterior a la clase
mediana.
Ejemplo. Variable continua
Vamos a calcular la mediana del nmero de horas semanales que pasan los
alumnos del centro anterior viendo la televisin
Valores
[0,4)
[4,8)
[8,12)
[12,16)
[16,20)
[20,24)
TOTAL

Frecuencia
absoluta
4
28
21
15
9
5

Frecuencia
acumulada
4
32
53
68
77
82

N=82

82
41 . La primera frecuencia acumulada que supera N/2 es 53, por tanto la
2

clase mediana es el intervalo [8,12). Para calcular el valor de la mediana


aplicamos la frmula definida:

Me 8

41 32
4 9.71
21

Caractersticas de la mediana:
- La mediana es sencilla de calcular y de interpretar.
- Por depender de los valores a travs de su orden, la mediana no
vara demasiado por los valores extremos, por ello, si nuestros
datos contienen valores de este tipo, ser preferible usar la
mediana en vez de la media aritmtica como medida central.
26

Relacin entre media, mediana y moda.

Es recomendable comparar los valores obtenidos para la moda, media y


mediana, para conocer mejor la distribucin de los datos que estamos
analizando. Diferencias importantes entre la media y la moda o la media y
la mediana indican que la distribucin de los datos es asimtrica, y si son
iguales o muy cercanos la distribucin de los datos ser simtrica.
Observa los siguientes grficos:

5.2. Otras medidas. Medidas de posicin


Para describir otros aspectos relevantes de la distribucin de frecuencia se
utilizan las medidas de posicin: los cuartiles y los percentiles. Son
valores que dividen la distribucin en partes iguales:
Cuartiles: Hay 3 cuartiles que dividen a una distribucin en 4 partes
iguales: primero, segundo y tercer cuartil.
Percentiles: Hay 99 percentiles que dividen a una serie en 100
partes iguales: del primero al percentil noventa y nueve percentil.

Cuartiles

Los cuartiles son los tres valores de la variable que dividen a un conjunto
de datos ordenados en cuatro partes iguales. Q1 , Q2 y Q3 determinan los
valores correspondientes al 25%, 50% y 75% de los datos. Q 2 coincide
con la mediana.
Si tenemos n datos, para hallar el primer cuartil, se ordenan los valores
de menor a mayor y a continuacin se busca en dicha serie ordenada el
primer valor cuyo orden de lugar supere n/4.

27

Puede ocurrir que el valor coincida exactamente con n/4 (sucede cuando n
es mltiplo de 4), en tal caso, el primer cuartil se obtiene tomando dicha
observacin y la siguiente, y calculando su media aritmtica, tal y como
hacamos para la mediana. Veamos el siguiente ejemplo.
Ejemplo. Variable discreta
Vamos a calcular el primer y tercer cuartil de la distribucin de las edades de los
alumnos del centro
Valores
12
13
14
15
16
17
18

Frecuencia
absoluta
9
25
27
16
12
8
3

TOTAL

N=100

Frecuencias
acumuladas
9
34
61
77
89
97
100

Q1 N/4=25 buscamos aquel valor que su frecuencia acumulada sea mayor que
25, en este caso Q1 =13, es decir el 25% de los datos estn por debajo de esa
cantidad.
Q3 3N/4=75 buscamos aqul valor que su frecuencia acumulada sea mayor
que 75, en este caso Q3 =15, es decir el 75% de los datos estn por debajo de
esa cantidad.

Para datos agrupados


En este caso los cuartiles se buscar la primera clase cuya frecuencia
acumulada supere N/4, 2N/4 o 3N/4 de las observaciones, segn estemos
hallando el primer, segundo o tercer cuartil. La marca de clase de dicho
intervalo, se podra dar como una aproximacin de la mediana. Sin
embargo podemos obtener un valor ms aproximado empleando la
frmula siguiente, similar a la empleada para hallar la mediana:
N
K Fi 1
4
Qk Li 1
ci
fi
Donde:
K= nmero del percentil que queremos hallar
Li 1 = Lmite inferior de la clase mediana.

ci = amplitud del intervalo.

28

f i = frecuencia absoluta de la clase mediana.


Fi 1 = frecuencia absoluta acumulada de la clase inferior a la clase
mediana.

Percentiles

Los percentiles son los valores de la variable que dividen a un conjunto de


datos ordenados en cien partes iguales. P1 , P2 ...P99 determinan los valores
correspondientes al 1%, 2%...99% de los datos. P50 coincide con la
mediana.
Su clculo es similar al de los cuartiles, veamos el siguiente ejemplo para
datos agrupados
Ejemplo. Variable continua
P

Vamos a calcular el percentil 25 ( 25 ) del nmero de horas semanales que pasan


los alumnos del centro anterior viendo la televisin. Usamos la frecuencia
acumulada en porcentajes para hallar los percentiles.
Valores
[0,4)
[4,8)
[8,12)
[12,16)
[16,20)
[20,24)
TOTAL

Frecuencia
absoluta
4
28
21
15
9
5

Frecuencia
acumulada
4
32
53
68
77
82

Porcentajes
acumulados
4,87%
39,02%
64,63%
82,93%
93,90%
100%

N=82

82
25 20,50
100
.
La primera frecuencia porcentual que supera 25N/100 es 39,02%, por tanto la
clase del percentil 25 es el intervalo [4,8). Para calcular el valor aplicamos la
frmula:

N
K Fi 1
100
Pk Li 1
ci
fi
P25 4

20,50 4,87
4 6,23
28

Podemos decir que el 75% de los alumnos ve la televisin ms de 6 horas


semanales

29

5.3. Medidas de dispersin


Mediante la media, la mediana y la moda conocemos una parte de la
informacin acerca de las caractersticas de los datos, pero para completar
esa informacin necesitaramos saber si todos los estn prximos o no a
estas medidas. Para medir esta desviacin respecto a los valores centrales
utilizamos los parmetros de dispersin.

Rango (R).

Es la diferencia entre el mayor y el menor de los valores que toma la


variable.
Caractersticas del rango:
- El rango es sencillo de calcular y de interpretar.
-

No es una medida muy significativa.

Varianza y desviacin tpica.

La varianza es una medida de dispersin que se basa en la desviacin de


las observaciones con respecto a la media aritmtica, y se denota por s2 o
2.
Para su clculo seguimos los siguientes pasos:
1) hallamos la distancia de cada valor observado con respecto a la
media, xi x

2) la elevamos al cuadrado xi x , con el fin de convertirlas en positivas;

3) multiplicamos por su frecuencia absoluta xi x f i para tener en


cuenta las veces que se repite cada dato,
4) sumamos todos los valores obtenidos hasta ahora para conseguir una
medida global
5) dividimos el resultado anterior por N (nmero de datos), para conocer
el valor medio,
Con estos pasos llegamos a la expresin:

xi x f i
s
N
2

si desarrollamos el cuadrado de esta expresin, obtenemos:


2
x f i
s i
x
N
2

que es una expresin ms sencilla de manejar.


Si hallamos la raz cuadrada de la expresin de la varianza compensamos
el cuadrado tomado inicialmente. A este valor se le denomina desviacin
30

tpica y es la medida de desviacin ms usual (viene expresada en las


mismas unidades que la variable).
2
xi f i
s
x
N
2

Ejemplo. Variable discreta


Habamos obtenido que la media de edad de los alumnos del colegio
entrevistados era de 14,33. Vamos a calcular la desviacin tpica para saber si
las edades estn dispersas o concentradas respecto a la media.
Lo primero que vamos a hacer es completar la tabla: x 14,33

12
13
14
15
16
17
18

Frecuencia
absoluta
9
25
27
16
12
8
3

TOTAL

N=100

Valores

Sustituyendo los valores obtenemos s

xi2

xi2 f i

144
169
196
225
256
289
324

1296
4225
5292
3600
3072
2312
972

1603

20769

20769
14,332 1,53
100

Y vemos que las edades difieren de la media en un ao y medio por encima y por
debajo. Teniendo en cuenta que el rango de edades es de 6 aos, los datos
presentan poca dispersin, aunque la conclusin de mucha o poca depende del
contexto del problema y de la comparacin con otras poblaciones o muestras.

Caractersticas de la desviacin tpica:


- La desviacin tpica tiene ms significado si usa para comparar
dos o ms poblaciones.
-

Es ms sensible que la media a valores errneos al usar el


cuadrado en su expresin.

No es sensible al cambio de escala a diferencia de la varianza, es


decir, si medimos en metros o en kilmetros obtendremos
valores similares.

Coeficiente de variacin de Pearson.

El coeficiente de variacin (C.V.) establece la relacin entre la desviacin


s
tpica de una muestra y su media. C.V .
x
31

s
.100
x
El coeficiente de variacin permitir comparar las dispersiones de dos
distribuciones distintas, siempre que sus medias sean positivas.
El coeficiente de variacin se suele expresar en porcentajes. C.V .

Ejemplo.
Una distribucin tiene x1 140 y s1 28,28 , y otra tiene x2 150 y s 2 24 . Cul
de las dos presenta mayor dispersin o es ms heterognea?

CV1

s
28,28
.100
.100 20,2%
x
140

CV2

s
24
.100
.100 16%
x
150

Por tanto, la primera presenta una mayor dispersin.

Puntuaciones tpicas.

Puntuaciones diferenciadas: son las que resultan de restar a las


puntuaciones directas la media aritmtica: xi x
Puntuaciones tpicas: son las que se obtienen al dividir las
puntuaciones diferenciadas entre la desviacin tpica. Este proceso
se llama tipificacin. Las puntuaciones tpicas ser representan por
x x
zi i
s
Las caractersticas de las puntuaciones tpicas son:
- La media aritmtica de las puntuaciones tpicas es 0.
- La desviacin tpica de las puntuaciones tpicas es 1.
- Las deviaciones tpicas son adimensionales.
- Las puntuaciones tpicas se utilizan para comparar las
puntuaciones obtenidas en distintas distribuciones.
Ejemplo.
En una clase hay 15 alumnos y 20 alumnas. El peso medio de los alumnos es de
58,2 kg., y el peso medio de las alumnas es de 52,4 kg. Las desviaciones tpicas
de los dos grupos son respectivamente, 3,1 kg. y 5,1 kg.
El peso de Jos es 70 kg. y el de Ana es 65 kg.
Cul de ellos, dentro del grupo de alumnos de su sexo, puede considerarse ms
grueso?

z1

70 58,2
3,81
3,1

z2

65 52,4
2,47
5,1

Podemos decir que Jos es ms grueso con respecto a su grupo que Ana con
respecto al suyo.

32

6. Nmeros ndice
El nmero ndice es una medida que muestra los cambios de una variable
en funcin del tiempo, como por ejemplo el IPC (ndice de precios de
consumo), que mide la evolucin de los precios a lo largo de los meses o
aos. Es una medida relativa a un valor llamado base, y suele venir
expresada en porcentajes.
A los efectos de la elaboracin de un determinado ndice se debe tomar
como referencia un determinado perodo, el cual se le denomina perodo
base, con el que vamos a hacer la comparacin.
Un ndice se calcula dividiendo el precio, la cantidad, o el valor de un
momento determinado de un bien sobre el precio, la cantidad o el valor en
el momento base de ese bien multiplicado por 100.
Ejemplo. Nmeros ndices
Tomemos como ejemplo para la construccin de ndices la siguiente tabla que
muestra las exportaciones de bienes y servicios de un determinado pas.
Perodo

Cantidad
($ miles de
millones)

1988

34,4

1998

50,2

2007

50,9

2008

53,1

Fuente: Development Economics LDB database

Establecemos el primer ao (1988) como base de referencia y su valor se llama


valor base (en el ejemplo 34,4), este valor pasa a ser 100 (100%) y obtenemos
el resto de valores mediante la siguiente proporcin:

valor base valor a calcular

100
ndice
Aplicando este clculo obtenemos para 1998 un ndice de

indice

valor a calcular
50,2
100
100 145,93
valor base
34,4

y su variacin sera 145,93-100=45,93


Continuando con el resto de aos obtenemos la siguiente tabla:

33

Perodo

Cantidad

1988

34,4

1998

50,2

2007

50,9

2008

53,1

ndice

Variacin

100
145,93

45,93

147,97

47,97

154,36

54,36

Estos ndices suelen representarse grficamente para apreciar su evolucin

Bibliografa:
Daniel Pea (1991). Estadstica Modelos y mtodos 1. Fundamentos. Ed.
Alianza Universidad Textos.
David Ruiz Muoz. Manual de Estadstica. Universidad Pablo de Olavide.
Martin Guzmn Conejo, M. P. (2006): Manual de estadistica descriptiva.
Madrid, Civitas
Fernndez, S.; Cordero, J. M.; Crdoba, A. (1996) Estadstica Descriptiva.
ESIC Editorial,
Fernando Garca y Fernando Garzo; Estadstica; Editorial McGraw-Hill;
Madrid

34

ANEXO
Estadstica a travs GeoGebra
Aunque por ahora no es la parte ms fuerte de GeoGebra, la
ofrecemos como alternativa al uso de la hoja de clculo o de otras
aplicaciones disponibles en Internet.
Adems de los comandos y opciones que el programa ofrece,
siempre nos queda la posibilidad de trabajar con aplicacin Hoja de
clculo a la que accederemos a travs del men que aparecer al pulsar
sobre Vista.

En este caso, aparecer una nueva ventana para realizar tareas y


operaciones similares a cualquier otra hoja de clculo.

35

Por tanto, ser posible construir

una tabla con los valores de la

variable y sus frecuencias absolutas, obteniendo posteriormente todos los


clculos

necesarios

para

obtener,

entre

otras,

las

medidas

de

centralizacin o de dispersin, aunque tambin ofrecen las funciones


necesarias para realizar cualquier estudio estadstico.

Estadstica unidimensional
Iniciamos el trabajo con la hoja de clculo de GeoGebra con
distintos ejemplos que permitirn conocer algunas de sus caractersticas y
la forma de trabajar un conjunto de datos correspondientes a una variable
estadstica unidimensional para representarlos y calcular sus parmetros.
Proponemos la realizacin del siguiente ejemplo para acercar el
proceso que se realiza habitualmente en el aula, con lo que sera necesario
realizar utilizando una hoja de clculo.
Ejemplo 1
Se ha realizado la siguiente observacin de las notas correspondientes
a una determinada prueba

sobre 30 alumnos, obteniendo los resultados

siguientes:
4

10

A partir de los datos anteriores construye la tabla de frecuencias y


representar los datos en un diagrama de barras.
Una vez realizada cualquier observacin, el siguiente paso es la
organizacin de los datos, por lo que contaremos las veces que aparece
cada una de las notas para determinar las frecuencias absolutas.
En esta ocasin lo haremos de forma manual, aunque como
comprobaremos ms adelante la hoja de clculo podra devolver los datos
correspondientes a las frecuencias de cada uno de los valores de la variable.
Una vez contabilizados todos los datos tendramos la siguiente tabla:

36

NOTA

N ALUM.

10

Introducimos los datos anteriores en la hoja de clculo, situando en la


primera columna los valores de las notas y en la segunda los valores
obtenidos para las frecuencias absolutas.
Cada una de las casillas de la hoja de clculo se denomina celda que
estar determinada por la columna y la fila que ocupa. En la imagen
siguiente aparece representada la celda B3 (columna B, fila 3).

Al introducir los valores en la hoja de clculo aparecern en la forma


siguiente:

37

Ahora deseamos que la hoja de clculo nos devuelva la suma de todas


las frecuencias absolutas. Para que ello, nos situamos en la casilla B12,
justo debajo de la ltima frecuencia, la que corresponde a la nota 10.

Como vamos a introducir una frmula es necesario comenzar


pulsando sobre la herramienta Suma.

38

Aparecer el signo de interrogacin en la celda B12 ya que no hemos


seleccionado las celdas de las que deseamos obtener su suma. Una vez
seleccionadas, arrastrando con el ratn, obtendremos el valor de la suma tal
y como aparece en la imagen siguiente:

Podemos observar que como valor en celda B12 aparece la siguiente


expresin =Suma[B2:B11], lo que indica que hemos sumado todas las
celdas comprendidas entre las dos celdas indicadas.

Ya hemos obtenido que el valor de la suma de las frecuencias es igual


a 30.
Para obtener una grfica de los datos anteriores es conveniente
convertir los datos de la hoja de clculo a listas que son las estructuras de

39

datos que maneja GeoGebra como argumentos en la mayora de los


comandos disponibles para estadstica.
Para convertir una serie de datos de la hoja de clculo en una lista es
necesario seleccionarlos previamente.

A continuacin, seleccionamos la herramienta Crea lista.

Aparecer el siguiente cuadro de dilogo para establecer algunas


caractersticas de la lista que deseamos crear.

Las opciones disponibles son fciles de entender. Por un lado,


establecer el nombre de la lista que puede ser notas; por otro si deseamos
que sean objetos dependientes o libres y la ordenacin de los elementos.
Al seleccionar objetos libres ya no se actualizarn al modificar algn
valor en la hoja de clculo, por lo que nos interesa que sean objetos

40

dependientes. Y en este caso, el orden ser por fila por lo que no es


necesario cambiar nada.
Al pulsar sobre el botn Crea aparecer la lista de valores
correspondiente a las notas en la vista algebraica en la que podemos
observar que los datos aparecen entre llaves separados por comas.

Repetimos el proceso con la lista de frecuencias para obtener una


nueva lista que en este caso denominamos alumnos.

Para obtener un grfico de barras utilizaremos el comando Barras,


escribiendo en la lnea de entrada los argumentos siguientes:
Barra[notas,alumnos]
Aparecer en la vista grfica el diagrama de barras y en la vista
algebraica aparece un valor a cuyo valor corresponde a la suma de las reas
de los rectngulos representados.

41

Al grfico obtenido le podemos cambiar el aspecto accediendo a sus


propiedades a travs del botn derecho del ratn. Aparecer el men de
opciones siguiente en el que bastar pulsar sobre Propiedades de objeto.

42

Tambin aparecern estas opciones al hacer un doble clic sobre el


diagrama de barras.

Antes de continuar con nuevos ejemplos quiero realizar algunas


indicaciones para trabajar con la hoja de clculo y con las opciones que
ofrece para hacer un estudio o representacin estadstica.
Cuando los datos de una fila o columna de la hoja de clculo siguen
alguna secuencia es posible completar las celdas rellenndolas de manera
automtica. Para ello, escribimos el primer valor, en nuestro caso 1 en la
celda A2. A continuacin en la celda A3 escribimos A2+1, por lo que el valor
ser el que tenga la celda A2 que es 1 ms 1, lo que nos devuelve 2.

43

Ya solo nos queda rellenar de manera automtica el resto de celdas,


para lo que bastar con arrastrar el cuadradito pequeo que aparece en la
parte inferior derecha de la celda que contienen la expresin de acabamos
de introducir.

Arrastramos hasta la posicin deseada, en este caso hasta la celda


A11 y tendremos rellenos los valores del 1 al 10.

Como los datos de los alumnos no siguen ninguna secuencia, no


queda ms remedio que introducirlos de forma manual.
Como alternativa al estudio anterior en el que se han agrupado los
datos segn sus frecuencias podemos introducir los datos, podramos decir
a lo bruto, en la hoja de clculo o en una lista.

44

Ejemplo 2
Repetimos el estudio para los mismos datos del ejemplo anterior.
Se ha realizado la siguiente observacin de las notas correspondientes a
una determinada prueba

sobre 30 alumnos, obteniendo los resultados

siguientes:
4

10

A partir de los datos anteriores construye la tabla de frecuencias y


representar los datos en un diagrama de barras.
Comenzamos introduciendo todos los datos en una nueva hoja de
clculo.

Antes de utilizar el comando para representar los datos a las opciones


para representar el grfico, seleccionamos todas las celdas que contienen
los datos para crear la lista de notas siguiendo el proceso expuesto en el
ejemplo anterior, para lo que utilizaremos la herramienta

La lista aparecer en la vista algebraica.


Para obtener los valores de las frecuencias podemos utilizar el
comando Frecuencia, escribiendo Frecuencia[lista de datos] en la lnea
de comandos.
Aparecer una nueva lista con los valores de las frecuencias

45

A esta lista le podemos cambiar el nombre utilizando Renombra que


aparecer al pulsar el botn derecho sobre la lista.

Para obtener la representacin grfica de los datos anteriores,


podemos seleccionar todos los datos en la hoja de clculo, pulsando a
continuacin sobre la herramienta Anlisis una variable

Aparecer una nueva ventana que incluye mucha ms informacin de


la que por ahora queramos obtener.

46

Para obtener el histograma anterior, ser necesario modificar el valor


de la opcin Clases que aparece en la parte superior para indicar que en
nuestro caso es 10.
Como observamos esta ventana da mucha ms informacin como son
los valores de centralizacin y el acceso a otros tipos de grficos que
estudiaremos ms adelante.
Parmetros estadsticos
A continuacin, vamos a utilizar la hoja de clculo para determinar
algunos parmetros estadsticos creando para ello una tabla con todos los
clculos, aprovechando las posibilidades que nos ofrece una hoja de clculo.
Por ejemplo, para calcular la media aritmtica es necesario obtener el
valor de la expresin:
_

fi

Por lo que necesitaremos una nueva columna para obtener el


producto de los valores de la variable estadstica por sus respectivas

47

frecuencias absolutas, sumando los valores obtenidos que habr que dividir
por el total de datos, como expondremos en el ejemplo siguiente:
Ejemplo 3
Calcular la nota media aritmtica de los datos correspondientes a las
notas de la prueba escrita realizada en el ejemplo 1.
Vamos a utilizar la hoja de clculo para completar nuevas columnas
que nos permitan calcular los valores que buscamos.
Recuperamos los datos del ejemplo 1 que corresponden a la tabla
siguiente:
NOTA

N ALUM.

10

Para obtener la media bastar con completar la hoja de clculo con


una nueva columna, definiendo la frmula que realice el producto de las
celdas que se encuentran a la izquierda, es decir: A2*B2.

48

Rellenando hacia abajo, arrastrando esta celda que acabamos de


introducir, obtendremos todos los productos y calculamos su suma para lo
que bastar con arrastrar la celda B11 hacia la derecha.

Ya solo queda definir en otra celda la expresin para la media


aritmtica.

49

Por tanto, la media aritmtica es 5,07.


Como era de esperar esta medida se podr obtener de manera
automtica, basta con observar los valores obtenidos en el ejemplo anterior
al utilizar la herramienta Anlisis una variable.
A partir de una tabla como la anterior, se podrn determinar otras
medidas de centralizacin como son la moda y la mediana.

50

Aunque disponemos de funciones en GeoGebra para obtener las dos


medidas anteriores, no se pueden aplicar sobre los datos cuando estn
agrupados por frecuencias, por lo que en ocasiones, ser mejor manejarlos
en bruto.
A partir de la hoja de clculo se podr deducir la moda mediante
observacin directa en la columna de las frecuencias.

Por

ejemplo,

para los datos anteriores la moda ser la nota 6.


Para obtener el valor de la mediana, se puede aadir una columna
ms en la que aparecern las frecuencias acumuladas.
Para ello, podemos insertar una nueva columna D en la que el primer
valor coincidir con la frecuencia del primer dato (B2). El siguiente valor
ser la suma de este valor D2 y B3.
Rellenando hacia abajo arrastrando el valor anterior obtenemos las
frecuencias acumuladas.

51

Observando los datos anteriores, podemos determinar que la mediana


corresponde, al tener un nmero par de datos, a los valores de la variable
que ocupan las posiciones centrales, que seran las posiciones 15 y 16 que
podemos comprobar que en ambos casos corresponden al valor de la nota
5.
Por tanto, la mediana es 5.
De manera anloga, se podran obtener los valores correspondientes a
los cuartiles.
Cuando los datos los tenemos en bruto, tal y como ha ocurrido en el
ejemplo 2, al pulsar sobre Anlisis una variable obtenemos el valor de la
mediana de manera automtica.

52

Este valor se podra obtener utilizando la funcin Mediana sobre una


lista de datos.
Mediana[lista datos]
Lo mismo para la moda para la que disponemos de la funcin con el
mismo nombre que se aplica sobre una lista de datos.
Moda[lista datos]
Los valores obtenidos al utilizar estas funciones aparecern en la vista
algebraica.
Al ejecutar desde la lnea de entrada las funciones Mediana[notas] y
Moda[notas] obtendremos los siguientes valores:

Para obtener los valores de los parmetros de dispersin podemos


aprovechar las opciones de hoja de clculo cuando los datos los tenemos
agrupados en una tabla de valores y frecuencias.
El valor de la varianza se obtiene a partir de la expresin siguiente:

(x

x)2 fi

2
i

fi

x2

Por lo que necesitamos una nueva columna con los valores de los
cuadrados de la variable estadstica (columna A) por sus correspondientes
frecuencias absolutas (columna B).

53

Una vez obtenido el primer valor, bastar con rellenar el resto de


celdas de esta columna.

Ya solo queda obtener el valor de la expresin anterior.

54

Por tanto, la varianza es igual a 5.


Debemos tener en cuenta que los resultados se aproximan al nmero
de cifras decimales establecido por defecto a travs de Redondeo que
encontramos en el men Opciones.

.
Bastar con ampliar el nmero de cifras decimales para obtener una
mejor aproximacin de la varianza, aunque debemos indicar que para
prximos clculos en los que necesite un valor de una celda la hoja utilizar
el valor exacto con el que la hoja lo representa de manera interna.

55

Y para calcular la desviacin tpica basta con hallar la raz cuadrada


del valor anterior que se obtendr con la funcin sqrt.

A partir de los valores anteriores ser fcil obtener el coeficiente de


variacin.
C.V .

56

En la hoja de clculo basta con introducir una nueva frmula haciendo


referencia a las casillas en las que se encuentran los valores de la media y
la desviacin tpica.

Ejemplo 4
El nmero de faltas de ortografa que ha cometido un grupo de
estudiantes en un texto ha sido:
0

Construye una tabla de frecuencias absolutas para los datos


anteriores.
Representa los datos en un polgono de frecuencias.
Determina los parmetros de centralizacin y de dispersin para la
variable nmero de faltas de ortografa.
En este ejemplo vamos a trabajar con los datos en bruto,
introduciendo para ello cada dato en una celda de la hoja de clculo.

57

A partir de los datos anteriores, creamos la lista a la que llamamos


faltas utilizando la herramienta Crea Lista y posteriormente, obtenemos las
frecuencias utilizando el comando Frecuencia[faltas].
Estas dos listas aparecern en la vista algebraica.
Como la variable toma los valores 0 a 5, podemos crear una lista
utilizando el comando Secuencia.
Secuencia[n,n,0,5]
Una vez renombradas las listas tendremos que numfaltas contiene los
valores de la variable y faltas1 las frecuencias.

A partir de las dos listas anteriores ya podemos obtener el diagrama


de barras, ejecutando para ello el comando Barras[numfaltas,faltas1].

58

Observando la tabla o el grfico deducimos que la moda es 1 falta de


ortografa.
Aprovechando las opciones que ofrece la herramienta

Anlisis

una variable que aparecer en la barra de herramientas cuando est


activa la aplicacin hoja de clculo, podemos obtener la representacin y
tambin los valores de los parmetros de centralizacin y dispersin.

Actividades propuestas
1. La siguiente tabla representa las puntuaciones obtenidas en una
prueba por los estudiantes de dos grupos de una misma escuela.

59

Qu

grupo

Puntuacin

Grupo A

Grupo B

de

alumnos

consideras

que

ha

obtenido

mejores

resultados? Cul es ms homogneo?


2. Se ha realizado una encuesta a un grupo de

veinte personas acerca

del nmero de veces que acuden a una sala de cine a lo largo de un


mes, obteniendo los resultados siguientes:
4, 2, 6, 8, 3, 4, 3, 5, 7, 1, 3, 4, 5, 7, 2, 2, 1, 3, 4, 5
Agrupa los datos en un tabla de frecuencias.
Representa los datos en un polgono de frecuencias.
Halla la moda, mediana, media y primer cuartil.
Calcula la varianza y la desviacin tpica.
3. Con los datos del diagrama de barras, construye la tabla de frecuencias
de esta distribucin.

Construye la tabla de frecuencias.


Determina los distintos parmetros de centralizacin y de dispersin de
la distribucin anterior.

60

Potrebbero piacerti anche