Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Carmen Batanero
Carmen Daz
(Editoras)
ESTADSTICA CON PROYECTOS
Los autores
Departamento de Didctica de la Matemtica
Facultad de Ciencias de la Educacin
Universidad de Granada
18071 Granada
ISBN: 978-84-694-9152-2
Depsito Legal: GR 4209-2011
Agradecimiento:
Proyecto EDU2010-14947 y becas FPI BES-2011-044684 y FPU AP2009-
2807;(MCINN-FEDER), becas FPI BES-2008-003573 y FPU AP2007-03222
(MEC-FEDER) y Grupo FQM126 (Junta de Andaluca)
Introduccin 5
1
2.2. Los datos 47
2.3. Preguntas, actividades y gestin de la clase 49
2.4. Actividades de ampliacin 59
2.5. Algunas dificultades y errores previsibles 65
2.5.1. Intuicin en probabilidad 65
2.5.2. Percepcin de la aleatoriedad 66
2.5.3. Elaboracin de grficos 68
2.5.4. Otras dificultades 69
2.6.Anlisis del contenido estadstico 69
2
4.5.3. Correlacin y regresin 119
4.5.4. Otras dificultades 121
4.6. Anlisis del contenido estadstico 122
3
7.4. Actividades de ampliacin 186
7.5. Algunas dificultades y errores previsibles 190
7.5.1. Percepcin de la aleatoriedad 190
7.5.2. Variable aleatoria 193
7.6. Anlisis del contenido estadstico 194
4
10. Anlisis de los proyectos presentados. Carmen Batanero y
Carmen Daz 247
10.1. Introduccin 247
10.2. Estructura de los proyectos y anlisis de su contenido 248
10.2.1. Datos y campos de aplicacin 249
10.2.2. Conceptos y propiedades 251
10.2.3. Lenguaje y representaciones 254
10.2.4. Procedimientos 256
10.2.5. Actitudes 257
10.2.6. Razonamiento 259
10.3. Ideas para nuevos proyectos 260
10.3.1. Actitudes hacia la estadstica 260
10.3.2. Existe discriminacin laboral hacia la mujer? 262
10.3.3. Espaa en la Comunidad Europea 262
10.3.4. Intencin de voto en las elecciones al consejo escolar 263
10.3.5. Tiene ventaja el equipo que juega en su propio campo? 263
10.3.6. Cuntas lentejas tiene un kilo de lentejas? 264
10.3.7. Es efectivo el entrenamiento? 264
Referencias 267
5
6
Introduccin
7
la integracin del aprendizaje de esta materia dentro de pequeas
investigaciones o proyectos y analizamos los pasos en la solucin de los
mismos. Se resean tambin recursos disponibles en Internet, tanto para la
eleccin de conjuntos de datos y temas de los proyectos, como para el
clculo estadstico, la consulta de los temas o la exploracin de conceptos.
La segunda parte del libro incluye algunos ejemplos de proyectos
desarrollados para trabajar en la clase de estadstica, que podran ser
adecuados a diversos niveles de dificultad, bien en un curso de estadstica
para secundaria o primeros cursos de universidad. Cada proyecto comienza
con la exposicin de sus objetivos, el tipo de alumnos a los que va dirigido
y los datos utilizados. Una primera parte incluye actividades ms
elementales, seguidas de otras de ampliacin para trabajar con alumnos
universitarios. Se ha tratado de mostrar que, con el mismo proyecto es
posible trabajar en diferentes niveles educativos y en muchos de ellos se
podra dar cabida a un contenido amplio de estadstica.
Puesto que el libro est orientado principalmente a profesores, se
complementa la presentacin de los proyectos con sugerencias didcticas
sobre posibles dificultades de los estudiantes, fruto del trabajo de sntesis
de la literatura sobre educacin estadstica. Asimismo se hace un breve
anlisis del contenido trabajado en el proyecto.
El ltimo captulo sintetiza el contenido de los diferentes proyectos e
incluye ideas para otros nuevos.
Esperamos que el libro sea til para alumnos y profesores y los motive
a adentrarse en el campo de la estadstica.
8
1. Enseanza de la Estadstica a travs de Proyectos
Carmen Batanero, Carmen Daz, J. Miguel Contreras
y Pedro Arteaga
1.1. Introduccin
En una sociedad en continuo cambio, como la que nos ha tocado vivir,
hemos dejado de asombrarnos por los avances de la ciencia y la tecnologa.
La estadstica ha jugado un papel primordial en este desarrollo, al
proporcionar herramientas metodolgicas generales para analizar la
variabilidad, determinar relaciones entre variables, disear de forma ptima
experimentos, mejorar las predicciones y la toma de decisiones en
situaciones de incertidumbre.
9
Captulo 1
10
Estadstica con Proyectos
11
Captulo 1
12
Estadstica con Proyectos
13
Captulo 1
14
Estadstica con Proyectos
15
Captulo 1
16
Estadstica con Proyectos
17
Captulo 1
1.2.3. Bachillerato
En relacin al Bachillerato, el Decreto 1467/2007, de 2 de noviembre,
por el que se establece la estructura del bachillerato y se fijan sus
enseanzas mnimas (MEC, 2007) fija los siguientes contenidos:
Matemticas I, modalidad de Ciencias y Tecnologa:
- Distribuciones bidimensionales. Relaciones entre dos variables
18
Estadstica con Proyectos
19
Captulo 1
1.2.4. Conclusiones
Estos documentos se concentran en el desarrollo del razonamiento
estadstico, que va ms all del conocimiento matemtico y de la
comprensin de los conceptos y procedimientos. La modelizacin, la
valoracin de la bondad del ajuste de los modelos a la realidad, la
formulacin de cuestiones, la interpretacin y sntesis de los resultados, la
elaboracin de informes son tambin componentes esenciales de las
capacidades que queremos desarrollar en nuestros alumnos.
Hacemos notar que, adems de las referencias a ideas elementales
20
Estadstica con Proyectos
21
Captulo 1
22
Estadstica con Proyectos
Comienzo
23
Captulo 1
24
Estadstica con Proyectos
25
Captulo 1
26
Estadstica con Proyectos
27
Captulo 1
28
Estadstica con Proyectos
Figura 1.2. Pantalla de una hoja electrnica con datos del Proyecto 1
29
Captulo 1
En
el caso de
disponer de un paquete estadstico sencillo de manejar, y tambin con los
chicos mayores la capacidad de representacin grfica y anlisis se
enriquece notablemente. Como vemos en la Figura 1.3 para Statgraphics
este tipo de software permite tener al mismo tiempo en la pantalla salidas
numricas y grficas, cuyas opciones pueden ser modificadas fcil y
rpidamente y aumenta por tanto las posibilidades exploratorias.
30
Estadstica con Proyectos
31
Captulo 1
32
Estadstica con Proyectos
1.6.2. Simulacin
Un uso caracterstico del material en estocstica es la simulacin. En
ocasiones el estudio de un problema de probabilidad es complejo para el
alumno. Una pregunta que sin duda se plantea el profesor es si sera
disponible realizar un estudio intuitivo de estos temas con ayuda del
material concreto, calculadoras u ordenadores. Afortunadamente, contamos
con la simulacin., que para Heitele (1975) es en estadstica algo parecido a
lo que constituye el isomorfismo en otras ramas de las matemticas.
En la simulacin ponemos en correspondencia dos experimentos
aleatorios diferentes, de modo que a cada suceso elemental del primer
experimento le corresponda un suceso elemental del segundo y slo uno, y
los sucesos puestos en correspondencia en ambos experimentos sean
equiprobables. Como indica Girard (1997) al trabajar mediante simulacin
estamos ya modelizando, porque debemos no slo simplificar la realidad,
sino fijar los aspectos de la misma que queremos simular y especificar unas
hiptesis matemticas sobre el fenmeno estudiado. Otras posibilidades de
la simulacin se discuten en Fernndes, Batanero, Contreras y Daz (2009).
Por ejemplo, podemos simular el experimento aleatorio consistente
en observar el sexo de un recin nacido mediante el experimento aleatorio
consistente en lanza una moneda al aire. Ahora bien, son muchos los
aspectos que podramos estudiar sobre un recin nacido, como el grupo
sanguneo, su peso o su raza, que no podran simularse con el lanzamiento
de la moneda. Tambin hacemos una hiptesis (matemtica) sobre
equiprobabilidad para los dos sexos, independientemente de la raza, sexo y
antecedentes familiares. Slo una vez que hemos hecho estos supuestos,
podremos comenzar el trabajo con la simulacin. Como indican Chaput,
Girard y Henry (2011) la simulacin constituye una verdadera
modelizacin en probabilidad.
Lo importante de sta es que podemos operar y observar resultados
del segundo experimento y utilizarlos para obtener informacin del
primero. Por ejemplo, si queremos saber cual es la probabilidad que entre
100 recin nacidos hay ms de un 60% de varones, podemos lanzar, por
ejemplo 1000 veces 100 monedas al aire, estudiar en cada uno de los 1000
experimentos si hubo o no ms de un 60% de nacimientos y obtener una
estimacin para la probabilidad pedida. La ventaja de la simulacin es
obvia, incluso en este ejemplo tan sencillo, pues permite condensar el
experimento en un tiempo y espacio concreto.Vemos adems que la
simulacin es, en si misma un modelo de la realidad simulada, puesto que
simplifica la propia realidad y supone un trabajo de abstraccin sobre la
misma. Es adems un modelo material (o bien algortmico si usamos un
33
Captulo 1
34
Estadstica con Proyectos
procedimiento).
Es decir, es posible asignar el experimento consistente en extraer al
azar una bola de una urna con una cierta composicin de bolas de colores.
El experimento compuesto de varios experimentos simples se obtiene
componiendo las urnas correspondientes a los experimentos simples
(obteniendo una hiperurna) y la repeticin del experimento global, junto
con el anlisis de los datos producidos permite una solucin aproximada
del problema. En este sentido la urna con bolas de colores (fichas, tarjetas)
es un material universal, vlido para estudiar cualquier problema o
concepto probabilstico. Por ello la simulacin proporciona un mtodo
universal para obtener una estimacin de la solucin de los problemas
probabilsticos, que no tiene paralelo en otras ramas de la matemtica.
Adems de la simulacin con modelos de urnas y otros materiales
manipulativos, las tablas de nmeros aleatorios son tambin un instrumento
de simulacin universal, como hemos mostrado con algunos ejemplos
presentados en nuestro libro Azar y probabilidad (Godino, Batanero y
Caizares, 1997).
Aunque es importante que los alumnos realicen algunas actividades de
simulacin con apoyo de material manipulativo, como moneda, dados o
ruletas y con tablas de nmeros aleatorios, es realmente el ordenador el que
proporciona una mayor potencia de simulacin. La mayora del software
estadstico proporciona generadores de nmeros aleatorios, as como de
valores de diferentes distribuciones de probabilidad, que pueden, una vez
generados, ser analizados con ayuda de los recursos de clculo y
representacin.
Otras posibilidades son los mdulos de estudio de las diferentes
distribuciones de probabilidad con representacin grfica y clculo de
valores crticos y reas bajo la funcin de densidad. Unido esto a la
posibilidad de extraccin de muestras de valores de estas distribuciones de
tamao dado, almacenamiento de las mismas en nuevos ficheros de datos,
que pueden ser analizados, proporciona una herramienta muy interesante
para la introduccin de ideas de inferencia. Finalmente existen programas
didcticos especficos para explorar conceptos estocsticos, desde los ms
elementales a los ms avanzados, como, por ejemplo los procesos
estocsticos.
35
Captulo 1
36
Estadstica con Proyectos
37
Captulo 1
38
Estadstica con Proyectos
39
Captulo 1
40
Estadstica con Proyectos
41
Captulo 1
investigacin llevada a cabo de una forma clara y lgica. Los apartados que
podra tener este informe, corresponden a las fases de la investigacin:
Problema, datos, anlisis e interpretacin. El informe puede irse realizando
segn se avanza el trabajo, ayudar a los alumnos a pensar, planificar y
llevar a cabo el proyecto, y proporciona un resumen del trabajo realizado.
Refuerza, adems, el proceso de razonamiento estadstico al tener que
relatar para otra persona sus decisiones, acciones e interpretaciones.
42
Estadstica con Proyectos
43
Captulo 1
44
Estadstica con Proyectos
45
Captulo 1
1.11. Conclusiones
En este captulo hemos analizado cmo los proyectos estn
concebidos para introducir en la clase una filosofa exploratoria y
participativa, en concordancia con las recomendaciones recientes sobre
enseanza de la estadstica, presentando, tanto un ejemplo propuesto por el
profesor, como otro elegido y llevado a cabo por una alumna, como parte
de un trabajo en grupo. Lo deseable sera que los propios alumnos eligieran
el tema en el que quieren trabajar y elaborasen sus propios proyectos en
grupos de dos o tres alumnos, que podran tambin conectarse con otras
reas curriculares. Con ello aumentaramos su inters por la materia.
Como sugieren Murray y Gal (2002) la comprensin, interpretacin y
reaccin frente a la informacin estadstica no slo requiere conocimiento
estadstico o matemtico, sino tambin habilidades lingsticas,
conocimiento del contexto, capacidad para plantear preguntas y una postura
crtica que se apoya en un conjunto de creencias y actitudes. Todas estas
capacidades se incentivan en el trabajo con proyectos.
Cobb y Hodge (2002) sugieren tambin que el trabajo en grupos y la
perspectiva socio cultural en la clase de estadstica centra la atencin de los
estudiantes en lo que supone la estadstica como una parte importante de su
aprendizaje. Focaliza su propia identificacin como posibles productores de
estadsticas con relacin a sus propios intereses y problemas.
Finalmente Nolan y Speed (2002) resaltan la importancia de
desarrollar la capacidad discursiva de los estudiantes, como medio de
ampliar sus habilidades de pensamiento crtico. En la produccin de su
informe el estudiante debe situar el anlisis de sus datos dentro de un
argumento coherente y convincente que apoye sus hiptesis. La
comunicacin de ideas a partir de tablas y grficos es especialmente
importante en el razonamiento estadstico.
46
2. Comprueba tus intuiciones sobre el azar
Carmen Batanero y Pedro Arteaga
2.1. Objetivos
Se trata de realizar un experimento para comprobar si tenemos buenas
intuiciones respecto a los experimentos aleatorios. En concreto tratamos de
comprobar si somos capaces de simular una secuencia de resultados
aleatorios.
Para ello se propone un experimento, donde utilizaremos el
dispositivo aleatorio ms sencillo posible: una moneda equilibrada,
comparando los resultados obtenidos al lanzar realmente una moneda con
los simulados.
La finalidad principal es hacer reflexionar al alumno sobre el hecho de
que nuestras intuiciones sobre el azar nos engaan con frecuencia. Tambin
se les quiere mostrar la utilidad de la estadstica en la prueba de nuestras
hiptesis o teoras (en este caso la hiptesis de que nuestras intuiciones
sobre los fenmenos estocsticos son correctas).
Alumnos
Puesto que las variables a tratar son discretas y las actividades no
introducen conceptos estadsticos complejos, el proyecto podra ser
adecuado para alumnos a partir de 13-14 aos, es decir, desde el comienzo
de la educacin secundaria. Tambin puede proponerse a alumnos de
universidad, utilizando con stos un anlisis ms completo de los datos.
47
Captulo 2
48
Comprueba tus intuiciones
+ C + C + + C + C C C C + + + + + C + +
49
Captulo 2
50
Comprueba tus intuiciones
14 1 0
15 3 7
10 4 8
4 5
5 3 9
1 0 5
0 10
7 8 9 10 11 12 11
14
N m ero de ca ras 12
51
Captulo 2
11, 11, 11, 8, 7, 8, 9, 11, 10, 9, 9, 9, 9, 14, 7, 10, 9, 10, 11, 13, 11, 8, 8, 11,
12, 9, 8
Figura 2.5. Grficos de barras adosados del nmero de caras en secuencias reales y
simuladas
15 14
10
7 7 S im ula d a
5 4 5 re a l
5 3 3
2
1 1 1 1
0 0 0
0
7 8 9 10 11 12 13 14
52
Comprueba tus intuiciones
Figura 2.6. Grfico de lneas adosado del n de caras para ambas secuencias
15
frecuencia absoluta
10
5 secuencia real
secuencia simulada
0
7 8 9 10 11 12 13 14
N de caras
53
Captulo 2
C C + C + + + C C + C + C + + C C C + +
+ C + C + + C C + C C C + + + + + C + +
54
Comprueba tus intuiciones
Tabla 2.2. Hoja de recogida de datos de la clase con datos recogidos en una clase
Secuencia simulada Secuencia real
N. caras N. rachas Racha mayor N. caras N. rachas Racha mayor
10 14 4 11 9 4
12 9 4 11 16 2
11 12 4 11 16 2
10 9 4 8 9 4
11 11 3 7 11 4
9 13 3 8 10 5
10 12 3 9 9 4
11 14 3 11 4 7
9 13 3 10 12 3
10 8 5 9 9 5
10 12 3 9 10 5
10 12 3 9 10 5
7 10 6 9 10 5
10 11 3 14 11 5
10 13 4 7 7 5
10 11 3 10 10 3
10 12 4 9 12 3
12 10 4 10 11 4
11 12 4 11 14 3
10 13 3 13 12 4
9 7 3 11 5 4
10 13 3 8 11 5
10 11 4 8 10 7
9 14 3 11 11 4
10 7 2 12 4 4
12 13 3 9 10 5
11 14 3 8 8 5
55
Captulo 2
56
Comprueba tus intuiciones
estudio.
Figura 2.8. Grfico de lneas adosado del n de caras para ambas secuencias
57
Captulo 2
las simuladas, lo que se puede ver del valor del rango y desviacin tpica.
Serrano (1996) indica que tenemos tendencia a producir rachas muy cortas,
lo que hace aumentar el nmero de stas y ello es debido a una percepcin
incorrecta de la independencia de resultados en lanzamientos sucesivos de
la moneda. Los alumnos pueden comprobar estas diferencias analizando los
grficos y las medidas de posicin central y dispersin.
La conclusin respecto a las intuiciones es que los alumnos de los
grupos donde se realiz el experimento tienen una pobre percepcin, tanto
del valor esperado del nmero de rachas en 20 lanzamientos, como de la
dispersin de esta variable.
58
Comprueba tus intuiciones
Figura 2.10. Grfico de lneas adosado del n de caras para ambas secuencias
59
Captulo 2
12. Realiza otros grficos para representar los datos. Analiza las ventajas
relativas de los diferentes grficos.
Nmero de caras
secuencia simulada
Nmero de caras
secuencia real
4 6 8 10 12 14 16
60
Comprueba tus intuiciones
Figura 2.13. Curvas de densidad ajustadas del nmero de caras en las secuencias
61
Captulo 2
62
Comprueba tus intuiciones
carasreal carassimu
------------------------------------------------------------
Desviacin Tpica 1,74516 1,06351
Varianza 3,04558 1,13105
g.l. 26 26
63
Captulo 2
Figura 2.17.
Figura 2.18.
64
Comprueba tus intuiciones
Los resultados se repiten para las otras dos variables (no los
comentaremos). Es decir las intuiciones observadas sobre las secuencias
aleatorias se repiten en alumnos de grupos diferentes. Los intervalos de
confianza (Figura 2.19) de las medias en los distintos grupos, calculados
segn el mtodo de mnima diferencia significativa (LSD) para ajustar las
comparaciones mltiples, confirman los resultados.
Figura 2.19
65
Captulo 2
66
Comprueba tus intuiciones
67
Captulo 2
68
Comprueba tus intuiciones
69
Captulo 2
siguientes contenidos:
1. Aplicaciones de la estadstica:
Diseo de un experimento;
Anlisis de datos experimentales; comparacin de datos
experimentales con patrones tericos;
2. Conceptos y propiedades:
Aleatoriedad: experimento aleatorio; secuencia de resultados
aleatorios, sucesos equiprobables, independencia de ensayos, rachas;
Variable estadstica discreta, frecuencia absoluta; tabla de
frecuencias; distribucin de frecuencias; frecuencia acumulada;
Variable aleatoria, distribucin binomial, esperanza;
Posicin central, moda, media, mediana;
Propiedades de la media aritmtica;
Dispersin: rango, casos centrales, 50% de casos centrales;
Agrupacin en intervalos, histograma;
Contraste de hiptesis, nivel de significacin; contraste de diferencia
de medias en muestras relacionadas; contraste de diferencia de
varianzas;
Intervalo de confianza, clculo e interpretacin;
Anlisis de varianza. Factores en anlisis de varianza; particin de la
varianza; estadstico F.
3. Notaciones y representaciones:
Palabras como frecuencia, media, mediana, moda, recorrido, etc.
Smbolos comox, Me, Mo;
Tablas de frecuencia; Grficos de puntos, barras, barras adosados,
lneas, lneas mltiples, sectores, cajas, curvas empricas de
densidad. Grficos de frecuencias acumuladas.
70
Comprueba tus intuiciones
4. Tcnicas y procedimientos:
Recogida y registro de datos experimentales;
Elaboracin de tablas de frecuencia; recuento y clculo de
frecuencia;
Elaboracin de grficos de puntos, diagramas de barras, diagramas
de barras adosados y grficos de sectores, lneas, curva emprica de
densidad, grfico de frecuencias acumuladas, grficos de caja,
representacin grfica de intervalos de confianza;
Interpretacin de tablas y grficos; elaboracin de conclusiones a
partir del anlisis de tablas y grficos;
Clculo e interpretacin de intervalos de confianza;
Contraste de comparacin de medias (muestras relacionadas);
Contraste de comparacin de varianzas (muestras relacionadas);
Anlisis de varianza de un factor, efectos fijos; clculo e
interpretacin;
Interpretacin de resultados significativos y no significativos en
contrastes t, F y Anova;
Elaboracin de argumentos y conclusiones a partir del anlisis de
datos obtenidos en un experimento;
Uso de calculadora grfica, hojas de clculo o software estadstico;
5. Actitudes:
Reflexin sobre las propias intuiciones incorrectas en relacin a los
experimentos aleatorios;
Valoracin de la utilidad de la estadstica para analizar datos
obtenidos mediante experimentacin;
Valoracin de la esttica y la claridad en la construccin de tablas y
grficos estadsticos.
71
72
3. Cmo son los alumnos de la clase?
Carmen Batanero y Carmen Daz
3.1. Objetivos
Se trata de elaborar un perfil de los alumnos, identificando el alumno
tpico y analizando si hay diferencias entre el chico y la chica tpicos,
respecto a sus caractersticas fsicas. Para ello se recogern datos sobre
caractersticas fsicas de los estudiantes, que se analizarn a lo largo del
proyecto.
Cada alumno se situar en su percentil, respecto a las diferentes
caractersticas. Asimismo, se trata de identificar relaciones entre las
variables analizadas.
Se intenta poner al alumno en la situacin de realizar un estudio en
que los datos se obtienen mediante medida fsica. Se les quiere concienciar
de la importancia de la fiabilidad de los datos, la necesidad y dificultad de
la categorizacin, de la importancia de la claridad en la definicin de las
variables y de la serie de pasos que van desde la idea inicial de la
investigacin hasta la obtencin de las conclusiones.
Un objetivo importante es introducir al alumno en las diferentes
tcnicas de recogida de datos, con especial nfasis en la medicin, en este
caso, de caractersticas fsicas. Puesto que algunos datos son cualitativos,
surge la necesidad de categorizacin, que siempre supone una
simplificacin de la realidad, ya que existen diversos modos de modelizar
la misma realidad.
Alumnos
El proyecto podra ser adecuado para alumnos a partir de 14-15 aos,
ya que hacemos una primera introduccin a la idea de asociacin y estudio
de las tablas de contingencia. Para alumnos de Bachillerato o
universitarios, el proyecto se puede llevar a cabo con mayor formalizacin,
introduciendo la estimacin de algunos parmetros o el ajuste de
distribuciones que puedan servir para modelizar los datos.
73
Captulo 3
3. 2. Los datos
Se preparar una lista de las caractersticas que queremos incluir en
el estudio, analizando las diferentes formas en que podran obtenerse los
datos:
Por simple observacin: como el sexo, color de pelo y ojos, si el
alumno usa o no gafas;
Se requiere una medicin: como el peso, talla, permetro de cintura,
anchura de hombros o longitud de brazos extendidos;
Habra que preguntar a los alumnos; es decir realizar una pequea
encuesta: cunto deporte practica, nmero del calzado, cuantas horas
duerme, etc.
Los datos sern recogidos por los propios alumnos, mediante las
diversas tcnicas sealadas. Se requerir un metro y una bscula, para
tomar datos de todos los alumnos con un mismo instrumento.
74
El alumno tpico
75
Captulo 3
76
El alumno tpico
16
12
8
4
0
35 36 37 38 39 40 41 42 43 44 45 46
77
Captulo 3
100
frecuencia acumulara
80
60
40
20
0
35 37 39 41 43 45
calzado
Vemos de este diagrama que el 50 % de los alumnos tienen un nmero
de calzado igual o menor a 37 y el resto igual o mayor (puesto que en 37 la
frecuencia acumulada salta del 43% al 60%. El valor mediano del nmero
de calzado es 37 y coincide con la moda. Tenemos que aadir, como
caracterstica del alumno tpico, el nmero de calzado 37.
78
El alumno tpico
cinco.
Figura 3.6. Grfico de tallo y hojas. Altura de los alumnos
0
150 160 170 180 190 200
calzado
La agrupacin en intervalos introduce una reduccin en los datos; por
ejemplo, si calculamos la media y otros estadsticos directamente de la
tabla, los valores obtenidos son aproximados, por eso tambin el nmero de
intervalos afectar a estos estadsticos. Este problema no se presenta al
79
Captulo 3
40
30
20
10
0
150 160 170 180 190 200
calzado
Tomando la mediana como medida de posicin central llegamos a la
conclusin de que el alumno tpico es una chica de pelo y ojos oscuros que
practica deporte moderadamente, calza el 37, mide 166,5 cm., pesa 62 kilos
y la longitud de sus brazos es 165 cm. Tambin llegaremos a la conclusin
de que esta chica realmente no existe: Ninguna de las alumnas
corresponde exactamente a esta descripcin!
Este proyecto puede ser ms o menos complejo, en funcin del
nmero y tipo de variables incluas. En la Tabla 3.3. incluimos datos
obtenidos sobre caractersticas fsicas y prctica de deporte en una clase de
60 estudiantes. Dependiendo de la edad de los alumnos y el tiempo
disponible estas variables podran reducirse o ampliarse. Por ejemplo, el
estudio podra llevarse a cabo slo con las variables cualitativas (sexo,
deporte, ojos, pelo, y nmero de calzado) o aadir otras como permetro de
cintura, anchura de hombros, etc. Para relacionar posteriormente las
variables ser bueno elaborar una hoja de recogida de datos como la que se
muestra en la Tabla 3.3
80
El alumno tpico
M 1 O O 38 52 170 171
V 1 O O 42 68 170 172
V 3 O O 43 72 184 185
V 2 C C 42 74 180 182
V 2 C C 41 66 175 177
M 2 O O 38 60 170 168
M 1 C C 38 60 165 161
M 3 O O 36 55 163 160
M 2 O O 37 60 167 165
M 2 C O 37 50 167 165
M 2 C C 35 52 160 157
M 1 O O 37 53 164 160
M 2 O C 38 58 163 166
M 2 O O 40 74 175 178
M 2 O O 39 63 173 180
M 2 O C 38 60 161 164
M 2 O O 37 53 162 162
V 3 C C 41 82 174 180
V 2 O C 42 68 178 180
M 1 0 C 37 64 172 175
M 2 O O 40 65 165 165
M 1 O O 37 46 160 158
M 2 C C 38 58 164 166
M 3 C O 46 86 191 180
M 1 O O 44 70 161 185
M 1 O C 40 64 166 171
M 3 O O 38 64 166 155
M 1 O O 35 70 156 152
M 2 C C 37 51 165 160
M 2 C O 38 62 167 159
M 2 O C 37 58 160 160
V 3 C C 43 71 185 187
V 3 C C 42 68 175 172
V 3 O C 45 74 183 178
M 3 O O 37 55 160 154
V 3 O O 42 68 185 185
M 1 O O 37 57 161 155
M 3 C O 38 57 169 164
M 1 O O 36 68 158 150
V 2 O O 41 69 172 172
M 3 C O 37 50 155 155
81
Captulo 3
M 1 O O 38 58 163 162
M 1 C O 39 66 168 168
M 2 C C 36 50 163 161
V 2 O O 43 81 184 188
M 1 C C 36 60 165 160
M 2 C C 35 50 155 155
V 2 C C 35 65 179 171
V 2 O O 36 65 164 158
M 2 C C 40 62 174 179
M 2 O C 36 58 162 160
M 2 C C 41 63 172 171
sexo=1
sexo=2
35 37 39 41 43 45 47
calzado
recorrido intercuartlico y, en caso de haberlos, los valores atpicos.
82
El alumno tpico
Observamos que estos valores son siempre menores en las chicas, as como
la dispersin de los datos. Los histogramas, por su lado resaltan las modas
y la frecuencia de casos en cada intervalo.
Los grficos de cuantiles ponen de relieve, que, para cualquier rango
de percentil (por ejemplo el 30 o 60 % la altura de las chicas es siempre
menor que la de los chicos. Por ltimo las curvas empricas de distribucin,
obtenidas de la suavizacin del polgono de frecuencias, indican que las
distribuciones son ms o menos simtricas, concentradas en el centro del
rango de valores. Si el nmero de datos hubiese sido mayor, observaramos
la forma caracterstica de la distribucin normal.
Estas actividades de comparacin serviran para analizar las ventajas
relativas de los diferentes tipos de grficos. Mientras que los grficos de
caja destacan los estadsticos de orden (mediana, cuartiles, recorrido
intercuartlico), el histograma permita visualizar mejor las modas. El
grfico de cuantiles permite comparar los diferentes percentiles para las dos
variables y la curva de densidad emprica nos permite decidir sobre qu
tipo de distribucin sera adecuada para aproximar estos datos.
60
40
frecuencia
20
0
20
40
60
140 150 160 170 180 190
sexo=2
Figura 3.11. Grfico de cuantiles. Alturas de chicos y chicas
1 altura
sexo=1
0,8 sexo=2
proporcin
0,6
0,4
0,2
0
150 160 170 180 190 200
83
Captulo 3
0,06 Variables
sexo=1
0,05 sexo=2
densidad
0,04
0,03
0,02
0,01
0
46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86
A partir de ella se les puede plantear preguntas para ver si los alumnos
identifican las frecuencias absolutas y relativas dobles, marginales y
condicionales, tales como:
8. Cuntos alumnos tienen pelo claro? Ojos oscuros? Cul es la
proporcin de alumnos con ojos claros entre los que tienen pelo
claro? Y de alumnos con pelo claro entre los que tienen ojos
claros?Hay la misma proporcin de alumnos con ojos claros si se
tiene el pelo claro que si se tiene oscuro?Piensas que hay relacin
entre el color de pelo y ojos?
Las ltimas preguntas no pueden responderse a partir de las
frecuencias absolutas pues no hay el mismo nmero de alumnos con el pelo
claro y oscuro. Ser necesario calcular la distribucin condicional de color
84
El alumno tpico
85
Captulo 3
86
El alumno tpico
10. Podramos dar una estimacin del valor medio para la altura de
chicos y chicas? Cmo analizar la variabilidad de esta estimacin?
Es tambin factible en este proyecto introducir el clculo y significado
de los intervalos de confianza para la diferencia de medias o varianzas en
muestras independientes. Por ejemplo, las podemos calcular para alturas o
para cualquiera de las otras variables:
El intervalo de confianza para la altura media de los chicos sera
[173,167,180,333]
87
Captulo 3
ver que cualquier percentil de alturas es inferior en las chicas que en los
chicos.
Grficos de cajas
Chicos
Chicas
88
El alumno tpico
89
Captulo 3
90
El alumno tpico
3.5.3. Promedios
El clculo de promedios y medidas de dispersin es bastante
complicado a partir de datos agrupados. Pollatsek, Lima y Well (1981)
encontraron que una proporcin importante de alumnos, incluyendo a los
universitarios, no ponderan adecuadamente los valores cuando se les
plantea un problema de media ponderada, utilizando en su lugar el clculo
de la media simple. Dadas las medias de dos conjuntos diferentes de datos,
los estudiantes simplemente las suman y dividen por dos para calcular la
media total, incluso si los conjuntos de datos tienen tamaos muy
diferentes. Esto lleva a una pobre estimacin de la solucin, y adems, se
observan que los estudiantes no son conscientes del error cometido.
Los alumnos tambin tienen dificultad en el clculo de medidas de
tendencia central a partir de tablas de frecuencia cuando los datos se
presentan agrupados en intervalos de clase. Mevarech (1983) sugiere que
estas dificultades se deben a la creencia de los estudiantes de que la media
aritmtica es una operacin sobre el conjunto de datos, que satisface los
axiomas de clausura, asociatividad, elemento neutro y elemento inverso.
Sugerimos obviar este punto recurriendo a las calculadoras que dan
directamente estos estadsticos, sin ms que introducir los datos originales.
Cai (1995) comprob que mientras la mayora de alumnos de 12-13
aos son capaces de calcular correctamente la media, slo algunos saben
invertir el procedimiento, esto es, determinar un valor desconocido en un
conjunto pequeo de datos para obtener un valor medio dado. Reading y
Pegg (1996), estudiaron la forma en que los alumnos de 12-18 aos
reducen los conjuntos de datos, observando que algunos eran capaces de
dar un resumen de datos presentados en forma numrica, pero fracasaron
en la tarea cuando los datos se presentaban por medio de un grfico.
91
Captulo 3
3.5.4.Tablas de contingencia
El anlisis de una tabla de contingencia es un punto difcil porque de
una sola frecuencia absoluta (nmero de alumnos con pelo y ojos claros) se
pueden deducir diferentes frecuencias relativas:
Frecuencia relativa doble respecto al total de datos: frecuencia
relativa de alumnos con pelo y ojos claros en la muestra;
Frecuencia relativa condicional respecto a su fila: frecuencia de
alumnos con ojos claros si se tiene el pelo claro;
Frecuencia relativa condicional respecto a su columna: frecuencia de
alumnos con pelo claro si se tiene el pelo claro;
Adems aparecen las dos frecuencias relativas marginales
(frecuencias relativas de alumnos con pelo claro y ojos claros) y las
relaciones entre todas estas frecuencias.
El problema de la bsqueda de asociacin en una tabla de
contingencia 2x2 se reduce, a este nivel intuitivo, a un problema de
comparacin de proporciones:
Comparar las frecuencias condicionales por filas: proporcin de
color de ojos segn color de pelo;
Comparar las frecuencias condicionales por columnas: proporcin de
color de pelo, segn color de ojos;
Comparar alguna de estas con sus correspondientes frecuencias
marginales.
Sin embargo, en el estudio de Inhelder y Piaget (1955) con chicos a
partir de 13 -14 aos y en trabajos posteriores con adultos se ha visto que la
interpretacin de las tablas de contingencia no es intuitiva y algunos
alumnos tienden a usar frecuencias absolutas o usar slo una parte de la
informacin en la tabla para resolver este tipo de problemas. Los sujetos al
alcanzar la adolescencia comienzan usando slo una celda (presente-
presente) a para juzgar la asociacin; entre los 12-15 aos, solamente
comparan celdas dos a dos (por ejemplo comparan los casos donde se
presenta y no se presenta A cuando se presenta B). Otro nivel posterior
sera comprender cuales son los casos favorables (presencia-presencia y
ausencia-ausencia) y desfavorables (resto) de la asociacin, sin
compararlos.
La estrategia correcta implicara usar todas las celdas de la tabla,
comparando la diferencia entre las probabilidades P(B/A) y P(B/noA).
Otros autores han estudiado la influencia de las teoras previas en el
92
El alumno tpico
1. Aplicaciones de la estadstica:
Anlisis de caractersticas de un grupo; medidas fsicas, fisiologa;
Determinacin de valores tpicos;
Estudio elemental de la asociacin entre variables
Ajuste de modelos a distribuciones de datos
2. Conceptos y propiedades:
Datos: codificacin de datos: diferentes escalas de medida; diferentes
tcnicas de obtencin de datos (medida, observacin, encuesta);
dificultad de la categorizacin;
Variable estadstica: Variable nominal, discreta y continua,
frecuencia absoluta, relativa y acumulada; tabla de frecuencias;
distribucin de frecuencias, agrupacin; intervalos, extremos y
marcas de clase;
Posicin central: moda, media, mediana, percentiles, rangos de
percentiles
Dispersin: rango, mximo, mnimo, cuartiles; recorrido
intercuartlico,
Asociacin: tablas de contingencia; variable estadstica
bidimensional; frecuencias dobles, marginales y condicionadas;
asociacin en tablas de contingencia
Muestras relacionadas e independientes
Intervalo de confianza: concepto e interpretacin. Intervalo de
confianza para medias y para varianzas
Contraste de hiptesis; contraste Chi-cuadrado de asociacin; valor p
93
Captulo 3
3. Notaciones y representaciones:
Palabras como extremos de clase, marcas de clase, cuartiles,
recorrido intercuartlico, etc.
Smbolos correspondientes a las frecuencias acumuladas, marginales
y condicionadas;
Tablas de frecuencia; grficos de tallo y hoja. caja, histograma,
curvas empricas de distribucin, grfico de cuantiles, tablas de
contingencia;
4. Tcnicas y procedimientos:
Elaboracin de un cuestionario; observacin, medida, codificacin
de datos
Elaboracin de tablas de frecuencia simples y cruzadas; recuento y
clculo de frecuencias agrupadas y frecuencias marginales y
condicionadas en tablas de contingencia
Elaboracin de grficos de tallo y hoja., caja, histograma, curvas
emprica de distribucin, grfico de cuantiles;
Interpretacin de tablas y grficos; elaboracin de conclusiones a
partir del anlisis de tablas y grficos; estudio de asociacin en tablas
de contingencia;
Elaboracin de argumentos y conclusiones a partir del anlisis de
datos obtenidos en observacin, encuesta y medida
Contraste de bondad de ajuste
Clculo de intervalos de confianza para la diferencia de medias y
cociente de varianzas en muestras independientes
Contraste de diferencias de medias en muestras independientes
Uso de calculadora grfica, hojas de clculo o software estadstico
94
El alumno tpico
5. Actitudes:
Reflexin sobre la dificultad de codificacin y cmo sta introduce
siempre una simplificacin en la realidad;
Valoracin de la utilidad de la estadstica para analizar datos
obtenidos mediante encuesta, observacin y medida;
Valoracin de la utilidad de la estadstica para identificar relaciones
de asociacin entre variables;
Valoracin de la esttica y la claridad en la construccin de tablas y
grficos estadsticos;
Valoracin de los modelos matemticos para describir en forma
simplificada la realidad; valoracin de la diferencia entre datos y
modelos;
Reflexin sobre las tendencias y dispersiones en los datos; sobre el
excesivo nfasis en los prototipos y el hecho de que stos con
frecuencia son modelos que no se dan en la realidad.
95
96
4. Las estadsticas de pobreza y desigualdad
Carmen Batanero, Carmen Daz y M. Magdalena Gea
4.1. Objetivos
Se trata de analizar una serie de variables demogrficas, entender su
utilidad y el motivo por el cual son recogidas, analizar las relaciones entre
las diferentes variables y estudiar las diferencias en sus distribuciones entre
pases, segn su nivel de desarrollo.
Un objetivo importante es mostrar la utilidad de la estadstica en el
estudio de interrelaciones entre variables. Los alumnos, alternativamente,
podran tomar otros ficheros de datos de Internet o de anuarios estadsticos
y desarrollar proyectos sobre otros temas en diferentes reas de aplicacin.
El anlisis es descriptivo, con finalidad exploratoria y no se plantean
problemas de inferencia.
Rouncenfield (1995) presenta este proyecto sobre el cual los alumnos
pueden trabajar en grupos, comparando las variables en los diferentes
grupos de pases y formulando por si mismos preguntas de su inters.
Mostraremos algunos ejemplos de las posibles actividades a desarrollar con
los estudiantes.
Alumnos
Este proyecto podra ser desarrollado con alumnos de Bachillerato o
en un primer curso de estadstica en la Universidad. En este ltimo caso, se
podran plantear preguntas de tipo inferencial, lo que requerira el uso de
procedimientos estadsticos ms avanzados.
97
Captulo 4
98
Las estadsticas de pobreza y desigualdad
99
Captulo 4
100
Las estadsticas de pobreza y desigualdad
101
Captulo 4
102
Las estadsticas de pobreza y desigualdad
103
Captulo 4
104
Las estadsticas de pobreza y desigualdad
105
Captulo 4
106
Las estadsticas de pobreza y desigualdad
107
Captulo 4
Los alum
mnos elaborarn grficos com mo los preesentados en las fig
guras
4.7, 4.8 y 4.99. El grffico de taallo y hojas ha sido til parra analizar las
diferrencias enn la tasaa de natallidad, perro tambin podemmos usar otras
o
108
Las estadsticas de pobreza y desigualdad
109
Captulo 4
hom b res
m ujeres
38 48 58 68 78 88
e s p e ra n z a d e vid a (h o m b re )
.5
.3
p orc entaje
.1
.
.2
.4
0 20 40 60 80 100
e s p e ra n z a d e vid a (m u je r)
110
Las estadsticas de pobreza y desigualdad
Grfico de cuantiles
1 Variabl
p rop orc in
evid ahom
0.8 e vid am uj
b
0.6
0.4
0.2
0
38 48 58 68 78 88
mujeres
4.4. Actividades de ampliacin
8. Relacin de la esperanza de vida con otras variables. En la Figura
4.13 hemos representado los diagramas de dispersin de la
esperanza de vida del hombre en cada pas, en funcin de diversas
variables. Qu variables estn relacionada con la esperanza de
vida del hombre? En cul es la relacin directa o inversa?
Cules influyen o son influidas por la esperanza de vida del
hombre? Cul sirve mejor para predecir la esperanza de vida? En
qu casos la relacin podra ser debida a otras variables?
Podramos en alguno de los casos hallar una funcin matemtica
para predecir, aproximadamente, la esperanza de vida del hombre a
partir de la otra variable? Qu tipo de funcin?
Al analizar las relaciones entre dos variables numricas los alumnos
deben de extender la idea de dependencia funcional a dependencia aleatoria
y diferenciar sus tipos (lineal o no; directa e inversa) as como graduar, al
menos intuitivamente, la intensidad de la relacin. Es importante tambin
diferenciar correlacin y causalidad y analizar los distintos tipos de
relaciones que pueden llevar a la existencia de correlacin: dependencia
causal; interdependencia, dependencia indirecta, concordancia y
111
Captulo 4
Figura 4.13. Relacin de la esperanza de vida del hombre con otras variables
112
Las estadsticas de pobreza y desigualdad
una relacin lineal entre las variables, por lo que conviene representar
grficamente los datos en un diagrama de dispersin (Figura 4.14). En el
diagrama de dispersin y el coeficiente de correlacin se observa una
relacin inversa ya que a mayor tasa de natalidad menor PNB, pero no
lineal.
113
Captulo 4
114
Las estadsticas de pobreza y desigualdad
tasa de natalidad
tasa de mortalidad Correlacin de Pearson ,486(**)
Sig. (bilateral) ,000
mortalidad infantil Correlacin de Pearson ,858(**)
Sig. (bilateral) ,000
esperanza de vida al nacer en el Correlacin de Pearson -,867(**)
hombre Sig. (bilateral) ,000
esperanza de vida al nacer en la Correlacin de Pearson -,894(**)
mujer Sig. (bilateral) ,000
Producto nacional bruto en millones Correlacin de Pearson -,629(**)
de dlares Sig. (bilateral) ,000
** La correlacin es significativa al nivel 0,01 (bilateral).
Estadsticos de cambio
R2 Error tp. Cambio Cambio Sig. del
2 2
Modelo R R corregida estimacin R en F gl1 gl2 cambio F
1 ,894(a) ,800 ,798 6,16040 ,800 356,051 1 89 ,000
2 ,915(b) ,837 ,833 5,60090 ,037 19,669 1 88 ,000
a Variables predictoras: (Constante), esperanza de vida al nacer en la mujer
b Variables predictoras: (Constante), esperanza de vida al nacer en la mujer, tasa de
mortalidad
115
Captulo 4
116
Las estadsticas de pobreza y desigualdad
117
Captulo 4
118
Las estadsticas de pobreza y desigualdad
119
Captulo 4
120
Las estadsticas de pobreza y desigualdad
121
Captulo 4
1. Aplicaciones de la estadstica:
Estudios demogrficos y socioeconmicos;
Estadsticas oficiales; organismos y procedimientos en la elaboracin
de estadsticas oficiales;
Fuentes de datos estadsticos: anuarios estadsticos; fuentes de datos
en Internet;
Ajuste de modelos a datos.
2. Conceptos y propiedades:
Agrupacin de variables en intervalos; efectos de la agrupacin;
Medidas de posicin central: medias ponderadas, percentiles, rangos
122
Las estadsticas de pobreza y desigualdad
de percentiles;
Valores atpicos y su efecto sobre los promedios;
Asociacin y sus tipos: directa/ inversa; lineal/ no lineal; asociacin y
causalidad;
Correlacin. Interpretacin del signo y la intensidad; proporcin de
varianza explicada;
Modelos; ajuste de modelos sencillos a datos bivariantes; uso de
modelos en la prediccin. Funcin lineal, cuadrtica, logartmica,
exponencial;
Contraste de hiptesis: contraste de diferencia de medias en muestras
relacionadas;
Intervalo de confianza para la diferencia de medias en muestras
relacionadas;
Anlisis de varianza de un factor, efectos fijos. Variable dependiente
y factor.
3. Notaciones y representaciones:
Palabras como, intervalos, extremos y marcas de clase, percentiles y
sus rangos, cuartiles, valores atpicos, asociacin, correlacin,
regresin, etc.
Smbolos usados para los diferentes estadsticos y otros como el
sumatorio;
Grficos de barras; diagramas acumulativos, diagrama de tallo y
hojas, grficos de caja, grficos de cuantiles, diagramas de dispersin.
4. Tcnicas y procedimientos:
Bsqueda de datos a partir de anuarios estadsticos o de la Internet;
Elaboracin de tablas de frecuencia con datos agrupados;
Elaboracin de grficos de tallo y hojas, grficos de caja, grficos de
cuantiles y diagramas de dispersin;
Interpretacin de tablas y grficos; elaboracin de conclusiones a
partir del anlisis de tablas y grficos;
Elaboracin de argumentos y conclusiones a partir del anlisis de
datos;
123
Captulo 4
5. Actitudes:
Valorar la utilidad y complejidad de la elaboracin de las estadsticas
oficiales y concienciarse de la importancia de su colaboracin en
encuestas y censos para obtener datos fiables;
Concienciar al alumno sobre la importancia de las representaciones
grficas y la posibilidad de que se transmita informacin sesgada en
una grfica mal construida;
Fomentar un espritu crtico en el uso de paquetes estadsticos y sus
opciones por defecto.
124
5. Pruebas mdicas
Carmen Daz
5.1. Objetivos
En este proyecto se utiliza el contexto de las pruebas mdicas y el
diagnstico de enfermedades para trabajar ideas de probabilidad,
incluyendo la probabilidad simple, probabilidad compuesta y probabilidad
condicionada, as como el teorema de Bayes.
Se har ver a los alumnos cmo el teorema de Bayes permite la
actualizacin de probabilidades cuando se dispone de informacin nueva.
En este sentido, formaliza la idea de aprender de la experiencia.
Otro objetivo importante es enfrentar a los alumnos con algunas de
sus intuiciones incorrectas sobre la probabilidad condicional, que puede
llevar a decisiones incorrectas, en situaciones frecuentes en la vida
cotidiana, como es la interpretacin de una prueba mdica.
El enfoque seguido permite, en alumnos universitarios, completarlo
con una introduccin intuitiva a algunas ideas elementales de inferencia
bayesiana.
125
Captulo 5
Alumnos
El proyecto puede ser utilizado con alumnos de Bachillerato y
alumnos universitarios dentro del tema de probabilidad. No necesita mucha
formalizacin, pues los clculos son sencillos. Para estudiantes
universitarios, el tema puede ampliarse con una introduccin intuitiva a la
inferencia bayesiana para la proporcin de una poblacin, en el caso
discreto.
126
Pruebas mdicas
127
Captulo 5
128
Pruebas mdicas
129
Captulo 5
800 99200
CNCER SANAS
7664
TEST +
130
Pruebas mdicas
131
Captulo 5
Figura 5.2. Applet que representa las pruebas mdicas en un diagrama en rbol
A2
A1
A4
B
A3
P( A ) P( B / A )
(5.1) P( Ai / B) = P( A1 ) P( B / A1 ) + P( A2 ) P( B / A2 ) + ... + P( An ) P( B / An )
i i
132
Pruebas mdicas
(5.2) P( Ai / B) = K P( Ai ) P( B / Ai )
1
K=
(5.3) P ( A1 ) P ( B / A1 ) + P ( A2 ) P ( B / A2 ) + ... + P ( An ) P ( B / An )
10. Alrededor del 15% de las madres primerizas sienten ansiedad en los
das posteriores al parto. En el 90% de los casos esta ansiedad
disminuye y en pocos das desaparece, pero en los casos restantes
puede aparecer una depresin que necesite tratamiento. Un 2% de
madres primerizas que no sufrieron ansiedad en los primeros das
desarrolla una depresin tras las primeras semanas del nacimiento.
Si una madre primeriza tuvo una depresin post-parto. Identifica la
probabilidad a priori de tener ansiedad despus del parto. Cmo
133
Captulo 5
134
Pruebas mdicas
135
Captulo 5
136
Pruebas mdicas
137
Captulo 5
138
Pruebas mdicas
139
Captulo 5
140
Pruebas mdicas
141
Captulo 5
142
Pruebas mdicas
143
Captulo 5
144
Pruebas mdicas
145
Captulo 5
2. Conceptos y propiedades
Experimento aleatorio y suceso. Casos favorables y posibles;
Asignacin de probabilidades mediante regla de Laplace;
146
Pruebas mdicas
3. Notaciones y representaciones
Palabras como probabilidad, verosimilitud;
Smbolos como P(A), P(A/B);
Tablas de contingencia y tabla de Bayes;
Applets;
Diagramas en rbol;
Representacion grfica de la distribucin inicial y final.
4. Tcnicas y procedimientos
Bsqueda de datos mdicos;
Elaboracin de tablas de doble entrada;
Interpretacin de tablas; elaboracin de conclusiones a partir del
anlisis de tablas;
Elaboracin de argumentos y conclusiones a partir del anlisis de
datos obtenidos;
Clculo de probabilidades simples, compuestas y condicionales;
147
Captulo 5
5. Actitudes
Reflexin sobre la fiabilidad de las pruebas mdicas, los falsos
positivos y falsos negativos;
Actitud crtica y responsable en la interpretacin de datos de
diagnstico;
Reflexin sobre las intuiciones engaosas en el caso de la
probabilidad condicional;
Valoracin de la utilidad de la probabilidad para la toma de
decisiones;
Reflexin sobre la posibilidad de actualizacin de las probabilidades
cuando disponemos de nuevos datos.
148
6. Las matemticas de la catadora de t
Carmen Batanero
6.1. Objetivos
Este proyecto est basado en un artculo de Sir Ronald Fisher
reproducido en Sigma: El mundo de las matemticas (Fisher, 1956) donde
describe intuitivamente los pasos necesarios para establecer un contraste de
hiptesis.
El propsito es plantear a los estudiantes una situacin que lleve a
formular una hiptesis y estudiar la forma en que se podra organizar un
experimento, recoger los datos y analizarlos, para llegar a una decisin
acerca de si aceptamos o no la hiptesis como provisionalmente cierta. Se
analiza el razonamiento en un contraste (en la metodologa de los tests de
significacin de Fisher), as como la posibilidad de error. Se complementa
el proyecto con algunas ideas sobre muestreo y distribucin muestral.
Mediante el proyecto se trata de introducir algunos conceptos bsicos
de inferencia y mostrar a los alumnos la utilidad de la inferencia estadstica
para poner a prueba hiptesis experimentales. Se desea visualizar las
diferentes distribuciones que aparecen en un proceso de inferencia:
distribucin de datos, distribucin de probabilidad, distribucin muestral
del estadstico.
Asimismo se pretende analizar el razonamiento de las pruebas de
significacin estadstica introducidas por Fisher y comparar con los
razonamientos deductivos que empleamos en otras ramas de las
matemticas.
Tambin se quiere concienciar a los alumnos sobre posibles
interpretaciones errneas de los resultados de las pruebas estadsticas de
hiptesis, ya que, a pesar de su utilidad en la investigacin y la toma de
decisiones, el contraste de hiptesis es uno de los temas estadsticos peor
comprendido y aplicado (Batanero, 2000b; de la Fuente y Diaz, 2004).
149
Captulo 6
Alumnos
El proyecto est pensado para alumnos de Bachillerato, en la
modalidad de Ciencias Sociales, donde se incluyen los contenidos tratados
en el proyecto. Podra ser tambin til en la formacin universitaria para
alumnos de ciencias sociales o humanas.
En general, puede ser til para cualquier curso universitario, como
actividad introductoria al estudio formal del tema y para que los alumnos
alcancen una mejor comprensin de la naturaleza del razonamiento que
subyace en el contraste de hiptesis. Para alumnos de nivel ms avanzado
se puede completar con un estudio ms formalizado de los contrastes de
hiptesis.
1. Una seora afirma que al probar una taza de te con leche puede
distinguir qu fue lo primero que se ech en la taza: el t o la leche.
Cmo podramos hacer un experimento para comprobar si la
seora tiene razn?
Se recogen sugerencias de la clase, discutiendo con los alumnos si el
hecho de acertar una sola vez significara que la seora tiene razn. Se
buscan ejemplos de situaciones en que podemos adivinar un resultado,
simplemente por azar o de ejemplos en que se produzcan coincidencias por
150
La catadora de t
Tabla 6.1. Diferentes posibilidades de acierto en una, dos y tres tazas si la seora
miente
A F
AA AF FA FF
AAA AAF AFA AFF FAA FAF FFA FFF
Puesto que un suceso que ocurre una vez cada ocho veces no es
demasiado raro, el caso de que la seora acertara el orden de colocacin del
te y la leche en las tres primeras tazas, en el experimento descrito, pues
podra darse por puro azar. Se pueden encontrar ejemplos semejantes en la
vida real, por ejemplo, matrimonios con tres hijas o tres hijos.
Sin embargo, a medida que aumentamos el nmero de tazas, la
151
Captulo 6
Figura 6.1. Nmero de aciertos por azar en 8 tazas de te (datos del alumno)
0 1 2 3 4 5 6 7 0
El profesor deja un cierto tiempo a los alumnos para que realicen los
experimentos y recojan los datos. A continuacin pregunta a los chicos los
datos que han obtenido y si les parece fcil o difcil acertar 8 tazas por azar.
Finalmente se resumen los datos de toda la clase con un grfico de puntos
(Figura 6.2).
En una clase de 25-30 alumnos se obtendr una distribucin
acampanada, con la mxima frecuencia en los valores centrales (3-5 tazas)
y con una frecuencia muy baja en los extremos (1-2 o 7-8). A partir de la
distribucin obtenida se pueden plantear las siguientes preguntas:
152
La catadora de t
0 1 2 3 4 5 6 7 0
153
Captulo 6
154
La catadora de t
90
60
30
0
60
frecuencia
40
20
0
0 10 20 30 40
RAND1
Podemos discutir con los alumnos la influencia de la hiptesis sobre la
forma de la distribucin obtenida en el muestreo. Si suponemos que la
seora tiene una mayor probabilidad de acertar que de fallar (por ejemplo si
la probabilidad de acierto fuese 0.8) y repetimos la simulacin, observamos
como ahora los valores centrales se aproximan al valor esperado.
155
Captulo 6
60
frecuencia
40
20
0
0 10 20 30 40
156
La catadora de t
AAA 0 0,983
AA, AA, AA 1 3*0,982*0,02
A, A, A 2 3*0,98*0,022
3 0,023
157
Captulo 6
158
La catadora de t
159
Captulo 6
160
La catadora de t
161
Captulo 6
162
La catadora de t
6.3.
Obtenemos los siguientes valores: 108, 94.5, 97.5, 110, 95, 97.25,
97.5, 92.5, 104.5, 98.75, 96.25, 101.75, 110.25, 101.25, 104, 103.25, 101,
102.25, 101.25, 95.75, 106.75, 98.75, 100, 95.75, 86.5, 90, 96.75, 98.25,
104.5, 88.25. Observamos que no todas las medias son iguales, varan de
muestra a muestra: La media muestral es una variable aleatoria.
163
Captulo 6
12
10
8
6
4
2
0
80 90 100 110 120
0
80 90 100 110 120
164
La catadora de t
165
Captulo 6
En las figuras 6.12 y 6.13 mostramos dos ejemplos del uso del
simulador, habiendo construido una distribucin completamente irregular. La
166
La catadora de t
167
Captulo 6
168
La catadora de t
169
Captulo 6
170
La catadora de t
171
Captulo 6
1. Aplicaciones de la estadstica:
Prueba de una hiptesis;
Diseo de experimentos;
Votaciones, resultados de elecciones; encuestas de intencin de voto;
Consumo; orientacin al consumidor;
Medida de la inteligencia, coeficiente de inteligencia.
2. Conceptos y propiedades:
Experimento aleatorio; secuencia de resultados aleatorios, sucesos
equiprobables, independencia de ensayos;
Probabilidad simple, probabilidad condicional; condicin y
condicionado en una probabilidad condicional;
Variable estadstica y variable aleatoria, dstribucin de frecuencias y
distribucin de probabilidad;
Distribucin binomial y distribucin normal, parmetros, efecto sobre
la variabilidad;
172
La catadora de t
3. Notaciones y representaciones:
Palabras como hiptesis, contraste de hiptesis, riesgo,
representatividad y variabilidad muestral;
Diagrama de puntos, diagrama de barras, histogramas;
Representacin de experimentos aleatorios mediante simulacin con
materiales concretos y con ordenador.
4. Tcnicas y procedimientos:
Recogida y registro de datos experimentales;
Recuento y clculo de frecuencias;
Representacin grfica de datos e interpretacin de tablas y grficos;
Uso de ordenadores para simulacin y representacin grfica;
Clculo de probabilidades mediante regla de Laplace y mediante
simulacin;
Procedimiento de contraste de hiptesis; toma de decisin en un
contraste.
5. Actitudes:
Reflexin sobre las propias intuiciones incorrectas respecto al
173
Captulo 6
muestreo y la inferencia;
Valoracin de la utilidad de la estadstica para poner a prueba
hiptesis, organizar experimentos y analizar los datos de los mismos;
Valoracin de la utilidad de la estadstica en el anlisis de datos del
consumo, las votaciones y la medicin de la inteligencia;
Inters por los estudios estadsticos publicados en los medios de
comunicacin y por sus caractersticas tcnicas;
Valoracin de la esttica y claridad en la elaboracin de tablas y
grficos;
Concienciacin de sesgos comunes en la interpretacin de resultados
de inferencia.
174
7. Coincidencias
Carmen Batanero
7.1. Objetivos
En este proyecto tambin tratamos de realizar otro experimento para
comprobar si tenemos buenas intuiciones respecto a los fenmenos
aleatorios. Pero esta vez analizamos las distribuciones aleatorias de puntos
en el espacio. En concreto tratamos de comprobar si somos capaces de
simular una distribucin espacial aleatoria.
La idea est tomada de los experimentos habituales en las
investigaciones sobre percepcin de la aleatoriedad, por ejemplo, algunos
estudios realizados por Piaget e Inhelder (1951), quienes investigaron la
comprensin de los nios sobre lo que ellos llamaron "distribuciones
uniformes", que en realidad eran distribuciones de Poisson en el plano.
Los nios tienen experiencia de observar la distribucin de las gotas
de lluvia sobre un embaldosado. Estas gotas caen al azar sobre el
pavimento; por tanto, la distribucin que forman en el embaldosado es
aleatoria. Basndose en esta experiencia de los nios y para estudiar cmo
conciben una distribucin aleatoria.
Piaget e Inhelder usan la siguiente tcnica experimental: una hoja de
papel blanco es dividida en cuadrados de 2 o 3 cm, y algunas fichas se
lanzan sobre la hoja de papel al azar, simulando gotas de lluvia (o bien se
les dan fichas para colocar sobre el embaldosado del patio o de una
habitacin).
Se pide al nio que prevea donde caern las gotas de lluvia sucesivas
y cmo se efectuar la distribucin, cuando aumentamos el nmero de
gotas. Este tipo de experimento tambin se ha realizado con sujetos adultos.
Nosotros usaremos el mismo experimento con nuestros estudiantes.
La finalidad principal es hacer reflexionar al alumno sobre las
intuiciones incorrectas respecto al azar; en concreto sobre las coincidencias
de resultados aleatorios y sobre la idea de independencia. Tambin se les
quiere mostrar la utilidad de la estadstica en la prueba de nuestras hiptesis
175
Captulo 7
o teoras (en este caso la hiptesis de que nuestras intuiciones sobre los
fenmenos estocsticos son correctas).
Otro objetivo sera que los alumnos analicen las propiedades de las
variables aleatorias que siguen la distribucin de Poisson y el
comportamiento emprico de los procesos de Poisson, as como analizar
ejemplos de sus posibles aplicaciones.
Alumnos
Esta actividad puede hacerse con alumnos de Bachillerato, una vez
que estn estudiando las variables aleatorias y la distribucin binomial,
tema que aparece en el programa de matemticas en este nivel.
Puede servir para introducirles a la distribucin de Poisson, que surge
cuando en la distribucin binomial la probabilidad de xito es
relativamente pequea. No necesita mucha formalizacin, pues se puede
trabajar con simulacin y Applets en Internet para realizar los clculos y
experimentalmente se podran observar fenmenos que siguen esta
distribucin. Tambin es adecuado para alumnos universitarios, tanto en el
tema de la distribucin de Poisson, como en el estudio de los contrastes de
bondad de ajuste.
176
Coincidencias
177
Captulo 7
178
Coincidencias
179
Captulo 7
qu se diferencian?
La distribucin de Poisson es una distribucin de probabilidad discreta
que tiene mltiples aplicaciones. De hecho, muchas variables discretas se
obtienen mediante un proceso de Poisson. Un proceso de Poisson se
observa cuando eventos discretos ocurren en un espacio de oportunidad,
como un intervalo de tiempo, de longitud, de rea o de volumen, entre
otros, de tal manera que si ese espacio de oportunidad se redujera
suficientemente entonces se tendra que:
a. La probabilidad de observar exactamente una ocurrencia del evento
en ese espacio sera un valor fijo,
b. La probabilidad de observar ms de una ocurrencia del evento en ese
espacio es cero y
c. La ocurrencia de un evento en cualquier intervalo es estadsticamente
independiente de que ocurra en otro intervalo.
Se sugiere iniciar el estudio del tema con la discusin sobre preguntas
como la siguiente:
180
Coincidencias
181
Captulo 7
182
Coincidencias
3
Frecuencia
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
183
Captulo 7
184
Coincidencias
185
Captulo 7
0,24 Media
3
0,2
0,16
0,12
0,08
0,04
0
0 2 4 6 8 10 12
186
Coincidencias
187
Captulo 7
188
Coincidencias
condiciones del proceso de Poisson. Por ello, si cada 5 minutos llega una
persona, es de suponer que en una hora lleguen 12. Por tanto, el nmero de
clientes en una hora es una variable aleatoria con distribucin de Poisson
P(12).
Anlogamente, en un cuarto de hora, el nmero de personas sigue una
distribucin P(3). Utilizando de nuevo la tabla de la distribucin
obtenemos:
P(x>5) = 1 - F(5) = 1 - 09161 = 00839
189
Captulo 7
190
Coincidencias
191
Captulo 7
192
Coincidencias
193
Captulo 7
Ruiz (2006) indica que, sin embargo, la idea de variable aleatoria tiene
dificultades, puesto que los alumnos la asocian a la idea de funcin que tiene
rasgos similares pero tambin diferentes. Mientras una funcin asocia a cada
valor de la variable independiente un solo valor de la dependiente, en una
variable aleatoria la correspondencia no es unvoca. Adems, el valor de la
variable aleatoria depende del resultado de un experimento, por lo que, en
realidad la variable aleatoria no es una funcin real, sino una funcin de
conjunto. La distribucin de la variable aleatoria si es una funcin real y nos
permite operar con ella en forma similar a como hacemos con las funciones.
Pero estas diferencias no siempre son comprendidas por los estudiantes.
1. Aplicaciones de la Estadstica
Diseo de un experimento;
Anlisis de datos experimentales; comparacin de datos
experimentales con patrones tericos;
Coincidencias, intuiciones, seguros;
Percepcin de la aleatoriedad;
Anlisis de las intuiciones; psicologa,
2. Conceptos y propiedades
Aleatoriedad: experimento aleatorio; secuencia de resultados
aleatorios, sucesos equiprobables, independencia de ensayos;
Variable estadstica discreta (puntos dibujados en cada cuadro),
frecuencia absoluta; tabla de frecuencias; distribucin de
frecuencias;
Posicin central: moda, media;
Dispersin: rango, desviacin tpica;
Variable aleatoria discreta (puntos esperados en cada cuadro);
probabilidad, distribucin de probabilidad, valor esperado,
dispersin;
Distribucin de Poisson, supuestos, media;
194
Coincidencias
3. Notaciones y representaciones
Palabras como frecuencia, media, moda, recorrido, ocurrencia;
Smbolos y expresiones matemticas;
Tablas de frecuencias: grficos de barras, lneas y puntos,
histogramas;
Applets.
4. Tcnicas y procedimientos
Recogida de datos experimentales;
Elaboracin de tablas de frecuencias; recuento y clculo de
frecuencias;
Elaboracin de grficos de puntos, diagramas de barras:
Interpretacin de tablas y grficos; elaboracin de conclusiones a
partir del anlisis de tablas y grficos;
Elaboracin de argumentos y conclusiones a partir del anlisis de
datos obtenidos en un experimento;
Uso de calculadora grfica, hojas de clculo o software estadstico y
applets;
Clculo de probabilidades; comparacin de probabilidades y
frecuencias relativas.
5. Actitudes
Reflexin sobre las intuiciones incorrectas en relacin a los
experimentos aleatorios;
Valoracin de la utilidad de la estadstica para analizar datos
obtenidos mediante experimentacin;
Valoracin de la esttica y la claridad en la construccin de tablas y
grficos estadsticos;
195
Captulo 7
196
8. La estadstica como herramienta de clasificacin
Carmen Batanero
8.1. Objetivos
Se trata de buscar criterios de clasificacin de sujetos en funcin de
los valores de ciertas variables (en este caso sus atributos fsicos) para
poder asignar en el futuro a un sujeto al grupo respecto al cual tiene un
mayor parecido global.
En concreto utilizaremos cuatro medidas de las hojas de tres especies
diferentes de Iris (Setosa, Virgnica y Versicolor) para tratar de determinar
una funcin de estas cuatro medidas o funcin discriminante que permita a
una persona sin conocimientos de botnica clasificar una planta Iris en
funcin de estas medidas en una de las tres especies dadas, de modo que se
minimice el nmero de errores cometidos.
La finalidad principal del proyecto es mostrar la utilidad de la
estadstica en la construccin de modelos predictivos y clasificatorios que
tienen una gran aplicabilidad tanto en la taxonoma en ciencias como
botnica o zoologa, el diagnstico mdico, psicologa y otras disciplinas.
Un ltimo objetivo es una iniciacin intuitiva a las tcnicas
estadsticas multivariantes. Como actividades de ampliacin en cursos
avanzados, estos datos son un buen ejemplo, para introduccin al Manova.
Alumnos
Este tema est pensado para trabajar con alumnos de Bachillerato o
primeros cursos de Universidad, preferentemente con algunos
conocimientos de paquetes estadsticos, aunque el tema puede usarse para
introducirlos al uso de software estadstico.
197
Captulo 8
198
La estadstica como herramienta de clasificacin
8.2. 12
Del estudio del grfico y los resmenes se deduce que la clasificacin
8
de las plantas a partir de la anchura del ptalo parece fcil, porque no hay
solapamiento del rango
4 de valores de la variable. Los alumnos podran
subjetivamente sealar unos valores de la anchura del ptalo que sirviesen
0 especie. Grficamente consistira en trazar una lnea
para diferenciar cada
0 10 20 30 40 50
horizontal oportuna. Es sencillo discriminar la primera especie60de las otras
dos y aparecera algo ms complicado separar
longpetalo las dos ltimas.
199
Captulo 8
16
12
8
4
0
1 2 3
especie
Tabla 8.2. Resmenes estadsticos de la anchura de ptalo en tres especies de Iris
Setosa (1) Virgnica (2) Versicolor (3)
Media 2.1 12.6 19.8
D. Tpica .74 2.17 2.25
Mnimo 1 10 17
Mximo 4 16 24
200
La estadstica como herramienta de clasificacin
201
Captulo 8
Grficos de cajas
60
50
longpetalo
40
30
20
10
0
1 2 3
especie
Figura 8.3. Representacin conjunta de longitud y ancho de ptalo en tres especies
de Iris
16 3
12
8
4
0
0 10 20 30 40 50 60
longpetalo
202
La estadstica como herramienta de clasificacin
64
59
54
49
44
1 2 3
especie
Figura 8.4. Diagrama de cajas de ancho spalo en tres especies de Iris
Grficos de cajas
38
35
anchosepal
32
29
26
23
1 2 3
especie
Observamos que tampoco las diferencias son grandes. Calculando los
valores medios de la anchura spalo para cada especie xVe= 27.6 y
xVir=28.2 y de la longitud del spalo xVe= 57.5 y xVir=62, podemos
extender la distancia usada para dos variables al caso de cuatro,
simplemente aadiendo nuevos sumandos y tenemos:
d (P,xVe) = 3.9 + 4.1 + 0.6 + 0.5= 9.1
d (P,xVi) = 3.3 + 6.6 + 1.2 + 5 =16
203
Captulo 8
20
16
12
8
4
405060
0
2030 longpetalo
23 26 29 32 35 0 10
38
anchosepal
204
La estadstica como herramienta de clasificacin
205
Captulo 8
206
La estadstica como herramienta de clasificacin
207
Captulo 8
208
La estadstica como herramienta de clasificacin
209
Captulo 8
Tabla 8.7. Resultados del clculo de intervalo de confianzas para ancho del ptalo
tem 1. El intervalo de confianza del 50% para la media de una poblacin es:
a. El rango dentro del cul caen el 50% de los valores de la media de la
muestra x .
b. Un intervalo ms ancho que el intervalo de confianza del 95%.
c. Un intervalo de valores calculado a partir de los datos de la muestra. En
el 50% de las muestras de una poblacin, el intervalo calculado contiene a
la media de la poblacin.
d. Dos veces ms ancho que el intervalo de confianza del 100%.
210
La estadstica como herramienta de clasificacin
tem 3. Si, manteniendo todos los dems datos fijos, el nivel de confianza se
reduce (por ejemplo de 90% a 80%):
a. El intervalo de confianza no cambia.
b. El intervalo de confianza ser ms ancho
c. El intervalo de confianza ser ms angosto
d. El cambio en el intervalo de confianza no es predecible
211
Captulo 8
212
La estadstica como herramienta de clasificacin
213
Captulo 8
214
La estadstica como herramienta de clasificacin
las matemticas.
Una ayuda en la enseanza de la modelizacin es la simulacin. En
ella ponemos en correspondencia dos experimentos aleatorios diferentes, de
modo que a cada suceso elemental del primer experimento le corresponda
un suceso elemental del segundo y slo uno, y los sucesos puestos en
correspondencia en ambos experimentos sean equiprobables. Al trabajar
mediante simulacin estamos ya modelizando, porque debemos no slo
simplificar la realidad, sino fijar los aspectos de la misma que queremos
simular y especificar unas hiptesis matemticas sobre el fenmeno
estudiado.
Lo importante de sta es que podemos operar y observar resultados
del segundo experimento y utilizarlos para obtener informacin del
primero. Entre el dominio de la realidad en que se encuentra la situacin
que queremos analizar y en la que interviene el azar y el dominio terico
donde, con ayuda de la matemtica construimos un modelo terico de
probabilidad que debe, por un lado, simplificar la realidad y abstraer slo
sus aspectos esenciales y, por otro, ser til para interpretar los caracteres
retenidos en la modelizacin, Coutinho (2001) sita el domio pseudo-
concreto en el que podramos trabajar con los alumnos por medio de la
simulacin. Sin embargo, conviene tener en cuanta algunas dificultades
citadas Countinho cuando los alumnos trabajan con simulaciones:
Dificultades de manejo del software si el alumno no est
familiarizado, por lo que se recomienda usar programas fcilmente
manipulables que no aadan complejidad innecesaria a la actividad de
simulacin;
Resistencia a usar la simulacin y la aproximacin experimental para
resolver un problema de probabilidad en los casos en que es posible
resolver el problema mediante clculo directo;
Dificultad en aceptar datos de simulaciones que no han llevado a cabo
personalmente para obtener estimaciones de la probabilidad;
Dificultad en diferenciar la estimacin de la probabilidad que
proporciona la simulacin del verdadero valor terico de la
probabilidad (que solo es accesible por clculo en los casos que sea
posible).
215
Captulo 8
1. Aplicaciones de la estadstica:
Botnica, taxonoma;
Clasificacin automtica;
Discriminacin de grupos u objetos;
Determinacin de factores.
2. Conceptos y propiedades:
Distancia, similaridad y disimilaridad; centro de gravedad, distancia al
centro de gravedad;
Modelizacin; pasos en el proceso de modelizacin;
Representacin geomtrica de datos; coordenadas; las unidades
estadsticas como puntos;
Discriminacin; variables independientes y dependiente; funcin
discriminante; bondad de la clasificacin;
Clasificacin; criterios de clasificacin;
Anlisis de varianza. Factor fijo. Interpretacin de la prueba F.
Anlisis multivariante de varianza. Variables dependientes y factores;
Contraste de hiptesis, errores en un contraste de hiptesis.
Interpretacin de resultados significativos;
Intervalo de confianza. Clculo e interpretacin de intervalos de
confianza.
3. Notaciones y representaciones:
Tablas; listado de datos; tabla de distancias;
Grficos de puntos; grficos de cajas; diagramas de dispersin en dos y
tres dimensiones;
Dendograma; Grfico de burbujas;
Grficos dinmicos interactivo;
Applets.
4. Tcnicas y procedimientos:
Clculo de distancias;
216
La estadstica como herramienta de clasificacin
Representacin de datos;
Clculo de intervalos de confianza;
Uso del software para anlisis multivariante;
Clasificacin automtica;
Discriminacin; bsqueda de criterios;
Exploracin de grficos y conjuntos de datos multivariantes.
5. Actitudes:
Valoracin de la actividad matemtica de modelizacin;
Comprensin de la diferencia entre modelo y realidad;
Valoracin del modelo lineal, para el estudio de datos multivariantes;
Valoracin de la claridad y esttica en los grficos;
Precaucin con errores comunes en el uso de la estadstica. Precaucin
con el problema de comparaciones mltiples;
Valoracin de los mtodos de Manova e intervalos de confianza LSD
para evitar el problema de comparaciones mltiples;
Valoracin del software de visualizacin dinmica, como ayuda a la
interpretacin de datos complejos.
217
2
9. Supervivencia en el Titanic
Carmen Daz, Gustavo R. Caadas y Carmen Batanero
9.1. Objetivos
En este proyecto se trabajar con el contexto de los datos de los
supervivientes durante la tragedia del Titanic. Estos datos servirn para
trabajar el tema de tablas de contingencia, distribuciones conjuntas de
datos, distribuciones marginales y distribuciones condicionales. Tambin se
podrn trabajar el uso de determinadas representaciones grficas para
describir relaciones entre variables categricas.
Por ltimo se vern pruebas de contraste de asociacin entre dos
variables categricas como el test de Chi-cuadrado y medidas de
asociacin, como el coeficiente Phi o la V de Cramer. Se podr trabajar
estos conceptos desde el punto de vista de clculo manual y desde el uso de
software estadstico como SPSS. Se manejan tambin algunos applets
disponibles en Internet.
El principal fin del proyecto es dar a conocer algunos procedimientos
para analizar la asociacin entre dos variables cualitativas. Nos parece
importante este punto en un momento en que los mtodos de investigacin
cualitativos cobran gran importancia y en que algunos investigadores
pudieran equiparar estos mtodos a no uso de la estadstica. Los mtodos
de anlisis de datos cualitativos son muy numerosos en estadstica y, en
particular, en casi cualquier investigacin es muy posible obtener una tabla
de contingencia, incluso hay investigaciones que se basan nicamente en
este tipo de anlisis.
Por otro lado, las tablas de contingencia constituyen un mtodo usual
de presentar la informacin estadstica en la prensa o Internet, por lo que
algunos autores (por ejemplo, Schield, 2006) incluyen la interpretacin
correcta de stas como un componente de la cultura estadstica. Sin
embargo, dichas tablas reciben poca atencin en la enseanza universitaria,
pues se supone que su lectura e interpretacin son habilidades adquiridas
por los estudiantes.
219
Captulo 9
Alumnos
El proyecto puede ser utilizado con alumnos de Bachillerato y
alumnos universitarios dentro del tema de estadstica descriptiva bivariable,
contraste Chi- cuadrado y medidas de asociacin. No necesita mucha
formalizacin, pues los clculos son sencillos, sobre todo si se dispone de
software adecuado.
220
Supervivencia en el Titanic
221
Captulo 9
222
Supervivencia en el Titanic
223
Captulo 9
224
Supervivencia en el Titanic
225
Captulo 9
226
Supervivencia en el Titanic
227
Captulo 9
228
Supervivencia en el Titanic
f i . f. j
f eij =
n
Se puede comprobar con los alumnos que el resultado aplicando
dicha frmula es igual que el obtenido anteriormente (salvo redondeo de
los decimales).
229
Captulo 9
2
Tabla 9.11. Clculos para determinar
Sobrevive No sobrevive Total
Primera clase (1 9 4 1 1 0 ) 2
(1 2 8 2 1 2 ) 2
322
110 212
Segunda clase (1 1 9 9 6 ) 2 (1 6 1 1 8 4 ) 2 280
96 184
Tercera clase (1 3 8 2 4 4 ) 2 (5 7 3 4 6 7 ) 2 711
244 467
Total 451 862 1313
2
Tabla 9.12. Clculos para determinar
Sobrevive No sobrevive Total
Primera clase 64,14 33,28 322
Segunda clase 5,51 2,87 280
Tercera clase 46,04 24,05 711
Total 451 862 1313
2= 64,14+33,28+5,51+2,87+46,04+24,05 = 175,89
Esto ocurre slo cuando las dos variables de la tabla son independientes;
Por tanto, si hay independencia entre las dos variables de la tabla,
exp
2
=0
230
Supervivencia en el Titanic
231
Captulo 9
232
Supervivencia en el Titanic
Hay dos clases de estadsticos de este tipo, los utilizados en tablas 2x2, y
los estadsticos que se utilizan en tablas rxc, siendo el nmero de filas o de
columnas mayor que dos. En este caso estamos trabajando con una tabla
rxc y usaremos el coeficiente V de Cramer, que se calcula en la forma
siguiente:
2
V=
n( L 1)
175,89
V= = 0,36
1313(2 1)
Para el ejemplo que estamos tratando, estos valores (el del estadstico
C y el valor de su mximo), quedara de la siguiente forma:
C = 0,3437
Max{C} = 0,7071
Por tanto, en el ejemplo, alcanza la mitad del valor mximo, y de
nuevo indica una intensidad de asociacin moderada.
233
Captulo 9
234
Supervivencia en el Titanic
235
Captulo 9
concentran en las celdas f11 (presencia de los dos caracteres) y f22 (ausencia
de los dos caracteres). Por el contrario, la asociacin inversa se da cuando
la gran mayora de las frecuencias se concentran en las celdas f12 y f21
(presencia de un carcter, y ausencia del otro carcter). En nuestro ejemplo
(Tabla 9.15), podemos observar como hay diez veces ms sujetos en las
celdas f11 y f22 que en las celdas f12 y f21, por lo que podramos concluir que
hay una dependencia directa entre ser mujer y la supervivencia.
Chi-cuadrado 330,15
Phi de Pearson 0,501
Riesgo Relativo (columnas) 2,5904
Riesgo Relativo (filas) 2,4959
Razn de productos cruzados 9,9021
236
Supervivencia en el Titanic
Estos dos valores puede que coincidan, pero esto no pasa siempre. El
valor del Riesgo relativo cambia segn el tipo de asociacin que tengan las
variables:
El RR = 1, informa que no hay asociacin entre las variables.
El RR > 1, nos dice que existe asociacin positiva.
El RR < 1, indica que existe una asociacin negativa.
En nuestro ejemplo RRcolumnas > 1, nos dice que existe asociacin
positiva. Nos dice que fue 2,59 veces ms fcil salvarse si se era mujer que
si se era hombre. El RRfilas > 1, tambin nos dice que existe asociacin
positiva. Nos dice que hubo 2,49 mujeres por cada hombre entre los que se
salvaron.
237
Captulo 9
238
Supervivencia en el Titanic
1. Fijar las hiptesis que se quieren contrastar. Estas hiptesis son las
siguientes:
H0: Las variables en filas y columnas de la tabla son independientes
H1: Hay asociacin entre las filas y columnas de la tabla
2. Fijamos el nivel de significacin; lo ms usual es elegir un valor
=0,05. Esto quiere decir que la probabilidad mxima que fijamos
para el error tipo I (rechazar la hiptesis de independencia cuando
sea falsa) es 0,05.
3. Elegir un estadstico de contraste, que tenga alguna relacin con la
hiptesis. En este caso, elegimos el estadstico Chi cuadrado,
( f ij eij ) 2
exp
2
= (2n1)( m 1) , que tiene relacin con la hiptesis
i j eij
nula, pues se basa en la comparacin de frecuencias observadas y
frecuencias esperadas en caso de independencia.
4. Si la hiptesis nula H0 es cierta (hay independencia entre filas y
columnas) es de esperar un valor del Chi cuadrado ser pequeo y si,
por el contrario es falsa, ser grande. Formaremos una regla decisin,
dividiendo los posibles valores de Chi- cuadrado en dos regiones:
- Si el valor calculado exp
2
tiene una probabilidad menor que
(nivel de significacin) rechazamos la hiptesis nula H0 (hay
independencia entre filas y columnas), pues el valor obtenido es
improbable para una tabla con filas y columnas independientes.
En este caso, suponemos que las variables estn asociadas.
- Si el valor calculado exp
2
tiene una probabilidad igual o mayor
que (nivel de significacin) no podemos rechazar la hiptesis
nula H0. En este caso no tomamos ninguna decisin.
239
Captulo 9
240
Supervivencia en el Titanic
241
Captulo 9
(no salvarse) se analizara hasta que punto coinciden los cdigos, es decir
ser mujer-salvarse y no serlo-ahogarse. Podemos considerar, entre otros los
siguientes coeficientes:
Tau de Kendall. Para calcular este coeficiente, calculamos en primer
lugar los valores P, Q y S definidos en la forma siguiente:
P= n de sujetos que tienen el mismo orden en las clasificaciones X e
Y; Q= n de pares para los cuales los rdenes no concuerdan.
S=P-Q
2S
=
n (n 1)
2
Estrategias correctas
ST.1. Comparar todas las distribuciones de frecuencias relativas
condicionales de una variable para los distintos valores de la otra
variable. Se puede intercambiar el papel de filas y columnas.
242
Supervivencia en el Titanic
243
Captulo 9
244
Supervivencia en el Titanic
245
Captulo 9
246
Anlisis de los Proyectos Presentados
Carmen Batanero y Carmen Daz
10.1. Introduccin
En este libro hemos presentamos algunos ejemplos de proyectos que
pueden ser desarrollados en la clase de estadstica, describiendo los datos y
la forma en que han sido recogido y sugiriendo algunas posibles
actividades que propicien la reflexin sobre los conceptos estadsticos y
permitan la ejercitacin de las diversas representaciones, tcnicas y tipos de
argumentacin. Dependiendo de la edad y conocimientos previos de sus
alumnos, de sus intereses, tiempo disponible, el profesor puede suprimir o
aadir otras actividades o proyectos.
Los proyectos estn concebidos para introducir en la clase una
filosofa exploratoria y participativa, en tendencias con las
recomendaciones recientes sobre metodologa de enseanza de la
estadstica. Tienen una estructura comn y pretenden, en su conjunto, dar
una visin del contenido que podra abordarse entre la enseanza
secundaria y la universidad.
Para finalizar analizamos la estructura de los proyectos y se sugieren
temticas para otros posibles proyectos. Lo deseable sera que los propios
alumnos eligieran el tema en el que quieren trabajar y elaborasen sus
propios proyectos en grupos de dos o tres alumnos. Para ser realistas,
hemos de reconocer que son pocos los alumnos que se interesan por la
estadstica y que sta es una materia aburrida para ellos. Por el contrario,
los alumnos pueden interesarse en muchos temas diferentes y llegar a
valorar la estadstica como instrumento de investigacin de los problemas
que les gustara resolver.
En algunos pases es ya tradicional el celebrar en las escuelas
competiciones de proyectos estadsticos. Entre otros ejemplos citamos los
concursos organizados por el Instituto Canario de Estadstica (ISTAC) y la
Sociedad Canaria "Isaac Newton" de Profesores de Matemticas (ver
www2.gobiernodecanarias.org/istac/webescolar/concurso.php).
247
Captulo 10
248
Anlisis de los Proyectos
249
Captulo 10
250
Anlisis de los Proyectos
No hay que olvidar que la estadstica es la ciencia de los datos y los datos
no son nmeros, sino nmeros en un contexto. En la tabla 10.2 mostramos
los campos de aplicacin que hemos elegido para estos proyectos. En los
proyectos complementarios descritos brevemente en la seccin 10.8
presentamos otros proyectos en temas de psicologa, relaciones laborales,
produccin, deportes, educacin, salud, comunidad europea y elecciones.
251
Captulo 10
252
Anlisis de los Proyectos
Modelizacin
Ajuste de modelos tericos a datos x x x x
Bondad de ajuste x x
Ajuste de modelos a datos bivariantes; x x
Uso de modelos en la prediccin x x x x
Comparacin del modelo lineal con otros x
Regresin mltiple, regresin por pasos x
Inferencia
Poblacin, censo, muestra x x x
Muestras relacionadas e independientes x
Representatividad y sesgo en el muestreo x
Variabilidad en las muestras; efecto del tamao
sobre la variabilidad x x
Parmetro y estadstico x x x x
Intervalos de confianza x x x x
Hiptesis; contraste de una hiptesis x x x x x
Riesgo en una decisin x x x x
Contraste de diferencia de medias relacionadas x
Contraste de diferencias: medias independientes x x
Contraste de homogeneidad de varianzas, x
muestras relacionadas x x
Contraste homogeneidad varianzas muestras
independientes x
Contraste de bondad de ajuste x x
Contraste chi-cuadrado x
Anlisis de varianza, un factor, efectos fijos x x
Parmetro como variable aleatoria x
Distribucin inicial y final, verosimilitud x
Estimacin bayesiana de la proporcion x
Estadstica multivariante
Clasificacin x
Coordenadas, centro de gravedad x
Distancia, simetra de una distancia x
Error en la clasificacin x
Discriminacin, Funcin discriminante x
253
Captulo 10
Similaridad, disimilaridad x
Anlisis de varianza multivariante x
Intervalos de confianza LSD x
254
Anlisis de los Proyectos
Simulacin
Con material manipulativo x x x
Con ordenador x x x
Applets x x x x X
255
Captulo 10
10.2.4. Procedimientos
En la tabla 10.5. incluimos las tcnicas que se ejercitan en los
diferentes proyectos, que van ms all del clculo y representacin grfica.
256
Anlisis de los Proyectos
10.2.5. Actitudes
Otro punto a considerar es la educacin en actitudes y valores (Tabla
10.6). Puesto que la estadstica es una ciencia cambiante a una gran
velocidad, es difcil saber cules de los contenidos que hoy impartimos
sern ltiles a nuestros alumnos.
Existen diversas concepciones respecto al significado del trmino
actitud. McLeod (1992) al conceptualizar el dominio afectivo de la
Educacin Matemtica distingue entre emociones, actitudes y
creencias. Las emociones son respuestas inmediatas, positivas o
negativas, producidas mientras se estudia Matemticas o Estadstica,
mientras que las actitudes son respuestas relativamente ms estables, o
sentimientos ms intensos que se desarrollan por repeticin de respuestas
emocionales y se automatizan con el tiempo. Los pensamientos o creencias,
en cambio, son las ideas individuales mantenidas en el tiempo que se tienen
sobre la materia, sobre uno mismo como estudiante o sobre el contexto
social en el que se realiza el aprendizaje.
Gmez Chacn (2000) entiende la actitud como uno de los
descriptores bsicos del dominio afectivo, junto con los sentimientos y
las creencias, y las define como una predisposicin positiva o negativa)
que determina las intenciones personales e influye en el comportamiento.
Respecto a la matemtica o estadstica incluye pensamientos y sentimientos
de varios tipos:
Respecto a la materia (fcil o difcil, agrado, desagrado, inters,).
Sobre si son una parte de las Matemticas o si simplemente requieren
habilidades matemticas (la Estadstica es todo clculo) o si tienen
su propia especificidad.
Sobre el clima del aula y la prctica docente (los ejemplos son
extrados del mundo real, no de libro; el profesor ayuda al
estudiante,).
Sobre uno mismo, sobre cmo se aprende Estadstica o Matemticas
(no s nada de la materia, soy bueno en esto).
Sobre la utilidad o valor de la estadstica y su importancia en su futuro
profesional (nunca utilizar esta materia, no sirve para nada).
Gal, Ginsburg y Schau, (1997) definen las actitudes como una suma
de emociones y sentimientos que se experimentan durante el perodo de
aprendizaje de la materia objeto de estudio. Son bastante estables, se
expresan positiva o negativamente (agrado/desagrado, gusto/disgusto) y
pueden referirse a elementos vinculados externamente a la materia
257
Captulo 10
258
Anlisis de los Proyectos
10.2.6. Razonamiento
Adems de todos estos contenidos, todos los proyectos tratan de
promover el razonamiento estadstico, que incluye, segn Wild y
Pfannkuch (1999) cinco componentes fundamentales:
Reconocer la necesidad de los datos: La base de la investigacin
estadstica es la hiptesis de que muchas situaciones de la vida real
slo pueden ser comprendidas a partir del anlisis de datos que han
sido recogidos en forma adecuada. La experiencia personal o la
evidencia de tipo anecdtico no es fiable y puede llevar a confusin en
los juicios o toma de decisiones.
Transnumeracin: Los autores usan esta palabra para indicar la
comprensin que puede surgir al cambiar la representacin de los
datos. Al contemplar un sistema real desde la perspectiva de
modelizacin, puede haber tres tipos de transnumeracin: (1) a partir
de la medida que captura las cualidades o caractersticas del mundo
real, (2) al pasar de los datos brutos a una representacin tabular o
grfica que permita extraer sentido de los mismos; (3) al comunicar
este significado que surge de los datos, en forma que sea comprensible
a otros.
Percepcin de la variabilidad. La recogida adecuada de datos y los
juicios correctos a partir de los mismos requieren la comprensin de la
variabilidad que hay y se transmite en los datos, as como de la
incertidumbre originada por la variabilidad no explicada. El
razonamiento estadstico comienza al percibir la variabilidad de la
situacin y permite adoptar estrategias en cada paso de la
259
Captulo 10
260
Anlisis de los Proyectos
261
Captulo 10
262
Anlisis de los Proyectos
263
Captulo 10
264
Anlisis de los Proyectos
265
266
Referencias
267
Referencias
268
Referencias
269
Referencias
Matemtica.
Contreras, J. M., Batanero, C., Arteaga, P. y Caadas, G. (2011). La
paradoja de la caja de Bertrand: algunas formulaciones y cuestiones
didcticas. Epsilon, 28(2), 7-17.
Contreras, J. M. Batanero, C., Caadas, G. y Gea, M. (2012). La paradoja
de Simpson. SUMA, 71, 27-34.
Contreras, J. M., Daz, C., Arteaga, P., Gonzato, M., Caadas, G. (2011).
Probabilidad condicional: Exploracin y visualizacin mediante
recursos en Internet. Epsilon 79, 93-102
Coutinho, C. (2001). Introduction aus situations alatoires ds le Collge:
de la modlisation la simulation dexperiences de Bernoulli dans
lenvironment informatique Cabri-gomtre-II. Tesis Doctoral.
Universidad de Grnoble.
Cumming, G., Williams, J. y Fidler, F. (2004). Replication, and
researchers understanding of confidence intervals and standard error
bars. Understanding Statistics, 3, 299-311.
Curcio, F. R. (1989). Developing graph comprehension. Reston, VA:
N.C.T.M.
Dantal, B. (1997). Les enjeux de la modlisation en probabilit. En
Enseigner les probabilits au lyce (pp. 57-59). Reims: Commission
Inter-IREM.
Day, A. (Ed.) (1992), The annual register 1992, 234, London: Longmans.
De la Fuente, E. I. y Daz, C. (2004). Controversias en el uso de la
inferencia en la investigacin experimental. Metodologa de las
Ciencias del Comportamiento, Volumen especial 2004, 161-167
Daz, C. (2005). Apuntes sobre inferencia bayesiana. Granada: La autora.
Daz, C., Batanero, C. y Contreras, J. M. (2010). Teaching independence
and conditional probability. Boletn de Estadstica e Investigacin
Operativa, 26 (2), 149-162.
Daz, C. y de la Fuente, I. (2004). Controversias en el uso de la inferencia
en la investigacin experimental. Metodologa de las Ciencias del
Comportamiento, Volumen especial 2004, 161-167.
Daz, C. y de la Fuente, I. (2005). Razonamiento sobre probabilidad
condicional e implicaciones para la enseanza de la estadstica.
Epsilon, 59, 245-260.
Daz, C. y de la Fuente, I. (2006). Enseanza del teorema de Bayes con
270
Referencias
271
Referencias
272
Referencias
273
Referencias
274
Referencias
275
Referencias
276
Referencias
277
Referencias
278