Sei sulla pagina 1di 159

UNIVERSIDAD NACIONAL DE LOJA

FACULTAD AGROPECUARIA Y DE LOS


RECURSOS NATURALES RENOVABLES

Edison Ramiro Vásquez


PROFESOR

edison.vasquez@unl.edu.ec

Teléfono: 098 2729 573


Bienvenidos
Estadísticos
Número de años de escolarización
Número de años de es colarización
N Válidos 1508
Porcentaje Perdidos 0
Frecuencia Porcentaje acumulado Media 12,90
3 5 ,3 ,3 Mediana 12,00
4 5 ,3 ,7 Moda 12
Percentiles 10 9,00
5 6 ,4 1,1 20 11,00
6 12 ,8 1,9 25 12,00
7 25 1,7 3,5 30 12,00
40 12,00
8 68 4,5 8,0 50 12,00
9 56 3,7 11,7 60 13,00
10 70 14,00
73 4,8 16,6
75 15,00
11 85 5,6 22,2 80 16,00
12 461 30,6 52,8 90 16,00
13 130 8,6 61,4
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0
Edad en años de un grupo de docentes.

Clases Vi fi pi Fi Pi
( 30 ; 40] 35 1 1 / 85 1 1 / 85
( 40 ; 50] 45 4 4 / 85 5 5 / 85
( 50 ; 60] 55 9 9 / 85 14 14 / 85
( 60 ; 70] 65 6 6 / 85 20 20 / 85
( 70 ; 80] 75 30 30 / 85 50 50 / 85
( 80 ; 90] 85 29 29 / 85 79 79 / 85
( 90 ; 100] 95 6 6 / 85 85 85 / 85

85
CONTENIDOS
1.1. La estadística en el campo de las ciencias
1.2. La estadística y el método científico
1.3. Una definición de estadística
1.4. ¿Qué puede hacerse con la estadística?
1.5. Consideraciones básicas.
1.6. Notación de suma y reglas para su uso

2.1. Métodos tabulares para organizar conjuntos de datos.


2.2. Algunas observaciones sobre las tablas de frecuencia.
2.3. Métodos gráficos para representar conjuntos de datos.
2.4. Cálculo y selección de medidas descriptivas.
2.5. Medidas de dispersión.
2.6. Medidas de asociación
IDEA POPULAR SOBRE LA ESTADÍSTICA
Las actitudes populares hacia la estadística están impregnadas por una
mezcla de: terror, cinismo, recelo y desprecio. Sin ningún miramiento, los
estadísticos han sido tachados de mentirosos y se los acusa del delito de
ejercer la “estadistificación”, el arte de mentir con estadísticas, conservando
una apariencia de objetividad y veracidad.

Alguien dijo que “si todos los estadísticos del mundo se pudieran callar de
una vez por todas, mucho se ganaría”. Además, al estadístico se describe
desdeñosamente como alguien que se ahoga en un vaso de agua o también
como aquél cuya cabeza está en la nevera y cuyos pies están en el horno y
que dice que “en general se siente bien”.

El autor del ensayo sobre “Ciencias y Trampas de la Estadística” concluye


“... tal vez ya es tiempo de que la sociedad piense menos en términos de
números y por ende, que no se muestre tan dispuesta a dejarse regir por la
estadística”.
IDEA POPULAR SOBRE LA ESTADÍSTICA

Los que estudian por primera vez estadística, harán bien en


desechar la imagen popular de esta ciencia así como la de
los estadísticos, puesto que deben darse cuenta que resulta
igualmente fácil decir despropósitos como expresarlos
cuantitativamente. Sin embargo, una formación lógica
permite identificar los absurdos verbales, y por su parte, un
buen conocimiento en estadística es la mejor arma contra
los absurdos cuantitativos.
Para modificar la imagen popular de la estadística por una
más real, lo primero por hacer es estudiar la estructura de la
disciplina de los “métodos estadísticos y de sus
características históricas”.
Introducción Ej. Se registraran las temperaturas mínimas diarias
ocurridas en la década del 80.
Suponiendo un total de 3650 días, se podría
pensar que existió un proceso natural cuya
surgen como resultado de un realización definió la temperatura efectivamente
proceso de observación bajo registrada en cada uno de los 3650 días.
condiciones dadas o de un estudios observacionales
proceso experimental.

Registro observaciones práctica Investigación


Objetivos:
 Reconocer la población y las variables relevantes en un proceso
de observación o deson
En otras circunstancias, Ej. Aplicación de distintos insecticidas en
experimentación.
el
resultado de la provocación de
 Caracterizar bandejas con 100 insectos, en cada una de las
un fenómeno,y odescribir
experimento,muestras de las poblaciones mediante
medidas resumen,
bajo condiciones cuales yserepresentaciones
tablas de frecuencias
controladas. registra el número de insectos
gráficas muertos.
 Conocer algunas metodologías de extracción estudios experimentales
de muestras.

La información registrada en un proceso de


observación es tratada, en un primer momento,
con el objetivo de describir y resumir sus Se basa • Tablas y gráficos
características más sobresalientes. uso • Obtención de medidas resumen.
estadística descriptiva
y de extracción de muestras.
CIENCIA
• La Ciencia se ocupa en general de fenómenos observables.

 La Ciencia se desarrolla observando hechos, formulando


leyes que los explican y realizando experimentos para validar
o rechazar dichas leyes

• Los modelos que crea la ciencia son de tipo determinista o


aleatorio (estocástico)
DETERMINISMO: Teoría que supone que la evolución de los fenómenos
naturales está completamente determinada por las condiciones iniciales.

• La Estadística se utiliza como tecnología al servicio de las


ciencias donde la variabilidad y la incertidumbre forman parte de su
naturaleza

• “La Bioestadística [...] enseña y ayuda a investigar en todas las


áreas de las Ciencias de la Vida donde la variabilidad no es la
excepción sino la regla”.
Carrasco de la Peña (1982)
Definición
La Estadística es la Ciencia de la

• Sistematización, recogida, ordenación


y presentación de los datos referentes a
un fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico,
con objeto de …

• deducir las leyes que rigen esos


fenómenos, …

• y poder de esa forma hacer previsiones


sobre los mismos, tomar decisiones u
obtener conclusiones.
POBLACIÓN
m
MEDIA VARIANZA PROPORCIÓN

PARÁMETROS

INFERENCIAL
muestra Generalizar los aspectos
característicos de la muestra
Media Varianza Proporción
Estadígrafos

ESTADÍSTICA

DESCRIPTIVA
R OPAI
Población Conjunto de elementos acotados en un tiempo y en un espacio determinados,
con alguna característica común observable o medible.

Tamaño poblacional Si la población es finita, se dice que el tamaño


poblacional es el número de elementos de la misma (N).

Parámetro Cantidad numérica calculada sobre una población

Muestra Todo subconjunto de elementos de la población.

Una unidad muestral es el elemento o entidad de la muestra.

Estadístico Cantidad numérica calculada sobre una muestra

Si un estadístico se usa para aproximar un parámetro


también se suele llamar estimador.

“Es clásico (y cómico) el personaje que después de pasar 10 días en un país


extranjero está en condiciones de criticar la industria, reformar su sistema
político, etc. Pero en realidad la diferencia que existe entre este personaje y el
estudioso de ciencias políticas, que vive 20 años en ese país dedicado a
estudiarlo, es que el primero basa sus conclusiones en una muestra mucho más
pequeña y es menos consciente de su ignorancia” (Cochran, 1981).
CONSIDERACIONES BÁSICAS
Expresado por numerales, pueden ser:
 CUANTITATIVOS:
Dato Cantidades directas de la información.
 CUALITATIVOS:
Reflejan observaciones cuantificables de categorías
empleadas en el análisis.

Procedimiento de asignación de numerales a objetos o


acontecimientos de acuerdo con ciertas normas.
Medición
El significado de una medición varía en cuanto al nivel operacional
existente entre los numerales asignados.

Es la expresión numérica del proceso de medición que resulta de la


Medida comparación de dos magnitudes de la misma especie, considerando a
una de ellas como unidad.
ESCALAS DE MEDICIÓN

1. NOMINAL O CARDINAL

2. ORDINAL O DE RANGO

3. INTERVALO

4. PROPORCION
ESCALAS DE MEDICIÓN:
NOMINAL O CARDINAL
La medición se da en un nivel elemental
Los números u otros símbolos se usan para la clasificación de objetos,
personas o características.

Ejemplo: Se utiliza el numeral:

1 Medicina
2 Derecho
3 Administración

esto no quiere decir: Derecho > Medicina


Derecho < Administración
tampoco que : Medicina + Derecho = Administración

Los numerales expresan identificación, para evitar escribir sus nombres.


ESCALAS DE MEDICIÓN:
ORDINAL O DE RANGO
Los objetos de una categoría de la escala no son diferentes a los objetos
de otra categoría de la escala, sino que están relacionados entre sí.

Relaciones típicas entre clases son las que comparan: altura, preferencia,
dificultad, perturbación, madurez, etc.

En cuanto a escalas particulares > se puede usar para designar:


es preferible a, es más alto que, es más difícil que, …

Ejemplo: En una encuesta se solicita un pronunciamiento respecto de un


hecho concreto con las alternativas:

1) Malo 2) Regular 3) Bueno 4) Muy bueno 5) Excelente

Se puede calificar que 3 es inferior a 4 o que 5 es superior a 1

Las operaciones aritméticas NO tienen ningún sentido en esta escala.


ESCALAS DE MEDICIÓN:
INTERVALO

Tiene todas las características de una escala ordinal.


Se conoce la distancia entre dos números cualesquiera.

Se caracteriza por una unidad de medida común y constante que asigna un


número real a todos los pares de objetos en un conjunto ordenado.

El punto cero y la unidad de medida son arbitrarios.

Ejemplo:
Un cociente intelectual = 0, no expresa la carencia absoluta de la inteligencia.

Cero grados de temperatura no implica que el objeto no tiene temperatura.

En las escalas de temperatura Fahrenheit o Celsius, una diferencia de 5°, entre,


70°C a 75°C, es la misma diferencia en temperatura que de 80°C a 85°C.

Sin embargo, no puede decirse que 60°C es el doble de caliente que 30°C,
porque el punto 0°C no es un cero absoluto (la ausencia completa de calor).
ESCALAS DE MEDICIÓN:
PROPORCIÓN
Tiene todas las características de una escala de intervalo y además tiene un
punto cero real en su origen.

Expresa razones entre particularidades, Ej. puede señalarse que un objeto


tiene la mitad o la tercera parte de una propiedad con respecto a la que
presenta otro.

Ejemplos:
 La escala de grados Kelvin para la temperatura reconoce un 0 absoluto.
 El peso.
 El tiempo.

Los numerales asignados pueden ser operados aritméticamente (Media).

El cero no es arbitrario sino verdadero, lo que sí es arbitraria es la unidad de


medida.
VARIABLES
Magnitudes susceptibles de ser medidas y expresadas en forma de datos y
pueden tomar varios valores comprendidos o no dentro de ciertos límites.

Una variable es una característica, propiedad o atributo, con respecto a la cual los
elementos de una población difieren de alguna forma.

V. CONTINUAS : Se generan por el proceso de medición.


Pueden asumir valores en cualquier punto fraccionario de un intervalo especificado.
Ej. Magnitudes como: longitud, masa, peso.

V. DISCRETAS: Se generan por el proceso de conteo.


Solo puede tener valores observados en puntos aislados a lo largo de una escala.
Ej. Número de personas existentes en un grupo
Número de palabras escritas en un libro

Un conjunto es infinito numerable si cada uno de sus elementos se asocia biunívocamente con un
número natural, en caso contrario se dice que el conjunto es no numerable.
Biunívoco: Que asocia cada elemento de un conjunto con uno y solo uno de los elementos de otro
conjunto, y cada elemento de este último conjunto con uno y solo uno de los elementos del conjunto
con uno y solo uno de los elementos del primero.
Notación:
X  número de semillas germinadas en un conjunto de bandejas de germinación,
xi  número de semillas germinadas observadas en una de aquellas bandejas,
x20  número de semillas germinadas observadas en la bandeja número 20.
Notación con subíndices:

a) xi i = 1, ..., 6  x1, x2, x3, x4, x5, y x6, no interesando otros si existieran.
b) xi i = 1, ...  a partir de 1 en adelante y hasta infinito (∞).
c) xi i = 0, 1 ,...  en este caso i puede valer desde cero hasta ∞.

Nota: En la práctica el término ∞, significará “valores inconmensurables” (negativos o positivos),


sea para el subíndice (como en los casos b y c)
como para los datos propiamente dichos (por ejemplo -∞ < xi < ∞ ).

Ej. En la década de 1980 se registraron las temperaturas mínimas de los 3650 días.
X  temperaturas mínimas en la década ‘80
xi , i=1,...,3650 temperaturas efectivamente registradas.
x112  valor de temperatura mínima registrado en el día 112 del período considerado.
Si en dicho día la temperatura mínima fue de -3,2 oC  x112 = -3,2
En general, se denotar a un conjunto de n observaciones por {x1, x2,...,xn} (n = 3650)
VARIABLES
Magnitudes susceptibles de ser medidas y expresadas en forma de datos y
pueden tomar varios valores comprendidos o no dentro de ciertos límites.

Una variable es una característica, propiedad o atributo, con respecto a la cual los
elementos de una población difieren de alguna forma.

V. CONTINUAS : Se generan por el proceso de medición.


Pueden asumir valores en cualquier punto fraccionario de un intervalo especificado.
Ej. Magnitudes como: longitud, masa, peso.

[a, b] Intervalo cerrado, sus extremos pertenecen al mismo, a ≤ x ≤ b.


(a, b) Intervalo abierto, sus extremos no pertenecen al mismo, a < x < b.
Intervalo semi-cerrado (o semi-abierto) si uno de sus extremos no
pertenece al mismo,.
(a, b] conjunto de todos los x tal que a<x≤ b
[a, b) = {x : a ≤ x < b}.

V. DISCRETAS: Se generan por el proceso de conteo.


Solo puede tener valores observados en puntos aislados a lo largo de una escala.
Ej. Número de personas existentes en un grupo
Número de palabras escritas en un libro
V. CATEGÓRICAS: aquellas cuya escala de medida es un conjunto de categorías.
a) Categóricas nominales: orientación de los vientos, que se podrían considerar como “N”, “S”, “E”, “O”
color del tegumento de las semillas, el sexo, etc.
b) Categóricas ordinales: grado de ataque de una virosis vegetal que puede ser "severo", "moderado"
o "leve".

Las variables continuas se pueden “discretizar” (Ej. tomando intervalos) y así ser
tratadas como discretas.
Una variable discreta puede asumir una gran variedad de valores (Ej. contar el número
de pulgones en hojas de trigo), ésta puede ser tratada como una variable continua.
Variable es una característica observable que varía entre los
diferentes individuos de una población.
La información de cada individuo se resume en variables.

Ej. En la población ecuatoriana, es variable entre los individuos:

– El grupo sanguíneo
• {A, B, AB, O}  Var. Cualitativa

– Su nivel de felicidad “declarado”


• {Deprimido, Ni fu ni fa, Muy Feliz}  Var. Ordinal

– El número de hijos: {0,1,2,3,...}  Var. Numérica discreta

– La altura: {1,62 ; 1,74; ...}  Var. Numérica continua


Tipos de variables
• Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no
se pueden hacer operaciones algebraicas con ellos)

– Nominales: Si sus valores no se pueden ordenar


• Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

– Ordinales: Si sus valores se pueden ordenar


• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

• Cuantitativas o Numéricas
Si sus valores son numéricos (se puede hacer operaciones algebraicas con ellos)

– Discretas: Si toma valores enteros


• Número de hijos, Número de cigarrillos, Número de “cumpleaños”

– Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


• Altura, Presión intraocular, Dosis de medicamento administrado, edad
• Es buena idea codificar las variables
como números para poder procesarlas
con facilidad en un ordenador.
• Es conveniente asignar “etiquetas” a
los valores de las variables para
recordar qué significan los códigos
numéricos.
– Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer
– Raza (Cualit: Códigos arbitrarios)
• 1 = Blanca
• 2 = Negra,...
– Felicidad Ordinal: Respetar un
orden al codificar.
• 1 = Muy feliz
• 2 = Bastante feliz
• 3 = No demasiado feliz
• Se pueden asignar códigos a
respuestas especiales como
• 0 = No sabe
• 99 = No contesta…
• Aunque se codifiquen como números, se debe recordar siempre el
verdadero tipo de las variables y su significado cuando vaya a usar
programas de cálculo estadístico.
• Los posibles valores de una variable suelen denominarse modalidades.

• Las modalidades pueden agruparse en clases (intervalos)


– Edades:
• Menos de 20 años, de 20 a 50 años, más de 50 años
– Hijos:
• Menos de 3 hijos, De 3 a 5, 6 o más hijos

• Las modalidades/clases deben forman un sistema exhaustivo y excluyente


– Exhaustivo: No podemos olvidar ningún posible valor de la variable
– Mal: ¿Cuál es su color del pelo: (Rubio, Negro)?
– Bien: ¿Cuál es su grupo sanguíneo?

– Excluyente: Nadie puede presentar dos valores


simultáneos de la variable
• Estudio sobre el ocio
– Mal: De los siguientes, qué le gusta: (deporte, cine)
– Bien: Le gusta el deporte: (Sí, No)
– Bien: Le gusta el cine: (Sí, No)
– Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)
Pasos en un estudio estadístico
• Plantear hipótesis sobre una población
• Los fumadores tienen “más bajas” laborales que los no fumadores
• ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?
• Decidir qué datos recoger (diseño de experimentos)
– ¿Qué individuos pertenecerán al estudio? (muestras)
• Fumadores y no fumadores en edad laboral.
• Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen
enfermedades crónicas?
– ¿Qué datos recoger de los mismos? (variables)
• Número de bajas
• Tiempo de duración de cada baja
• ¿Sexo? ¿Sector laboral? ¿Otros factores?
• Recoger los datos (muestreo) No tienes que
– ¿Estratificado? ¿Sistemáticamente?
entenderlo
• Describir (resumir) los datos obtenidos (aún)
• tiempo medio de baja en fumadores y no (estadísticos)
• % de bajas por fumadores y sexo (frecuencias), gráficos,...
• Realizar una inferencia sobre la población
• Los fumadores están de baja al menos 10 días/año sobre la media que los
no fumadores.

• Cuantificar la confianza en la inferencia


– Nivel de confianza del 95%
– Significación del contraste: p=5%
FORMULACIÓN DE HIPÓTESIS
 Lo más difícil del trabajo científico.
 Requiere gran habilidad.

OBTENCIÓN DE DATOS
 La información sea relevante al problema
 Las conclusiones que se extraigan tengan cierto
grado de confiabilidad
(DISEÑO DE EXPERIMENTOS Y MUESTREO ESTADÍSTICO)

CONFRONTACIÓN DE LA INFORMACIÓN
OBTENIDA CON LAS CONSECUENCIAS DE LAS
HIPÓTESIS POSTULADAS
 Describir la información
(ESTADÍSTICA DESCRIPTIVA)

 Generalizar los aspectos característicos de la


información (acompañada de un grado de
incertidumbre que es cuantificable)
(ESTADÍSTICA INFERENCIAL)
LA ESTADÍSTICA EN LAS CIENCIAS
La investigación científica
técnicas de análisis e interpretación
de los fenómenos Requiere
naturales y sociales de la información numérica.

La necesidad de enfrentar problemas, ha hecho que muchos científicos


desarrollen teorías instrumentales de carácter matemático que han
contribuido a la consolidación disciplinaria de la estadística.

Fenómenos sociales como:


En base  La mortalidad ocasionada por plagas,
 Las guerras,
Galileo (1564 - 1642)  Los juegos de azar.
Pascal (1623 - 1662)
Fermat (1601 - 1665)

El estudio de las probabilidades, fundamento


Impulsaron
vital de la estadística
LA ESTADÍSTICA EN LAS CIENCIAS...
Simpson, siglo XVIII Estudio la Distribución Continua.

formalizaron el avance de los métodos estadísticos,


Laplace y Gauss
con la distribución normal.

el mundo viviente también ofrecía regularidades


Quetelet Reflexiones
o frecuencias susceptibles de distribución,
Aportó significativamente para el salto estadístico
de las ciencias humanas.

genética, biología, sicología, sociología


Siglo XIX alcanza
y aún las artes.

Charles Darwin
(1809-1882) Formuló Sus teorías basado en aspectos biométricos.

Gregor Mendel De plantas híbridas publicados en 1886, utilizó


(1822-1884) Estudios
problemas BIOMÉTRICOS
LA ESTADÍSTICA EN LAS CIENCIAS...

Francis Galton (1822-1911), primo de Darwin:


Padre de la Biometría en el siglo XIX .
Aplicó la metodología estadística al análisis de la
variación biológica:
 Análisis de la variabilidad
 Regresión, y
 Correlación en mediciones biológicas.
LA ESTADÍSTICA EN LAS CIENCIAS...

Karl Pearson (1857-1936), Físico-matemático:


Aplicó las matemáticas a la Evolución, particularmente en la
demostración de la selección natural (MUESTRAS
GRANDES).
Fundó la revista científica Biometrika y una escuela de
Estadística

W.S. Gosset (1876-1937) Alumno de Pearson.


Estudio y descripción de MUESTRAS PEQUEÑAS.
Publicó trabajos en la revista Biometrika en 1908, con el
seudónimo de Student.
LA ESTADÍSTICA EN LAS CIENCIAS...

Ronald A. Fisher (1890-1962) Tuvo


Influencia de Pearson y Student .
Aplicó la estadística en numerosas ramas
científicas, particularmente en la agricultura,
biología y genética.
NOTACIÓN DE SUMA
Pesos y estaturas de 10 alumnos
Alumno 1 2 3 4 5 6 7 8 9 10
Peso (kg) 63 52 78 49 71 62 68 48 56 67
Estatura (cm) 162 158 167 151 162 168 167 153 152 173

Variable Peso X x1 x2 x3 x4 x5 x6 x7 x8 x9 x10


Variable Estatura Y y1 y2 y3 y4 y5 y6 y7 y8 y9 y10

Se tiene: x1 = 63 y1 = 162 (x5 , y5) = (71, 162)


x2 = 52 y4 = 151

En general X x1, x2, x3, . . . , xn


Alumno 1 2 3 4 5 6 7 8 9 10
Peso (kg) 63 52 78 49 71 62 68 48 56 67
Estatura (cm) 162 158 167 151 162 168 167 153 152 173

63 + 52 + 78 + 49 + 71 + 62 + 68 +48 + 56 + 67
x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10
n

 xi
i=1
la suma de los números xi desde x1 hasta xn

n
 x i  x1  x 2  ...  x n
i1
Ejemplo: Pesos de 10 alumnos.

Alumno x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
Peso (kg) 63 52 78 49 71 62 68 48 56 67
10
a) x
i 1
i  x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10

= 63 + 52 + 78 + 49 + 71 + 62 + 68 + 48 + 56 + 67 = 614

6
b) x
i 3
i  x3 + x4 + x 5 + x6 = 78 + 49 + 71 + 62 = 260

3
c)  2x
i 1
i  2(x1) + 2(x2) + 2(x3) = 2(63) + 2(52) + 2(78) = 386
Ejemplo: Pesos de 10 alumnos.

Alumno x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
Peso (kg) 63 52 78 49 71 62 68 48 56 67
3

d)  ( xi  50)  (x2 – 50) + (x3 – 50) = (52 – 50) + (78 – 50) = 30


i 2

3
e)  xi  50  x2 + x3 – 50 = 52 + 78 – 50 = 80
i2

6
f)  i
x 2

i 4
(x4)2 + (x5 )2 + (x6)2 = (49)2 + (71)2 + (62)2 = 11 286

2
  6
g)  i   (x4 + x5 +
 x x6)2 = (49 + 71 + 62)2 = 33 124
 i 4 
Muestreo aleatorio simple
Método de selección de n unidades de una población de tamaño N de tal modo que
cada una de las muestras posibles tenga la misma oportunidad de ser elegida
(Cochran,1981).
𝑁!
 Existen 𝐶𝑛𝑁 = formas posibles de obtener n elementos de entre N.
𝑁−𝑛 ! 𝑛!
 No obstante, sólo existen 𝐶𝑛𝑁 muestras (conjuntos diferentes) todas con igual
oportunidad de ser extraídas.
1
 La probabilidad de cada muestra es 𝐶 𝑁
𝑛

 El método recibe también el nombre de muestreo sin restitución (una vez que
un elemento ha sido extraído no es restituido y por lo tanto no está disponible
para la elección del próximo elemento de la muestra).

Ej. Una población de seis elementos: a, b, c, d, e, f se desea saber


cuántas muestras posibles de tamaño 3 se pueden tomar de la
misma utilizando un esquema de muestreo sin restitución.
Tamaño poblacional, N = 6
Tamaño de la muestra, n = 3
Muestreo aleatorio simple con restitución
Cuando se haga referencia a muestra, se considerará solamente a la
obtenida a partir de un muestreo aleatorio simple con restitución.
 En este tipo de muestreo la cantidad de formas posibles de extraer
n elementos desde una población de tamaño N es igual a Nn

Ej. Una población tiene 2 elementos: a y b y se quiere saber


cuantas formas se tiene de extraer tres elementos
Tamaño poblacional, N = 2
Tamaño de la muestra, n = 3

Nn = 23 = 8

 contienen los mismos elementos,


 constituyen la misma muestra (dos conjuntos con
iguales elementos son indistinguibles)
 luego el total de muestras posibles es menor que Nn
pero en este caso las muestras no son todas
igualmente probables.
¿Qué hemos visto?
• IDEA POPULAR DE LA ESTADÍSTICA
• PARA QUE SIRVE LA ESTADÍSTICA
• DEFINICIÓN DE ESTADÍSTICA
• PASOS EN UN ESTUDIO ESTADISTICO
• POBLACIÓN Y MUESTRA
• LA ESTADÍSTICA Y EL MÉTODO CIENTÍFICO
• LA ESTADÍSTICA EN LAS CIENCIAS
• CONSIDERACIONES BÁSICAS
– Dato
– Medición
– Medida
• ESCALAS DE MEDICIÓN
– Nominal o Cardinal
– Ordinal o de Rango
– Intervalo
– Proporción
• VARIABLES
– Cualitativas (Nominales, Ordinales)
– Cuantitativas (Discretas, Continuas)
• NOTACIÓN DE SUMA
• MUESTREO ALEATORIO SIMPLE
DESCRIPCIÓN ESTADÍSTICA
MÉTODOS TABULARES PARA ORGANIZAR
CONJUNTOS DE DATOS

Características:
Que proporcionen la máxima información contenida
en los datos en forma rápida y fácil de visualizar.

Que posean sencillez operativa.

Que permitan presentar los datos de una manera


estética.
DATOS DESORDENADOS Y ORDENADOS EN TABLAS

Variable: Género Muestra:


– Modalidades: MHHMMHMMMH
• H = Hombre
• M = Mujer equivale a
HHHH MMMMMM

7
Género Frecuencia Frecuencia relativa
6
porcentaje
5
Hombre 4 4/10 = 0,4 (40%) 4
3
Mujer 6 6/10 = 0,6 (60%) 2

1
10 0
tamaño muestral Hombre Mujer
Resumen de la información muestral
Al registrar los resultados de un estudio observacional o experimental, se obtiene un número de
observaciones que puede ser muy grande y su simple listado es de poca relevancia en el sentido interpretativo.
Aunque a partir de dichos registros se puede encontrar la respuesta buscada, no están ordenados de manera
tal que adquieran significado para el investigador. Es por esto deseable presentar las observaciones en forma
resumida.
A los fines de ordenar, resumir y presentar la información, se utilizan tablas y gráficos apropiados para cada
tipo de variable (variables numéricas, continuas o discretas, o bien, variables no numéricas o de naturaleza
categórica), por lo que trataremos las distintas situaciones por separado.

Ej. Un experimento consistió en contar el número Tabla de distribución de frecuencias para la variable
de flores por planta de una muestra n = 50 número de flores por planta.
plantas.
Distribución de frecuencias para la variable número de flores por planta.

 El número total de datos es 50,


 Las plantas con menos de 3 flores y con más de 9 son poco frecuentes
 Plantas que tienen entre 6 y 8 flores son las más frecuentes.

 Estas afirmaciones, como algunas otras, pueden


obtenerse de la lectura de una tabla de frecuencias, y
no son fáciles de formular a partir de los datos sin
procesar, sobre todo cuando n es grande.

 ¿Qué información se obtiene de la tabla de frecuencias?


 Los valores 6, 7 y 8 de la variable número de flores por planta, fueron los que
se observaron con mayor frecuencia,
 9 plantas (18%) presentaron 6 flores,
 8 plantas (16%) tuvieron 7 flores,
 7 plantas tuvieron 8 flores;
 pocas fueron las plantas sin flores (2%);
 el 10% de las plantas tuvieron 2 o menos flores;
 el número máximo de flores por planta en esta experiencia fue de 10 y
 sólo en el 6% de la muestra se registró este valor máximo.
Gráfico de barras de: a) frecuencias absolutas b) frecuencias relativas.

Gráfico de: a) frecuencias absolutas acumuladas b) frecuencias relativas acumuladas.


Tablas de frecuencia
• Exponen la información recogida en la muestra, de forma que no se pierda nada de
información (o poca).

– Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad

– Frecuencias relativas (porcentajes): Idem, pero dividido por el total

– Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas


• Muy útiles para calcular cuantiles.
– ¿Qué porcentaje de individuos tiene menos de 4 hijos?
– ¿Entre 4 y 6 hijos?
Sexo del encuestado Número de hijos

Porcentaje Porcentaje Porcentaje


Frecuencia Porcentaje válido Frecuencia Porcentaje válido acumulado
Válidos 0 419 27,6 27,8 27,8
Válidos Hombre 636 41,9 41,9
1 255 16,8 16,9 44,7
Mujer 881 58,1 58,1
2 375 24,7 24,9 69,5
Total 1517 100,0 100,0
3 215 14,2 14,2 83,8
83,8
4 127 8,4 8,4 92,2
Nivel de felicidad
5 54 3,6 13,6 3,6 95,8
Porcentaje Porcentaje 6 24 1,6 1,6 97,3
Frecuencia Porcentaje válido acumulado 7 23 1,5 1,5 98,9
Válidos Muy feliz 467 30,8 31,1 31,1 Ocho o más 17 1,1 1,1 100,0
Bastante feliz 872 57,5 58,0 89,0
Total 1509 99,5 100,0
No demasiado feliz 165 10,9 11,0 100,0
Perdidos No contes ta 8 ,5
Total 1504 99,1 100,0
Total 1517 100,0
Perdidos No contesta 13 ,9
Total 1517 100,0
Ejemplo
• ¿Cuántos individuos tienen Número de hijos
menos de 2 hijos?
frec. indiv. sin hijos Porcent. Porcent.
+ Frec. (válido) acum.
frec. indiv. con 1 hijo 0 419 27,8 27,8
= 419 + 255
= 674 individuos 1 255 16,9 44,7
2 375 24,9 69,5 ≥50%

• ¿Qué porcentaje de individuos 3 215 14,2 83,8


tiene 6 hijos o menos? 4 127 8,4 92,2
97,3% 5 54 3,6 95,8
6 24 1,6 97,3
• ¿Qué cantidad de hijos es tal que
7 23 1,5 98,9
al menos el 50% de la población
tiene una cantidad inferior o Ocho+ 17 1,1 100,0
igual? Total 1509 100,0
2 hijos
VARIABLES DISCRETAS
Ej.: Se analizó el número de hijos de 10 familias. Los resultados de los conteos fueron los
siguientes: 2, 1, 3, 1, 2, 1, 3, 0, 2, 1
Valores de la Frecuencias
variable Absolutas Relativas Absolutas Acumuladas Relativas Acumuladas
y1 = 0 f1 = 1 p1 = 0,1 F1 = 1 P1 = 0,1
y2 = 1 f2 = 4 p2 = 0,4 F2 = 5 P2 = 0,5
y3 = 2 f3 = 3 p3 = 0,3 F3 = 8 P3 = 0,8
y4 = 3 f4 = 2 p4 = 0,2 F4 = 10 P4 = 1,0
Total 10
La formación de la tabla no supone pérdida de la información contenida en los datos originales.

fi pi
4 0.4

0.3
3
0.2
2
0.1
1
0
0
0 1 2 3
0 1 2 3
Fig. Diagrama de columnas de frecuencias absolutas. Fig. Diagrama de columnas de frecuencias relativas.
VARIABLES DISCRETAS
Ej.: Se analizó el número de hijos de 10 familias. Los resultados de los conteos fueron los
siguientes: 2, 1, 3, 1, 2, 1, 3, 0, 2, 1
Valores de la Frecuencias
variable Absolutas Relativas Absolutas Acumuladas Relativas Acumuladas
y1 = 0 f1 = 1 p1 = 0,1 F1 = 1 P1 = 0,1
y2 = 1 f2 = 4 p2 = 0,4 F2 = 5 P2 = 0,5
y3 = 2 f3 = 3 p3 = 0,3 F3 = 8 P3 = 0,8
y4 = 3 f4 = 2 p4 = 0,2 F4 = 10 P4 = 1,0
Total 10
La formación de la tabla no supone pérdida de la información contenida en los datos originales.
fi pi
4 0,4

3 0,3

2 0,2

1 0,1

0 1 2 3 0 1 2 3
Fig. Diagrama de columnas de frecuencias absolutas. Fig. Diagrama de columnas de frecuencias relativas.
VARIABLES DISCRETAS
Valores de la Frecuencias
variable Absolutas Relativas Absolutas Acumuladas Relativas Acumuladas
y1 = 0 f1 = 1 p1 = 0,1 F1 = 1 P1 = 0,1
y2 = 1 f2 = 4 p2 = 0,4 F2 = 5 P2 = 0,5
y3 = 2 f3 = 3 p3 = 0,3 F3 = 8 P3 = 0,8
y4 = 3 f4 = 2 p4 = 0,2 F4 = 10 P4 = 1,0
Total 10

Fi Pi
10 1,0

8 0,8

5 0,5

1 0,1

0 1 2 3 4 0 1 2 3 4

Fig. Diagrama acumulativo de frecuencias absolutas. Fig. Diagrama acumulativo de frecuencias relativas.
Tabla de dos encabezados
Tabla 2.1 Número de estudiantes en algunas Facultades de la UNL,
durante el año de 1995.

Facultades Total estudiantes


Ciencias de la Educación 2 136
Ciencias Administrativas 1 420
Ciencias Médicas 636
Ciencia y Tecnología 251

Ciencias Agrícolas 242

Artes 32

Reportes: científicos, de negocios o de administración pública,


en revistas y periódicos
Tabla de dos encabezados ...

Tabla 2.2 Calificaciones obtenidas por un grupo de estudiantes


en el Curso de Estadística

31
31 52 58 60 66 89

70 75 83 88 91 93
81 57 61 74 64 77

87 62 85 80 68 76

80 82 71 85 62 72

72 82 71 87 73 72

79 84 81 79 96
96 73

77 62 73 84 81 79
72 79 81 84 67 62
89 76 61 57 64 74
Tabla de dos encabezados ...
Tabla 2.2 Calificaciones obtenidas por un grupo de estudiantes en el Curso de Estadística
Calificación N° Estudiantes Calificación N° Estudiantes
31 1 75 1
52 1 76 2
57 2 77 2
58 1 79 4
60 1 80 2
61 2 81 4
62 3 82 2
64 2 83 1
66 1 84 3
67 1
85 2
68 2
87 2
69 1
88 1
70 1
89 1
71 2
72 4 91 1
73 3 93 1
74 2 96 1
VARIABLES CONTÍNUAS
Tablas de Distribución de Frecuencias
Calificaciones obtenidas por un grupo de estudiantes
en el Taller de Cálculo Integral, en el año 1995.

36 71 84 74 77 81 55 86 100 53
100 CLASES = 5 a 20
73 85 76 80 83 65 89 93 44 72 De igual anchura
82 74 78 84 55 87 99 51 76 85
Ej. 7 clases
73 79 82 63 88 98 46 72 82 74
78 87 85 55 87 92 54 77 86 73
80 83 66 90 46 72 82 74 79 85 Amplitud = 100 – 36 = 64
56 87 52 73 85 76 80 83 64 88
54 73 86 77 80 84 70 92 48 72 Clases = Raíz(n)
82 76 79 85 62 Clases: 2k >= n
Regla de Herver Sturges (1926)
C = 1 + logN (n)
36 64 100
C = 1 + 3,332 log10(n)
Tablas de distribución de frecuencias...
Amplitud 64
Intervalo de clase = = = 9,14  10
N° Clases 7

9,14 * 7 = 64 Ideal 10 * 7 = 70 – 64 = 6  2 = 3 Exceso

9 * 7 = 63 – 64 = - 1 Falta

Límite inferior = 36 – 3 = 33 Límite superior = 100 + 3 = 103

36 64 100
33 70 103

30 70 100
Intervalos de clase

1er intervalo: 30 - 40 36 39 Pertenecen al 1er intervalo


30 40 Pertenecen al ? intervalo
2do intervalo: 40 - 50

Para prevenir ambigüedades:


1er intervalo: 30,5 – 40,5
Otra forma
2do intervalo: 40,5 – 50,5
31 - 40
1er intervalo: ( 30 ; 40] 41 – 50
2do intervalo: ( 40 ; 50] 51 – 60

li < Dato  Ls

30 < Dato  40 31 40 41 50 51 60
Intervalos de clase, Valor Medio y Frecuencia Absoluta

Intervalos Valor medio fi


o Clases Datos originales
( 30 ; 40] ( 30 + 40) / 2 = 35 1 36 71 84 74 77 81 55 86 100 53

( 40 ; 50] 73 85 76 80 83 65 89 93 44 72
( 40 + 50) / 2 = 45 4
82 74 78 84 55 87 99 51 76 85
( 50 ; 60] ( 50 + 60) / 2 = 55 9
73 79 82 63 88 98 46 72 82 74
( 60 ; 70] ( 60 + 70) / 2 = 65 6 78 87 85 55 87 92 54 77 86 73
( 70 ; 80] ( 70 + 80) / 2 = 75 30 80 83 66 90 46 72 82 74 79 85

( 80 ; 90] ( 80 + 90) / 2 = 85 29 56 87 52 73 85 76 80 83 64 88
54 73 86 77 80 84 70 92 48 72
( 90 ; 100] ( 90 + 100) / 2 = 95 6
82 76 79 85 62
85
Frecuencias relativas y Absolutas
Tabla 2.9 Tabla de Distribución de frecuencias o Tabla de frecuencias

Clases Vi fi pi Fi Datos Pi
originales
( 30 ; 40] 35 1 1 / 85 36 711 84 74 771 / 81
85 55 86 100 53
( 40 ; 50] 45 4 4 / 85 73 855 76 80 835 / 65
85 89 93 44 72
( 50 ; 60] 55 82 7414 78 84 55
14 / 87
85 99 51 76 85
9 9 / 85
73 79 82 63 88 98 46 72 82 74
( 60 ; 70] 65 6 6 / 85 20 20 / 85
78 87 85 55 87 92 54 77 86 73
( 70 ; 80] 75 30 30 / 85 80 8350 66 90 50 / 72
46 85 82 74 79 85
( 80 ; 90] 85 29 29 / 85 56 8779 52 73 85
79 / 76
85 80 83 64 88
54 73 86 77 80 84 70 92 48 72
( 90 ; 100] 95 6 6 / 85 85 85 / 85
82 76 79 85 62
85
44 + 46 + 46 + 48 = 46
4
Salto Tabla doble entrada
Pérdida de información contenida en los datos originales.
GRÁFICO DE RAMA Y HOJA (Stem-and-leaf display)
Técnica empleada para representar los datos cuantitativos de una forma condensada.
Ventaja sobre la distribución de frecuencias, NO existe pérdida de información de cada
observación individual.
 Cada valor se divide en dos porciones: una rama y una hoja.
 Las hojas de cada rama se muestran de forma separada.
Ej.: Los siguientes datos muestran los resultados de 30 estudiantes en una prueba de estadística.
75 52 80 96 65 79 71 87 93 95 69 72 81 61 76
86 79 68 50 92 83 84 77 64 71 87 72 92 57 98
 Se separa la nota en dos partes:
 La primera parte contiene el primer dígito, la cual se denomina RAMA.
 La segunda parte contiene el segundo dígito, se denomina HOJA.
5 2 0 7 5 0 2 7
6 5 9 1 8 4 6 1 4 5 8 9
7 5 9 1 2 6 9 7 1 2 7 1 1 2 2 5 6 7 9 9
8 0 7 1 6 3 4 7 8 0 1 3 4 6 7 7
9 6 3 5 2 2 8 9 2 2 3 5 6 8
 La rama 7 tiene mayor frecuencia.  Hojas ordenadas.
GRÁFICO DE RAMA Y HOJA (Stem-and-leaf display) …
 Si en los datos hay valores de 3 dígitos (354) y también de 4 dígitos (3257), se toma como
rama el primer dígito de los valores de 3 y los dos primeros dígitos de los valores de 4.
En algunos casos, el gráfico tiene muchas ramas y algunas con pocas hojas. En tales casos
se condensa el gráfico agrupando las ramas, por ejemplo: las 3 primeras, las 3 siguientes y
así sucesivamente. Las hojas de las diferentes ramas agrupadas se separan con *.

1 3 5
2 2 5 6
3 0 1
1-3 3 5 * 2 5 6 * 0 1
4 2 3 6
4-6 2 3 6 * 0 * 5 6
5 0
7-9 0 3 9 * 1 5 7 * 2 6
6 5 6
7 0 3 9
8 1 5 7
9 2 6
Datos :
 Si alguna rama no tiene hojas se indica en el 21 25
2-5 1 5 * * 3 8 * 0
gráfico colocando 2 asteriscos seguidos. Ej.: 43 48
50
REPRESENTACIÓN TABULAR DE DOS CONJUNTOS DE DATOS
X ( l 1 , L1 ] ( l 2 , L2 ] . ( l i , Li ] . ( l k , Lk ] Total
Y V1 V2 Vi Vk
( l’1 , L’1 ] p11 p11 . pi . p1k
v ’1
( l’2 , L’2 ] p21 p22 . p2i . p2k
v ’2
. . . . . . .

( l’j , L’j ] pj1 pj2 . pji . pjk


v ’j
. . . . . . .

( l’m , L’m ] pm1 pm2 . pmj . pmk


v ’m
Total
Tabla 2.14 Promedios de alturas y pesos de paja con grano de plantas de
trigo de la variedad Yécora F70.
Obs. X (cm) Y (kg) Obs. X (cm) Y (kg) Obs. X (cm) Y (kg)
1 64,6 1,123 19 67,6 1,016 37 64,0 0,960
2 65,2 1,138 20 63,8 0,874 38 61,8 1,074
3 67,0 1,190 21 63,2 1,107 39 65,4 0,961
4 62,2 1,156 22 63,0 0,976 40 63,0 1,057
5 63,0 1,144 23 63,0 0,991 41 65,4 1,125
6 64,6 1,305 24 62,8 1,067 42 63,0 1,064
7 64,4 0,797 25 65,0 1,195 43 69,6 1,123
8 65,0 1,121 26 62,8 1,214 44 65,0 0,938
9 66,0 0,838 27 66,8 1,039 45 64,4 0,956
10 63,4 1,015 28 65,0 1,050 46 63,0 1,050
11 65,0 1,170 29 65,2 1,023 47 64,0 0,962
12 63,6 1,150 30 65,2 0,904 48 65,2 0,958
13 65,2 1,193 31 64,0 1,086 49 68,6 0,999
14 66,2 1,090 32 63,2 1,138 50 69,6 1,145
15 63,0 1,067 33 62,8 1,034 51 61,2 0,948
16 60,0 0,953 34 63,4 0,907 52 66,4 0,933
17 62,6 0,749 35 64,2 0,907 53 66,0 0,964
18 64,8 0,946 36 65,0 1,162 54 64,4 0,949
Tabla de doble entrada: X (cm) Y (kg)
X (59,0; 60,8] (60,8; 62,6] (62,6; 64,4] (62,6; 64,4] (62,6; 64,4] . Total
v1 = 59,9 v2 = 61,7 v3 = 63,5 v4 = 65,3 v5 = 67,1
Y
(0,690; 0,752] p12 = 2/96 . 3/96
v ’1 = 0,721

(0,752; 0,814] p23 = 2/96 p24 = 1/96 . 3/96


v ’2 = 0,783

(0,814; 0,876] P33 = 4/96 p34 = 2/96 p35 = 1/96 . 7/96


v ’3 = 0.845

(0,876; 0,938] p43 = 4/96 p44 = 2/96 p45 = 4/96 . 12/96


v ’4 = 0,907

(0,938; 1,000] p51 = 2/96 p53 = 7/96 p54 = 5/96 p55 = 2/96 . 20/96
v ’5 = 0,969

. . . . . . . .

Total 2/96 7/96 32/96 24/96 14/96 96/96


Ejemplo

Obs X Y (10, 20 ] (20, 30 ] (30, 40 ]


X Total
15 25 35
1 22 7 Y
2 11 3 (2, 6 ]
4
3 33 5
4 28 7 (6, 10 ]
8
5 30 12
6 25 10 (10, 14 ]
12
7 18 9
8 38 7 Total

9 26 8
10 30 8
Ejemplo

Obs. X Y (10, 20 ] (20, 30 ] (30, 40 ]


X Total
15 25 35
1 22 7 Y
2 11 3 (2, 6 ] 1/10 1/10 2/10
4
3 33 5
4 28 7 (6, 10 ] 2/10 4/10 1/10 7/10
8
5 30 12
6 25 10 (10, 14 ] 1/10 1/10
12
7 18 9
8 38 7 Total 3/10 5/10 2/10 10/10
9 26 8
10 17 9
OBSERVACIONES SOBRE LAS TABLAS DE FRECUENCIAS Ver
Ventajas:
a) Los valores numéricos de las calificaciones que más frecuentemente se
presentaron se encuentran entre 70 y 80 puntos; 30 del total de 85 observaciones
pertenecen a ese intervalo.
b) Aproximadamente el 93 % (79/85 x 100) de las calificaciones tienen un valor menor
o igual a 90 puntos.
Desventajas:
1. Pérdida de información al presentar las observaciones en intervalos, sin especificar
cuáles son los datos que pertenecen a ellos. Así, por ejemplo, no es posible saber
directamente de la tabla cuáles son los valores numéricos de datos que pertenecen
al intervalo (70 ; 80].
2. El hecho de haber escogido como valor representativo de la clase al valor medio
implica que se supone que los datos que pertenecen a la clase tienen en promedio
un valor cercano a éste. Si esta suposición no es correcta, la información que nos
proporciona Vi es poco confiable.
3. Dado que el número de clases y la anchura de las mismas se eligen en forma
arbitraria, no existe una representación única de los datos en las tablas de
frecuencias.
¿Qué hemos visto?

• MÉTODOS TABULARES PARA ORGANIZAR CONJUNTOS DE


DATOS
– Características
• PRESENTACIÓN ORDENADA DE DATOS
• TABLA DE DOS ENCABEZADOS
• TABLA DE DISTRIBUCIÓN DE FRECUENCIAS
– Amplitud
– Intervalos
– Valor medio
– Frecuencias absolutas
– Frecuencias relativas
– Frecuencias absolutas acumuladas
– Frecuencias absolutas relativas
• TABLAS DE DOBLE ENTRADA
• OBSERVACIONES SOBRE LAS TABLAS DE FRECUENCIAS
TÉCNICAS GRÁFICAS

Diagramas de puntos.

Histogramas

Polígonos de frecuencias

Ojivas o PFA
Diagrama de puntos
2250
N° Facultades Estudiantes
2000

1750
1 Ciencias de la Educación 2136

1500 2 Ciencias Administrativas 1420


Estudiantes

1250 3 Ciencias Médicas 636


1000 4 Ciencia y Tecnología 251
750
5 Ciencias Agrícolas 242
500
6 Artes 32
250

0
1 2 3 4 5 6

Facultades
Diagrama de puntos... Calificación
31
Estudiantes
1
52 1
57 2
58 1
60 1
61 2
62 3
64 2
66 1
67 1
68 2
69 1
30 35 45 50 55 60 65 70 75 80 85 90 95 100

Calificación 70 1
71 2
72 4
73 3
74 2
Diagrama de dispersión
 Cuando se estudia la asociación entre 2 variables (X e Y) es muy útil hacer
un diagrama de dispersión.
 Es un gráfico en el que cada observación está representada en el plano XY
por un punto cuyas coordenadas están dadas por los valores registrados en
ambas variables.

Ej. Si se hace un experimento en maní en el que a distintas parcelas se agregan números crecientes de
aplicaciones de un fungicida y se registra el rendimiento final, se podrían obtener los resultados
mostrados en el Tabla 1.5.
se puede visualizar la existencia de una
asociación positiva entre el rendimiento y
el número de aplicaciones del fungicida

Diagrama de dispersión entre número de aplicaciones de fungicida y rendimiento de maní con


una curva de ajuste que aproxima la relación entre estas variables.
sugiere una relación funcional curvilínea
que liga al número de aplicaciones con el
rendimiento obtenido.

Diagrama de dispersión entre número de aplicaciones de fungicida y rendimiento de maní.


Diagrama de Líneas
 En algunos casos un diagrama de dispersión puede ser modificado incluyendo segmentos
de recta que unen los puntos del plano según un orden dado por el eje de abscisas.
Ej.: Se evalúa el número de callos obtenidos en cultivos de 200 anteras sometidas a un número
creciente de días de frío.

Días de frío y número de callos obtenidos a partir de 200 Tendencia decreciente del
anteras cultivadas. número de callos formados
en función del número de
días de frío y la forma en
que esto ocurre.
Se observa una fuerte caída
inicial para luego llegar a
una situación de estabilidad
con una leve.

Diagrama de líneas que muestra la relación entre días de frío


y número de callos formados sobre 200 anteras cultivadas.
Q-Q Plots
 Permite la comparación de la distribución de frecuencias de una variable con
una distribución teórica, ejemplo, la distribución normal, en ese caso se habla
de ‘Q-Q plot’ normal.
 El nombre proviene del hecho de representar en él los cuantiles muestrales
versus los cuantiles teóricos (quantil to quantil plot).
 Se presupone que la distribución de la variable altura de hipocótilo de una
especie de Prosopis es una variable normal, se podría verificar esto
gráficamente mediante un ‘Q-Q plot’.
 Este gráfico no es más que un diagrama de dispersión donde los valores de
los ejes X e Y se obtienen según el siguiente algoritmo.
Q-Q Plots
a) Ordenar la muestra de menor a mayor y designar al valor con la posición i-ésima como
x[i]. Sean 𝑥ҧ y S, la media y la desviación estándar muestrales correspondientes,
b) Para cada observación ordenada obtener las coordenadas (X,Y) para construir el gráfico
‘Q-Q plot’ siendo:
Q-Q Plots
Ej.: La siguiente tabla muestra los valores observados de
longitud del folíolo en 30 hojas de garbanzo.

Ordenando los datos, los correspondientes valores de X e Y del ‘Q-Q plot’ se


muestran a continuación:
Cuando la distribución de la variable coincide
con la del modelo propuesto, entonces los
puntos X,Y se alinean en una recta a 45°
(pendiente 1), como en el caso presentado.
Una variante del ‘Q-Q plot’ es el ‘P-P plot’ que
grafica percentiles vs. percentiles.

Q-Q plot normal para la longitud del folíolo en 30 hojas


de garbanzo
Histograma
Eje horizontal: límites de clase.
Eje vertical: frecuencias relativas (o absolutas).
Clases fi
35
( 30 ; 40] 1
30
( 40 ; 50] 4
Número de estudiantes

25 ( 50 ; 60] 9
20 ( 60 ; 70] 6
15 ( 70 ; 80] 30
10 ( 80 ; 90] 29
5 ( 90 ; 100] 6
0
30 40 50 60 70 80 90 100
Calificaciones
Polígono de Frecuencias
Eje horizontal: valores medios de clase.
Eje vertical: frecuencias relativas o absolutas.

Vi fi
35
35 1
30 45 4
25 55 9
N° Estudiantes

20
65 6
30
15
75
10
85 29
5

0 95 6
30 35 45 55 65 75 85 100
95 100
Calificaciones
Ojiva o PFA
Eje horizontal: límites superiores de clase.
Eje vertical: frecuencias relativas o absolutas ACUMULADAS.

Li Fi
40 1
90
85 80 50 5
70
60 14
Nº Estudiantes

60

50 70 20
40
80 50
30

20 90 79
10
100 85
0
30 40 50 60 70 80 90 100
Calificaciones
Gráfico de una tabla de doble entrada

pij
p11 = 1/10
4/10

3/10 p13 = 1/10

2/10 p21 = 2/10

1/10 p22 = 4/10

1 2 3
X p23 = 1/10
1
2 p32 = 1/10
3

Y
Gráficos para variables cualitativas

• Diagramas de barras
– Alturas proporcionales a las
frecuencias (absolutas o relativas)
– Se pueden aplicar también a
variables discretas

• Diagramas de sectores (tartas,


polares)
– No usarlo con variables ordinales.
– El área de cada sector es
proporcional a su frecuencia
(absolutas o relativas)
Gráficos para variables cualitativas…

• Pictogramas
– Fáciles de entender.
– El área de cada modalidad debe ser proporcional a la frecuencia.

¿De los dos, cuál es incorrecto?


419
400 375

Gráficos diferenciales para


variables numéricas 300

255

Recuento
215
Diagramas de barras para 200

variables discretas 127

Se deja un hueco entre barras 100

54

para indicar los valores que no 24 23 17

son posibles 0 1 2 3 4 5 6 7 Ocho o más

Número de hijos

250

Histogramas para variables


200
continuas

Recuento
El área que hay bajo el 150

histograma entre dos puntos 100

cualesquiera indica la cantidad


(porcentaje o frecuencia) de 50

individuos en el intervalo.
20 40 60 80

Edad del encuestado


Diagramas integrales
Cada uno de los anteriores diagramas tiene su correspondiente diagrama
integral. Se realizan a partir de las frecuencias acumuladas. Indican, para
cada valor de la variable, la cantidad (frecuencia) de individuos que
poseen un valor inferior o igual al mismo.
Se pasan de los diferenciales a los integrales por integración y a la inversa
por derivación.
Gráfico de barras
Una aplicación frecuente es la representación de los valores medios de una variable.
Es una buena práctica agregar una medida de la variabilidad muestral de la media, mediante un
segmento de recta colocado en la parte superior de cada barra y cuya longitud es igual al error
𝜎2
estándar 𝐸𝐸 = 𝑛

Peso promedio y error estándar de los distintos


estadios de desarrollo de pulgones.
Gráfico de Sectores o Torta
Alternativa para la representación de frecuencias relativas de un conjunto de categorías
En este caso la porción de torta que le corresponde a cada categoría representa la frecuencia
relativa.
Una limitante para este tipo de representaciones es el número de categorías.

Distribución de individuos según el estadio de desarrollo sin


identificación de las magnitudes que representan cada una de las
porciones de la torta (a) y con la aclaración correspondiente (b).
Gráfico de Caja (Box Plot)
Tienen por objeto presentar sintéticamente Peso (mg) de 100 larvas de cada estadio de
los aspectos más importantes de una una polilla forestal.
distribución de frecuencias.

Ej. Se toman muestras aleatorias de


tamaño n = 100 de cada uno de tres
estadios larvales de una especie de
polilla forestal.

La visualización de estos resultados no


permite percibir las similitudes o diferencias
entre las distribuciones muestreadas.
Diagramas de caja describiendo la distribución Diagrama explicativo de los objetos que
de pesos en tres estadios larvales. aparecen en los diagramas de caja.

¿Qué se puede decir del peso de las larvas de los distintos estadios?
 Las distribuciones están posicionadas de manera diferente, siendo las larvas de estadio 3 las más
pesadas, luego las de estadio 2 y finalmente las de estadio 1.
 La variación, al menos en términos absolutos, va incrementándose a medida que aumenta el peso
promedio de las larvas.
 La distribución es asimétrica con valores extremos o muy extremos sólo a la derecha de la media.
 La asimetría tiende a disminuir con el aumento del peso, esto indica que la distribución es más asimétrica
en las larvas de estadio 1 que en las de estadio 2 ó 3. Esto se puede visualizar por la cantidad de valores
muy extremos.
Gráfico de puntos (Dot-Plot)
A veces el tamaño de la muestra es pequeño y los cuantiles muestrales que de ella se obtienen no son
confiables desde el punto de vista estadístico, en estas condiciones un box-plot, no es adecuado.
En ciertas ocasiones no sólo se quiere tener una imagen de los aspectos generales de la distribución sino,
también, una visualización de los valores efectivamente observados. En estos casos el dot-plot, puede ser la
representación más satisfactoria.
Consiste en dibujar un punto por cada uno de los valores observados en la muestra, ubicados según una
escala (la recta real) que se pone como referencia. Cuando hay más de una observación con el mismo valor,
ésta se representa con otro punto ubicado en posición contigua al anterior y así́ sucesivamente con el resto de
las observaciones repetidas.

Diagrama de puntos para el


número de malezas por m2.
Ej. Resultados observados del número
de plántulas de malezas por m2
GRÁFICO DE RAMA Y HOJA (Stem-and-leaf display)
Técnica empleada para representar los datos cuantitativos de una forma condensada.
Ventaja sobre la distribución de frecuencias, NO existe pérdida de información de cada
observación individual.
 Cada valor se divide en dos porciones: una rama y una hoja.
 Las hojas de cada rama se muestran de forma separada.
Ej.: Los siguientes datos muestran los resultados de 30 estudiantes en una prueba de estadística.
75 52 80 96 65 79 71 87 93 95 69 72 81 61 76
86 79 68 50 92 83 84 77 64 71 87 72 92 57 98
 Se separa la nota en dos partes:
 La primera parte contiene el primer dígito, la cual se denomina RAMA.
 La segunda parte contiene el segundo dígito, se denomina HOJA.
5 2 0 7 5 0 2 7
6 5 9 1 8 4 6 1 4 5 8 9
7 5 9 1 2 6 9 7 1 2 7 1 1 2 2 5 6 7 9 9
8 0 7 1 6 3 4 7 8 0 1 3 4 6 7 7
9 6 3 5 2 2 8 9 2 2 3 5 6 8
 La rama 7 tiene mayor frecuencia.  Hojas ordenadas.
GRÁFICO DE RAMA Y HOJA (Stem-and-leaf display) …
 Si en los datos hay valores de 3 dígitos (354) y también de 4 dígitos (3257), se toma como
rama el primer dígito de los valores de 3 y los dos primeros dígitos de los valores de 4.
En algunos casos, el gráfico tiene muchas ramas y algunas con pocas hojas. En tales casos
se condensa el gráfico agrupando las ramas, por ejemplo: las 3 primeras, las 3 siguientes y
así sucesivamente. Las hojas de las diferentes ramas agrupadas se separan con *.

1 3 5
2 2 5 6
3 0 1
1-3 3 5 * 2 5 6 * 0 1
4 2 3 6
4-6 2 3 6 * 0 * 5 6
5 0
7-9 0 3 9 * 1 5 7 * 2 6
6 5 6
7 0 3 9
8 1 5 7
9 2 6
Datos :
 Si alguna rama no tiene hojas se indica en el 21 25
2-5 1 5 * * 3 8 * 0
gráfico colocando 2 asteriscos seguidos. Ej.: 43 48
50
¿Qué hemos visto?

• TÉCNICAS GRÁFICAS PARA ORGANIZAR CONJUNTOS DE DATOS


– Diagrama de puntos
– Histogramas
– Polígonos de frecuencias
– Ojiva o Polígono de frecuencias acumuladas

• GRÁFICO DE UNA TABLA DE DOBLE ENTRADA


• GRÁFICO PARA VARIABLES CUALITATIVAS
– Diagrama de barras
– Diagrama de sectores
– Pictogramas
– Cartogramas

• GRÁFICOS DIFERENCIALES PARA VARIABLES NUMÉRICAS


– Diagramas de barras para variables discretas
– Histogramas para variables contínuas

• DIAGRAMAS INTEGRALES
MEDIDAS DESCRIPTIVAS

Posición y Forma

Tendencia Central.

Dispersión

Asociación
ESTADISTICOS
ESTADISTICOS
• Posición
– Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
• Cuantiles: percentiles, cuartiles, deciles,...
• Centralización
– Indican valores con respecto a los que los datos
parecen agruparse.
• Media, mediana y moda
• Dispersión
– Indican la mayor o menor concentración de los
datos con respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación,
rango, varianza
• Forma
– Asimetría
– Apuntamiento o curtosis
Estadísticos de posición
• Se define el cuantil de orden α como un valor de la variable por
debajo del cual se encuentra una frecuencia acumulada α.

• Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Cuantil 0,70
Estadísticos de posición
• Percentil de orden k = cuantil de orden k/100
– La mediana es el percentil 50
– El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%

• Cuartiles: Dividen a la muestra en 4 grupos con


frecuencias similares.

– Primer cuartil = Percentil 25 = Cuantil 0,25


– Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
– Tercer cuartil = Percentil 75 = cuantil 0,75
Ejemplos:
El 5% de los recién nacidos tiene un peso demasiado bajo.
¿Qué peso se considera “demasiado bajo”?

5% 95%

Percentil 5 o cuantil 0,05


Ejemplos:
¿Qué peso es superado sólo por el 25% de los individuos?

75%
25%

Percentil 75 o cuantil 0,75


Ejemplos:
El colesterol se distribuye simétricamente en la población.
Se considera patológico los valores extremos. El 90% de
los individuos son normales ¿Entre qué valores se
encuentran los individuos normales?

90%
5% 5%

Percentil 5 o cuantil 0,05 Percentil 95 o cuantil 0,95


Ejemplos:
¿Entre qué valores se encuentran la mitad de los
individuos “más normales” de una población?

50%
25% 25%

Percentil 25 o cuantil 0,25 Percentil 75 o cuantil 0,75

1º Cuartil 3º Cuartil
Ejemplo

• ¿Qué peso no llega a alcanzar el 25% de los


individuos?
– Primer cuartil = percentil 25 = 60 Kg.

• ¿Qué peso es superado por el 25% de los 50%


individuos?
– Tercer cuartil= percentil 75= 80 kg.

• ¿Entre qué valores se encuentra el 50% de los


individuos con un peso “más normal”?
– Entre el primer y tercer cuartil = entre 60 y 80 kg. 100

– Obsérvar que indica cómo de dispersos están los


individuos que ocupan la “parte central” de la 90
muestra. Ver más adelante rango intercuartílico.
– Los diagramas de caja (‘boxplot’) sintetizan esta
información (y algo más). 80

70
Estadísticos

PESO 60

Percentiles 25 60,00
50 70,00 50
75 80,00
40
Estadísticos

 Percentiles?
Ejemplo Número de años de es colarización
N Válidos 1508
Perdidos 0
Media 12,90
 Cuántos años de escolarización, es el percentil 20? Mediana 12,00
Moda 12
 Cuántos años de escolarización, es el percentil 90? Percentiles 10 9,00
20 11,00
Número de años de escolarización 25 12,00
30 12,00
Porcentaje 40 12,00
Frecuencia Porcentaje acumulado 50 12,00
3 5 ,3 ,3 60 13,00
4 5 ,3 ,7 70 14,00
5 6 ,4 1,1 75 15,00
6 12 ,8 1,9 80 16,00
7 90 16,00
25 1,7 3,5
8 68 4,5 8,0
9 56 3,7 11,7
10 73 4,8 16,6
11 85 5,6 22,2 ≥20%?
12 461 30,6 52,8
13 130 8,6 61,4
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7 ≥ 90%?
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0
Media aritmética
La media aritmética es la más usada de las medidas descriptivas. Tiene la ventaja de ser
muy fácil de calcular, además de poseer propiedades teóricas excelentes desde el punto de
vista de la estadística inductiva. Su principal desventaja es que, por ser el punto de
equilibrio de los datos, es muy sensible a la presencia de observaciones extremas.

x1 = 2 x2 = 12 x3 = 9 x4 = 10 x5 = 7 2  12  9  10  7
x 8
5

n
x8
x i
i1
x
n
2 4 6 8 10 12

1 kg 1 kg 1 kg 1 kg 1 kg
Ventajas de la Media Aritmética
Es fácil comprender su significado, ya que no es más que un promedio.

Existe y es única para toda muestra de valores en una escala cuantitativa continua.

Toma en cuenta la magnitud de todos y cada uno de los datos de la muestra.

Se expresa en las mismas unidades que los datos originales.

Es un “buen estimador" de la media poblacional.

Es más confiable que otras medidas de tendencia central, esto es, presenta una
variabilidad menor de muestra a muestra

Principal Desventaja
Valores extremos pueden distorsionarla.
(Esto puede evitarse eliminando los errores de las observaciones y los individuos
presuntamente atípicos).
CÁLCULO DE LA MEDIA ARITMÉTICA EN TABLAS DE FRECUENCIAS
Clases Vi fi pi Vifi piVi
( 30 ; 40] 35 1 0,012 1 x 35 = 35 0,412
( 40 ; 50] 45 4 0,047 4 x 45 = 180 2,118
( 50 ; 60] 55 9 0,106 495 5,824
( 60 ; 70] 65 6 0,071 390 4,588
( 70 ; 80] 75 30 0,353 2 250 26,471
( 80 ; 90] 85 29 0,341 2 465 29,000
( 90 ; 100] 95 6 0,071 570 6,706
85 1,000 6 385 75,118
k

 fV i i
6 385
x i 1
  75,12
n 85
El valor real de la media, utilizando los datos individuales, es: 75,24
MEDIANA
De un conjunto de n números, ordenados de menor a mayor, es el número central en el arreglo.

27 3,4 3,2 3,3 3,1

ordenar: 3,1 3,2 3,3 3,4, 27 Me = 3,3

Peso (Kg): 63 52 78 49 71 62 68 48 56 67
62  63
ordenar: 48 49 52 56 62 63 67 68 71 78 Me   62,5
2

La mediana es un valor que divide a los datos en mitades:


Una con todas las observaciones  Me
otra con aquéllas  Me
Para conjuntos de datos asimétricos, es mejor medida de tendencia central que la media.
MEDIANA EN TABLAS DE FRECUENCIAS
La mediana debe estar en una clase tal que la frecuencia relativa acumulada hasta la clase que
precede inmediatamente sea menor que 0,5 y la frecuencia relativa acumulada hasta la clase que
buscamos sea mayor o igual a 0,5.

Clases Vi fi pi Pi
( 30 ; 40] 35 1 0,012 0,012
( 40 ; 50] 45 4 0,047 0,059
( 50 ; 60] 55 9 0,106 0,165
( 60 ; 70] 65 6 0,071 0,235
Clase de la ( 70 ; 80] 75 30 0,353 0,588
Mediana
( 80 ; 90] 85 29 0,341 0,929
( 90 ; 100] 95 6 0,071 1,000
85 1,000
Mediana … Clases Vi Pi
Me =fi 70 + zpi
( 30 ; 40] 35 1 0,012 0,012
0,50 - 0,235 = 0,265 ( 40 ; 50] Me =
45 70 +
4 7,500,047
= 77,50 0,059
( 50 ; 60] 55 9 0,106 0,165
0,50
( 60 ; 70] 65 6 0,071 0,235
( 70 ; 80] 0,353
75 
30 100,353 0,588
Me
( 80 ; 90] 0,265
85  z 0,341
29 0,929
0,235 z 0,588 ( 90 ; 100] 95 6 0,071 1,000
(0,26585
)(10) 1,000
Z  7,50
( 70 ; 80] 0,353

0,353

10

La Me para las observaciones individuales es 78


MODA
De un conjunto de datos es el valor (si existe) que ocurre con mayor frecuencia.
Si es un valor único decimos que la distribución de frecuencias es unimodal.
Si se tienen dos o más valores con la misma frecuencia máxima decimos que la
distribución es bimodal, trimodal, etc.

10 7 8 7 9 8 7 9 Mo = 7

Peso (Kg): 63 52 78 49 71 62 68 48 56 67 Mo = No existe


Estatura (cm): 162 158 167 151 162 168 167 153 152 173 Mo = 162 y 167
Distribución Bimodal
Cuando la distribución de frecuencias es simétrica, la media, mediana y moda coinciden.

6,2 7,9 8,1 8,5 8,5 8,9 9,1 10,8

6 7 8 9 10 11

x  Me  Mo  8,5
MODA EN TABLAS DE FRECUENCIAS
Cuando se calculan en una tabla de frecuencias, la moda adquiere mayor importancia, ya que es
más frecuente que sea un valor único.
Para propósitos descriptivos es suficiente reportar la clase modal, que es la clase cuya frecuencia
absoluta es mayor. Si se desea un valor único se toma el valor medio de la clase modal.

Clases Vi fi pi Pi
( 30 ; 40] 35 1 0,012 0,012
( 40 ; 50] 45 4 0,047 0,059
( 50 ; 60] 55 9 0,106 0,165
( 60 ; 70] 65 6 0,071 0,235
Clase
Modal ( 70 ; 80] 75 30 0,353 0,558
( 80 ; 90] 85 29 0,341 0,929
( 90 ; 100] 95 6 0,071 1,000
85 1,000
Altura mediana
Resumen...
Datos sin agrupar Tabla de frecuencias

Media 75,24 75,12

Mediana 78,00 77,50

Moda 85,00 75,00

x < Me < Mo Asimetría hacia la izquierda

x = Me = Mo Simétrica

x > Me > Mo Asimetría hacia la derecha


¿Qué hemos visto?

• MEDIDAS DESCRIPTIVAS

• ESTADÍTICOS DE POSICIÓN
– CUÁNTILES
• Percentiles
• Cuartiles
• Deciles
• Quintiles

– MEDIA ARITMÉTICA
– MEDIANA
– MODA
MEDIDAS DE DISPERSIÓN
Amplitud
a)
A = 20 – (-4) = 24
-4 -2 0 2 4 6 8 10 12 14 16 18 20

x = Me = Mo = 8

b) A = 13 – 3 = 10
-4 -2 0 2 4 6 8 10 12 14 16 18 20

x = Me = Mo = 8
Desviación Media
xi xi  x l xi  x l n=8
6 6–3=3 3
2 2–3=–1 1 24
x 3
5 5–3=2 2 8
4 4–3=1 1
7 7–3=4 4 20
DM   2,5
-1 –1–3=–4 4 8
1 1–3=–2 2
1 n
0 0–3=–3 3 DM   x i  x
n i1
 =24 =0  = 20

 x 
n

i x 0
i 1
Varianza y Desviación Estándar o Típica
xi xi  x ( x i  x )2
63 1,6 2,56 896,40
s2   99,60 kg2
52 – 9,4 88,36 10  1
78 16,6 275,56
s  99,60  9,98 kg
49 – 12,4 153,76
9,6 92,16
 
2
71 1 n
62 0,6 0,36
2
s  
n  1 i1
xi  x
68 6,6 43,56

48 – 13,4 179,56   n 
2

 n   x i  
-5,4 29,16 1  x2   i1  
56 s2   i
n  1  i1 n 
5,6 31,36  
67  

 = 614 =0  = 896,40


n = 10 614
x   61,4
10
CÁLCULO DE LA VARIANZA EN TABLAS DE FRECUENCIAS

Clase Vi fi Vi  x ( Vi  x )2 fi ( Vi  x)2 14 698


2
(30 ; 40] 35 1 -40,12 1609,61 1609,61 s   174,99
85  1
(40 ; 50] 45 4 -30,12 907,21 3628,86
(50 ; 60] 55 9 -20,12 404,81 3643,33 s  174,99  13,23
(60 ; 70] 65 6 -10,12 102,41 614,49

 V  x  f
2
(70 ; 80] 75 30 -0,12 0,01 0,43 1 k
s2  i i
(80 ; 90] 85 29 9,88 97,61 2830,82 n 1 i1

(90 ; 100] 95 6 19,88 395,21 2371,29


  k  
2

 85 14698,82    Vi f i  
Vi f i   i 1  
1 k 2
s 
2

n  1  i 1 n 
 
k  
fV i i
6 385
x i1
  75,12
n 85
OBSERVACIONES SOBRE LA VARIANZA
1. La varianza es una medida de la dispersión o variabilidad de los datos respecto al valor medio.
2. Si todos los valores son iguales, la varianza es nula y si los valores son diferentes, la varianza
es positiva. Además, la magnitud de la dispersión es más pequeña para un conjunto de valores
más próximos a la media que para otro conjunto integrado por valores más alejados de la
misma media.

VENTAJAS:
• Es fácil comprender su significado, porque se interpreta como un promedio de los cuadrados de
las desviaciones de los datos respecto a la media.
• Existe y es única para toda muestra de valores en una escala cuantitativa continua.
• Toma en cuenta la magnitud de todos y cada uno de los datos de la muestra.
• Es un "buen estimador" de la varianza poblacional.

DESVENTAJAS:
1. No se expresa en las mismas unidades que los datos originales, sino en unidades cuadradas,
las que, en las situaciones usuales en Bioestadística, carecen de interpretación física.
2. Puede conducirnos a conclusiones erróneas si no la comparamos con la media muestral. (Se
utiliza con este fin el "coeficiente de variación").
3. Mediante un cambio de escala ella se transforma según el cuadrado del factor de escala.
COEFICIENTE DE VARIACIÓN
Las medias y desviaciones estándar para los Pesos (X) y Estaturas (Y) de 10 alumnos son:

s
Peso (X) Estatura (Y) CV(%)  .100
x
Kg cm
Media 61,4 161,3
9,98 kg
CV ( X )  .100  16,25 %
Desviación 9,98 7,60 61,4 kg
estándar
7,60 cm
CV (Y )  .100  4,71 %
161,3 cm

En este caso, el peso tiene mayor variabilidad que la estatura, para los 10 alumnos
OBSERVACIONES SOBRE EL CV
1. La varianza y la desviación estándar, son útiles como medidas de variación dentro de un
conjunto determinado de datos. Sin embargo, cuando se desea comparar la dispersión en dos o
más conjuntos de datos, la comparación de dos desviaciones estándar puede conducir a
resultados erróneos. Además, puede suceder que las dos variables involucradas estén medidas
en diferentes unidades. Por otra parte, a pesar de que se use la misma unidad de medida, las
dos medias pueden ser bastante diferentes, y la comparación de las desviaciones estándar
correspondientes no tiene mucho sentido. Lo que se necesita en situaciones como estas es una
medida de variación relativa más que de variación absoluta.

1. El CV expresa la desviación estándar como un por ciento de la media.


2. El CV es la cantidad más adecuada para comparar la variabilidad de dos conjuntos de datos.
3. El CV es un número independiente de la unidad de medida, vale decir, una magnitud
adimensional.

4. El CV es también útil al comparar los resultados obtenidos por diferentes personas que
conducen investigaciones que involucran la misma variable, y al comparar los resultados
obtenidos mediante distintas técnicas.

5. En áreas de investigación donde se tienen datos de experimentos previos, el CV es muy usado


para evaluar la precisión de un experimento, comparando el CV del experimento en cuestión
con los valores del mismo en experiencias anteriores.
COMENTARIOS SOBRE:
MEDIDAS DE TENDENCIA CENTRAL:
• Si la distribución no es muy asimétrica, la moda, media y mediana tienen aproximadamente el
mismo valor, por lo que puede reportarse cualquiera de las tres.
• Para distribuciones asimétricas, la mediana puede ser mejor medida de tendencia central que la
media.
• Si el objetivo es hacer Estadística Inductiva, la media es indispensable por sus excelentes
propiedades teóricas.
• Si se trata sólo de describir un conjunto, es conveniente reportar las tres medidas, ya que cada
una puede decirnos algo sobre la distribución de frecuencias.

MEDIDAS DE DISPERSIÓN:
1. Las tres medidas de dispersión que se usan en la práctica son la amplitud, la desviación
estándar y el coeficiente de variación.
2. La amplitud se usa por ser muy fácil de calcular. Por estar basada sólo en dos valores, es la
medida de dispersión más sensible a observaciones extremas.
3. La desviación estándar tiene las mismas ventajas y desventajas que la media aritmética. Es
indispensable en estadística inductiva.
4. Por ser independiente de las unidades de medición, el coeficiente de variación es la medida
apropiada para comparar la variabilidad de dos conjuntos de datos.
¿Qué hemos visto?

• MEDIDAS DE DISPERSIÓN O VARIABILIDAD


– Amplitud
– Desviación media
– Varianza
– Desviación típica o estándar

• COEFICIENTE DE VARIACIÓN
MEDIDAS DE ASOCIACIÓN

Cuando se estudian dos características, una pregunta que surge con


frecuencia es si existe alguna relación entre ellas.

Ej.: El peso y la estatura de un grupo de individuos,


La temperatura y la tasa de reproducción de una bacteria,
El ingreso y el consumo por familia.
La altitud y la temperatura, etc.

COVARIANZA

COEFICIENTE DE CORRELACIÓN
 x  
1
COVARIANZA
n
s xy  i  x yi  y
n 1 i1

Peso Estatura xi  x y i  y ( x i  x )( y i  y)
(x) (Y)
1 63 162 1,6 0,7 1,12
2 52 158 -9,4 -3,3 31,02
3 78 167 16,6 5,7 94,62
1
4 49 151 -12,4 -10,3 127,72
s xy  529,8
5 71 162 9,6 0,7 6,72 10  1
6 62 168 0,6 6,7 4,02
7 68 167 6,6 5,7 37,62
8 48 153 -13,4 -8,3 111,22
s xy  58,87 kg.cm
9 56 152 -5,4 -9,3 50,22
10 67 173 5,6 11,7 65,52
Total 614 1613 529,8
Media 61,4 161,3
COVARIANZA Forma abreviada
Peso Estatura XY   n   n 
(x) (Y)    xi    yi  
1  n  i 1   i 1  
1 63 162 10206
sxy   i i
n  1  i 1
x y 
n 
2 52 158 8216  
 
3 78 167 13026
4 49 151 7399
5 71 162 11502
s xy 
1 
99 568 
6141613
6 62 168 10416 10  1  10 

7 68 167 11356
8 48 153 7344 s xy  58,87 kg.cm
9 56 152 8512
10 67 173 11591
Total 614 1613 99 568
OBSERVACIONES SOBRE LA COVARIANZA:
1. La covarianza es un estadígrafo asociado a un par de muestras X y Y de variables
aleatorias distintas. Se expresa en unidades iguales al producto de las unidades
originales de ambas muestras.

2. La covarianza constituye una medida de la variación conjunta de X y Y.

3. A diferencia de la varianza, que es necesariamente positiva por tener en el numerador


una suma de cuadrados, la covarianza puede ser negativa o positiva. Tendremos
covarianza positiva cuando las desviaciones positivas (negativas) de X correspondan
a desviaciones positivas (negativas) de Y. Tendremos covarianza negativa cuando las
desviaciones negativas (positivas) de X correspondan a desviaciones positivas
(negativas) de Y.

4. Si comparamos las ecuaciones para sxy (covarianza entre X y Y) y sx² (la varianza de
X), podemos observar que, si imaginamos una ecuación para la covarianza de X
consigo misma, obtenemos la ecuación de la varianza; es decir, que podemos pensar
en la varianza como un caso especial de la covarianza.
CORRELACIÓN
Peso Estatura
Peso (X) Estatura (Y)
(x) (Y)
Kg cm
1 63 162
Desviación estándar 9,98 7,60
2 52 158
3 78 167 Covarianza 58,87 kg.cm
4 49 151
5 71 162
6 62 168 s xy
7 68 167 rxy 
sx s y
8 48 153
9 56 152
10 67 173
58,87 kg.cm
rxy   0,78
Total 614 1613
9,98 kg 7,60 cm
Diagrama de puntos
Peso Estatura
(x) (Y)
175 1 63 162
170 2 52 158
Estatura (cm)

165 3 78 167
160 4 49 151
155 5 71 162

150 rxy  0,78 6 62 168

145
7 68 167
40 50 60 70 80 8 48 153
Peso (kg) 9 56 152
10 67 173
Algunos valores de r

rxy= - 1

rxy= + 1

rxy= 0
OBSERVACIONES SOBRE EL COEFICIENTE DE CORRELACIÓN

1. EI coeficiente de correlación es un estadígrafo asociado a un par de muestras X y Y


de variables aleatorias distintas. Es una magnitud adimensional, es decir, es
independiente de las unidades de medida utilizadas en las variables.

2. EI coeficiente de correlación es una medida del grado de linealidad entre X y Y . Los


valores de r próximos a +1 ó –1 indican un alto grado de linealidad, mientras que los
valores de r próximos a 0 indican una ausencia de tal linealidad.

3. Los valores positivos de r muestran que Y tiende a aumentar con valores crecientes
de X (y viceversa) (relación lineal directa), pero si r es negativo, entonces Y
disminuye al aumentar X (y viceversa) (relación lineal inversa).

4. Existe una idea considerablemente errónea acerca de la interpretación del coeficiente


de correlación. Un valor de r próximo a 0 sólo indica la ausencia de una relación lineal
entre "x" y "y" . No impide la posibilidad de alguna relación no lineal
Asimetría o Sesgo
• Una distribución es simétrica si
la mitad izquierda de su
distribución es la imagen
especular de su mitad derecha.

• En las distribuciones simétricas


media y mediana coinciden. Si
sólo hay una moda también
coincide

• La asimetría es positiva o
negativa en función de a qué
lado se encuentra la cola de la
distribución.

• La media tiende a desplazarse


hacia las valores extremos
(colas).

• Las discrepancias entre las


medidas de centralización son
indicación de asimetría.
Estadísticos para detectar asimetría

• Hay diferentes estadísticos que sirven


para detectar asimetría.

– Basado en diferencia entre


estadísticos de tendencia central.

– Basado en la diferencia entre el 1º y


2º cuartiles y 2º y 3º.

– Basados en desviaciones con signo


respecto a la media.
• En este se basa SPSS. No lo
calcularemos manualmente.

• En función del signo del estadístico


diremos que la asimetría es positiva o
negativa.

• Distribución simétrica  asimetría nula.

• La asimetría es adimensional.
Apuntamiento o curtosis
160
La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribución con respecto 140

a la distribución normal o gaussiana. Es 120

adimensional.
100

Platicúrtica: curtosis < 0 80

Frecuencia
60

Mesocúrtica: curtosis = 0 40
45 48 51 54 57 60 63 66 69 72 75 78 81 84

Leptocúrtica: curtosis > 0 400 300


Platicúrtica

300
Los gráficos poseen la 200

misma media y desviación


200
típica, pero con diferente
grado de apuntamiento. 100

100

Frecuencia
Frecuencia

Serán de especial interés


las mesocúrticas y 0 0
27 37 45 53 61 69 77 85 93
simétricas (parecidas a la 3
16
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
102 138
108
32 41 49 57 65 73 81 89 99

normal). Leptocúrtica Mesocúrtica


EL COEFICIENTE DE ASIMETRÍA
Medida para cuantificar la asimetría de la distribución de frecuencias de
una característica X
1 n

n i1
( x i  x ) 3

sx es la desviación estándar de X
ax 
(s x ) 3

INTERPRETACIÓN
Si existen observaciones muy grandes en relación con la media, el coeficiente
de asimetría tendrá un valor positivo.
Si existen observaciones muy pequeñas (menores que la media), el coeficiente
será negativo.
Si las observaciones están simétricamente distribuidas alrededor de la media, el
coeficiente tendrá un valor cero.
Ej. 2.19. Calcule el coeficiente de asimetría.

xi x i x  x  x x  x
i
2
i
3 x = Me = Mo = 8,5

1 n
6,2
7,9
-2,3
-0,6
5,29
0,36
-12,167
-0,216

n i 1
( x i  x ) 3

ax 
8,1 -0,4 0,16 -0,064 (s x ) 3
8,5 0,0 0,00 0,000

s  11,62   1,66
8,5 0,0 0,00 0,000 2 1
x
8,9 0,4 0,16 0,064 7
9,1 0,6 0,36 0,216
10,8 2,3 5,29 12,167 sx3 = 2,1388
 68 0 11,62 0,000

1
(0)
ax  8 0
6 7 8 9 10 11 2,1388
COEFICIENTE DE CURTOSIS
Analiza el grado de concentración que presentan los
valores alrededor de la zona central de la distribución

 V  x  f
n
4
i i
i 1
n

f i
k i 1
4
3
s
COEFICIENTE DE CURTOSIS

LEPTOCURTICA: Presenta elevado


grado de concentración alrededor de
los valores centrales de la variable. curtosis > 0

MESOCURTICA: Presenta un grado de


concentración medio alrededor de los
valores centrales de la variable.
curtosis = 0

PLATICURTICA: presenta un reducido


grado de concentración alrededor de los
valores centrales de la variable.
curtosis < 0
Intervalo Vi fi v i x  v  x  f
i
4
i Ejemplo
(45, 55] 50 6 -19,4 849881,10
(55, 65] 60 10 -9,4 78074,90 x  69,4
(65, 75] 70 19 0,6 2,46 s  11,029
(75, 85] 80 11 10,6 138872,47

(85, 95] 90 4 20,6 720325,64

50 1787156,56

20

15

1 787 156,56 10

k 50  3  0,584
5

0
4
(11,029) 1 45 2 55 3 65 4 75 5 85 6 95
MEDIA PODADA

1. Ordene las observaciones de menor a mayor.

2. Elimine el 25% inferior y el 25% superior de las


observaciones ordenadas.

3. Calcule la media aritmética de las observaciones


restantes. El valor resultante recibe el nombre de media
podada.
Tabla 2.14 Edad en años de 83 investigadores.
Ordenar las observaciones de menor a mayor
29
24 31
27 30
28 28 26
30 32
31 33 31
39 30
57
44
24 24
27 28 28
29 29
30 31 37
34 27
39 29
59
27
25 32
27 26
28 32
29 26
30 46
31 33
34 27
40 31
61 83 observaciones
27
26 29
27 27
28 28
29 33
30 26
32 31
34 28
43
83 * 25% = 20,75 ≈ 21
26 33
27 55
28 30
29 57
30 27
32 30
35 43
44
25
26 29
27 30
28 35
29 28
31 39
32 28
35 40
45 Se eliminan:
27
26 28
27 30
28 28
29 26
31 34
33 39
36 36
46
21 observaciones del inicio
35
26 28
27 30
28 31
30 24
31 33 31
36 30
47
27
26 28 28 47
30 31 34
33 37 45
55
21 observaciones del final
34
27 27
28 59
28 29
30 28
31 36
33 55
37 61
55

Calcular la media de las 41 observaciones restantes.


10(28)  6(29)  8(30)  8(31)  3(32)  5(33)  1(34)
Media podada   30,17
41
MEDIA DE WINDSOR
1. Ordene los datos de menor a mayor.

2. Reemplace el valor de cada observación en el 25% inferior


de los datos por el valor de la menor observación no
eliminada en el cálculo de la media podada. Reemplace los
valores en el 25% superior de los datos por el valor de la
mayor observación no eliminada en el calculo de la media
podada.

3. Calcule la media de todas las observaciones después de


modificarlas. Esta media recibe el nombre de media de
Windsor.
Tabla 2.14 Edad en años de 83 investigadores.
Ordenar las observaciones de menor a mayor
28
2429 2831 28
27 30 28
28 28 30
26 31
32 33
33 34
31 34
39 30
57
2444 28
28 24 28
27 28 29
28 30
29 31
31 34
37 34
27 34
39 29
59 83 observaciones
2527 2832 28
26 29
32 30 46 34
26 31 33 34
27 34
31
28 27 34 40 61
83 * 25% = 20,75 ≈ 21
2627 28
28 29 28
27 27 29
28 30
33 32
26 34
31 34
34 28
43
2626 28
28 33 28
27 55 29
30 57 32
30 27 34
30
35 43
34
44 Se reemplazan:
2625 28
28 29 28
27 30 29
35 28 32
31 39 34
28
35 40
34
45
21 observaciones del inicio con 28
2627 28
28 28 28
27 30 29
28 26 33
31 34 34
39
36 36
34
46
2635 28
28 28 28
27 30 30
31 24 33
31 33 34
31
36 30
34
47 21 observaciones del final con 34
2627 28
28 28 28
28 28 30
47 31
31 33
34 34
37 34
37 45
55
2734 28
28 27 28
28 59 30
29 31
28 33
36 34
55 34
37 61
55

Calcular la media de las 83 observaciones.


21(28)  10(28)  6(29)  8(30)  8(31)  3(32)  5(33)  1(34)  21(34
Media de Windsor 
83
 30,59
En este caso las dos medias tienen valores muy similares:

Media Podada = 30,17


Media de Windsor = 30,59

La media aritmética = 32,61


La mediana = 30,0

Las dos medias propuestas se acercaron más a la mediana


que a la media aritmética, pero no difieren apreciablemente de
la media.

En otros casos, estas medidas tendrán valores intermedios


entre la media y la mediana.
¿Qué hemos visto?

• MEDIDAS DE ASOCIACÍON

– Covarianza

– Coeficiente de Correlación

• COEFICIENTE DE ASIMETRÍA

• COEFICIENTE DE CURTOSIS

• MEDIA PODADA

• MEDIA DE WINDSOR
Hasta la próxima
determinismo. (De determinar). m. Teoría que supone que la evolución
de los fenómenos naturales está completamente determinada por las
condiciones iniciales. || 2. Fil. Sistema filosófico que subordina las
determinaciones de la voluntad humana a la voluntad divina. || 3. Fil.
Sistema que admite la influencia irresistible de los motivos.
Biblioteca de Consulta Microsoft® Encarta® 2005. © 1993-2004
Microsoft Corporation. Reservados todos los derechos.
estocástico, ca. (Del gr. στοχαστικός, hábil en conjeturar). adj.
Perteneciente o relativo al azar. || 2. f. Mat. Teoría estadística de los
procesos cuya evolución en el tiempo es aleatoria, tal como la
secuencia de las tiradas de un dado.
Biblioteca de Consulta Microsoft® Encarta® 2005. © 1993-2004
Microsoft Corporation. Reservados todos los derechos.
Cero absoluto, la menor temperatura teóricamente posible. El cero absoluto
corresponde a -273,15 °C, o cero en la escala termodinámica o Kelvin (0 K).

El concepto de un cero absoluto de temperatura surgió por vez primera en


relación con experimentos con gases; cuando se enfría un gas sin variar su
volumen, su presión decrece con la temperatura. Aunque este experimento no
puede realizarse más allá del punto de condensación del gas, la gráfica de los
valores experimentales de presión frente a temperatura se puede extrapolar
hasta presión nula. La temperatura a la cual la presión sería cero es el cero
absoluto de temperatura. Posteriormente se demostró que este concepto
deducido experimentalmente era consistente con las definiciones teóricas del
cero absoluto. Los átomos y moléculas de un objeto en el cero absoluto
tendrían el menor movimiento posible. No estarían completamente en reposo,
pero no podrían perder más energía de movimiento, con lo que no podrían
transferir calor a otro objeto.

Biblioteca de Consulta Microsoft ® Encarta ® 2005. © 1993-2004 Microsoft


Corporation. Reservados todos los derechos.
Tabla 2.9 Distribución de frecuencias
Clases Vi fi pi Fi Pi
( 30 ; 40] 35 1 1 / 85 1 1 / 85
( 40 ; 50] 45 4 4 / 85 5 5 / 85
( 50 ; 60] 55 9 9 / 85 14 14 / 85
( 60 ; 70] 65 6 6 / 85 20 20 / 85

( 70 ; 80] 75 30 30 / 85 50 50 / 85
( 80 ; 90] 85 29 29 / 85 79 79 / 85
( 90 ; 100] 95 6 6 / 85 85 85 / 85

85

Back

Potrebbero piacerti anche