Sei sulla pagina 1di 141

ESTADÍSTICA

DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA
• Los orígenes de la estadística, aunque no se sabe con
exactitud cuándo se comenzó a utilizar, pueden estar
ligados al antiguo Egipto como a los censos chinos que
se realizaron hace unos 4.000 años, aproximadamente.
• Sin duda, fueron los romanos,
romanos maestros de la
organización política, quienes mejor supieron ocupar la
estadística. Cada cinco años realizaban un censo de la
población, cuyos datos de nacimientos, defunciones y
matrimonios eran esenciales para estudiar los avances
del imperio; sin olvidar los recuentos de ganancias y las
riquezas que dejaban las tierras.
Estadística
Estadística descriptiva Estadística Inferencial

Reúne
ROPA

Organiza

Presenta

Analiza e interpreta
ESTADÍSTICA DESCRIPTIVA
• Para poder comprender mejor este tipo de
estudio es importante que conozcas los
siguientes términos básicos:

Población: Es un conjunto de
personas, eventos o cosas de
las cuales se desea hacer un
estudio, y tienen una
característica en común.
Muestra: Es un subconjunto
cualquiera de la población;
es importante escoger la
muestra en forma aleatoria
(al azar), pues así se logra
que sea representativa y se
puedan obtener conclusiones
más a fines acerca de las
características de la
población.
ESTADÍSTICA DESCRIPTIVA
Todo estudio estadístico debe considerar
diferentes tipos de variables:

Variables

Variables cualitativas

Variables Cuantitativas
Variables cualitativas: Relacionadas con
características no numéricas de un
individuo (por ejemplo: atributos de una
persona, nacionalidad, color de la piel,
sexo).

Una variable cualitativa nominal presenta Variable cualitativa ordinal o variable


modalidades no numéricas que no admiten cuasicuantitativa
un criterio de orden. Ejemplos: Una variable cualitativa ordinal presenta
El estado civil, con las siguientes modalidades no numéricas, en las que existe
modalidades: soltero, casado, separado, un orden.
divorciado y viudo. Ejemplos:
El sexo de u grupo de personas ( masculino La nota en un examen: suspenso, aprobado,
– femenino) notable, sobresaliente.
Los colores de las flores ( rojo, rosado, Puesto conseguido en una prueba deportiva:
amarillo) 1º, 2º, 3º, ...
La profesión de un grupo de Medallas de una prueba deportiva: oro, plata,
personas(periodista, profesor, científico) bronce.
Variables Cuantitativas: Relacionadas con características
numéricas del individuo, por ejemplo: edad, precio de un
producto, ingresos anuales. Las variables cuantitativas se dividen
en discretas o continuas

Discretas: Son aquellas Continuas : Son


que pueden tomar solo aquellas que pueden
algunos valores en un tomar cualquier valor en
intervalo y no valores un intervalo real,
intermedio, ejemplo: edad, ejemplo: alturas, la
número de hermanos que velocidad de un vehículo
puede ser 1, 2, 3....,etc, puede ser 80,3 km/h,
pero, por ejemplo, nunca 94,57 km/h...etc.
podrá ser 3,45)
Gráficas acorde a variables…
TIPO DE VARIABLE G RÁFIC A EJEM PLO
No mina l
Disc re ta DIAG RAM A DE BARRAS
O rd ina l
No mina l
PIC TO G RAMA

No mina l
DIAG RAMA DE SEC TO RES (PIE)

Disc re ta
O rd ina l PO LIG O NO DE FREC UENC IAS
C o ntinua
C o ntinua
HISTO G RAM A
• Ahora apliquemos estos conceptos:
Se desea saber si los dueños de automóviles catalíticos están
dispuestos a pagar la conversión de sus motores a gas
natural. Para ello se decide realizar una encuesta.
 
Determina cuál de las siguientes es la mejor muestra:
 
A) Escoger al azar a adultos que caminan por el centro de las
principales ciudades del país.
B) Escoger al azar a conductores de automóviles en las
intersecciones más concurridas.
C) Escoger al azar del registro de vehículos motorizados a
dueños de automóviles catalíticos y enviarles un
encuestador.
 
¿Cuáles son las variables utilizadas en la encuesta
(Cualitativas o Cuantitativas)?¿Porqué?
Ordenando la Información
Al ordenar datos muy numerosos, es
usual agruparlos en clases o categorías.
Al determinar cuántos pertenecen a
cada clase, establecemos la frecuencia.
Construimos así una tabla de datos
llamada tabla de frecuencias.
ESTADÍSTICA DESCRIPTIVA

¿Para qué se construyen las tablas


de frecuencias ?

1. ORDENAR
2. AGRUPAR
3. RESUMIR información
ESTADÍSTICA DESCRIPTIVA
El formato general de una tabla estadística , llamada también
TABLA DE FRECUENCIAS O TABLA DE DISTRIBUCIÓN DE
FRECUENCIAS es la siguiente:

Nombre de la Frecuencia
variable
Categorías o Frecuencias
Recorrido de la Observadas
variable

TOTAL n
ESTADÍSTICA DESCRIPTIVA
En la siguiente tabla se presenta el motivo de la
consulta médica, durante una semana.

Motivo Consulta Número de pacientes


Bronquitis 19
Otitis 13
Heridas 7
Fracturas 18
Vacunas 20
ESTADÍSTICA DESCRIPTIVA
TIPOS DE FRECUENCIAS

a) Frecuencia o Frecuencia Absoluta:Es el número de veces que


se presenta un valor o categoría de una variable. Se representa
por fi. 

b) Frecuencia Relativa: La frecuencia relativa se puede expresar


en términos de porcentaje o de proporción y se representa por
fr. (Es la razón entre la frecuencia absoluta y el total de datos)
ESTADÍSTICA DESCRIPTIVA
Los siguientes datos corresponden a las notas obtenidas por
un curso de 24 alumnos en un trabajo de matemáticas:

3,2 4,2 5,6 6,0 2,8 3,9 4,2 4,2 5,0 5,0
3,9 3,9 3,2 3,2 4,2 5,6 6,0 6,0 3,2
6,0 4,2 5,0 5,6 5,0

Ordenemos estos datos en una tabla:


Anota en tu cuaderno una tabla de frecuencias que
considere
• Nombre de variable: Notas
• Frecuencia Absoluta
• Frecuencia relativa (ambas)
Si tu resultado es un decimal, usa 3 dígitos
después de la coma
ESTADÍSTICA DESCRIPTIVA
Nota Frecuencia Frecuencia Frecuencia Relativa
Absoluta Relativa Porcentual (%)

2,8
3,2
3,9
4,2
5,0
5,6
6,0
ESTADÍSTICA DESCRIPTIVA
Nota Frecuencia Frecuencia Frecuencia Relativa
Absoluta Relativa Porcentual (%)

2,8 1 0,041 4,166


3,2 4 0,166 16,666
3,9 3 0,125 12,500
4,2 5 0,208 20,833
5,0 4 0,166 16,666
5,6 3 0,125 12,500
6,0 4 0,166 16,666

¿Qué conclusiones puedes obtener de la tabla anterior?


ESTADÍSTICA DESCRIPTIVA

Pequeña Reflexión
ESTADÍSTICA DESCRIPTIVA
Ejercicio propuesto
En una clase de 30 alumnos se ha preguntado
el número de hermanos que tienen, el
resultado ha sido el siguiente:

1 1 1 0 1 2 1 5 3 6
2 2 0 3 0 1 1 2 3 4
4 2 1 1 1 2 0 3 1 1
ESTADÍSTICA DESCRIPTIVA
Si presentamos esta información en una tabla de
frecuencias , queda como sigue:
N ° de Frecuencia Frecuenci Frecuencia
hermanos absoluta a relativa relativa
porcentual
ESTADÍSTICA DESCRIPTIVA
Si presentamos esta información en una tabla de
frecuencias , queda como sigue:
N ° de Frecuencia Frecuenci Frecuencia
hermanos absoluta a relativa relativa
porcentual

0 4 0,133 13,333
1 12 0,400 40,000
2 6 0,200 20,000
3 4 0,133 23,333
4 2 0,066 6,666
5 1 0,033 3,333
6 1 0,033 3,333
ESTADÍSTICA DESCRIPTIVA
Los siguientes datos corresponden a los
lugares favoritos de vacaciones de los
empleados de una empresa:

Mar – Montaña – Campo – Mar – Mar –


Montaña – Campo – Mar – Mar –
Montaña – Campo – Mar – Campo

Completa la siguiente tabla y luego obtén al menos dos


conclusiones:
Lugar Frecuencia Frecuencia
Absoluta Relativa %
Campo
Mar
Montaña
Total
ESTADÍSTICA DESCRIPTIVA

Lugar Frecuencia Frecuencia


Absoluta Relativa %
Campo 4 30,769
Mar 6 46,153
Montaña 3 23,076
Total 13 99,998

¿ Qué conclusión puedes inferir?


ESTADÍSTICA DESCRIPTIVA
Hasta el momento sólo hemos trabajado con una pequeña
cantidad de datos. ¿Qué crees que deberíamos hacer si tenemos
muchos datos?

Tabla de Frecuencias de datos agrupados


En ocasiones, el agrupar los datos en
intervalos,
intervalos nos puede ayudar para realizar un
mejor análisis de ellos.
ESTADÍSTICA DESCRIPTIVA
Definiciones:
•Rango: Diferencia entre el máximo y el mínimo
valor de una variable.

•Marca de clase: Representante de un intervalo, y


corresponde al promedio entre los extremos de éste.

•Tamaño de un intervalo: Es el cuociente entre el


valor del rango y la cantidad de intervalos que se
desea obtener. Se recomienda tomar como longitud
de los intervalos un valor entero que sea mayor o
igual al cuociente obtenido.
Nivel de colesterol en la sangre de una muestra de hombres
estadounidenses que tienen entre 25 y 34 años de edad , que fueron
atendidos en centros médicos de New York y sufren de hipertensión
arterial , en el año 2001

¿Cuál es la variable de
Nivel de Colesterol
(mg/100 ml) Cantidad de hombres interés?
80-120 13

120-160 15

160-200 44
¿Qué se mide?
200-240 29

240-280 9

Observa: El rango de cada intervalo es de 40.


ESTADÍSTICA DESCRIPTIVA
Ejemplo:
Consideremos los siguientes datos, expresados en metros,
correspondientes a las estaturas de 80 estudiantes de Cuarto
año de Educación Media.

1,67 1,721,81 1,72 1,74 1,83 1,84 1,88 1,92


1,75 1,84 1,86 1,73 1,84 1,87 1,83 1,81 1,77
1,73 1,75 1,78 1,77 1,67 1,83 1,83 1,72 1,71
1,85 1,84 1,93 1,82 1,69 1,70 1,81 1,66 1,76
1,75 1,80 1,79 1,84 1,86 1,80 1,77 1,80 1,76
1,88 1,75 1,79 1,87 1,79 1,77 1,67 1,74 1,75
1,78 1,77 1,74 1,73 1,83 1,76 1,83 1,77 1,75
1,77 1,77 1,84 1,83 1,79 1,82 1,76 1,76 1,76
1,79 1,88 1,66 1,80 1,72 1,75 1,79 1,77
ESTADÍSTICA DESCRIPTIVA
Estatura Mayor: 1,93 metros
Estatura Menor: 1,66 metros
Rango: 1,93 metros - 1,66 metros = 0,27 metros = 27 cm.

Formaremos 6 intervalos. Para calcular el tamaño de intervalo de


cada uno dividimos 27 y 6, obteniendo finalmente 4,5  5

Luego los intervalos de la tabla son:


Intervalo Marca de Clase Frecuencia Absoluta

1,65 – 1,69

1,70 – 1,74

1,75 – 1,79

1,80 – 1,84

1,85 – 1,89
Los datos que a continuación se presentan corresponden al
número de llamadas telefónicas que un grupo de personas realiza
durante el día.
0, 1, 2, 4, 3, 5, 10, 6, 13, 9, 8, 10, 11, 12, 13, 14, 6, 14, 8, 15, 16, 17, 18,
19, 5, 12, 7, 11, 3, 20
MEDIDAS DE
TENDENCIA CENTRAL
Estos números se ubican en la parte central de una distribución de
datos y se llaman medidas de tendencia central y son promedio, la
moda y la mediana.
Al obtener de una población la distribución de frecuencias de una
variable lo que se persigue es reducir en pocas cifras el conjunto de
observaciones relativas a dicha variable.
Tablas de datos no agrupados

MODA: Es el dato que mas se repite, es decir, es aquel que posee la


mayor frecuencia absoluta, Si ningún dato se repite la tabla no tiene
moda o si mas de dos datos poseen la mayor frecuencia absoluta
esos datos serian la moda
La moda se aplica para obtener información sobre el punto donde
hay mayor concentración de datos
Tablas de datos no agrupados

PROMEDIO O MEDIA ARITMETICA:


El promedio de n datos es el cuociente
entre la suma de los n datos, divididos por n
Ejemplo: 5, 8, 12, 4, 6, 8
5+8+12+4+6+7= 42/6= 7
Luego el promedio es 7
Tablas de datos no agrupados

MEDIANA: En un conjunto de datos numéricos


ordenados en forma creciente o decreciente, es el
valor de la serie de datos que se sitúa justamente
en el centro de la muestra (un 50% de valores son
inferiores y otro 50% son superiores).
Si la muestra esta compuesta por un numero
impar de datos la mediana es el dato central
Si la muestra esta compuesta por un numero par
de datos la mediana es el promedio de los dos
datos centrales
Observación: En datos cualitativos no tiene sentido
Ejercicio: 24, 25, 25, 27, 28, 29, 30, 32, 35, 37
Tablas de datos agrupados

MARCA DE CLASE: Corresponde al promedio de los extremos de los


intervalos
Clases Frecuencias Frecuencias
Acumuladas
Marca de
Clase
118 – 126 3 3  
127 – 135 5 8  
136 – 144 9 17  
145 – 153 12 29  
154 – 162 5 34  
163 – 171 4 38  
172 - 180 2 40  
Tablas de datos agrupados

PROMEDIO: Se calcula sumando todos los productos de marca de


clase con la frecuencia absoluta respectiva y su resultado dividirlo
por el número total de datos, es decir:
  ni Marca de Clase

[60 - 63[ 5 61,5

[63 - 66[ 18 64,5

[66 - 69[ 42 67,5

[69 - 72[ 27 70,5

[72 - 75] 8 73,5


Promedio: 67,95
Clases Frecuencias Frecuencias
Acumuladas
Marca de
Clase
118 – 126 3 3  122
127 – 135 5 8  131
136 – 144 9 17  140
145 – 153 12 29  149
154 – 162 5 34  158
163 – 171 4 38  167
172 - 180 2 40  176
Promedio: 146,9
147
Tablas de datos agrupados

MODA:
Ejemplo: En una empresa, las edades del personal se resumen en la
siguiente tabla.
Tablas de datos agrupados

Observación: El intervalo donde la frecuencia


absoluta es la mas grande se llama intervalo modal.
Para obtener la moda para datos agrupados,
podemos seguir los siguientes pasos:
1º Identificar el intervalo modal, en este caso es 32
- 37, con una frecuencia de 45 personas.
Tablas de datos agrupados

2º Identificar las frecuencias absolutas del intervalo anterior y


posterior al intervalo modal. En este caso, el intervalo anterior
corresponde a 26 - 31, con una frecuencia de 30 personas; y el
intervalo posterior a 38 - 43, con una frecuencia de 40 personas.
Tablas de datos agrupados

3º Obtener la diferencia de la frecuencia del intervalo modal y la


frecuencia del intervalo anterior (d1). Entonces, tenemos que, 45 –
30 = 15.
4º Obtener la diferencia de la frecuencia del intervalo modal y la
frecuencia del intervalo posterior (d2). Entonces, tenemos que, 45 –
40 = 5.
Tablas de datos agrupados

5º Obtener la amplitud de los intervalos


6º Obtener el número que representa el extremo inferior del
intervalo modal (Li ).
Luego, el cálculo de la moda se puede obtener por medio de la
expresión:

d1
M Li  a
d1  d 2
Moda: 36
  ni Marca de Clase

[60 - 63[ 5 61,5

[63 - 66[ 18 64,5

[66 - 69[ 42 67,5

[69 - 72[ 27 70,5

[72 - 75] 8 73,5


Moda: 67.8
A continuación, se muestra el promedio obtenido
en Matemática por los alumnos y las alumnas de
un curso: 4,4 - 5,5 - 5,0 - 4,9 5,9 - 6,0 - 4,2 - 6,8 - 7,0
- 6,1 - 7,0 - 3,7 - 4,5 4,8 - 6,3 - 4,1 - 3,4 - 5,3 - 5,0 -
6,0 - 2,6 - 3,8 4,0 - 2,0 - 5,6 - 6,7 - 6,0 - 4,9 - 3,3 - 7,0
- 6,3 5,0
a) Construye una tabla de frecuencias cuyos datos
estén agrupados en cinco intervalos.
b) Determina la media aritmética y moda.
Mediana
Mediana

¿Qué se entiende por el concepto de mediana?


Si pensamos en términos geométricos, la mediana está referida a la
unión de un vértice cualquiera con el punto medio del lado opuesto
a ese vértice.
Es decir, se refiere a un punto al medio de una recta.
Mediana

Algo semejante ocurre en estadística.


Si se ordena una tabla de datos de menor a mayor
o viceversa, la mediana se refiere a aquel dato que
se encuentra en el centro de ese listado.
Pero pueden presentarse dos situaciones:
Un listado con un número impar de datos.
Y otro con un número par de datos.
Mediana de datos impares

Con un número impar de datos encontrar la mediana es fácil.


Resultará ser el dato que se encuentra justo al centro del listado.
También podemos usar la siguiente fórmula para determinar la
posición del dato central:
(n+1)/2 = mediana de datos impares.
Ejemplo 1: mediana con datos impares
Las edades de un equipo de baby fútbol senior son las siguientes:
58; 46; 50; 58; 57.
Es necesario ordenar los datos en forma creciente o decreciente.
En forma creciente sería:
46; 50; 57; 58; 58.
El dato que se encuentra al centro es 57.
Por lo tanto, la mediana es 57.
Ejemplo 2: mediana con datos impares
Nota Frecuencia
2,5 1
La siguiente tabla 3,0 2
muestra las notas
3,5 7
obtenidas por un curso
en una prueba de 4,0 8
Lenguaje y su frecuencia. 4,5 6
5,0 2
5,5 6
6,0 5
6,5 2
7,0 2
Ordenando

Si ordenamos los números de forma creciente,


encontraríamos que:
(n+1)/2 sería la ubicación de la mediana.
(41+1)/2 = 42/2 = 21.
2,5 - 3 - 3 - 3,5 - 3,5 - 3,5 - 3,5 - 3,5 - 3,5 - 3,5 4 - 4 -
4 - 4 - 4 - 4 - 4 - 4 - 4,5 - 4,5 - 4,5 - 4,5 - 4,5 - 4,5 - 5 -
5 - 5,5 - 5,5 - 5,5 - 5,5 - 5,5 - 5,5 6 - 6 - 6 - 6 - 6 - 6,5 -
6,5 - 7 - 7
Por lo tanto, la mediana del curso en esta prueba
corresponde a la nota 4,5.
Mediana de datos pares

Con un número par de datos, encontrar la


mediana es sencillo.
Resultará ser la media aritmética de los dos datos
que se encuentran al centro del listado.
También podemos usar la siguiente fórmula para
determinar la posición de estos dos datos
centrales:
n/2 y n/2 + 1
Entonces, la mediana para un número par de
datos será la media aritmética entre estos dos
datos.
Ejemplo 1: mediana con datos pares

La talla de pantalón de 8 amigos es la siguiente:


48 - 54 - 50 - 56 - 48 - 50 - 58 - 54
Si ordenamos los datos en forma creciente,
veremos que los datos centrales corresponden a:
48 - 48 - 50 - 50 - 54 - 54 - 56 - 58
La mediana corresponde a la media aritmética
entre estos dos datos.
(50 + 54)/2 = 104/2 = 52
Entonces, 52 es la mediana de esta muestra.
Ejemplo 2: mediana con datos pares

Edad Frecuencia
La edad de los
compañeros y 22 2
compañeras de 23 4
una oficina se 25 4
resume en la 26 3
siguiente tabla: 28 3
30 1
31 2
35 1
Ordenando
Al ordenar los números de forma decreciente
encontramos:
35 - 31 - 31 - 30 - 28 - 28 - 28 - 26 - 26 - 26 - 25 - 25
- 25 - 25 - 23 - 23 - 23 - 23 - 22 - 22
El par de datos centrales está ubicado en: n/2 y
n/2 + 1.
Es decir: 20/2 = 10
20/2 + 1 = 10 + 1 = 11
Entonces, los términos medios que buscamos
están en la posición 10 y 11.
Continuando

Si buscamos esos números, son:


35 - 31 - 31 - 30 - 28 - 28 - 28 - 26 - 26 - 26 - 25 - 25
- 25 - 25 - 23 - 23 - 23 - 23 - 22 - 22
Ahora la mediana será la media aritmética entre
estos dos términos, es decir, entre 26 y 25.
Entonces:
(26 + 25)/2
 51/2
 25,5
Medidas de posición: cuartiles, deciles y percentiles
Las medidas de posición son valores de la variable que
informan del lugar que ocupa un dato dentro
del conjunto ordenado de valores.
Los cuartiles  Q1  ,  Q2  y  Q3  son tres valores de la variable estadística que divide
en cuatro partes el número de datos. Es decir, que cada tramo será el 25% de
los datos recogidos en el estudio.

          

  La mediana coincide con el cuartil dos (Me = Q 2)


•Cuartil inferior: Q1 es un valor de la variable que deja por debajo
de él al 25% de la población y por encima al 75%.

•Cuartil superior: Q3 es un valor de la variable que deja por debajo


de él al 75% de la población y por encima al 25%.
El rango intercuartílico (r)es la diferencia entre el tercero y el primer
cuartil.
                                            r = Q3 - Q1
Ejemplo 1:
En la distribución : 1, 1, 2, 2, 3, 4, 4, 4, 5, 6, 6, 6, 8, 8, 9, 10 .
Hallar cuartiles y mediana.

                 
estos parámetros toman los valores siguientes: Q1= 2,5
; Me = 4,5 ; Q3 = 7  el rango intercuartílico será: r = 7-
2,5 = 4,5
Los deciles   D1 ,  D2 ,  D3 , ... , D9  son nueve valores de la variable
estadística que divide en diez partes el número de datos. Es decir,
que cada tramo será el 10% de los datos recogidos en el estudio.

Los percentiles o centiles   Pk , son 99 valores de la variable


estadística que dividen en 100 partes el número de datos
Se ha pasado un test de 79 preguntas a 600 personas. El número
de respuestas correctas se refleja en la siguiente tabla :
Calcular los cuartiles, la mediana, el rango intercuartílico, el
decil 2, el decil 8 , el percentil 48 y el percentil 67.

Respuesta [ 0, 10 ) [ 10, 20 ) [ 20, 30 ) [ 30, 40 ) [ 40, 50 ) [ 50, 60 ) [ 60, 70 ) [ 70, 80 )

Nº de
40 60 75 90 105 85 80 65
peronas
Intervalos xi fi Fi xi 2 fi·xi fi·xi2
[ 0, 10 ) 5 40 40 25 200 1000
[ 10, 20 ) 15 60 100 225 900 13500
[ 20, 30 ) 25 75 175 625 1875 46875
[ 30, 40 ) 35 90 265 1225 3150 110250
[ 40, 50 ) 45 105 370 2025 4725 212625
[ 50, 60 ) 55 85 455 3025 4675 257125
[ 60, 70 ) 65 80 535 4225 5200 338000
[ 70, 80 ) 75 65 600 5625 4875 365625
Sumatorios 25600 1345000
Diagramas de caja o caja y bigotes y como
graficarlas
Los diagramas de Caja-Bigotes (boxplots o
box and whiskers) son una presentación
visual que describe varias características
importantes, al mismo tiempo, tales como la
dispersión y simetría.

Para su realización se representan los tres


cuartiles y los
valores mínimo y máximo de los datos,
sobre un rectángulo, alineado horizontal o
verticalmente.
Esta caja se ubica a escala sobre un segmento
que tiene como extremos los valores mínimo y
máximo de la variable.
Las líneas que sobresalen de la caja se
llaman bigotes. Estos bigotes tienen un límite
de prolongación, de modo que cualquier dato o
caso que no se encuentre dentro de este rango
es marcado e identificado individualmente
EJEMPLO DISTRIBUCIÓN DE EDADES
Utilizamos la ya usada distribución de frecuencias (en tallos
y hojas), que representan la edad de un colectivo de 20
personas.

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

ORDENAR LOS DATOS


Para calcular los parámetros estadístico, lo primero es ordenar la distribución
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
Q1, el cuartil Primero es el valor mayor que el 25% de los
valores de la distribución. Como N = 20 resulta que N/4 = 5; el
primer cuartil es la media aritmética de dicho valor y el
siguiente:
Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la


distribución, es el valor de la variable que ocupa el lugar central
en un conjunto de datos ordenados. Como N/2 =10 ; la mediana
es la media aritmética de dicho valor y el siguiente:
me= Q2 = (33 + 34)/ 2 =33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los


valores de la distribución. En nuestro caso, como 3N / 4 = 15,
resulta
Q2=(39 + 39) / 2 = 39
DIBUJAR LA CAJA Y LOS BIGOTES

El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)


La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).
INFORMACIÓN DEL DIAGRAMA
•Podemos obtener abundante información de una distribución
a partir de estas representaciones.
Veamos alguna:
La parte izquierda de la caja es mayor que la de la derecha;
ello quiere decir que las edades comprendidas entre el 25% y
el 50% de la población está más dispersa que entre el 50% y
el 75%.

•El bigote de la izquierda (Xmím, Q1) es más corto que el de


la derecha; por ello el 25% de los más jóvenes están más
concentrados que el 25% de los mayores.

•El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de


la población está comprendido en 14,5 años.
Seguro que tú podrás obtener más información (¡Utiliza la
mediana!)
Se ha pasado un test de 79 preguntas a 600 personas. El número
de respuestas correctas se refleja en la siguiente tabla :
Calcular los cuartiles, la mediana, el rango intercuartílico, el
decil 2, el decil 8 , el percentil 48 y el percentil 67.

Respuesta [ 0, 10 ) [ 10, 20 ) [ 20, 30 ) [ 30, 40 ) [ 40, 50 ) [ 50, 60 ) [ 60, 70 ) [ 70, 80 )

Nº de
40 60 75 90 105 85 80 65
peronas
Intervalos xi fi Fi xi 2 fi·xi fi·xi2
[ 0, 10 ) 5 40 40 25 200 1000
[ 10, 20 ) 15 60 100 225 900 13500
[ 20, 30 ) 25 75 175 625 1875 46875
[ 30, 40 ) 35 90 265 1225 3150 110250
[ 40, 50 ) 45 105 370 2025 4725 212625
[ 50, 60 ) 55 85 455 3025 4675 257125
[ 60, 70 ) 65 80 535 4225 5200 338000
[ 70, 80 ) 75 65 600 5625 4875 365625
Sumatorios 25600 1345000
Ahora que ya contamos con los datos necesarios, ya podemos
encontrar la gráfica de cajas y bigotes
Medidas de Dispersión
Se utilizan para conocer la distancia de los valores
de la variable a un cierto valor central. Permiten
identificar la concentración de los datos en un
cierto sector del recorrido de la variable.

Varianza Desviación Estándar, y el Rango.


Desviación estándar y
Varianza

Se utilizan para hacer generalizaciones


estadísticas a partir de la muestra y aplicarlas
a la población de donde se extrajeron.

• La varianza: es la desviación cuadrada de la


media. Nunca puede ser negativa.
• La desviación estándar es la raíz cuadrada
de la varianza.
Desviación Estandar (S)
Es una medida de la cantidad típica en la que los valores del
conjunto de datos difieren de la media. Es la medida de
dispersión más utilizada, se le llama también desviación típica.

• La desviación estándar es siempre un valor no negativo S


será siempre > 0 por definición. Cuando S = 0 è X = xi (para
todo i).

• Es la medida de dispersión óptima por ser la más pequeña.

• La desviación estándar toma en cuenta las desviaciones de


todos los valores de la variable .
Varianza (S2)
La varianza es una medida de dispersión relativa a algún punto de
referencia. Ese punto de referencia es la media aritmética de la
distribución.

Más específicamente, la varianza es una medida de que tan cerca, o que


tan lejos están los diferentes valores de su propia media aritmética.

• Cuando más lejos están las Xi de su propia media aritmética, mayor es


la varianza.

• Cuando más cerca estén las Xi a su media menos es la varianza.

• S siempre un valor no negativo, que puede ser igual o distinta de 0.


Será 0 solamente cuando Xi= X

• La varianza es la medida de dispersión cuadrática óptima por ser la


menor de todas.
Desviación Estándar
(S)

Mayor valor del coeficiente Mayor dispersión de los datos


del desvío estándar con respecto a su media

Menor valor del coeficiente Menor dispersión de los datos


del desvío estándar (Mayor Homogeneidad)
Desviación Estándar
(S)

Para Datos Aislados Para Datos Agrupados

_ _

S (X  X ) 2

S  f (X  X ) 2

n 1 n 1
Desviación Estándar (S)
Para Datos no agrupados _

S 
( X  X ) 2

n 1
Edades de 7 personas encuestadas
X X–X (X - X) 2
10 10 -15,7= - 5,7 32,49
14 14-15,7= -1,7 2,89
15 15 -15,7= -0,7 0,49
57,43
16 16 -15,7= 0,3 0,09
S  3,09
18 18 -15,7= 2,3 5,29 7 1
18 18 -15,7= 2,3 5,29
19 19 -15,7= 3,3 10,89
2
Total 57,43 S = 9,57
Desviación Estándar (S)
_

S 
Para Datos Agrupados f ( X  X ) 2

n 1
Calificaciones de 23 personas encuestadas
2 2
X F X–X (X - X) f (X - X)
17 2 17 -14= 3 9 18
16 3 16 -14= 2 4 12
15 4 15 -14= 1 1 4
14 5 14 -14= 0 0 0
13 4 13 -14= -1 1 4
12 3 12 -14= -2 4 12
11 2 11 -14= 3 9 18
Total 23 68

68 2

S  1,76 S = 3,1
23  1
Rango (R)
Rango: Es la más elemental de las
medidas, consiste simplemente en la
distancia entre los dos valores extremos.

Es la diferencia entre el dato mayor y el dato


menor.

R = X máx. - X mín.
Rango (R)
Por Ejemplo:

1. Un estudio sobre las marcas de afeitadoras


arrojó que en un individuo logró apenas 6
afeitadas con una marca, mientras que otro
logró afeitarse 14 veces con otra marca, así
el intervalo es de 14 - 6 con una diferencia de
8 afeitadas que representa el rango.

2. Numero de Comerciales de refrescos que


recuerdan los estudiantes de Mercadeo II
son:
R=7
1 2 3 4 5 6 7 8 R=?
Resumen de fórmulas

                                                                                                                  
MEDIDAS DE DISPERSIÓN

Miden qué tanto se dispersan las observaciones alrededor de su media.


MEDIDAS DE DISPERSIÓN

En algunos casos existen conjuntos de datos que tienen la misma media y la misma
mediana, pero esto no refleja qué tan dispersos están los elementos de cada conjunto.

Ejemplo:

Conjunto 1. 80, 90, 100, 110, 120


Conjunto 2. 0, 50, 100, 150, 200

Conjunto 1 80  90  100  110  120


Media   100
5

Conjunto 2 0  50  100  150  200


Media   100
5

Observa que para ambos conjuntos la Mediana es igual a 100. También nota que
los datos del conjunto 2 están más dispersos con respecto a su media que los
datos del conjunto 1.
MEDIDAS DE DISPERSIÓN

Existen diversas medidas estadísticas de dispersión, pero muchos autores coinciden en


que las principales son:

Rango

Varianza

Desviación estándar

Coeficiente de variación
RANGO

Mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor
más elevado (Límite superior) y el valor más bajo (Límite inferior).

FÓRMULA

Rango  X MAX  X MIN

Ejemplo 1.

Ante la pregunta sobre número de hijos por familia, una muestra de 12 hogares, marcó las
siguientes respuestas:

2 1 2 4 1 3
2 3 2 0 5 1

Calcula el rango de la variable

Solución.

Rango  5  0  5
Ejemplo 2.

Hay dos conjuntos sobre la cantidad de lluvia (mm) en Taipei y Seúl en un año.

Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
Taipei 86 135 178 170 231 290 231 305 244 122 66 71
Seúl 40 77 83 89 147 168 184 252 209 101 32 13
Calcula el rango en cada una de las ciudades.

Solución.

Aplicando la fórmula correspondiente tenemos:

Taipei Rango  305mm  66mm  239mm

Seúl Rango  252mm  13mm  239mm

En este caso se puede observar que el rango es el mismo para ambos casos aunque las cantidades
sean diferentes.
Cantidad de lluvia (mm)
Cantidad de lluvia en Taipei y Seúl 1998

350
300
250 Taipei
200
150 Seoul
100
50
0

Mes
VARIANZA (Datos no agrupados)

Mide la distancia existente entre los valores de la serie y la media. Se calcula como
sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el
número de veces que se ha repetido cada valor. La sumatoria obtenida se divide por el
tamaño de la muestra.

 i x
n

 i


2
( x x )
2
FÓRMULA
Muestral
( x ) s2  i 1

n 1

  2 Poblacional i 1

N
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.

Ejemplo 1.

Calcula la varianza para los siguientes datos

2 1 2 4 1 3 2 3 2 0 5 1

Solución.

Primero es necesario obtener la media. En este caso x  2.16


Ahora aplicamos la fórmula correspondiente

(2  2.16)2  (1  2.16)2  (2  2.16)2  (4  2.16)2  (1  2.16)2  (3  2.16)2  (2  2.16)2  (3  2.16)2  (2  2.16)2  (0  2.16)2  (5  2.16)2  (1  2.16)2
s
2

12  1
21.6672
s2   1.9697
11
Ejemplo 2.

A continuación se muestran dos conjuntos de datos obtenidos a partir de un experimento


químico que realizaron dos estudiantes distintos. Calcular la varianza.

Volumen de ácido medido (cm^3)


Estudiante A 8 12 7 9 3 10 12 11 12 14
Estudiante B 7 6 7 15 12 11 9 9 13 11
Solución.

Primero es necesario obtener la media de cada conjunto de datos. En este caso

Estudiante A
8  12  7  9  3  10  12  11  12  14
x  9.8
10
Estudiante B
7  6  7  15  12  11  9  9  13  11
x  10
10
Ahora aplicamos la fórmula correspondiente
Solución (Continuación).

Estudiante A

(8  9.8)2  (12  9.8) 2  (7  9.8) 2  (9  9.8) 2  (3  9.8) 2  (10  9.8) 2  (12  9.8) 2  (11  9.8) 2  (12  9.8) 2  (14  9.8) 2
s2 
10  1

91.6
s2   9.16
10

Estudiante B

(7  10) 2  (6  10) 2  (7  10)2  (15  10) 2  (12  10) 2  (11  10) 2  (9  10) 2  (9  10)2  (13  10)2  (11  10)2
s 
2

10  1

76
s2   7.6
10
DESVIACIÓN ESTÁNDAR (Datos no agrupados)
También llamada desviación típica, es una medida de dispersión usada en estadística que
nos dice cuánto tienden a alejarse los valores puntuales del promedio en una
distribución.

Específicamente, la desviación estándar es "el promedio de la distancia de cada punto


respecto del promedio". Se suele representar por una S o con la letra sigma,σ, según se

N
calcule en una muestra o en la población.

 i x
 
Una desviación estándar grande indica que los puntos están lejos de la media, y una

2
( x )
desviación pequeña indica que los datos están agrupados cerca de la media.

n
FÓRMULA ( xi  x ) 2
s i 1

  i 1
Muestral n 1

Poblacional

N
Ejemplo 1.

Si retomamos el ejemplo 1 que corresponde a la varianza:

Calcula la desviación estándar para los siguientes datos

2 1 2 4 1 3 2 3 2 0 5 1

Solución.

Una vez que hemos calculado la media y la varianza, sólo resta calcular la raíz cuadrada de la varianza.

x  2.16
21.6672
s2   1.9697
11

S  1.9697  1.4034
Ejemplo 2.

Considerando nuevamente el segundo ejemplo que estudiaste para calcular la varianza, tenemos:

A continuación, se muestran dos conjuntos de datos obtenidos a partir de un experimento químico que
realizaron dos estudiantes distintos. Calcular la varianza.

Volumen de ácido medido (cm^3)


Estudiante A 8 12 7 9 3 10 12 11 12 14
Estudiante B 7 6 7 15 12 11 9 9 13 11

Solución.

Una vez que has calculado la media y la varianza, es necesario calcular la desviación estándar a partir de
la obtención de la raíz cuadrada de la varianza.

Estudiante A
91.6 S  9.16  3.026
s2   9.16
Estudiante B
10
76 S  7.6  2.756
s 
2
 7.6
10
COEFICIENTE DE VARIACIÓN

Es una medida de dispersión que se utiliza para poder comparar las desviaciones
estándar de poblaciones con diferentes medias y se calcula como cociente entre la
desviación típica y la media.

FÓRMULA
S
CV   100%
Muestral
x

Poblacional

CV   100%

Ejemplo 1.

En dos cursos los promedios que sacaron sus alumnos fueron 6.1 y 4.3 y las
desviaciones estándar respectivas fueron 0.6 y 0.45 respectivamente. ¿En qué curso hay
mayor dispersión?

Solución

Para responder esto, debemos obtener el coeficiente de variación aplicando la fórmula

S
CV   100%
x
0.6
CV A  (100%)  9.8%
6.1

0.45
CVB  (100%)  10.4%
4.3
Claramente, el curso A tiene una dispersión menor que el B, pese a presentar una mayor
desviación estándar.
VARIANZA Y DESVIACIÓN ESTÁNDAR (Datos agrupados)

Cuando los datos están agrupados en tablas de frecuencias, el significado de las medidas
de dispersión es el mismo, sin embargo, la manera de calcularlas es diferente.

Enseguida se muestra la fórmula para la varianza, pero recuerda que la desviación


estándar es igual a la raíz cuadrada de la primera.

FÓRMULA

2
 k 
k k
  xi f i 
f i xi2   i 1 
Muestral
 f (x  x)
i i
2
 n
s 
2 i 1
 i 1
n 1 n 1

k k
Poblacional  fi ( xi   ) 2
 fi xi2
 2  i 1  i 1  2
N N
Ejemplo 1.
Se han registrado durante 20 días, el número de viajeros que hacen reservaciones a una
agencia de viajes pero que no las hacen efectivas:

Número de viajeros Frecuencia


i
(xi ) (fi)

1 12 3
2 13 3
3 14 6
4 15 3
5 16 5
Total 70 20

Calcula las medidas de dispersión de la variable en estudio. Interpreta


Solución.

Tal como lo indica la fórmula, primero es necesario multiplicar la variable (x i )


por la frecuencia (fi) y añadirlo como una columna a la tabla.
2
 k 
k
  x i i
f
 ...  i 1 
...
s 2  i 1
...

Número de viajeros Frecuencia


i xi fi
(xi ) (fi)

1 12 3 36

2 13 3 39

3 14 6 84

4 15 3 45

5 16 5 80

Total 70 20 284
Solución (Continuación).

Después se obtiene el cuadrado de la variable x, o sea, (x i )2.

 ...x ... 2
i
s2  i 1
...

Número de viajeros Frecuencia


i x i fi xi2
(xi ) (fi)

1 12 3 36 144

2 13 3 39 169

3 14 6 84 196

4 15 3 45 225

5 16 5 80 256

Total 70 20 284 990


Solución (Continuación).

Ahora se multiplica el cuadrado de la variable por la frecuencia, es decir,


(fixi2).

k
...
fx 2
i i 
...
s2  i 1
...

Número de viajeros Frecuencia fixi2


i x i fi xi2
(xi ) (fi)

1 12 3 36 144 432

2 13 3 39 169 507
3 14 6 84 196 1176

4 15 3 45 225 675
5 16 5 80 256 1280
Total 70 20 284 990 4070
Solución (Continuación).

Una vez obtenidos todos los datos anteriores, se procede a aplicar la fórmula

2
 k 
k
  xi f i 
 f i xi2   i 1 
n
s  2 i 1
n 1
Número de viajeros Frecuencia fixi2
i x i fi xi2
(xi ) (fi)

1 12 3 36 144 432
2 13 3 39 169 507
3 14 6 84 196 1176
4 15 3 45 225 675
5 16 5 80 256 1280
Total 70 20 284 990 4070
Solución (Continuación).

Número de
Frecuencia fixi2
i viajeros x i fi xi2
(fi)
(xi )
1 12 3 36 144 432
2 13 3 39 169 507
3 14 6 84 196 1176
4 15 3 45 225 675
5 16 5 80 256 1280
Total 70 20 284 990 4070

284 2
4070 
s2  20  1.9579
19
s  1.9579  1.3992
Puntaje estándar (puntaje z)

• Posición que tiene un valor particular de x con respecto


a la media, medida en desviaciones estándar. El puntaje z se
calcula con la fórmula:

xx
z
s
Ejemplo

• Encontrar los puntajes estándar para a) 92 y b) 72 con respecto a


una muestra de puntajes de un examen que tiene como media de 74.9 y
una desviación estándar de 14.19

x  x 92  74.9
x  92, x  74.9; s  14.19. Así , z    1.20
s 14.19
x  x 72  74.9
x  72, x  74.9; s  14.19. Así , z    0.20
s 14.19

Lo anterior significa que el puntaje 92 está a 1.2 desviaciones estándar


por arriba de la media, mientras que el puntaje 72 está a 0.2
desviaciones estándar por debajo de la media.
Notas

1. Normalmente, el valor calculado de z se redondea al centésimo


más próximo
2. El intervalo de variación aproximado del valor de los puntajes z
suele ir de -3.00 a +3.00
Ejercicios

1. Una muestra tiene una media de 50 y una desviación estándar de


4. Encuentre el puntaje z para cada valor de x.
• X=54
• X=50
• X=59
• X=45
Ejercicios

2. Un examen que se administró a nivel nacional tuvo una media de


500 y una desviación estándar de 100. Si el puntaje z normal de
un estudiante en este examen fue de 1.8, ¿cuál es su calificación
en el examen?
Ejercicios

3. ¿Qué valor x tiene el mayor valor con respecto al conjunto de


datos del que proviene?
• X=85, donde la media = 72 y la desviación estándar = 8
• X=93, donde la media = 87 y la desviación estándar = 5
Ejercicios

4. ¿Qué valor x tiene la menor posición relativa con respecto al


conjunto de datos del que proviene?

•X=28, donde la media = 25.7 y la desviación estándar = 1.8


•X=39.2, donde la media = 34.1 y la desviación estándar = 4.3

¿Cómo se usa la tabla de Z?


Lo averiguaremos con un valor concreto: ¿cuál es la probabilidad de encontrar
un valor de Z menor o igual a 1,96?
Vamos a la tabla y familiaricémonos con algunas de sus
características.
▪ En la primera columna de la tabla aparece el entero y primer
decimal del valor de Z, vemos que los valores van desde -3,4 a
3,3. En la primera fila (arriba), aparece el segundo decimal del
valor de Z y, como es lógico, hay 10 números (0,00 a 0,09).
▪ Entonces, para nuestro valor de Z = 1,96 buscaremos 1,9 en
la primera columna de la tabla y 0,06 en la primera fila de la
tabla. Trazaremos líneas perpendiculares desde esos valores y
llegaremos a un número en el cuerpo de la tabla (véase la tabla
más abajo, que tiene marcadas las dos perpendiculares de las
que hablamos. El número que encontramos y que está
destacado es: 0,9750.
▪ Por lo tanto, la probabilidad asociada a Z=1,96 es 0,9750, es decir, la
probabilidad de encontrar un valor de Z menor o igual a 1,96 es 0,9750.
En nuestro ejemplo anterior, con la edad 30 años, vemos que el valor Z
= 1,29 tiene una probabilidad asociada de 0,9014. Entonces, la
probabilidad de encontrar una persona con edad de 30 años o menos,
en este grupo humano, es 0,9014.

Potrebbero piacerti anche