Sei sulla pagina 1di 60

ESTADÍSTICA

PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR

JANETT BUITRÓN
MEDIDAS DE TENDENCIA
CENTRAL
Cuando se dispone de un conjunto de observaciones,
es de interés encontrar el valor en torno al cual sea
agrupan la mayoría de ellas o el centro de las
mismas. Las medidas descriptivas que permiten
especificar estos valores se denominan medidas de
localización o medidas de tendencia central.
Existe una variedad de medidas de
localización, nos concentraremos en las mas
empleadas:

1) *Promedio o media
2) *Mediana
3) *Moda
4) *Media geométrica
5) *Media armónica
1) LA MEDIA ARITMÉTICA O PROMEDIO
notado como 𝒙, de un conjunto de “N” o “n”
mediciones 𝒙𝟏, 𝒙𝟐 , … , 𝒙𝒏 es igual a la suma de
sus valores dividido entre n; es decir :

𝒙𝟏 + 𝒙𝟐 + ⋯ + 𝒙𝒏
SIN REPETICIÓN 𝒙=
𝒏

𝑛
𝑖=1 𝒙𝒊 .𝒇𝒊
CON REPETICIÓN 𝒙=
𝒏
2)
DATOS CUANTITATIVOS
CONTINUOS
AGRUPADOS EN INTERVALOS

(TABLA DE FRECUENCIAS – INTERVALOS)


• NÚMERO DE INTERVALOS (Nc).- Si el número de datos no es muy
grande (menor a 225) se recomienda utilizar la siguiente fórmula:

• 𝑵𝒄 = 𝒏

• Cuando se trabajan con muestras mayores a 225, la fórmula obtiene un


Nc superior a 15, por lo tanto, recomendaremos para estos casos la
siguiente fórmula

• 𝟏 + 𝟑, 𝟑𝟐𝒍𝒐𝒈(𝒏)

• Sin embargo, se puede omitir los resultados de las fórmulas y


seleccionar el número de intervalos que se considere son los más
adecuados, de acuerdo al objeto de estudio o las características que
desea mostrar de la variable.
(TABLA DE FRECUENCIAS – INTERVALOS)
• Recordemos algunos conceptos:

• RANGO (R).- Es la diferencia entre el valor máximo y


el mínimo contenido en los datos de una variable

• 𝑹 = 𝑴á𝒙 − 𝑴í𝒏

• INTERVALO DE CLASE (ci).- Son los intervalos


empleados en las tablas de frecuencias estadísticas,
capaz de contener diversas medidas de una variable

• Consta de un límite inferior (Li) y de un límite superior


(Ls).

• El número de intervalos de clase que se utilizará para


elaborar la tabla de frecuencias no deben ser muchos,
debido a que no se cumplirá con el objetivo de resumir la
información, ni tan pocos , ya que se perdería mucha
información.
Intervalos
• Recorrido de variable: Re  máx
i
xi  mín xi ; la
i
diferencia entre el mayor y el menor valor.

• Amplitud de intervalo: ci  Li  Li 1 .

• Los intervalos pueden ser de amplitud constante


o variable. Si la amplitud es constante;
Re  N º de intervalos  ci .
Intervalos
Li  Li 1
• Marca de clase: xi  ; su punto
2
medio usamos como representante de
cada intervalo.
ni
di 
• Densidad de frecuencia: ; se ci
utiliza cuando los intervalos no son de la
misma amplitud.
Intervalos
• Intervalos de amplitud variable: Las alturas de los
rectángulos deben calcularse dividiendo la frecuencia
absoluta por la longitud del intervalo.

- La altura del intervalo es la densidad de frecuencia,


ni
di 
ci
- El área del rectángulo será S i  ci ni  ni
ci
Intervalos
• ¿Como podemos tratar un valor que
coincide exactamente con un extremo de
intervalo?

• Lo normal es los intervalos abiertos por la


izquierda y cerrados por la derecha. (a, b] .
El intervalo incluye todos los puntos entre
a y b , incluido b , excluido a .
Ejemplo :Distribución de frecuencias para la variable X:
Densidad de
Intervalos de clase Frecuencia absoluta Frecuencia relativa Amplitud del intervalo
frecuencias (Y)
7.0  x 9.0 3 0.10 2.0 0.10/2.0= 0.05
9.0  x 10.0 7 0.23 1.0 0.23/1.0= 0.23
10.0  x 11.0 9 0.30 1.0 0.30/1.0= 0.30
11.0  x 12.0 8 0.27 1.0 0.27/1.0= 0.27
12.0  x 13.0 3 0.10 1.0 0.10/1.0= 0.10
Totales 30 1.00

0,35 0,35

0,30 0,30

0,25
Correcto
Frec. Relativa

0,25

Densidad de frecuencia
0,20

0,15
Incorrecto 0,20

0,15
0,10
0,10
0,05
0,05
0,00
7.0 9.0 10.0 11.0 12.0 13.0
0,00
Hemoglobinemia en grs/dl
Histograma de frecuencias relativas,posterior a la fusión del primer y 7.0 9.0 10.0 11.0 12.0 13.0
segundo intervalo Hemoglobinemia en grs/dl

Histograma en densidad de frecuencias


B) Representaciones gráficas (DATOS
CUANTITATIVOS)

• B3: Histograma de frecuencia.- Se lo utiliza para


representar datos de una variable continua con datos
agrupados
• intervalos de amplitud constante: Las alturas de los
rectángulos serán iguales a las frecuencias absolutas
respectivas. (Las áreas sólo dependerían de la altura).
B) Representaciones gráficas (DATOS
CUANTITATIVOS)

• B.4) POLÍGONO DE FRECUENCIAS O DE DENSIDAD.- Gráfico


de líneas que se construye a partir de un histograma de densidad o de
frecuencias.
• Útil para la comparación de dos o más distribuciones

0,35
0,35

0,30
0,30
Densidad de frecuencias (Y)

0,25

Densidad de frecuencias (Y)


0,25

0,20
0,20

0,15
0,15

0,10
0,10

0,05 0,05

0,00 0,00
7.0 8.0 9.0 10.0 11.0 12.0 13.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0

Hemoglobinemia en grs/dl Hemoglobinemia en grs/dl

Polígono de densidad de frecuencias Polígono de densidad de frecuencias


B) Representaciones gráficas (DATOS
CUANTITATIVOS)

• REPRESENTACIÓN GRÁFICA DE LA OJIVA.-


MEDIA PARA DATOS AGRUPADOS.-

Si las observaciones están agrupadas en una


tabla de frecuencias de datos individuales, el
promedio se calcula
𝑘
𝑖=1 𝑛𝑖 𝑥𝑖
𝑥= 𝑛
donde: 𝒙𝒊 es la marca de clase

Observación Frecuencia
variable absoluta
𝑥1 𝑛1
𝑥2 𝑛2
. .
. .
. .
𝑥𝑘 𝑛𝑘
DONDE:

𝑵
𝟐
intervalo de clase donde
se encuentra el valor de la
mediana

Li límite inferior del


intervalo de clase Me

Fi-1 Frecuencia absoluta


acumulada del intervalo
anterior al intervalo de
clase Me

fi frecuencia absoluta del


intervalo de clase Me

ti (ci) amplitud del


intervalo de clase Me
Calcule la moda para la distribución del
ejemplo anterior

Intervalo de clase modal


(mayor frecuencia absoluta)
EJEMPLO ILUSTRATIVO para desarrollar
• Organice los siguientes datos obtenidos de la estatura de un grupo de niños de educación básica, en la tabla de
distribución de frecuencias.
• (Por esta ocasión, el docente le proporcionará los intervalos que
va usar.)

Xi
ci marca de fi Fi hi Hi
inferior clase superior

1,175 …………… 1,203


1,213 …………… 1,241
1,251 …………… 1,279
1,289 …………… 1,317
1,327 …………… 1,355
TOTAL

• DETERMINE:
• Variable y unidades *Elabore el Histograma con la frecuencia absoluta
• Tipo de datos (utilizando Excel)
• Cuántas clases tiene la distribución? *Elabore el polígono de frecuencias en el histograma
• Límite inferior y superior de la distribución anterior
• Rango *Construya la ojiva con la frec. absoluta acumulada
• Límite inferior y superior de la tercera clase *Construya la ojiva con la frec. relativa acumulada
• Amplitud *Compare los dos gráficos
*
EJEMPLO ILUSTRATIVO para desarrollar

• II PARTE
• Con los datos obtenidos en la tabla anterior determine:
• A) MEDIA ARITMÉTICA
• B) MEDIANA
• C) MODA
• D) Obtenga cuatro conclusiones relevantes

• * efectúe todos los pasos necesarios. Recuerde escribir primero la fórmula, luego el remplazo y
finalmente la respuesta
• *No se olvide de escribir las unidades de las MTC

• EL TRABAJO DEBE REALIZARLO A MANO, Y LOS GRÁFICOS PUEDE RECORTAR Y PEGAR


• ESCANEAR SU TAREA Y SUBIRLA AL AULA VIRTUAL HASTA EL DÍA JUEVES 19 (17h00)
• (no se dará plazo adicional al establecido en el aula virtual)
MEDIDAS DE POSICIÓN
MEDIDAS DE POSICIÓN
datos no agrupados

CUARTILEs deciles percentiles

POSICIONES
𝒌(𝒏+𝟏) 𝒌(𝒏+𝟏) 𝒌(𝒏+𝟏)
CUANDO 𝑷𝒐𝒔. 𝑸𝒌 = 𝑷𝒐𝒔. 𝑫𝒌 = 𝑷𝒐𝒔. 𝑷𝒌 =
𝟒 𝟏𝟎 𝟏𝟎𝟎
n ES IMPAR

----------
posiciones
𝒌𝒏 𝒌𝒏 𝒌𝒏
cuando 𝑷𝒐𝒔. 𝑸𝒌 = 𝑷𝒐𝒔. 𝑫𝒌 = 𝟏𝟎 𝑷𝒐𝒔. 𝑷𝒌 = 𝟏𝟎𝟎
𝟒
n es par
MEDIDAS DE POSICIÓN
datos no agrupados
CUARTILES:
1.- ordenar los datos
2.- si son pocos datos, ubicar las
medianas de cada bloque
3.- Si son muchos, usar la fórmula
MEDIDAS DE POSICIÓN
datos agrupadoS
Diagrama de caja y bigotes
Diagrama de caja y bigotes
Diagrama de caja y bigotes
Menor variabilidad.
Mayor homogeneidad
• RANGO INTERCUARTIL

• Es la diferencia entre el tercer y primer


cuartil e indica el intervalo de valores
que abarcan el 50% del total de datos y
que están al centro.

 IQR = Q3 – Q1
• EJEMPLO (CAJA Y BIGOTE)
• Un Psicólogo de la ciudad está analizando la
variedad de los desórdenes del comportamiento
de jóvenes con edad comprendida entre 14 y 17
años, para ello ha diseñado un plan integral de
tratamiento y ha considerado una muestra
aleatoria de 20 jóvenes, anotando el tiempo que
requiere cada paciente para mejorar su
comportamiento. En la tabla se observan los
resultados
5 de la
6 muestra
6 en horas.
7 7
8 8 9 9 9
10 10 10 10 11
11 12 12 13 14
• Represente la información en un diagrama de
caja y bigote
• EJEMPLO (CAJA Y BIGOTE)
• Un Psicólogo de la ciudad está analizando la variedad de los desórdenes del comportamiento de
jóvenes con edad comprendida entre 14 y 17 años, para ello ha diseñado un plan integral de
tratamiento y ha considerado una muestra aleatoria de 20 jóvenes, anotando el tiempo que requiere
cada paciente para mejorar su comportamiento. En la tabla se observan los resultados de la muestra en
horas.

• n = 20
𝑛+1 20+1
• 𝑝𝑜𝑠. 𝑀𝑒𝑑 = = = 10,5
2 2
9+10 19
• 𝑀𝑒𝑑 = = = 9,5
2 2

7+8
• 𝑄1 = 2
= 7,5

11+11
• 𝑄3 = 2
= 11
• EJEMPLO (CAJA Y BIGOTE)
• Un Psicólogo de la ciudad está analizando la variedad de los desórdenes del comportamiento de jóvenes con
edad comprendida entre 14 y 17 años, para ello ha diseñado un plan integral de tratamiento y ha considerado
una muestra aleatoria de 20 jóvenes, anotando el tiempo que requiere cada paciente para mejorar su
comportamiento. En la tabla se observan los resultados de la muestra en horas.

• n = 20
𝑛+1 20+1
• 𝑝𝑜𝑠. 𝑀𝑒𝑑 = = = 10,5
2 2
9+10 19
• 𝑀𝑒𝑑 = = = 9,5
2 2
• RANGO
INTERCUARTIL
7+8
• 𝑄1 = = 7,5 𝑄3 - 𝑄1 = 11 − 7,5 =
2
𝟑, 𝟓

11+11
• 𝑄3 = = 11
2
• EJEMPLO (CAJA Y BIGOTE)
• Un Psicólogo de la ciudad está analizando la variedad de los desórdenes del comportamiento de
jóvenes con edad comprendida entre 14 y 17 años, para ello ha diseñado un plan integral de
tratamiento y ha considerado una muestra aleatoria de 20 jóvenes, anotando el tiempo que requiere
cada paciente para mejorar su comportamiento. En la tabla se observan los resultados de la muestra en
horas.

• VALORES ATÍPICOS
• 𝑄1 − 1,5 𝑅𝐼𝑄 = 7,5 − 1,5 3,5 = 2,25
• 𝑄3 + 1,5 𝑅𝐼𝑄 = 11 + 1,5 3,5 = 16,25
• EL VALOR DE 2,5 ES MENOR A NUESTRO
LÍMITE INFERIOR = 5 Y EL VALOR DE 16,25
ES MAYOR A NUESTRO LÍMITE SUPERIOR =
14
• POR LO TANTO PODEMOS AFIRMAR QUE
NO HAY VALORES ATÍPICOS EN ESTA
DISTRIBUCIÓN
• EJEMPLO (CAJA Y BIGOTE)
• Un Psicólogo de la ciudad está analizando la variedad de los desórdenes del comportamiento de
jóvenes con edad comprendida entre 14 y 17 años, para ello ha diseñado un plan integral de
tratamiento y ha considerado una muestra aleatoria de 20 jóvenes, anotando el tiempo que
requiere cada paciente para mejorar su comportamiento. En la tabla se observan los resultados
de la muestra en horas.
MEDIDAS DE DISPERSIÓN
• ¿QUÉ SIGNIFICA VARIACIÓN?

• Se refiere a la cantidad en que los


datos u observaciones varían entre sí.
(está variación se puede medir y se
puede interpretar)
No involucra a todos los valores, solo a dos.

No nos brinda una información tan exacta para la población


(𝑥−𝑥)2
O 𝑠2 = 𝑛−1
-El valor de la desviación estándar suele ser positivo
-Solo es igual a cero cuando todos los valores de los datos son el mismo
número
-Valores grandes de “s” mayor cantidad de variación
-La unidad de “s” es la misma de los datos
(𝑥 − 𝑥 ) 2
𝑠2 =
𝑛−1
• INTERVALO DE EXTREMOS

• 𝑥 − 2𝑠 ; 𝑥 + 2𝑠

• -Dentro de este intervalo se encuentra el


95% de los datos
• COEFICIENTE DE VARIACIÓN.-

Describe la desviación estándar


relativa a la media

𝒔 𝝈
𝑪𝑽 = 𝒙
𝟏𝟎𝟎% 𝑪𝑽 = 𝝁
𝟏𝟎𝟎%
• Referencias
• ↑ http://sphweb.bumc.bu.edu/otlt/MPH-
Modules/BS/BS704_HypothesisTesting-
ANOVA/BS704_HypothesisTesting-Anova_print.html
• ↑ http://insidebigdata.com/2014/10/22/ask-data-scientist-bias-vs-
variance-tradeoff/
• ↑ https://www.youtube.com/watch?v=VgKHjVDK0uM
• ↑ http://stattrek.com/statistics/notation.aspx
• ↑ http://www.mathsisfun.com/data/standard-deviation.html
• ↑ https://www.youtube.com/watch?v=sOb9b_AtwDg
• ↑ https://www.youtube.com/watch?v=sOb9b_AtwDg
• ↑ https://www.youtube.com/watch?v=VgKHjVDK0uM
• ↑ http://datapigtechnologies.com/blog/index.php/understanding-
standard-deviation-2/
• ↑ http://www.statsdirect.com/help/default.htm#basics/degrees_fre
edom.htm

Potrebbero piacerti anche