Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2017-2
ESTADÍSTICA DESCRIPTIVA
danielmavila@yahoo.es
Dos significados de Estadística:
ANÁLISIS TABLAS,
DESCRIPTIVO GRÁFICOS
Experimento
Es un estudio en el que se manipulan
intencionalmente una o más variables
independientes (supuestas causas - antecedentes),
para analizar las consecuencias que la
manipulación tiene sobre una o más variables
dependientes (supuestos efectos – consecuentes),
dentro de una situación de control para el
investigador.
Determina si la presencia / ausencia de una
variable afecta a otra.
Determina la magnitud de la influencia.
Debe tener control sobre el efecto de variables
extrañas.
NOTACIÓN CIENTÍFICA
8.88887E+11
8.89E-01
Cifras significativas
– 0,0000X9847 mg ______________________
– 203,X6589 in ______________________
– 289 36X 000 km ______________________
– 0,00X5474 mm ______________________
Población y muestra
• Población (‘population’) es el conjunto sobre el que estamos interesados en
obtener conclusiones (hacer inferencia). Normalmente es demasiado grande
para poder abarcarlo. Tipos: Finita e Infinita.
Es la recolección de todos los individuos, objetos u observaciones que
poseen al menos una característica común. Ejemplos:
– Pizarras Digitales Interactivas de la Facultad.
– Tarjeta habientes de Bonus.
– Pacientes que se atienden en un consultorio.
– Unidades inmobiliarias construidas con el Programa Mi Vivienda
• Muestra (‘sample’) es un subconjunto de la población al que tenemos
acceso y sobre el que realmente hacemos las observaciones (mediciones).
– Debería ser “representativo”
– Está formado por miembros “seleccionados” de la población
(individuos, unidades experimentales).
Tipos: Probabilística y No Probabilística
Ejercicios.
2) La estadística inferencial:
A) Permite analizar descriptivamente la muestra bajo estudio;
B) No tiene en cuenta las leyes de probabilidad;
C) Permite realizar generalizaciones a la población con una muestra
3) Un estadístico:
A) se puede utilizar para estimar algún parámetro de la población;
B) adopta el mismo valor en cada muestra;
C) coincide con el parámetro cuando el muestreo es probabilístico
VARIABLES
"Afirmación"
Totalmente de Totalmente en
De acuerdo Neutral En desacuerdo
acuerdo desacuerdo
"Afirmación"
Definitivamente Probablemente Probablemente Definitivamente
Indeciso
si si no no
"Afirmación"
Completamente Completamente
Verdadero Ni falso, ni verdadero Falso
verdadero falso
Escalas no comparativas…
Diferencial Semántico
Consiste en una serie de adjetivos extremos que califican al
objeto de actitud con un conjunto de adjetivos bipolares;
entre cada par de adjetivos, se presentan varias opciones y
el sujeto selecciona aquella que en mayor medida refleje su
actitud.
Ejemplo:
•Objeto de actitud: Candidato “A”
Justo__:__:__:__:__:__:__Injusto
El horario es conveniente.
• Es buena idea codificar las Excel; SPSS; SAS, Minitab, Eviews, etc
variables como números para TIP
poder procesarlas con facilidad en
un ordenador.
• Es conveniente asignar
“etiquetas” a los valores de las
variables para recordar qué
significan los códigos numéricos.
– Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer
– Raza (Cualit: Códigos arbitrarios)
• 1 = Blanca
• 2 = Negra, ...
– Felicidad Ordinal: Respetar un
orden al codificar.
• 1 = Muy feliz
• 2 = Bastante feliz
• 3 = No demasiado feliz
• Se pueden asignar códigos a
respuestas especiales como
• 0 = No sabe
• 99 = No contesta ...
• Estas situaciones deberán ser
tenidas en cuentas en el análisis.
Datos perdidos (‘missing data’)
Tabla de distribución de frecuencia
• La región de
VOTOS Frecuencia
Arequipa convocó a OPCIÓN (000) relativa %
un referendo sobre la ni fi = ni/N
aprobación de la Ley
del Talión. SI
• Completa la tabla de
distribución de
frecuencias absolutas
y relativas asumiendo
los valores resultantes
que desees.
TOTAL (N) 1 200
REGLAS PARA ELABORAR DISTRIBUCIONES DE FRECUENCIA...
El contenido de nicotina para producir cáncer pulmonar, en miligramos, para una cajetilla de
40 cigarrillos marca TMata se registraron de la siguiente manera:
1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24
1.58 2.03 1.7 2.17 2.55 2.11 1.86 1.9 1.68 1.51
1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67
1.34 1.93 1.4 1.64 2.09 1.75 1.63 2.37 1.75 1.69
Propuesta de solución:
A = 1,83/6 = 0,305
Ejemplo de la nicotina (...)
A B C D E F
≤5 6-10 11-15 16-20 21-30 ≥ 31
; i
; y n1 = 1
Yi = Marca de clase i
Elabora la tabla de distribución de frecuencias
absolutas y relativas.
Respuesta: 9; 12 y 15
Gráficos para variables cuantitativas
Histograma según las frecuencias absolutas
Figura Nº 3. Histograma de los salarios de la
Constructora La Palabra del Muro
10
f 8
0
60 70 80 90 100 110 120 130 S/
Fuente: Elaboración propia
Ejercicio. Según los datos obtenidos en las Figuras 1 y 2, las alumnas de la
academia de artes marciales Kung-Fu-Sion obtuvieron en media de combates:
a)más puntos que los alumnos; b) los mismos puntos que los alumnos; c)
menos puntos que los alumnos.
Figura 1. Nº alumnas combatientes Figura 2. Nº alumnos combatientes
Propuesta de solución:
Unidad = 0,01
41 22
42 668
43 1032
44 23
45 1
46 0
25% 25%
“El gobierno solo quiere financiar al primer y segundo quintil, pero lo que
nosotros sostenemos es que la clases media está también dentro de los sectores
más vulnerables. Nuestra propuesta es avanzar para los 7 primeros deciles e ir
avanzando hacia la gratuidad total …”
(Camila Vallejo, lideresa de la protesta de los estudiantes chilenos. Diario El
Comercio del 14-8-2011. Internacional, p. 10.)
Percentiles para datos agrupados (tabulados)
K * n Fi
100
P L c
K i f
P
K
Percentiles para datos agrupados…
donde:
P : percentil
K
K : el percentil buscado
n : número de datos
Li : límite inferior de la clase donde se ubica el
percentil K
Fi : frecuencia acumulativa hasta la clase
anterior a la clase donde se ubica el percentil K
f
P : frecuencia absoluta de la clase donde se ubica
K
el percentil K
c : amplitud de clase
Ejemplo:
La tabla muestra la experiencia en años de los
peones de la constructora A Lo Techo Pecho.
Experiencia Peones
(años)
0-3 18
4-7 42
8 - 11 68
12 - 15 120
16 - 19 40
20 - 23 34
24 - 27 12
Total 334
¿Sobre cuántos años se ubica el 25% de las peones de mayor
experiencia?
Ejemplo... ¿Sobre cuántos años se ubica el 25% de las
peones de mayor experiencia?
K = 75
75 % 25 %
P75
Menor Mayor
Experiencia Experiencia
Kn 75(334)
Lugar del P75 250,5avo (de los años ordenados )
100 100
Aparecen Mucha
valores dispersión
extremos
Poca
dispersión
Valor atípico (Outliers)
Un valor atípico es una observación que es numéricamente
distante del resto de los datos. Las estadísticas derivadas de
los conjuntos de datos que incluyen valores atípicos serán
frecuentemente engañosas.
Por ejemplo, en el cálculo de la temperatura media de 10
objetos en una habitación, si la mayoría tienen entre 20 y 25
ºC, pero hay un horno a 350 °C, la mediana de los datos
puede ser 23, pero la temperatura media será 55.
En este caso, la mediana refleja mejor la temperatura de la
muestra al azar de un objeto que la media. Los valores
atípicos pueden ser indicativos de datos que pertenecen a una
población diferente del resto de la muestra establecida.
Tomando como referencia la diferencia entre el primer cuartil
(Q1) y el tercer cuartil Q3, o valor intercuartil, en un
diagrama de caja se considera un valor atípico el que se
encuentra 1,5 veces esa distancia de uno de esos cuartiles
(atípico leve) o a 3 veces esa distancia (atípico extremo).
Bisagras de Tukey.
Valor atípico leve
X < Q1 – 3 IQR
o
X > Q3 + 3 IQR
(“Box-and-Whisker” plot)
Presión atmosférica en 61 puntos de la Costa Nostra
105 110 112 112 118 119 120 120 120
125 126 127 128 130 132 133 134 135
138 138 138 138 141 142 144 145 146
148 148 148 149 150 150 150 151 151
153 153 154 154 154 154 155 156 156
158 160 160 160 163 164 164 165 166
168 168 170 172 172 176 179
Núm. Emp. 3 2 3 1
Km 1 4 5 6 26
Asumiendo que cada uno de los nueve trabajadores viaja en su
propio automóvil, y se quiere minimizar el coste en gasolina, ¿en
qué lugar pondrías la empresa para minimizar tal coste?
Ejemplo de uso de la mediana.
Los filtros digitales constituyen uno de los principales modos de
operar en el procesamiento de imágenes digitales. Pueden usarse
para distintos fines, pero en todos los casos, el resultado sobre
cada píxel depende de los píxeles de su entorno.
Filtros en el dominio del espacio: filtros no lineales
¿Cómo funciona? Se visita cada píxel de la imagen y se
reemplaza por la mediana de los píxeles vecinos. La
mediana se calcula Filtro de la mediana (median filter)
Filtros en el dominio del espacio: filtros no lineales por la
mediana de los píxeles vecinos. La mediana se calcula
ordenando los valores de los pixeles vecinos en orden y
seleccionado el que queda en medio.
¿Cuál elegir?
Moda Media
Mediana
Ejercicio. Se han analizado los promedios promociona-
les de la asignatura Helarte de Estudiar, y se ha
obtenido lo siguiente: la nota modal de la Sección A es
15, la nota media 12,8 y la mediana 13,5; en la Sección
B la nota modal es 11, la nota media 14 y la mediana
13,5. Se pide:
xg n X1 * X 2 * X 3 * ...X n
Ejemplo
La siguiente tabla muestra la tasa de aumento en los precios
de los bienes y servicios (inflación) transados en el Distrito
de Acarí durante los meses indicados. Calcula e interpreta la
tasa media mensual de la inflación.
Meses Enero Febrero Marzo Abril Mayo
Aumento de
2.6% 5.4% 3.8% 0.5% 1.4%
precios
Tasa media
= (x g 1) 100
de variación
c) Interpretación
MG n (vn ) / (v1 ) 1
Donde:
Vn = Valor en el periodo n (final)
V1 = Valor en el periodo 1 (inicial)
n = Número de periodos
Ejemplo: El número total de mujeres
matriculadas en el sistema universitario
aumentó de 755 000 el 31-12-06 a 835 000 el
31-12-15 ¿Cuál es la tasa de crecimiento
promedio anual? Rpta. 1,125%.
Ejercicio
El Banco Opus Gay remunera los Depósitos a Plazo a 720
días con 10% el primer año (TREA-360) y 2% (TREA-360)
el segundo año.
a) Pancracia deposita S/10 000 ¿cuánto retirará dentro
de dos años?
b) Encuentra la tasa promedio anual.
c) Con la tasa promedio hallada completa el siguiente
cuadro:
(Año1) 10000
(Año 2)
Media armónica ( x)h
Se usa cuando los datos están en progresiòn armónica (Cuando sus
recíprocos estàn en progresión aritmética)
Se emplea la media armónica para obtener un valor representativo de
un conjunto de datos expresados en forma de tasas o proporciones, por
ejemplo velocidad y aceleración media, el tiempo medio para realizar
el ensamblaje de motos Honda (12 minutos aproximadamente).
Permite obtener promedios de valores que están en relación inversa
como la velocidad y el tiempo.
En general se utilizan para obtener promedios de un conjunto de
valores expresados en forma de tasas de unidades de un tipo por
unidades de otro tipo.
Media:
X Mo
As Moda:
sx Mediana:
Desviación estándar:
160
140 300
200
120
200
100
100
80 Frecuencia 100
Frecuencia
60
0 0
40 27 37 45 53 61 69 77 85 93 3 27 37 47 57 67 77 87 97 108
45 48 51 54 57 60 63 66 69 72 75 78 81 84 16 32 42 52 62 72 82 92 102 138
32 41 49 57 65 73 81 89 99
Platicúrtica
Mesocúrtica Leptocúrtica
Curtosis
Índice de curtosis de Fisher, coeficiente de exceso de curtosis
i
( X X ) 4
n
i 1
4
3
s x
i
( X X ) 4
n
C r i 1
4
3
s x
Medidas de dispersión (variabilidad, spread)
Miden el grado de dispersión (variabilidad) de los datos,
independientemente de su causa. Ejemplo:
Un conjunto de átomos de una sustancia con una
media de velocidades 0, no cabe concluir que los
miembros del sistema están quietos.
Ello implicaría que la substancia se encontraría
cerca del cero absoluto. Con una media de 0
podemos tener desde un sólido cristalizado hasta un
gas muy caliente.
La variable que determinará en qué estado de
agitación térmica se encuentran los átomos del
sistema será la dispersión de velocidades.
Medidas de dispersión (variabilidad)
x
2
1
( x µ)
2
i
2
2 i
i
2
n i
n
– Es sensible a valores extremos (alejados de la media).
– Sus unidades son el cuadrado de las de la variable.
Desviación típica, desvío estándar, error estándar, dispersión
absoluta (‘standard deviation’).
Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad
(unidades) que la variable.
2
VARIANZA PARA UNA MUESTRA
1
S ( x x)
2
i
2
n i
S S 2
VARIANZA PARA UNA MUESTRA...
donde:
x : media muestral
f i : frecuencia absoluta de la clase i
MCi : marca de clase i
Medidas de variabilidad con respecto a la media
c) Si a cada uno de los datos x1, ... ,xn se les suma una constante
b, entonces la varianza de los datos transformados: x1 + b, ...
,xn + b es igual a la varianza de los datos originales.
Propiedades de la varianza...
ms 2x ns 2y m n
s2 ( x M )2 ( y M )2 ,
mn mn mn
CV
• Es la razón entre la desviación típica y la media.
– Mide la desviación típica en forma de “qué tamaño tiene con respecto a la
media”.
– Son poco robustos
– Es frecuente mostrarla en porcentajes:
• Si la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
• Otros coef.: Coeficiente de variación cuartílico
Ejercicio:
Covarianza n
medida de
variabilidad conjunta. y y x x
i i
No tiene límite
superior o inferior, Cov( x, y ) i 1
depende de las n
unidades en que se
mida
Coeficiente de Cov( y, x)
r
Correlación
(Pearson)
Var ( y)Var ( x)
Covarianza estandarizada. Varía entre -1 y +1
Ejercicio.
La acción común de la Constructora Thiago Casas (T) tiene una
rentabilidad esperada del 10% y una desviación estándar del 5%
anual. La acción común de la Inmobiliaria Armando Paredes (A)
tiene una rentabilidad esperada del 20% y una desviación
estándar del 60% anual.
a) ¿Cuál es la rentabilidad esperada de una cartera que se
compone de 40% del título T y 60% del título A?
c) Interpreta Cov(T,A).
Tipificación o Transformación Z (Valor estandarizado, unidad
tipificada, variable centrada reducida, variable
estandarizada o normalizada)
Las puntuaciones típicas son el resultado de dividir las puntuaciones
diferenciales (restar la media) entre la desviación típica. Este
proceso se llama tipificación.
Dada una variable de media μ y desviación típica σ, se denomina
valor tipificado z, de una observación X, a la distancia (con signo)
con respecto a la media, medido en desviaciones típicas, es decir:
X
z
Cuando se necesite comparar valores observados que pertenecen
a diferentes distribuciones de datos, las que difieren en su media
aritmética o en su varianza, o difieren en el tipo de unidad de
medida, se usa el valor estándar Z.
El "puntaje Z", también llamado "puntaje estándar", es la medida
estadística de “qué tan lejos está una observación particular de la
desviación estándar".
Ejemplo. Laura Boso saca una puntuación de 85 en un examen cuyas
puntuaciones tienen una media de 79 con una desviación típica de 8. Elba
Boso saca 74 en un examen cuyas puntuaciones tienen una media de 70 y
desviación estándar de 5 ¿Cuál de las dos obtuvo una puntuación mejor?
C. Manos a la C. La Vida
Parámetros
Urbe en Concreto
Salario medio S/.963 S/.972
Desviación típica S/.26 S/.28
a) ¿En cuál de las dos constructoras los salarios presentan
mayor variabilidad?
b) Alba Boso recibe de ambas empresas una oferta salarial
por S/468, ¿en cuál de las constructoras tendrá una
mejor posición relativa?
c) Si mejoran la oferta salarial en S/1468, ¿en cuál de las constructoras
Alba tendrá una mejor posición relativa?
Medidas de variabilidad con respecto a la media
Caso: Se tienen los siguientes promedios finales correspondientes a los alumnos de las secciones: a, b,
c, d y e de la asignatura XXX. Hallar la: media(X), desviación estándar(S), coeficiente de
variabilidad(CV) y variable normal estandarizada (Z). Explicar su uso.
S i
e ó
c n
I) Compara S y CV Promedios Finales c Media D.S.P. CV
Sistema 14 16 16 16 16 18 (a) 16.0 1.15470054 0.07217
10 12 19 20 15 20 (b) 16.0 3.95811403 0.24738
vigesimal 15 14 15 15 15 15 (c) 14.8 0.372678 0.02512
1 – (1/k2) = 0,75.
Regla empírica para datos
En una distribución de probabilidad acampanada (forma de montículo) y
más o menos simétrica se cumple que:
Ejercicio. El CPC José Papaffava realizó un muestreo en el Depósito de
Materiales de Construcción PO11 sobre el número de días que permanecen en el
almacén 200 bolsas de cemento Portland Tipo III (Alta resistencia inicial, como
cuando se necesita que la estructura de concreto reciba carga lo antes posible o
cuando es necesario desencofrar a los pocos días del vaciado). Los datos son:
Permanencia
1-3 4-6 7-9 10 - 12 13 - 15 16 - 18 19 - 21 22 - 24
(en días)
N° de bolsas 24 83 52 22 11 5 2 1