Sei sulla pagina 1di 125

Estadística y Probabilidades

2017-2

ESTADÍSTICA DESCRIPTIVA

Estadística Descriptiva e Inferencial. Manuel Córdova. (2003). 5ta ed.


Capítulos: 1; 2 y 3

danielmavila@yahoo.es
Dos significados de Estadística:

(1) Colección de datos numéricos (una estadística).


Deuda nacional de EE. UU. US$14,56 billones (B),
equivalente a: darle a cada peruano US$500 000 o
pagar 4 850 meses (400 años) las importaciones
peruanas totales.
Según el Instituto de Investigación Hurun en su
Informe de Riqueza Hurun 2011, China tiene 960 000
millonarios con un patrimonio personal de millón y
medio de $ o más, sobre un total de 1 400 millones de
habitantes. Hay 60 000 billonarios. Compran artículos
de lujo.
(2) Ciencia: obtener regularidades de fenómenos de
masas (la estadística).
Consumo de pan por persona al año: 96 k en Chile, 28 k en el Perú
Fuente: Publimetro, Año 1, Edición 40, 17-10-2011, p2.)

Consumo per cápita anual de helados: 6,5 l en Chile. 1,4 l en el Perú.

Consumo per cápita anual de café orgánico en Perú 550 g, en EE.UU.


más de 6 k (Fuente: El Comercio, Suplemento Mi Empresa, 14-10-2012)

Las primas de seguro en el Perú representan 1,5% del PBI. En Colombia


y Chile 2,5% y 4% de sus respectivos PBI.

Teletón 2013: En Perú se recaudó US$1,4 millones, en Chile US$65


millones (con mucho menos necesidades), Guatemala US$3,4 millones
(país mucho más pequeño que Perú)

Sector farmacéutico: Formato counter (40-80 m2); formato autoservicios


(81-120 m2)
¿Saturación de centros comerciales?
Colombia: El consumidor cada vez quiere más servicios en una misma
ubicación. En este sentido, hay aún espacio para crecer en Colombia, donde
–por lo demás– menos del 20% de las ventas de retail se hace en centros
comerciales versus un 50% de lo que sucede en países más desarrollados.
Al analizar la penetración de centros comerciales en el país, medida en
términos de m2 por habitante, el número de metros comerciales es inferior a
países como Chile y Argentina.
Perú: Baja penetración, 30% en Lima y tan solo 15% en provincias. En
Santiago de Chile y Sao Paulo (80%).
Un centro comercial es una construcción que consta de uno o varios
edificios, por lo general de gran tamaño, que albergan locales y oficinas
comerciales aglutinados en un espacio determinado concentrando mayor
cantidad de clientes potenciales dentro del recinto. Formatos:
Fashion Mall, Community Center, Power Center, Town Center, Online,
LifeStyle Center, Strip Mall, Mall.
http://www.ted.com/talks/guy_winch_the_case_for_emoti
onal_hygiene TED: Higiene emocional
Definición de Estadística

La Estadística es la ciencia de la:

• sistematización, recogida, ordenación y presentación


de los datos referentes a un fenómeno que presenta
variabilidad o incertidumbre para su estudio metódico,
con objeto de

• deducir las leyes (Razonamiento deductivo: teoría de


probabilidad) que rigen esos fenómenos.

• y poder hacer previsiones sobre los mismos, tomar


decisiones u obtener conclusiones (Razonamiento
inductivo).
Estadística Descriptiva
RECOLECCIÓN ANÁLISIS PRESENTACIÓN
DE LOS DE LOS DE LOS
DATOS DATOS DATOS

ANÁLISIS TABLAS,
DESCRIPTIVO GRÁFICOS
Experimento
Es un estudio en el que se manipulan
intencionalmente una o más variables
independientes (supuestas causas - antecedentes),
para analizar las consecuencias que la
manipulación tiene sobre una o más variables
dependientes (supuestos efectos – consecuentes),
dentro de una situación de control para el
investigador.
Determina si la presencia / ausencia de una
variable afecta a otra.
Determina la magnitud de la influencia.
Debe tener control sobre el efecto de variables
extrañas.
NOTACIÓN CIENTÍFICA

• Utilizando la notación científica el número se


escribe como un producto de dos partes: un
número comprendido entre 1 y 9 inclusive y una
potencia de 10.
• El número se representa con una cifra entera
seguido de todas las cifras significativas y
multiplicado por la potencia de 10.
• La potencia de diez recibe el nombre de exponente.
NOTACIÓN CIENTÍFICA

• El exponente positivo de la potencia de diez indica el


número de lugares que la coma decimal se debe mover
hacia la derecha si expresamos el número sin la potencia
de diez. Un exponente negativo indica que se moverá
hacia la izquierda.
• Ejercicios:

42581000000 equivale a _____________________ con 3 decimales

0,042581 equivale a _____________________ con 2 decimales

5,83 • 109 − 7,5 • 1010 + 6,932 • 1012 = 6,86283 • 1012.


Notación científica en excel

8.88887E+11
8.89E-01
Cifras significativas

Es cualquier dígito que denota la magnitud de la cantidad, según el lugar


que ocupa en un número.

a) Cualquier dígito diferente de cero es significativo.


1234,56 6 cifras significativas

b) Ceros entre dígitos distintos de cero son significativos.


1002,5 5 cifras significativas

c) Ceros a la izquierda del primer dígito distinto de cero no son


significativos.

0000456 3 cifras significativas


0,00056 2 cifras significativas
Cifras significativas...

d) Si el número es mayor que uno (>1), todos los ceros a la derecha


del punto decimal son significativos.

457,12 5 cifras significativas


400,00 5 cifras significativas

e) Si el número es menor que uno (<1), entonces únicamente los ceros


que están al final del número y entre los dígitos distintos de cero son
significativos.

0,01020 4 cifras significativas


Ejercicio.

Expresar las siguientes cantidades en notación científica


con tres cifras significativas, siendo X el último dígito de tu
matrícula:

– 0,0000X9847 mg ______________________
– 203,X6589 in ______________________
– 289 36X 000 km ______________________
– 0,00X5474 mm ______________________
Población y muestra
• Población (‘population’) es el conjunto sobre el que estamos interesados en
obtener conclusiones (hacer inferencia). Normalmente es demasiado grande
para poder abarcarlo. Tipos: Finita e Infinita.
Es la recolección de todos los individuos, objetos u observaciones que
poseen al menos una característica común. Ejemplos:
– Pizarras Digitales Interactivas de la Facultad.
– Tarjeta habientes de Bonus.
– Pacientes que se atienden en un consultorio.
– Unidades inmobiliarias construidas con el Programa Mi Vivienda
• Muestra (‘sample’) es un subconjunto de la población al que tenemos
acceso y sobre el que realmente hacemos las observaciones (mediciones).
– Debería ser “representativo”
– Está formado por miembros “seleccionados” de la población
(individuos, unidades experimentales).
Tipos: Probabilística y No Probabilística
Ejercicios.

1) Mediante la Estadística Descriptiva se organizan y resumen conjuntos de


observaciones procedentes de:
A) muestras exclusivamente;
B) muestras aleatorias exclusivamente
C) muestras o poblaciones totales

2) La estadística inferencial:
A) Permite analizar descriptivamente la muestra bajo estudio;
B) No tiene en cuenta las leyes de probabilidad;
C) Permite realizar generalizaciones a la población con una muestra

3) Un estadístico:
A) se puede utilizar para estimar algún parámetro de la población;
B) adopta el mismo valor en cada muestra;
C) coincide con el parámetro cuando el muestreo es probabilístico
VARIABLES

Las variables son aquellas dimensiones o aspectos


del fenómeno en cuestión susceptibles de ser
indagadas a través de los métodos de investigación
pertinentes.
Todas las variables tienen una escala de registro, es
decir, una característica medible (Talla, peso,
coeficiente de inteligencia, etc.) o una cualidad que
es no medible (nacionalidad, sexo, etc).
Las variables se clasifican según su naturaleza, el
orden de observación, el número de variables, la
escala de medición, amplitud de las unidades de
medición y su relación entre ellas.
Según su naturaleza

• Variable no métrica, cualitativa, nominal o categórica


Se define cuando expresa una cualidad, característica o atributo, tienen
carácter cualitativo, es decir, sus datos se expresan mediante una
palabra, como por ejemplo: Los colores, profesiones, causa de
accidentes, etc. También se llaman estadísticas o de atributos.
• Variable métrica, cardinal o cuantitativa
Cuando el valor de la variable se expresa en una cantidad, y el dato o
valor puede ser producto de la operación de contar o medir, por
ejemplo: Ingresos, número de hijos, producción, desempleo, etc., a la
vez se subdividen en discretas y continuas.
– 1. Variable discreta
Cuando el valor de la variable resulta de la actividad de contar, su valor
esta representado por los números naturales. Por ejemplo: trabajadores por
una empresa, hijos de una o varias familias, habitantes, etc.
– 2. Variable continua
Cuando la variable se puede medir o comparar con una unidad de medida.
Las características de estas variables tienen un valor dentro de un rango o
recorrido y son expresadas dentro de cualquier número real, como
ejemplo: Peso, estatura, tiempo de servicios, sueldos, etc.
Escalas de medición

Conjunto de los posibles valores que una cierta varia-


ble puede tomar.

Se tienen dos grandes tipos de escalas:

a) Escala de medidas de la información (nivel de


medidas) y
b) Escala de medidas de actitudes
Clasificación de variables según su forma de medición
Escalas de medición son una sucesión de medidas que permiten organizar datos en
orden jerárquico. Las escalas de medición, pueden ser clasificadas de acuerdo a una
degradación de las características de las variables. Estas escalas son: nominales,
ordinales, intervalares o racionales. Según pasa de una escala a otra el atributo o la
cualidad aumenta. Las escalas de medición ofrecen información sobre la clasificación
de variables discretas o continuas, también más conocidas como escalas grandes o
pequeñas

1. Variables nominales (son cualitativas)


Se da esta variable por categorías, sin ningún orden entre ellas, se distribuye la
unidad de análisis en dos o más categorías, como por ejemplo, sexo, estado civil, lugar
de nacimiento, etc.

2. Variables ordinales (son cualitativas)


En estas variables si se requiere de orden en sus categorías, se refieren a
jerarquías, donde las categorías ofrecen una posición de orden, pero no permiten
cuantificar la distancia entre una categoría y otra, por ejemplo: ciclo académico.
EJEMPLO DE ESCALA NOMINAL

Si nos referimos a la bolsa de valores, tenemos que las acciones


comunes de las empresas se pueden negociar en las bolsas NYSE,
AMEX y OTC.
Aquí observamos que la escala de medición para la variable bolsa de
valores es nominal porque NYSE, AMEX y OTC, son las etiquetas que
se utilizan para identificar dónde se negocian las acciones de la
compañía.
Con el fin de facilitar la colección de datos y prepararlos para que sean
capturados en una base de datos de computadora, podríamos usar una
clave numérica donde el número 1 denote la bolsa de NYSE, el 2 la
AMEX y el 3 para OTC (ventanilla).
En este caso, los valores numéricos 1, 2 y 3 son las etiquetas que sirven
para identificar el lugar donde se negocian las acciones. La escala de
medición es nominal aun cuando los datos son mostrados como valores
numéricos.
EJEMPLO DE ESCALA ORDINAL
Save Our Souls SA (SOS) envía a sus clientes un
cuestionario diseñado para obtener datos acerca de la
calidad del servicio de reparación automotriz.
Cada cliente asigna una evaluación para el servicio de
reparación: excelente, bueno o malo. Debido a que los
datos obtenidos son las etiquetas: excelente, bueno o
malo, los datos tienen las propiedades de datos
nominales.
Además, los datos se clasifican, u ordenan, respecto a
la calidad del servicio. Los datos registrados como
excelente indican el mejor servicio, seguidos por los
buenos y después los malos. Por tanto, la escala de
medición de la variable Calidad del servicio de SOS es
ordinal.
EJEMPLO DE ESCALA ORDINAL...

Observa que los datos ordinales también se


pueden registrar por medio de un código
numérico.
Por ejemplo, podríamos usar el 1 para
excelente, 2 para bueno y 3 para malo con el fin
de mantener las propiedades de los datos
ordinales.
Así, los datos para una escala ordinal podrían
ser numéricos o no numéricos.
Clasificación de variables según su forma de medición
3. Variables de intervalo (intervalar)
Son las que tienen a la vez orden y grados
de distancias iguales entre las diferentes
categorías, esto es convencional, pueden
asumir valores negativos, como por ejemplo
la temperatura, coeficiente de inteligencia,
etc.
4. Variables de razón (racionales, de co-
ciente)
Estas variables tienen orden, distancia y
origen único y natural, el valor se expresa
en un número real, el cero significa
ausencia de la variable, como la edad, el
peso, número de hijos, etc.
EJEMPLO DE ESCALA DE INTERVALO

Las puntuaciones de la Prueba de Aptitud Escolar (SAT, por


sus siglas en inglés) son un ejemplo de datos con escala de
intervalo.
Por ejemplo, tres estudiantes con puntuaciones SAT de 1120,
1050 y 970 pueden ser clasificados u ordenados desde el
mejor desempeño al más deficiente. Además, las diferencias
entre las puntuaciones son importantes.
Por ejemplo, el estudiante 1 obtuvo 1120 – 1050 = 70 puntos
más que el estudiante 2, en tanto que el estudiante 2 logró
obtener 1050 – 970 = 80 puntos más que el estudiante 3.
EJEMPLO DE ESCALA DE RAZÓN

Considera el costo de un automóvil. Un valor cero


indicaría que el automóvil no cuesta y es gratis.
Además, si comparamos el costo de US$3000 para
un automóvil con el costo de US$1500 para un
segundo automóvil, la relación de razón deja ver que
el primer automóvil es 3000/1500 = 2 veces, o el
doble, el costo del segundo automóvil.
Clasificación de variables según la relación entre estas
1. Variables dependientes (respuesta, criterio).
Son aquellas que se explican por otras variables, son los efectos
o resultados respecto a los cuales hay que buscar sus motivos,
causas o razón de ser.
Es la variable que informa sobre los efectos de una o varias
razones o causas. Ventas (en volumen o unidades monetarias),
cuota de mercado, preferencia, actitudes, recuerdo espontáneo o
asistido, fidelidad a una marca, nivel de satisfacción.
2. Variables independientes, tratamientos.
Son las predictivas o explicativas, cuya relación, influencia o
relación con la variable dependiente se pretende descubrir en la
investigación.
Estas variables son las que traducen o explican las causas o
razones de las variaciones en las variables dependiente.
Por ejemplo, el presupuesto familiar depende de los ingresos,
diseños de envases, presentaciones de un nuevo producto, temas
publicitarios, nuevos canales de distribución, etc.
Clasificación de variables según la relación entre estas…
3. Variables intervinientes (extrañas, externas)
Son las que coparticipan con la variable independiente
condicionando el comportamiento de la variable
dependiente.
Los efectos de las variables extrañas han de ser
neutralizados o eliminados si se quiere validez en el
experimento.
Cuando no se puede eliminar se denominan variables de
confusión.
Como por ejemplo, entre el presupuesto familiar y el gasto
de la familia, puede intervenir la enfermedad de los hijos,
el alza del costo de vida, etc.
EJEMPLO 1
VARIABLE INDEPENDIENTE
Condiciones en el ambiente físico de trabajo
VARIABLE DEPENDIENTE
Rendimiento laboral
VARIABLES INTERVINIENTES
El salario
El horario de trabajo
La distribución de funciones
Ejemplo 2
El nivel de productividad del personal de una organización está
determinado por el grado de capacitación académica que tiene cada
persona.
•Variable independiente (causa): grado de capacitación académica
•Variable dependiente (efecto): nivel de productividad.
•Variables intervinientes: ambiente laboral, temporada del año,
nivel salarial, estilo de dirección, rasgos de personalidad.
Ejemplo 3
El costo del dinero (tasa de interés) en el mercado determina el
monto de inversión de las empresas.
•Variable independiente: costo del dinero (tasa de interés).
• Variable dependiente: volumen o monto de inversión por parte de
las empresas.
•Variables intervinientes: condiciones sociales y económicas del
país, capacidad de inversión de la empresa.
Escalas de medidas de actitudes
• Actitud: predisposición aprendida que dirige la reacción ante un
objeto, idea u organización de manera neutral, positiva o
negativa.
• Se tienen los siguientes tipos:
– Escalas no comparativas. Las personas entrevistadas puntúan
el objeto o enunciado sin tener en cuenta otros, ni tampoco,
se establecen preferencias entre alternativas. Clases:
• Escala de Likert llamada también escala de calificaciones
sumadas
• Escala de diferencial semántico
• Escala de Stapel
• Etcétera.
Escalas no comparativas

Escalamiento tipo Likert


•Consiste en un conjunto de ítems presentados en
forma de afirmaciones o juicios, ante los cuales se
pide la reacción de los sujetos.
•Es decir, se presenta cada afirmación y se pide al
sujeto que externe su reacción eligiendo uno de los
cinco puntos de la escala.
•A cada punto de la escala se le asigna un valor, de
esa manera se podrá obtener una puntuación total
por sujeto, sumando las puntuaciones obtenidas en
la relación con todas las afirmaciones
Ejemplo:
•Objeto de actitud medido: El voto ciudadano
•Afirmación: “Votar es una obligación de todo
ciudadano responsable”
"Afirmación"
Ni de acuerdo, ni en Muy en
Muy de acuerdo De acuerdo En desacuerdo
desacuerdo desacuerdo

"Afirmación"
Totalmente de Totalmente en
De acuerdo Neutral En desacuerdo
acuerdo desacuerdo

"Afirmación"
Definitivamente Probablemente Probablemente Definitivamente
Indeciso
si si no no

"Afirmación"
Completamente Completamente
Verdadero Ni falso, ni verdadero Falso
verdadero falso
Escalas no comparativas…

Diferencial Semántico
Consiste en una serie de adjetivos extremos que califican al
objeto de actitud con un conjunto de adjetivos bipolares;
entre cada par de adjetivos, se presentan varias opciones y
el sujeto selecciona aquella que en mayor medida refleje su
actitud.
Ejemplo:
•Objeto de actitud: Candidato “A”

Justo__:__:__:__:__:__:__Injusto

•Debe observarse que los adjetivos son “extremos” y que


entre ello hay siete opciones de respuesta. Cada sujeto
califica al candidato “A” en términos de esta escala de
adjetivos bipolares.
Escalas no comparativas…
Escala de Stapel
Técnica de autoinforme para la medición de actitudes en que
se pide a los sujetos que indiquen el grado de exactitud con
que cada una de diversas afirmaciones describe al objeto
de interés. Ejemplo:
Seleccione un número positivo para palabras que en su
opinión, describa con precisión al objeto (por ejemplo
servicio administrativo de la Facultad). Cuanto más
exacta piense que es la descripción, tanto mayor será el
número positivo que debe elegir.
De igual modo, seleccione un número negativo para las
expresiones que en su opinión no la describa exactamente.
-5 -4 … +1 +5
El trato es cortés.

El horario es conveniente.
• Es buena idea codificar las Excel; SPSS; SAS, Minitab, Eviews, etc
variables como números para TIP
poder procesarlas con facilidad en
un ordenador.
• Es conveniente asignar
“etiquetas” a los valores de las
variables para recordar qué
significan los códigos numéricos.
– Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer
– Raza (Cualit: Códigos arbitrarios)
• 1 = Blanca
• 2 = Negra, ...
– Felicidad Ordinal: Respetar un
orden al codificar.
• 1 = Muy feliz
• 2 = Bastante feliz
• 3 = No demasiado feliz
• Se pueden asignar códigos a
respuestas especiales como
• 0 = No sabe
• 99 = No contesta ...
• Estas situaciones deberán ser
tenidas en cuentas en el análisis.
Datos perdidos (‘missing data’)
Tabla de distribución de frecuencia

Es la representación estructurada, en forma de tabla, de


toda la información que se ha recogido sobre la variable
que se estudia.

– Frecuencias absolutas: Contabilizan el número de individuos


de cada modalidad (clase o categoría).

– Frecuencias relativas (porcentajes unitarios): Ídem a


frecuencia absoluta, pero dividido por el total de datos (n).

– Frecuencias acumuladas absolutas y relativas: Acumulan las


frecuencias absolutas y relativas. Son especialmente útiles
para calcular cuantiles.
Tabla de distribución de frecuencias absolutas y relativas

• La región de
VOTOS Frecuencia
Arequipa convocó a OPCIÓN (000) relativa %
un referendo sobre la ni fi = ni/N
aprobación de la Ley
del Talión. SI
• Completa la tabla de
distribución de
frecuencias absolutas
y relativas asumiendo
los valores resultantes
que desees.
TOTAL (N) 1 200
REGLAS PARA ELABORAR DISTRIBUCIONES DE FRECUENCIA...

5) Determinar_las marcas de clase ()


yi  Y’ i -1  Y’ i
2
6) Hallar la frecuencias absolutas de clase (ni o fi)

7) Hallar las frecuencias relativas (hi).


fi
hi 
N

8) Hallar las frecuencias relativas acumuladas crecientes o


menor que, (Hi).
i
Hi   h j
j 1
9) Hallar las frecuencias relativas acumuladas decrecientes o
mayor o igual que, ( H i* )
m
H  h
*
i ji j
Ejemplo

El contenido de nicotina para producir cáncer pulmonar, en miligramos, para una cajetilla de
40 cigarrillos marca TMata se registraron de la siguiente manera:

1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24
1.58 2.03 1.7 2.17 2.55 2.11 1.86 1.9 1.68 1.51
1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67
1.34 1.93 1.4 1.64 2.09 1.75 1.63 2.37 1.75 1.69

Construir la tabla de distribución de frecuencias.

Propuesta de solución:

1º paso: calculamos la longitud (L) o recorrido total

L = 2,55 – 0,72 = 1,83

2º paso: calculamos el número de intervalos (m)

m = 1 + 3,3 * log 40 = 6,28

Truncando m = 6 (otros autores recomiendan redondear a 7)

3º paso: calculamos la amplitud o anchura del intervalo (A).

A = 1,83/6 = 0,305
Ejemplo de la nicotina (...)

4º paso: elaboramos la tabla de distribución de frecuencias. Completa la 5ta clase

Clase i fi hi hi% Hi Hi% Hi* Hi*%


[0.72-1.025> 2 0.05 5.0% 0.05 5.0% 1 100.0%
[1.025-1.33> 2 0.05 5.0% 0.1 10.0% 0.95 95.0%
[1.33-1.635> 6 0.15 15.0% 0.25 25.0% 0.9 90.0%
[1.635-1.94> 19 0.475 47.5% 0.725 72.5% 0.75 75.0%
[1.94-2.245> 6
[2.245-2.55] 5 1 0.125

Donde: [ ( o < ) incluye a… y > ( o [ ) no incluye a…

i: Representa la marca de clase


Ejercicio. Un estudio de la empresa Oh Margot SA,
encontró las distancias que recorrerían sus seis trabajadores
desde su respectivo hogar a su lugar de trabajo.

Nro de km recorridos casa-trabajo

A B C D E F
≤5 6-10 11-15 16-20 21-30 ≥ 31

a) ¿Cuál es la probabilidad que un trabajador seleccionado al


azar tenga que viajar 11 km o más para ir al trabajo?
b) ¿Cuál es la probabilidad de que un trabajador elegido al
azar tenga que viajar entre 6 y15 km para ir al trabajo?
¿Tienen que ser todos los intervalos de clase
necesariamente del mismo ancho?

No, no siempre debe ser del mismo ancho, algunas


situaciones obligan a usar intervalos de distinto ancho.
Por ejemplo cuando se trata de variables como “Salarios”, a
menudo es conveniente usar ancho distinto, pues para
salarios bajos, pequeñas diferencias son importantes, pero las
mismas no lo son para salarios altos.
Por ejemplo para un salario de S/300; 30 unidades
monetarias representa el 10%, sin embargo para salarios de
S/6000, esta diferencia deja de ser importante.
En este caso sería recomendable, usar intervalos cortos al
principio de la escala e ir aumentando su tamaño.
Clases de desigual tamaño. Los intervalos de clase que son desiguales no son
frecuentes en el análisis estadístico, la utilización de los mismos se debe evitar;
sin embargo, en algunas investigaciones es indispensable su utilización; tal es el
caso de las investigaciones que tienen como propósito particular analizar valores
que varían en un amplio recorrido de la variable.
Cuando se utiliza este tipo de clase de los intervalos de clase deberían ser
incrementados de una forma ordenada, de ser posible.
Este tipo de clases se utiliza algunas veces para reportar datos relacionados con
valuaciones de activos o ingresos personales.
La siguiente TDF contiene los ingresos mensuales en US$ de los
futbolistas mejor pagados en el mundial.
Clase Frecuencia Marca de clase
Menos de 150 000 67 ?
150 000 – 239 000 36 194 500
340 000 – 429 000 10 384 500
430 000 – 519 000 8 474 500
520 000 – 609 000 7 564 500
610 000 – 699 000 8 654 500
700 000 – 789 000 7 744 500
790 000 – y más 7 ?
Total 150
Ejercicio

Una distribución de frecuencia simétrica


presenta las siguientes características:

; i
; y n1 = 1

Yi = Marca de clase i
Elabora la tabla de distribución de frecuencias
absolutas y relativas.

Respuesta: 9; 12 y 15
Gráficos para variables cuantitativas
Histograma según las frecuencias absolutas
Figura Nº 3. Histograma de los salarios de la
Constructora La Palabra del Muro
10

f 8

0
60 70 80 90 100 110 120 130 S/
Fuente: Elaboración propia
Ejercicio. Según los datos obtenidos en las Figuras 1 y 2, las alumnas de la
academia de artes marciales Kung-Fu-Sion obtuvieron en media de combates:
a)más puntos que los alumnos; b) los mismos puntos que los alumnos; c)
menos puntos que los alumnos.
Figura 1. Nº alumnas combatientes Figura 2. Nº alumnos combatientes

En las abscisas se clasifica el “número de puntos obtenidos” por cada alumna


o alumno, en un combate a puntos. La Figura 1 corresponde a 15 alumnas y la
Figura 2 a 10 alumnos. En las ordenadas están las frecuencias de cada
intervalo.
Gráficos de tallos (o tronco) y hojas (de Tukey)
Un procedimiento semi-gráfico de presentar la información para
variables cuantitativas, útil cuando el número total es pequeño (menor
que 50), es el diagrama de tallo y hojas de Tukey. Los principios para
construirlo son:
a) Redondear los datos a dos o tres cifras significativas, expresándolas
en unidades de medidas convenientes.
b) Disponerlos en una tabla con dos columnas separadas por una línea
como sigue:
1) Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos
de las decenas – que forma el tallo – y a la derecha las unidades, que
serán las hojas. Por ejemplo, 87 se escribe 87.
2) Para datos con tres dígitos el tallo estará formado por los dígitos de las
centenas y decenas, que se escribirán a la izquierda, separados de las
unidades. Por ejemplo, 127 será 127.
Cada tallo define una clase, y se escribe solo una vez. El número de
”hojas” representa la frecuencia de dicha clase.
Diagrama de hojas y tallos (gráfico de tallo Un diagrama donde
y hojas, histograma digital, Stem an Leaf). cada valor de datos es
dividido en una "hoja"
(normalmente el último
dígito) y un "tallo" (los
otros dígitos). Por
ejemplo "32" sería
dividido en "3" (tallo) y
"2" (hoja).

Los valores del "tallo" se


escriben hacia abajo y
los valores "hoja" van a
la derecha (o izquierda)
del los valores tallo.

El "tallo" es usado para


agrupar los puntajes y
cada "hoja" indica los
puntajes individuales
dentro de cada grupo.
Ejemplo tallo – hojas

Elaborar un diagrama tallo - hojas para los siguientes valores


recogidos en cm, los cuales representan los diámetros de las fresas
utilizadas en una hidro fresadora de la empresa Me llega al Twitter:

11,357; 12,542; 11,384; 12,431; 14,212; 15,213; 13,300; 11,300;


17,206; 12,710; 13,455; 16,143; 12,162; 12,721; 13,420 y 14,698.

Propuesta de solución:

a) Los datos redondeados, expresados en mm, son:


114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161;
122; 127; 134; 147.
Ejemplo tallo – hojas...

b) Diagrama de tallo y hoja para los datos expresados en mm:


11 443
12 54727
13 354
14 27
15 2
16 1
17 2
decenas unidades
Ejercicio. Reproduce los valores originales (cm) de la siguiente
tabla que representa el tamaño de las truchas de una muestra de la
piscigranja K’Buena Trucha.

Unidad = 0,01

41 22
42 668
43 1032
44 23
45 1
46 0

Ejemplo 41¦2 representa 4,12


Parámetro y estadístico
• Parámetro (Valores estadísticos de la población): Es una cantidad
numérica calculada sobre una población.
– La altura media de los individuos de un país.
– La idea es resumir toda la información que hay en la población en unos
pocos números (parámetros).
– Se simboliza por letras griegas. Solo hay un parámetro en cada población
por cada cantidad a resumir.
μ : Media poblacional (mu)
σ2 : Varianza poblacional (sigma cuadrado)
σ : Desviación estándar poblacional (sigma)
π : Proporción poblacional (pi)
Parámetro y estadístico...
• Estadístico (estimador, estadígrafo): Ídem al anterior (cambiar
población por muestra).
– La altura media de los que estamos en esta aula.
• Somos una muestra (¿representativa?) de la comunidad universitaria de la
Facu?).
– Si un estadístico se usa para aproximarse a un parámetro, también se le
suele llamar estimador
– Existen tantos estimadores como muestras se extraigan de una población.
– Se simbolizan por letras latinas:
x : Media muestral
s2 : Varianza muestral
s : Desviación estándar muestral
Pi : Proporción muestral
Ejercicios
• Identifica la población y la muestra en la siguiente
situación: En la Facultad se quiere saber la ocupación de
los egresados de la última década. Para esto se convoca a
una reunión de egresados y de los asistentes, se encuesta a
diez egresados de cada promoción. Determina la población
y la muestra.
• Justifica por qué la siguiente situación es una cualitativa
ordinal: Una fábrica de galletas saca una nueva marca al
mercado en presentaciones de diferentes sabores. Para
comercializarlas se ofrecen degustaciones de ellas a un
grupo de personas, quienes luego de degustarlas deben
clasificar en muy buenas, buenas, regulares y malas.
• http://es.scribd.com/doc/60993130/variables-poblacion-
muestra-ejercicios
Estadísticos de forma intuitiva
Medidas de posición

• Se define el cuantil (fractil) de orden k como un valor de la


variable por debajo del cual se encuentra una frecuencia
acumulada determinada.
• Casos particulares de los cuantiles son los: percentiles
(centiles), cuartiles, deciles, quintiles, etcétera.
• Métodos para calcular percentiles: Haverage, Waverage, Round
y Empirical y Aempirical
Cuantiles (Porcentiles)

Un cuantil o porcentil de X%, Pa% es aquel valor tal que un


X% de los datos es menor a él y un (1 - X)% de ellos es
mayor a él.
Y1,Y2,..............Yq,Yq+1,..Yr,.......Yk-1,Yk ,.... Yl ,.... Ym .............
, Yn-1,Yn
Primer cuartil: P25%

25% 25%

35% Segundo cuartil: P 25%


50%
(mediana)
50%
P95%
67% Tercer cuartil: P75%
5%
75%
• La diferencia entre el tercer y el primer cuartil nos da una
medida de la dispersión que se conoce con el nombre de rango
intercuartilico.
– Primer cuartil = Percentil 25 = Cuantil 0,25.
– Segundo cuartil = Percentil 50 = Cuantil 0,5 = Mediana.
– Tercer cuartil = Percentil 75 = Cuantil 0,75.
• El SPSS calcula las bisagras de Tukey, que define los
cuartiles de la distribución según una transformación realizada
por Tukey:
• La primera bisagra (similar al percentil 25) es el valor que
ocupa la posición intermedia entre la mediana y el valor más
pequeño de la distribución;
• la segunda bisagra es la mediana;
• la tercera bisagra es el valor que ocupa la posición
intermedia entre la mediana y el valor más grande de la
distribución.
Ejercicios:
1) En un lote de bolsas de cemento Portland Tipo I Ecológico
(aproximadamente 42,5 kg) almacenados en la Distribuidora Nemesia
Tchevishef EIRL ¿Qué percentil es superado solo por el 25% de las
bolsas de mayor peso?
• Percentil ________.
2) El colesterol se distribuye simétricamente en la población. Se
considera patológico los valores extremos. El 90% de los individuos
son «normales» con respecto a la variable colesterol.
a) ¿Entre qué percentiles se encuentran los individuos normales?
• Entre el percentil ______ y el percentil _______.
b) ¿Entre qué cuartiles y percentiles se encuentra la mitad de los
individuos “más normales (50%)” de una población?
• Entre el cuartil _______ y el cuartil _______.
• Entre el percentil _____ y el percentil __________
Ejercicios...

3) Se ha calculado el percentil 85 sobre las estadísticas de siniestralidad laboral


en el Sector Construcción durante el último año (Nº accidentes / año). Y se ha
obtenido el valor 2,5. Indica el significado de este dato.

“El gobierno solo quiere financiar al primer y segundo quintil, pero lo que
nosotros sostenemos es que la clases media está también dentro de los sectores
más vulnerables. Nuestra propuesta es avanzar para los 7 primeros deciles e ir
avanzando hacia la gratuidad total …”
(Camila Vallejo, lideresa de la protesta de los estudiantes chilenos. Diario El
Comercio del 14-8-2011. Internacional, p. 10.)
Percentiles para datos agrupados (tabulados)

 K * n  Fi 
 100 
P L  c
K i  f 
 P
K

Percentiles para datos agrupados…
donde:
P : percentil
K
K : el percentil buscado
n : número de datos
Li : límite inferior de la clase donde se ubica el
percentil K
Fi : frecuencia acumulativa hasta la clase
anterior a la clase donde se ubica el percentil K
f
P : frecuencia absoluta de la clase donde se ubica
K
el percentil K
c : amplitud de clase
Ejemplo:
La tabla muestra la experiencia en años de los
peones de la constructora A Lo Techo Pecho.
Experiencia Peones
(años)
0-3 18
4-7 42
8 - 11 68
12 - 15 120
16 - 19 40
20 - 23 34
24 - 27 12
Total 334
¿Sobre cuántos años se ubica el 25% de las peones de mayor
experiencia?
Ejemplo... ¿Sobre cuántos años se ubica el 25% de las
peones de mayor experiencia?
K = 75

75 % 25 %

P75
Menor Mayor
Experiencia Experiencia

Kn 75(334)
Lugar del P75    250,5avo (de los años ordenados )
100 100

Para saber en cuál clase se halla este dato, se


calcula la frecuencia acumulada.
Experiencia Nº peones Frec. Acumulada
(años) fi Fi
0-3 18 18
4-7 42 60 F=248
8 - 11 68 128
12 - 15 120 248 En esta clase
16 - 19 40 288 se localizan del
20 - 23 34 322 249avo – 288avo
24 - 27 12 334
334

 75 * (334)  248  1


 100 
P  16 
75  40 *4
 
P  16,15 años de experienci a
75

Interpretación: Para que un peón esté comprendido


dentro del 25% de mayor experiencia laboral debe
tener al menos 16 años, 1 meses y 24 días de
experiencia.
Diagrama de Caja
Es un gráfico de caja es muy útil para
representar diferencias entre grupos así como
mostrar los valores atípicos (discordantes, raros,
outliers, aislados).
Permite analizar y resumir un conjunto de datos
univariante dado.
Para elaborar el diagrama solo se necesitan
cinco valores estadísticos: el valor mínimo, Q1
(primer cuartil); la mediana (Q2, segundo
cuartil); Q3 (tercer cuartil) y el valor máximo.
La principal desventaja es que no presenta
ninguna información de las frecuencias de los
datos.
Diagrama de Caja

Aparecen Mucha
valores dispersión
extremos

Poca
dispersión
Valor atípico (Outliers)
Un valor atípico es una observación que es numéricamente
distante del resto de los datos. Las estadísticas derivadas de
los conjuntos de datos que incluyen valores atípicos serán
frecuentemente engañosas.
Por ejemplo, en el cálculo de la temperatura media de 10
objetos en una habitación, si la mayoría tienen entre 20 y 25
ºC, pero hay un horno a 350 °C, la mediana de los datos
puede ser 23, pero la temperatura media será 55.
En este caso, la mediana refleja mejor la temperatura de la
muestra al azar de un objeto que la media. Los valores
atípicos pueden ser indicativos de datos que pertenecen a una
población diferente del resto de la muestra establecida.
Tomando como referencia la diferencia entre el primer cuartil
(Q1) y el tercer cuartil Q3, o valor intercuartil, en un
diagrama de caja se considera un valor atípico el que se
encuentra 1,5 veces esa distancia de uno de esos cuartiles
(atípico leve) o a 3 veces esa distancia (atípico extremo).
Bisagras de Tukey.
Valor atípico leve

• Siendo Q1 y Q3 el primer y tercer cuartil, y


IQR el rango intercuartil (Q3 − Q1), un
valor atípico leve será aquel que:
X < Q1 – 1,5 IQR
o
X > Q3 + 1,5 IQR
• Q1 y Q3 determinan, pues, los llamados
limites interiores, a partir de los cuales la
observación se considera un atípico leve.
Valor atípico extremo

Los atípicos extremos son observaciones más


allá de los límites externos:

X < Q1 – 3 IQR
o
X > Q3 + 3 IQR
(“Box-and-Whisker” plot)
Presión atmosférica en 61 puntos de la Costa Nostra
105 110 112 112 118 119 120 120 120
125 126 127 128 130 132 133 134 135
138 138 138 138 141 142 144 145 146
148 148 148 149 150 150 150 151 151
153 153 154 154 154 154 155 156 156
158 160 160 160 163 164 164 165 166
168 168 170 172 172 176 179

Un resumen de esta serie en 5 valores


Min = 105 ; Max =179; Q1 = 132,5 ; Q3 = 158,5 ; Q2 = Md = 149
IQR = Q3 - Q1
Recorrido intercuartílico
Min Max

(Mediana de los datos superiores) Q1 Md Q3 (Mediana de los datos superiores)

105 132,5 149 158,5 179


Ejercicio

• ¿Qué porcentaje de los datos está


representado por la caja?
• ¿Qué porcentaje representa cada uno de los
bigotes?
• ¿Puede ser un bigote más largo que otro?
¿Cuál es el significado?
• ¿Se encuentra la mediana siempre en el
centro de la caja?
Medidas de centralización
• Añaden unos cuantos casos particulares a las medidas de
posición. Son medidas que buscan posiciones (valores) con
respecto a los que los datos muestran tendencia a agruparse.
• Si se calcula la media armónica (H), la media geométrica
(G) y la media aritmética (X), para los mismos datos se tiene
que: H < G < X
• Se dice que un estadístico es resistente (robusto) cuando éste no se
ve afectado por la presencia de valores muy alejados del resto de
la distribución, por ejemplo los fráctiles, mediana, M-estimadores
(estimadores basados en el método de máxima verosimilitud. Se
tienen los siguientes: de Hubert, de Tukey, de Andrews, de
Hampel, los cuales difieren entre sí por los pesos que asignan a
los casos. El SPSS los calcula en el procedimiento EXPLORAR).
• No es un estadístico resistente la media aritmética, como
alternativa existe la media truncada (media recortada, media
podada, media acotada, trimmed mean) en la que se elimina un
% de la cola inferior y superior de la distribución o la media
winsorizada sustituye ese % de valores por valores del centro de
la distribución.
Cálculo de la media a partir de datos agrupados
El cálculo de la media aritmética, cuando los datos
disponibles se encuentran en tablas de distribución de
frecuencias, se realiza utilizando la fórmula siguiente:
n
 fi Xi
x i 1
n
donde:  fi
i 1
x : media muestral
f i : frecuencia absoluta de la clase i
X i : marca de la clase i
Ejercicio. A continuación se tienen las dos distribuciones por sexo y
edad de los desocupados en el distrito de Chongos Bajos (marzo
2016). La PEA está comprendida entre 16 a 65 años.
Hombres Mujeres
Grupos de edad Frecuencia Frecuencia
< 20 años 17 654 20 902
20 – 24 años 10 943 34 448
25 – 29 años 9 322 26 834
30 – 44 años 11 106 52 854
> 44 años 14 216 41 274
Fuente: INEI
1) ¿Qué población (la de hombres o la de mujeres) presenta una edad
media mayor?
2) ¿Cuál está más envejecida en términos medios?
Propiedades de la mediana
-No utiliza todos los elementos
-Se puede calcular con datos ordinales
-Se ve menos afectada por datos atípicos que la media aritmética.
-Minimiza la suma de diferencias en valor absoluto (recordar que
la media aritmética minimizaba la suma de diferencias en térmi-
nos cuadráticos)

Ejercicio. Los nueve empleados de la empresa constructora


Esteban Dido viven al lado de la Av. Universitaria (Comas) en
diferentes kilómetros, tal como se muestra en el siguiente gráfico:

Núm. Emp. 3 2 3 1

Km 1 4 5 6 26
Asumiendo que cada uno de los nueve trabajadores viaja en su
propio automóvil, y se quiere minimizar el coste en gasolina, ¿en
qué lugar pondrías la empresa para minimizar tal coste?
Ejemplo de uso de la mediana.
Los filtros digitales constituyen uno de los principales modos de
operar en el procesamiento de imágenes digitales. Pueden usarse
para distintos fines, pero en todos los casos, el resultado sobre
cada píxel depende de los píxeles de su entorno.
Filtros en el dominio del espacio: filtros no lineales
¿Cómo funciona? Se visita cada píxel de la imagen y se
reemplaza por la mediana de los píxeles vecinos. La
mediana se calcula Filtro de la mediana (median filter)
Filtros en el dominio del espacio: filtros no lineales por la
mediana de los píxeles vecinos. La mediana se calcula
ordenando los valores de los pixeles vecinos en orden y
seleccionado el que queda en medio.
¿Cuál elegir?

Moda Media
Mediana
Ejercicio. Se han analizado los promedios promociona-
les de la asignatura Helarte de Estudiar, y se ha
obtenido lo siguiente: la nota modal de la Sección A es
15, la nota media 12,8 y la mediana 13,5; en la Sección
B la nota modal es 11, la nota media 14 y la mediana
13,5. Se pide:

a) Bosqueja una curva que represente la información


dada para cada sección.

b) ¿Sería posible que en la Sección A, más de la mitad


de los estudiantes obtenga más que la nota media?

c) ¿Es posible que en la Sección B, más de la mitad de


los estudiantes obtenga menos que la nota media?
Resistencia (Robustez)

Estadísticos resistentes: Son aquellos que no se ven


influidos (o solo ligeramente) por pequeños cambios en los
datos.

Evidentemente, la media es un estadístico muy poco


resistente a cambios en los datos, dado que se ve influida
por todos y cada uno de ellos.
La mediana, en cambio, es un estadístico altamente
resistente.
Estadísticos (Estimadores) robustos: Son aque-
llos estadísticos (estimadores) que funcionan
bien para varios tipos distintos de distribuciones
teóricas, aunque pueden no ser el mejor estima-
dor para ningún tipo concreto de distribución. Es
decir, son el “mejor compromiso”.

La media no es un estimador robusto.


La mediana es un estimador más robusto que la
media, si bien hay otros estimadores más robus-
tos que se verá en las siguientes diapositivas.
Media geométrica ( xg )
Se utiliza para calcular tasas medias de variación, como la tasa
media de crecimiento poblacional, la tasa media de inflación
mensual, la tasa media de mortalidad, entre otros.
Es útil para encontrar el promedio de porcentajes, razones,
índices o tasas de crecimiento.
La media geométrica es más aconsejable que la aritmética para
promedio de razones. (Las razones son recíprocas)
La xg siempre será menor que o igual a (nunca mayor que) la
media aritmética. Cuando quiere darse importancia a valores
pequeños de la variable, es aconsejable la media geométrica.
Ejemplo. Para llevar un registro del valor del dólar USA, se
crea un índice de referencia (base 100) denominado "Dollar-
Index" cuyo valor está en función de un promedio geométrico
de las monedas de los seis (6) principales socios comerciales de
EE. UU.
Media geométrica ( xg )
a) Obtención Se obtiene extrayendo la raíz enésima
del producto de los n valores de una serie.

xg  n X1 * X 2 * X 3 * ...X n
Ejemplo
La siguiente tabla muestra la tasa de aumento en los precios
de los bienes y servicios (inflación) transados en el Distrito
de Acarí durante los meses indicados. Calcula e interpreta la
tasa media mensual de la inflación.
Meses Enero Febrero Marzo Abril Mayo
Aumento de
2.6% 5.4% 3.8% 0.5% 1.4%
precios

La tasa 2,6% del mes de enero también se puede


expresar como 0,026; y se refiere a un aumento a partir
de una base de 100%, el factor de variación Dic. a Ene.
será 1,026. Para los otros datos se opera de igual
manera.
Ejemplo...
b) Cálculos
xg  n (1  x 1 ) * (1  x 2.) * ...(1  xn )
x g  5 (1.026) (1.054) (1.038) (1.005)(1.014)

x g  1,0272540 (Factor de crecimiento medio)

Tasa media
= (x g  1) 100
de variación

= (1,0272540 - 1) x 100 = 2,72%


Ejemplo...

c) Interpretación

Si se selecciona al azar un mes comprendido


entre enero y mayo, se espera que los precios
en promedio se hayan incrementado en 2,72%
con respecto al mes anterior.
Media geométrica...
Otro uso de la media geométrica es determinar
el porcentaje promedio del incremento en ventas,
producción u otros negocios o series
económicas de un periodo a otro. La fórmula es:

MG  n (vn ) / (v1 ) 1
Donde:
Vn = Valor en el periodo n (final)
V1 = Valor en el periodo 1 (inicial)
n = Número de periodos
Ejemplo: El número total de mujeres
matriculadas en el sistema universitario
aumentó de 755 000 el 31-12-06 a 835 000 el
31-12-15 ¿Cuál es la tasa de crecimiento
promedio anual? Rpta. 1,125%.
Ejercicio
El Banco Opus Gay remunera los Depósitos a Plazo a 720
días con 10% el primer año (TREA-360) y 2% (TREA-360)
el segundo año.
a) Pancracia deposita S/10 000 ¿cuánto retirará dentro
de dos años?
b) Encuentra la tasa promedio anual.
c) Con la tasa promedio hallada completa el siguiente
cuadro:

Saldo al inicio de Saldo al final del


Intereses
año año

(Año1) 10000
(Año 2)
Media armónica ( x)h
Se usa cuando los datos están en progresiòn armónica (Cuando sus
recíprocos estàn en progresión aritmética)
Se emplea la media armónica para obtener un valor representativo de
un conjunto de datos expresados en forma de tasas o proporciones, por
ejemplo velocidad y aceleración media, el tiempo medio para realizar
el ensamblaje de motos Honda (12 minutos aproximadamente).
Permite obtener promedios de valores que están en relación inversa
como la velocidad y el tiempo.
En general se utilizan para obtener promedios de un conjunto de
valores expresados en forma de tasas de unidades de un tipo por
unidades de otro tipo.

a) Se obtiene calculando el inverso de la media aritmética de los


inversos de una serie.
1
xh  n 1

i 1
X
i
n
Asimetría (sesgo, Sknewness)

• Una distribución es simétrica si la


mitad izquierda de su distribución es
la imagen especular de su mitad
derecha.

• En las distribuciones simétricas


media y mediana coinciden. Si solo
hay una moda también coincide.

• La asimetría es positiva (o a la dere-


cha) o negativa (o a la izquierda) en
función de a qué lado se encuentra la
cola de la distribución.

• La media tiende a desplazarse hacia


las valores extremos (colas).

• Las discrepancias entre las medidas


de centralización son indicación de
asimetría.
1. Índice (Coeficiente) de asimetría según Karl Pearson

Está basado en la relación entre la media y la moda en


distribuciones simétricas y asimétricas:

Media:
X  Mo
As  Moda:
sx Mediana:
Desviación estándar:

Nota: Constituyen el primer y segundo coeficiente de asimetría de Pearson


respectivamente
Apuntamiento, curtosis, kurtosis, concentración central
• Las curvas simétricas se caracterizan por su curtosis. La curtosis, grado
de agudeza, “apicamiento”, indica el grado de apuntamiento
(aplastamiento) de una distribución simétrica con respecto a la
distribución normal o gaussiana (distribución campaniforme y simétrica).
Es adimensional.
• Platicúrtica: curtosis < 0 (menos apuntada que la normal)
• Mesocúrtica: curtosis = 0 (igual que la normal)
• Leptocúrtica: curtosis > 0 (más apuntada que la normal)
Los siguientes gráficos poseen la misma μ y σ2 , pero diferente grado de
apuntamiento. 300 400

160

140 300

200
120

200
100

100
80 Frecuencia 100
Frecuencia

60

0 0
40 27 37 45 53 61 69 77 85 93 3 27 37 47 57 67 77 87 97 108
45 48 51 54 57 60 63 66 69 72 75 78 81 84 16 32 42 52 62 72 82 92 102 138
32 41 49 57 65 73 81 89 99

Platicúrtica
Mesocúrtica Leptocúrtica
Curtosis
Índice de curtosis de Fisher, coeficiente de exceso de curtosis

Para una distribución normal (mesocúrtica) se sabe que:


n

 i
( X  X ) 4
n
i 1
4
3
s x

Y esta será la referencia para el índice de curtosis:


n

 i
( X  X ) 4
n
C r i 1
4
3
s x
Medidas de dispersión (variabilidad, spread)
Miden el grado de dispersión (variabilidad) de los datos,
independientemente de su causa. Ejemplo:
Un conjunto de átomos de una sustancia con una
media de velocidades 0, no cabe concluir que los
miembros del sistema están quietos.
Ello implicaría que la substancia se encontraría
cerca del cero absoluto. Con una media de 0
podemos tener desde un sólido cristalizado hasta un
gas muy caliente.
La variable que determinará en qué estado de
agitación térmica se encuentran los átomos del
sistema será la dispersión de velocidades.
Medidas de dispersión (variabilidad)

•Amplitud o Rango (‘range’):


Diferencia entre las
observaciones extremas.
– 2; 1; 4; 3; 8; 4. El rango es 8 – 1 = 7
– Es muy sensible a los valores
extremos.
•Rango intercuartílico (‘interquartile range’):
– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
– Parecida al rango, pero eliminando las observaciones más
extremas inferiores y superiores.
– No es tan sensible a valores extremos.
VARIANZA Y DESVIACIÓN ESTÁNDAR PARA UNA POBLACIÓN

Varianza σ2, desvío medio cuadrático, variance: Mide el


promedio de las desviaciones (al cuadrado) de las observa-
ciones con respecto a la media.

x
2
1
   ( x  µ)
2
i
2
  2 i
i
 2

n i
n
– Es sensible a valores extremos (alejados de la media).
– Sus unidades son el cuadrado de las de la variable.
Desviación típica, desvío estándar, error estándar, dispersión
absoluta (‘standard deviation’).
Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad
(unidades) que la variable.

  2
VARIANZA PARA UNA MUESTRA

1
S   ( x  x)
2
i
2

n i

Esta expresión de cálculo de la varianza muestral no se utiliza


mucho pues sus valores tienden a ser menores que el de la
auténtica varianza de la variable (debido a que la propia
media muestral tiene una varianza que vale un enésimo de la
de las observaciones).
Para compensar esta deficiencia y obtener valores que no
subestimen la varianza poblacional (cuando estamos
interesados en ella y no en la varianza muestral) utilizaremos
una expresión, esencialmente igual que la anterior salvo que
el denominador está disminuido en una unidad.
Para n >= 30 restar 1 de n implica muy poca diferencia.
1
S 
2

n1 i
( xi  x ) 2

S S 2
VARIANZA PARA UNA MUESTRA...

¿Por qué se divide entre n-1 en lugar de n en la varianza muestral


(corrección de Bessel)?
Esto se debe a que se utilizan muestras de una población.
Por lo tanto, aquí se aplica estadística inferencial, la cual trata con
muestras extraídas de poblaciones que son demasiado grandes para
mediar de forma directa y por lo tanto, se utilizan valores de muestras
para hacer inferencias acerca de los valores correspondientes de la
población.
Comúnmente se utiliza la varianza muestral como un estimado de una
varianza poblacional desconocida.
Si se utiliza n en el denominador de la varianza muestral tenderá a
subestimar la varianza poblacional.
Por lo tanto, al utilizar n-1 en la varianza muestral se obtiene una mejor
estimación de la varianza poblacional.
Ejemplos de uso
Tasa de desnutrición: porcentaje de niños menores de cinco años con
una desviación estándar de talla mayor a dos por debajo de la norma
internacional ajustada correspondiente a su edad.
Varianza para datos agrupados

donde:

x : media muestral
f i : frecuencia absoluta de la clase i
MCi : marca de clase i
Medidas de variabilidad con respecto a la media

Se tienen los siguientes promedios finales correspondientes


a los alumnos de las secciones: a, b, c, d y e de la
asignatura XXX. Hallar la media(X) y la desviación
estándar(S).
I) Promedios Finales Media D.S.P.
Sist. 14 16 16 16 16 18 (a) 16.0 1.1547
10 12 19 20 15 20 (b) 16.0 3.95811
vigesimal 15 14 15 15 15 15 (c) 14.8 0.37268

Sist. 70 80 80 80 80 90 (d) 80.0 5.7735


centesimal 40 80 80 80 80 90 (e) 75.0 16.0728

II) Si las notas fueran una muestra Media D.S.M.


Vigesimal 14 16 16 16 16 18 (a) 16.0 1.26491
Centesimal 70 80 80 80 80 90 (d) 80.0 6.32456
Propiedades de la varianza

a) La varianza es un número no negativo.

b) Si todos los datos son iguales a una constante c, su varianza


es igual a 0. En este caso la media es igual a c. No hay
dispersión.

c) Si a cada uno de los datos x1, ... ,xn se les suma una constante
b, entonces la varianza de los datos transformados: x1 + b, ...
,xn + b es igual a la varianza de los datos originales.
Propiedades de la varianza...

d) Si a cada uno de los datos x1, ... ,xn se


les multiplica por una constante k, entonces
la varianza de los datos transformados: kx1,
... , kxn es igual a la varianza de los datos
originales multiplicada por el cuadrado de
la constante. Esto es, si la varianza de los
datos originales es s2 entonces la varianza
de los datos transformados es k2s2.
Propiedades de la varianza...
e) Si el conjunto de m datos de una submuestra:
x1, ...,xm tiene media x y varianza s 2x , mientras que
la submuestra de n datos y1, ... ,yn tiene media y y
varianza s 2y , entonces el conjunto de datos x1, ...
xm, y1, ... ,yn tiene varianza:

ms 2x  ns 2y m n
s2   ( x  M )2  ( y  M )2 ,
mn mn mn

en donde M es la media de la submuestra x1, ...,xm,


y1, ... ,yn.

Si las medias x e y son iguales, entonces:


ms 2  ns 2
x y
s2 
mn
Coeficiente de variación, dispersión relativa, variabilidad relativa,
Coeficiente de variabilidad de Pearson, coefficient of variation
S
CV 
x

CV 


• Es la razón entre la desviación típica y la media.
– Mide la desviación típica en forma de “qué tamaño tiene con respecto a la
media”.
– Son poco robustos
– Es frecuente mostrarla en porcentajes:
• Si la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
• Otros coef.: Coeficiente de variación cuartílico
Ejercicio:

Las medidas tomadas con un micrómetro al diámetro de


una producción de cojinetes, tienen una media de 3,98
mm y una desviación estándar de 0,014 mm, mientras
que las medidas tomadas a otra muestra de resortes sin
extender, tienen una media de 1,59 in y una desviación
estándar de 0,009 in. ¿Qué grupo de objetos tiene una
mayor variabilidad?
CV1 = (0,014 / 3,98) x 100% = 0,35%
CV2 = (0,009 / 1,59) x 100% = 0,57%
Caso bivariado. Se quiere estudiar si hay relación entre el estado civil y la
preferencia por programas de TV. Para el efecto se entrevistaron a seis
personas con los resultados mostrados a continuación:
Covarianza

 Es una estadística que mide el grado de dispersión o variabilidad


conjunta de dos variables X e Y (variables bivariantes) con respecto
a sus respectivas medias. Cov(X,Y) = Cov(Y,X) = 𝛔XY
 Es útil para describir el comportamiento de una variable en relación
con otra.
 Aporta una idea muy burda de la relación entre X y Y. Solo interesa
su signo algebraico, no su magnitud, a diferencia de la varianza que
solo es positiva. Las unidades son al cuadrado ((m3)2, Soles2, etc.). En
cambio el coeficiente de correlación se expresa en las mismas
unidades del caso en análisis.
 Si Cov(X,Y) > 0 indica que valores altos de X se relacionan con
valores igualmente altos de Y, y viceversa.
 Si Cov(X,Y) = 0 implica que si X asume un valor más alto que su
media no indica algo sobre el valor de Y en relación con su media.
Matriz de covarianza. Es una matriz que contiene la covarianza entre los
elementos de un vector. Es la generalización natural a dimensiones
superiores del concepto de varianza de una variable aleatoria escalar (no
necesitan mas que un valor y unidad para definirse. Ejemplos son,
masa(Kg), Temperatura(C°), etc.)
Cálculo de covarianza y coeficiente de correlación

Covarianza n
medida de
variabilidad conjunta.   y  y x  x 
i i
No tiene límite
superior o inferior, Cov( x, y )  i 1
depende de las n
unidades en que se
mida
Coeficiente de Cov( y, x)
r
Correlación
(Pearson)
Var ( y)Var ( x) 
Covarianza estandarizada. Varía entre -1 y +1
Ejercicio.
La acción común de la Constructora Thiago Casas (T) tiene una
rentabilidad esperada del 10% y una desviación estándar del 5%
anual. La acción común de la Inmobiliaria Armando Paredes (A)
tiene una rentabilidad esperada del 20% y una desviación
estándar del 60% anual.
a) ¿Cuál es la rentabilidad esperada de una cartera que se
compone de 40% del título T y 60% del título A?

b) ¿Cuál es la covarianza de las rentabilidades de T y A si el


coeficiente de correlación (ρ) entre T y A es de 0,5?

c) Interpreta Cov(T,A).
Tipificación o Transformación Z (Valor estandarizado, unidad
tipificada, variable centrada reducida, variable
estandarizada o normalizada)
Las puntuaciones típicas son el resultado de dividir las puntuaciones
diferenciales (restar la media) entre la desviación típica. Este
proceso se llama tipificación.
Dada una variable de media μ y desviación típica σ, se denomina
valor tipificado z, de una observación X, a la distancia (con signo)
con respecto a la media, medido en desviaciones típicas, es decir:
X
z

Cuando se necesite comparar valores observados que pertenecen
a diferentes distribuciones de datos, las que difieren en su media
aritmética o en su varianza, o difieren en el tipo de unidad de
medida, se usa el valor estándar Z.
El "puntaje Z", también llamado "puntaje estándar", es la medida
estadística de “qué tan lejos está una observación particular de la
desviación estándar".
Ejemplo. Laura Boso saca una puntuación de 85 en un examen cuyas
puntuaciones tienen una media de 79 con una desviación típica de 8. Elba
Boso saca 74 en un examen cuyas puntuaciones tienen una media de 70 y
desviación estándar de 5 ¿Cuál de las dos obtuvo una puntuación mejor?

Desde el punto de vista de la "unidad tipificada" í:


Las puntuaciones tipificadas de Laura y Elba son respectivamente:

Elba obtuvo mejor puntuación relativa, aunque su puntuación de 74 es


inferior a 85.
Ejercicio. El cuadro de pagos de dos empresas constructoras
en la semana pasada se muestra a continuación:

C. Manos a la C. La Vida
Parámetros
Urbe en Concreto
Salario medio S/.963 S/.972
Desviación típica S/.26 S/.28
a) ¿En cuál de las dos constructoras los salarios presentan
mayor variabilidad?
b) Alba Boso recibe de ambas empresas una oferta salarial
por S/468, ¿en cuál de las constructoras tendrá una
mejor posición relativa?
c) Si mejoran la oferta salarial en S/1468, ¿en cuál de las constructoras
Alba tendrá una mejor posición relativa?
Medidas de variabilidad con respecto a la media

Caso: Se tienen los siguientes promedios finales correspondientes a los alumnos de las secciones: a, b,
c, d y e de la asignatura XXX. Hallar la: media(X), desviación estándar(S), coeficiente de
variabilidad(CV) y variable normal estandarizada (Z). Explicar su uso.

S i
e ó
c n
I) Compara S y CV Promedios Finales c Media D.S.P. CV
Sistema 14 16 16 16 16 18 (a) 16.0 1.15470054 0.07217
10 12 19 20 15 20 (b) 16.0 3.95811403 0.24738
vigesimal 15 14 15 15 15 15 (c) 14.8 0.372678 0.02512

Sist. 70 80 80 80 80 90 (d) 80.0 5.77350269 0.07217


Centesimal 40 80 80 80 80 90 (e) 75.0 16.0728 0.2143

II) Quién destaca más: el alumno con 18 o con 90? Z


Vigesimal 14 16 16 16 16 18 (a) 16.0 (18) 1.73205
Centesimal 40 80 80 80 80 90 (e) 75.0 (90) 0.93326

Vigesimal 14 16 16 16 16 18 (a) 16.0 (18) 1.73205


Centesimal 70 80 80 80 80 90 (d) 80.0 (90) 1.73205

III) Si las notas fueran una muestra Media D.S.M. CV Z


Vigesimal 14 16 16 16 16 18 (a) 16.0 1.26491106 0.07906 1.58114
Centesimal 70 80 80 80 80 90 (d) 80.0 6.32455532 0.07906 1.58114
Tiempos de embolsado de
Maca de la Pirinaca (en
min)
de 1/4 kg de 1 kg
0.92 4.52
0.98 4.35
1.04 4.60
0.90 4.70
0.99 4.50
Media arit. 0.966 4.534
S 0.050 0.116
CV 5.22% 2.56%
Teorema de Chebyshev (Tchebyshev, desigualdad de Ch., regla de
Ch)

Para cualquier conjunto de datos con media y desviación estándar


muestral s, la proporción de datos comprendidos en el intervalo  - ks,
+ ks, es mayor o igual a [1 – (1/k2)]. Donde k > 1.

Por ejemplo en el intervalo  - 2s, + 2s por lo menos hay el 75% de


los datos, en el intervalo  - 3s; + 3s por lo menos hay el 89% de los
datos.
Ejemplo

La media de los pesos de las bolsas de maca de la pirinaca es


igual a 15,1333 kg y la desviación estándar es 2,8952 kg.

En el intervalo 9,3429 - 20,9237, que tiene la media como centro


y dos desviaciones estándar muestrales como radio, existe, según
Chevyshev, por lo menos el 75% de los datos.
Ejemplo

Los N datos correspondientes a la producción diaria de gasolina de la


planta “El Perreo” tienen una media aritmética de 150 000 galones con
una desviación estándar de 1000 gal.

Hallar la proporción de días cuya producción de gasolina está


comprendida entre 148 000 y 152 000 gal.
Veliz 54FII
Propuesta de Solución

El intervalo 148 000, 152 000 corresponde a  - ks, + ks con μ =


150000; s = 1000 y k = 2.

Aplicando la propiedad de Chebyshev con k = 2, se tiene que la


proporción de días cuya producción está en el intervalo indicado es
por lo menos igual a:

1 – (1/k2) = 0,75.
Regla empírica para datos
En una distribución de probabilidad acampanada (forma de montículo) y
más o menos simétrica se cumple que:
Ejercicio. El CPC José Papaffava realizó un muestreo en el Depósito de
Materiales de Construcción PO11 sobre el número de días que permanecen en el
almacén 200 bolsas de cemento Portland Tipo III (Alta resistencia inicial, como
cuando se necesita que la estructura de concreto reciba carga lo antes posible o
cuando es necesario desencofrar a los pocos días del vaciado). Los datos son:

Permanencia
1-3 4-6 7-9 10 - 12 13 - 15 16 - 18 19 - 21 22 - 24
(en días)
N° de bolsas 24 83 52 22 11 5 2 1

a) Determina la media, moda y la desviación típica.


b) Según el teorema de Chebyshev ¿Cuántas bolsas fluctuarán entre 1 y 15
días en el almacén?¿Cuántas se hallan realmente en ese intervalo?
c) Considerando que la distribución tiene aproximadamente la forma de
campana ¿Cuántas bolsas cabe esperar que hayan permanecido en el
almacén entre 1 y 15 días?
MEDIDAS DE CONCENTRACIÓN
Las medidas de concentración tratan de poner de relieve el mayor o
menor grado de igualdad en el reparto del total de los valores de la
variable, son por tanto indicadores del grado de distribución de la
variable.
Para este fin, están concebidos los estudios sobre concentración.
Denominamos concentración a la mayor o menor equidad en el reparto
de la suma total de los valores de la variable considerada (renta, salarios,
etc.).
Las infinitas posibilidades que pueden adoptar los valores, se encuentran
entre los dos extremos:
1.- Concentración máxima, cuando uno solo percibe el total y los demás
nada, en este caso, nos encontraremos ante un reparto no equitativo:
x1 = x2 = x3 = ………… = xn-1 = 0 y xn (perfecta desigualdad)
2.- Concentración mínima, cuando el conjunto total de valores de la
variable está repartido por igual, en este caso diremos que estamos ante
un reparto equitativo
x1 = x2 = x3 = ………… = xn-1 = xn (perfecta igualdad)
Algunas medidas de concentración:
Indice de Gini, Coeficiente, por tanto será un valor numérico.
Curva de Lorenz, gráfico, por tanto será una representación en ejes
coordenados.

Potrebbero piacerti anche