Apunte Estadistica Aplicada 2017

UNIVERSIDAD ARTURO PRAT – IQUIQUE CHILE Pág.
Nº 1
UNIDAD I. ESTADISTICA DESCRIPTIVA
1) INTRODUCCIÓN
Se han planteado muchas definiciones de la estadística, algunas caracterizando la

estadística como ciencia, y otras como metodología. Con fines estrictamente
académicos daremos la siguiente definición.
Estadística
Es un conjunto de técnicas para:
Recopilar,
Organizar (clasificar, agrupar),
Presentar y
Analizar datos con el fin de describirlos o de realizar inferencias válidas
De acuerdo a esta definición.
𝐄𝐬𝐭𝐚𝐝í𝐬𝐭𝐢𝐜𝐚 𝐃𝐞𝐬𝐜𝐫𝐢𝐩𝐭𝐢𝐯𝐚
𝑳𝐚 𝐄𝐬𝐭𝐚𝐝í𝐬𝐭𝐢𝐜𝐚 𝐬𝐞 𝐜𝐥𝐚𝐬𝐢𝐟𝐢𝐜𝐚 𝐞𝐧 {
𝐄𝐬𝐭𝐚𝐝í𝐬𝐭𝐢𝐜𝐚 𝐈𝐧𝐟𝐞𝐫𝐞𝐧𝐜𝐢𝐚𝐥
Estadística Descriptiva
Es un conjunto de técnicas para: describir, mostrar o presentar datos a través de

tablas, gráficos y medidas estadísticas.
Estadística Inferencial
Es un conjunto de técnicas para: inferir los resultados obtenidos en la muestra hacia

la población de la cual fue extraída.
NOTA: Estas dos partes de la estadística no son mutuamente excluyentes, ya que,

para utilizar las técnicas de la inferencia estadística, se requiere conocer las técnicas
de la estadística descriptiva.
ESTADISTICA APLICADA. JUAN ZAMBRANO CHALLAPA. 2017

UNIVERSIDAD ARTURO PRAT – IQUIQUE CHILE Pág. Nº 2
2) CONCEPTOS BÁSICOS INICIALES
(1) Dato estadístico (o información estadística)
Es cualquier dato que se puede comparar, analizar e interpretar
Ejemplo:
Si lanzamos 5 veces una moneda, obtenemos 5 datos: cara, cara, sello, cara,
sello.
Pero los valores son sólo dos: cara y sello
(2) Población
Es el conjunto de todos los datos con características comunes.
Al número de datos de la población se le llama “N” (tamaño poblacional).
𝐅𝐢𝐧𝐢𝐭𝐚
𝑳𝐚 𝐩𝐨𝐛𝐥𝐚𝐜𝐢ó𝐧 𝐩𝐮𝐞𝐝𝐞 𝐬𝐞𝐫 {
𝐈𝐧𝐟𝐢𝐧𝐢𝐭𝐚
(3) Muestra
Es un subconjunto representativo de la población.
Al número de datos de la muestra se le llama “n” (tamaño muestral).
(4) Unidad de análisis
Es cada uno de los objetos sobre los que se realiza la observación de una o más
variables. Son los sujetos u objetos de estudio
(5) Variable
Es cada una de las características que poseen los objetos. Se denotan con las
letras X, Y, Z, etc.
𝐍𝐨𝐦𝐢𝐧𝐚𝐥
𝑪𝒖𝒂𝒍𝒊𝒕𝒂𝒕𝒊𝒗𝒂 {
𝐎𝐫𝐝𝐢𝐧𝐚𝐥
𝑳𝒂𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒔𝒆 𝒄𝒍𝒂𝒔𝒊𝒇𝒊𝒄𝒂𝒏 𝒆𝒏
𝐃𝐢𝐬𝐜𝐫𝐞𝐭𝐚
𝑪𝒖𝒂𝒏𝒕𝒊𝒕𝒂𝒕𝒊𝒗𝒂 {
{ 𝐂𝐨𝐧𝐭𝐢𝐧𝐮𝐚

(1) Variable cualitativa
Son aquellas que expresan una cualidad o atributo, sus datos se expresan
mediante palabras.
Ejemplos: Género, Estado Civil; Profesión; Nivel Educacional; Causas de

Accidentes; etc.
(1.1) Variable cualitativa nominal
Es aquella cuando se definen categorías y se cuenta el número de

datos pertenecientes a cada categoría y no lleva ninguna ordenación
en las posibles modalidades
Ejemplos:
 Género: femenino y masculino

 Color de ojos: negro, azul, verde, etc.
 Partidos políticos: DC, PPD, RN, UDI, PS, etc
 Profesiones: Profesor, Ingeniero, Médico, etc.
(1.2) Variable cualitativa ordinal
Es aquella cuando el investigador ordena sus casos en términos del

grado que posee una determinada característica.
Ejemplos:
 Resultado en un examen: reprobado, aprobado, notable,

sobresaliente.
 Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, …
 Clase social: Alta, media y baja
 Nivel educacional: Básica, media y universitaria
 Medallas de una prueba deportiva: oro, plata, bronce. Etc.

(2) Variable cuantitativa
Es aquella cuando el valor de la variable se expresa por una cantidad, es de

carácter numérico.
Ejemplos: Número de hijos por trabajador; edad, tiempo de servicios; etc.
(2.1) Variable cuantitativa discreta
Es aquella cuyo valor se obtiene por conteo, su valor está

representado sólo por números enteros positivos
Ejemplo: Número de hijos por trabajador, número de accidentes por

día, número de trabajadores por empresas, etc.
(2.2) Variable cuantitativa contínua
Es aquella cuyo valor se obtiene por medición, es decir, dentro de un

rango dado puede tomar cualquier valor.
Ejemplo: Edad, peso, estatura, tiempo de servicios, ingresos, etc.
(6) Parámetro
Es una medida de alguna característica en la población:
𝐌𝐞𝐝𝐢𝐚 𝐩𝐨𝐛𝐥𝐚𝐜𝐢𝐨𝐧𝐚𝐥 ∶ 𝛍
𝐕𝐚𝐫𝐢𝐚𝐧𝐳𝐚 𝐩𝐨𝐛𝐥𝐚𝐜𝐢𝐨𝐧𝐚𝐥 ∶ 𝛔𝟐
𝑳𝒐𝐬 𝐏𝐚𝐫á𝐦𝐞𝐭𝐫𝐨𝐬 𝐦á𝐬 𝐮𝐬𝐚𝐝𝐨𝐬 𝐬𝐨𝐧
𝐃𝐞𝐬𝐯𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐬𝐭á𝐧𝐝𝐚𝐫 𝐩𝐨𝐛𝐥𝐚𝐜𝐢𝐨𝐧𝐚𝐥: 𝛔 (𝐬𝐢𝐠𝐦𝐚)
{ 𝐏𝐫𝐨𝐩𝐨𝐫𝐜𝐢ó𝐧 𝐩𝐨𝐛𝐥𝐚𝐜𝐢𝐨𝐧𝐚𝐥 ∶ 𝐏
(7) Estadígrafo
Es una medida de alguna característica en la muestra:
𝐌𝐞𝐝𝐢𝐚 𝐦𝐮𝐞𝐬𝐭𝐫𝐚𝐥: 𝐱 (𝐱 𝐛𝐚𝐫𝐫𝐚)
𝐕𝐚𝐫𝐢𝐚𝐧𝐳𝐚 𝐦𝐮𝐞𝐬𝐭𝐫𝐚𝐥: 𝐬𝟐
𝐋𝐨𝐬 𝐄𝐬𝐭𝐚𝐝í𝐠𝐫𝐚𝐟𝐨𝐬 𝐦á𝐬 𝐮𝐬𝐚𝐝𝐨𝐬 𝐬𝐨𝐧
𝐃𝐞𝐬𝐯𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐬𝐭á𝐧𝐝𝐚𝐫 𝐦𝐮𝐞𝐬𝐭𝐫𝐚𝐥: 𝐬
{𝐏𝐫𝐨𝐩𝐨𝐫𝐜𝐢ó𝐧 𝐦𝐮𝐞𝐬𝐭𝐫𝐚𝐥: 𝐩

3) DISTRIBUCIÓN DE FRECUENCIAS (O TABLA)
Es una tabla que divide un conjunto de datos en un número adecuado de “clases”.
Se utilizan para presentar los datos obtenidos en alguna investigación en forma clara
y ordenada. Son auto-explicativas
¿ 𝐐𝐮é?
¿ 𝐃ó𝐧𝐝𝐞?
𝐓í𝐭𝐮𝐥𝐨 {
¿ 𝐂ó𝐦𝐨?
¿ 𝐂𝐮á𝐧𝐝𝐨?
𝑷𝐚𝐫𝐭𝐞𝐬 𝐝𝐞 𝐮𝐧𝐚 𝐃𝐢𝐬𝐭𝐫𝐢𝐛𝐮𝐜𝐢ó𝐧 𝐝𝐞 𝐟𝐫𝐞𝐜𝐮𝐞𝐧𝐜𝐢𝐚 𝐂𝐮𝐞𝐫𝐩𝐨
𝐂𝐮𝐚𝐝𝐫𝐨 {𝐄𝐧𝐜𝐚𝐛𝐞𝐳𝐚𝐦𝐢𝐞𝐧𝐭𝐨
𝐂𝐨𝐥𝐮𝐦𝐧𝐚 𝐦𝐚𝐭𝐫𝐢𝐳
𝐈𝐧𝐝𝐢𝐜𝐚𝐜𝐢𝐨𝐧𝐞𝐬 𝐅𝐮𝐞𝐧𝐭𝐞
{𝐍𝐨𝐭𝐚
{𝐜𝐨𝐦𝐩𝐥𝐞𝐦𝐞𝐧𝐭𝐚𝐫𝐢𝐚𝐬
𝐂𝐨𝐦𝐞𝐧𝐭𝐚𝐫𝐢𝐨
(1) El Titulo. Es la indicación que se coloca en la parte superior de la misma y debe

responder a las preguntas:
¿Qué son los datos incluídos en el cuerpo de la tabla?
¿Dónde está el área representada por los datos?
¿Cómo están los datos clasificados?
¿Cuándo ocurrieron los datos?
(2) El cuerpo. Está formado por un conjunto de filas y columnas que contienen
respectivamente, las series horizontales y verticales de información.
(3) El encabezamiento. Es la parte de la tabla en que se indica la naturaleza del

contenido de cada columna. Estos al igual que los títulos deben ser breves, pero
suficientemente explícitos.
(4) Columna Matriz. Es la parte de la tabla en que es designada la naturaleza (las

categorías, las modalidades de la variable) del contenido de cada fila.

(5) Indicaciones complementarias.
(a) Fuente: Es el indicador de la entidad responsable de donde se obtuvieron los

datos.
(b) Notas: Son colocadas al pie del cuadro para esclarecimientos de orden
general.
(c) Comentarios. También colocadas al pie del cuadro, sirven para aclarar
minucias en relación a las celdas, columnas, filas.
Ejemplo
Formas genéricas:
Formato de una Distribución de frecuencias para Variable Cualitativa
Categorías de la Variable Frecuencia Absoluta Frecuencia Relativa

X (FA) (FR)
𝒄𝒊 𝐧𝐢 𝐧𝐢
𝐟𝐢 =
𝐧
𝒄𝟏 𝑛1 𝑓1
𝒄𝟐 𝑛2 𝑓2
  
𝒄𝑴 𝑛𝑀 𝑓𝑀
Total 𝑛 1

Formato de una Distribución de frecuencias para Variable Cuantitativa Discreta
Frecuencia Frecuencia Frecuencia Frecuencia

Valor de la Absoluta Relativa Absoluta Relativa
Variable Acumulada Acumulada
X (FA) (FR) (FAA) (FRA)
𝑥𝑖 𝑛𝑖 𝑛𝑖 𝒊 𝒊
𝑓𝑖 =
𝑛 𝑵𝒊 = ∑ 𝒏 𝒋 𝑭𝒊 = ∑ 𝒇𝒋
𝒋=𝟏 𝒋=𝟏
𝑥1 𝑛1 𝑓1 𝑵𝟏 = 𝒏 𝟏 𝑭𝟏 = 𝒇𝟏
𝑥2 𝑛2 𝑓2 𝑵𝟐 = 𝒏 𝟏 + 𝒏 𝟐 𝑭𝟐 = 𝒇𝟏 + 𝒇𝟐
⋮ ⋮ ⋮ ⋮⋮ ⋮
𝑥𝑀 𝑛𝑀 𝑓𝑀 𝑵𝑴 = 𝒏 𝟏 + ⋯ + 𝒏 𝑴 = 𝒏 𝑭 𝑴 = 𝒇 𝟏 + ⋯ + 𝒇 𝑴 = 𝟏
Total 𝑛 1
Formato de una Distribución de frecuencias para Variable Cuantitativa Continua
Intervalo de Marca de Frecuencia Frecuencia Frecuencia Frecuencia

Clase de Clase de Absoluta Relativa Absoluta Relativa
la variable la variable Acumulada Acumulada
(FA) (FR) (FAA) (FRA)
𝐼𝑖 = [𝐿𝐼𝑖 ; 𝐿𝑆𝑖 ] 𝐿𝐼𝑖 + 𝐿𝑆𝑖 𝑛𝑖 𝑖 𝑖

𝑦𝑖 = ni 𝑓𝑖 =
2 𝑛 𝑁𝑖 = ∑ 𝑛𝑗 𝐹𝑖 = ∑ 𝑓𝑗
𝑗=1 𝑗=1
𝐼1 𝑦1 𝑛1 𝑓1 𝑁1 = 𝑛1 𝐹1 = 𝑓1
𝐼2 𝑦2 𝑛2 𝑓2 𝑁2 = 𝑛1 + 𝑛2 𝐹2 = 𝑓1 + 𝑓2
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝐼𝑀 𝑦𝑀 𝑛𝑀 𝑓𝑀 𝑁𝑀 = 𝑛1 + ⋯ + 𝑛𝑀 = 𝑛 𝐹𝑀 = 𝑓1 + ⋯ + 𝑓𝑀 = 1
Total 𝑛 1
Donde:
 𝒄𝒊 : Indica las distintas categorías que toma la variable X, 𝑖 = 1, 2, … , 𝑀
 𝒙𝒊 : Indica los distintos valores que toma la variable X, 𝑖 = 1, 2, … , 𝑀
 𝒚𝒊 : Indica las distintas marcas de clase de la variable Y, 𝑖 = 1, 2, … , 𝑀

 𝑰𝒊 : Indica los distintos intervalos de clase (o clase) de la variable Y, 𝑖 = 1, 2, … , 𝑀
 𝑳𝑰𝒊 : Límite inferior i; 𝑖 = 1, 2, … , 𝑀
 𝑳𝑺𝒊 : Límite superior i; 𝑖 = 1, 2, … , 𝑀
Estos intervalos pueden ser de la forma:
𝑰𝒊 = [𝑳𝑰𝒊 ; 𝑳𝑺𝒊 [ ó [𝑥𝑚𝑖𝑛 + (𝑖 − 1) ∙ 𝐴 ; 𝑥𝑚𝑖𝑛 + 𝑖 ∙ 𝐴[ ó 𝑥𝑚𝑖𝑛 + (𝑖 − 1) ∙ 𝐴 − 𝑥𝑚𝑖𝑛 + 𝑖 ∙ 𝐴
Tipos de frecuencias
(1) Frecuencia absoluta (𝑭𝑨 = 𝒏𝒊 )
Es el número de veces que aparece un determinado valor en un estudio

estadístico.
La suma de las frecuencias absolutas es igual a " n" , o sea:
𝑛1 + 𝑛2 + ⋯ + 𝑛𝑀 = ∑ 𝑛𝑖 = 𝑛
𝑖=1
(2) Frecuencia absoluta acumulada (𝑭𝑨𝑨 = 𝑵𝒊 )
Es la suma de las frecuencias absolutas de todos los valores inferiores o

iguales al valor considerado, o sea:
𝑁𝑖 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑖 = ∑ 𝑛𝑗
𝑗=1
(3) Frecuencia relativa (𝑭𝑹 = 𝒇𝒊 )
Es el cuociente entre la frecuencia absoluta de un determinado valor y el

número total de datos, o sea:
𝑛𝑖
𝑓𝑖 =
𝑛
La suma de las frecuencias relativas es igual a "1" , en efecto:
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑀 = ∑ 𝑓𝑖 = 1
𝑖=1

(4) Frecuencia relativa acumulada (𝑭𝑹𝑨 = 𝑭𝒊 )
Es el cociente entre la frecuencia absoluta acumulada de un determinado

valor y el número total de datos, o sea:
𝑖
𝑁𝑖
𝐹𝑖 = = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑖 = ∑ 𝑓𝑗
𝑛
𝑗=1
Ejemplo de Distribución Categórica

Género de los empleados de la empresa TBC, en el pueblo de HUATACONDO. Año 2017
Género Número de Empleados Porcentaje de Empleados
((Variable) (FA) (FR)
Femenino 19 47,5%
Masculino 21 52,5%
Total 40 100,0%
FUENTE: RRHH de Huatacondo, 2017
NOTA: Las cifras corresponden a una muestra hipotética
Ejemplo de distribución numérica discreta
Número de hijos de los empleados de la empresa TBC, en el pueblo de

HUATACONDO. Año 2017
Número Número de Porcentaje Número de Porcentaje de

de hijos empleados de empleados empleados
empleados acumulados acumulados
(Variable) (FA)
(FR) (FAA) (FRA)
0 4 10% 4 10%
1 11 27,5% 15 37,5%
2 12 30% 27 67,5%

3 11 27,5% 38 95%
4 2 5% 40 100%
Total 40 100,0%
FUENTE: RRHH de Huatacondo, 2017
Ejemplo de distribución numérica contínua

Edad de los empleados de la empresa TBC en HUATACONDO, año 2017
20 21 22 22 24 24 25 26 28 28
28 29 30 30 30 31 31 32 32 33
33 35 36 38 38 39 40 40 42 44
45 45 46 48 54 58 60 60 62 65
Construir la distribución de frecuencias adecuada.
Solución. La metodología es:
1º) Decidir cuántos intervalos usar, usaremos la regla de Sturges como

indicador:
𝒍𝒐𝒈(𝒏)
𝟏+ ≈ 𝟏 + 𝟑, 𝟑 ∙ 𝒍𝒐𝒈(𝒏) = 𝟏 + 𝟑, 𝟑 ∙ 𝒍𝒐𝒈(𝟒𝟎) = 𝟔, 𝟐𝟖𝟔𝟕𝟗𝟕𝟗𝟕 …
𝒍𝒐𝒈(𝟐)
Por lo tanto, el número de intervalos es: 𝑀 = 7
NOTA: la aproximación es al entero inmediatamente superior
2º) Calcular el rango o recorrido de los datos
𝑹 = 𝑽𝒂𝒍𝒐 𝒎á𝒙𝒊𝒎𝒐 − 𝑽𝒂𝒍𝒐𝒓 𝒎í𝒏𝒊𝒎𝒐 = 𝟔𝟓 − 𝟐𝟎 = 𝟒𝟓
3º) Calcular la amplitud común del intervalo, usaremos el indicador:
↑
𝑹 𝟒𝟓 ⏞ 𝟐𝟖𝟓𝟕𝟏𝟒𝟐𝟗 …
= = 𝟔, (𝟒)
𝑴 𝟕
Por lo tanto, la amplitud común es: 𝑨 = 𝟔, 𝟓 , ya que, los datos tienen cero
decimal. Y la amplitud deberá tener un decimal más que los datos

NOTA: Si la división no es exacta, la amplitud deberá tener un decimal más que

los datos y este decimal se aproxima hacia arriba
𝑹
Si la división es exacta, la amplitud es igual a 𝑴
4º) Determinar la forma de presentar los intervalos de clase
El primer límite inferior es igual al valor mínimo de los datos, o sea:
𝑰𝟏 = [𝑳𝑰𝟏 ; 𝑳𝑺𝟏 [ = [𝟐𝟎, 𝟎 ; 𝟐𝟎, 𝟎 + 𝟔, 𝟓[ = [𝟐𝟎, 𝟎 ; 𝟐𝟔, 𝟓[ y así sucesivamente, el

último intervalo es cerrado, o sea:
𝑰𝟕 = [𝑳𝑰𝟕 ; 𝑳𝑺𝟕 [ = [𝟓𝟗, 𝟎 ; 𝟔𝟓, 𝟓]
Edad de los empleados de la empresa TBC en HUATACONDO, año 2017
Edad Marca de Nº de Nº de empleados Porcentaje Porcentaje
(en años) Clase Empleados Acumulados De empleados De empleados
Acumulados
(Variable) (MC) (FA) (FAA) (FR) (FRA)
[20,0 ; 26,5[ 23,25 8 8 20,0 20,0
[26,5 ; 33,0[ 29,75 11 19 27,5 47,5
[33,0 ; 39,5[ 36,25 7 26 17,5 65,0
[39,5 ; 46,0[ 42,75 6 32 15,0 80,0
[46,0 ; 52,5[ 49,25 2 34 5,0 85,0
[52,5 ; 59,0[ 55,75 2 36 5,0 90,0
[59,0 ; 65,5] 62,25 4 40 10,0 100,0
TOTAL 40 100,0

Las clases también pueden ser escritas como:
Edad Edad
(en años) Otra forma (en años) En SPSS
20,0 – 26,5 20,0 – 26,4
26,5 – 33,0 26,5 – 32,9
33,0 – 39,5 33,0 – 39,4
39,5 – 46,0 39,5 – 45,9
46,0 – 52,5 46,0 – 52,4
52,5 – 59,0 52,5 – 58,9
59,0 – 65,5 59,0 – 65,5
Se lee por ejemplo:
𝑷𝒓𝒊𝒎𝒆𝒓 𝒊𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒐: 𝑫𝒆 𝟐𝟎 𝒉𝒂𝒔𝒕𝒂 𝒎𝒆𝒏𝒐𝒔 𝒅𝒆 𝟐𝟔, 𝟓 𝒂ñ𝒐𝒔
𝑺𝒆𝒈𝒖𝒏𝒅𝒐 𝒊𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒐: 𝑫𝒆 𝟐𝟔, 𝟓 𝒉𝒂𝒔𝒕𝒂 𝒎𝒆𝒏𝒐𝒔 𝒅𝒆 𝟑𝟑 𝒂ñ𝒐𝒔
4) PRESENTACIÓN DE LA INFORMACIÓN MEDIANTE GRÁFICOS

Los gráficos, son representaciones pictóricas auto-explicativas.
Estos dan una idea mucho más sintética que las “tablas”. Algunas veces su finalidad
es simplemente tratar de mostrar a otras personas la evolución de determinado
fenómeno, pues mientras que la interpretación de una “tabla” requiere ciertos
conocimientos, cualquiera puede comprender fácilmente que una línea ascendente
indica un aumento del fenómeno estudiado.
Al igual que en las “tablas”, en los gráficos se considera:
(1) El título
(2) El gráfico propiamente tal y
(3) Las notas explicativas

Algunos gráficos
(1) Gráfico de barras (para variables cualitativas o varialbles cuantitativas

discretas)
Se utiliza para representar distribuciones de frecuencias sin agrupar.
En el eje de las abscisas se colocan los distintos valores de la variable, y sobre

cada uno de ellos, se levanta una línea perpendicular de altura proporcional a la
frecuencia absoluta o la frecuencia relativa
(2) Histograma y polígono de frecuencias (para variables cuantitativas

continuas)
Se utilizan para representar distribuciones de frecuencias agrupadas en

intervalos
El histograma es un conjunto de rectángulos que tienen como base los intervalos

de clase (se colocan en el eje de las abscisas) y cuyas áreas son proporcionales
a las frecuencias absolutas o frecuencias relativas
El polígono de frecuencias, de menor interés que el histograma, es la poligonal

que une los puntos medios de las bases superiores de los rectángulos y se cierra
con el punto medio anterior y posterior al histograma.

(3) Polígono de frecuencias acumuladas (ojivas)
Se utiliza para representar distribuciones de frecuencias acumuladas agrupadas

en intervalos. En el eje de abscisas se representan los distintos intervalos de
clase. Sobre el extremo superior de cada intervalo de clase se levanta una línea
perpendicular de altura proporcional a la frecuencia absoluta acumulada del
intervalo. Partiendo del extremo inferior del primer intervalo y uniendo los
extremos de las líneas anteriores, se obtiene el polígono de frecuencias
acumuladas.
(4) Gráfico circular o de sector
Se utiliza para representar distribuciones de frecuencias cualitativas.
En el diagrama de sectores, cada carácter se representa por un sector circular

de área proporcional a la frecuencia absoluta del mismo, es decir:
𝜶𝒊 = 𝒇𝒊 ∙ 𝟑𝟔𝟎°

(5) Gráfico de Pareto
Se utiliza en Control de Calidad
Clasifica la cantidad y tipo de defectos que se presentan en un producto o en un

servicio. Recibe este nombre en honor al científico italiano del siglo XIX, Vilfredo
Pareto, quien observó que la mayor parte de la “actividad” en un proceso es
causada por una cantidad pequeña de “factores”. Su concepto, a menudo
denominado “regla 80-20”, es que “80% de la actividad es provocada por 20% de
los factores”. Si se concentran en este último dato, 20%, los gerentes pueden
resolver 80% del problema.
(6) Gráfico de caja y bigote (gráfico de los 5 números)
Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Suministra información sobre los valores mínimo y máximo, los percentiles P25,
P50, y P75, y sobre la existencia de valores atípicos y la asimetría de la distribución.

(7) Pictogramas; son figuras alusivas al tema
Resumen de Herramientas Gráficas
Usos de las herramientas gráficas

5) MEDIDAS ESTADÍSTICAS DE VARIABLES CUANTITATIVAS CONTINUAS

Una vez clasificados los datos originales, cuyas características más esenciales se
destacan, será necesario calcular un conjunto de estadísticas (indicadores) que
caractericen en forma algo más precisa la distribución que se está estudiando.
𝐌𝐞𝐝𝐢𝐚 𝐀𝐫𝐢𝐭𝐦é𝐭𝐢𝐜𝐚
𝐌𝐞𝐝𝐢𝐚 𝐆𝐞𝐨𝐦é𝐭𝐫𝐢𝐜𝐚
𝐂𝐞𝐧𝐭𝐫𝐚𝐥 {𝐏𝐫𝐨𝐦𝐞𝐝𝐢𝐨𝐬 {
𝐌𝐞𝐝𝐢𝐚 𝐀𝐫𝐦ó𝐧𝐢𝐜𝐚
𝐃𝐞 𝐏𝐨𝐬𝐢𝐜𝐢ó𝐧 𝐌𝐞𝐝𝐢𝐚 𝐂𝐮𝐚𝐝𝐫á𝐭𝐢𝐜𝐚
𝐂𝐮𝐚𝐫𝐭𝐢𝐥𝐞𝐬
𝐍𝐨 𝐜𝐞𝐧𝐭𝐫𝐚𝐥 { 𝐂𝐮𝐚𝐧𝐭𝐢𝐥𝐞𝐬 {𝐃𝐞𝐜𝐢𝐥𝐞𝐬
{ 𝐏𝐞𝐫𝐜𝐞𝐧𝐭𝐢𝐥𝐞𝐬
𝐑𝐚𝐧𝐠𝐨
𝐌𝐞𝐝𝐢𝐝𝐚𝐬 𝐞𝐬𝐭𝐚𝐝í𝐬𝐭𝐢𝐜𝐚𝐬 𝐃𝐞𝐬𝐯𝐢𝐚𝐜𝐢ó𝐧 𝐦𝐞𝐝𝐢𝐚
𝐀𝐛𝐬𝐨𝐥𝐮𝐭𝐚 {
𝐕𝐚𝐫𝐢𝐚𝐧𝐳𝐚
𝐃𝐞 𝐃𝐢𝐬𝐩𝐞𝐫𝐬𝐢ó𝐧 𝐃𝐞𝐬𝐯𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐬𝐭á𝐧𝐝𝐚𝐫
𝐂𝐨𝐞𝐟𝐢𝐜𝐢𝐞𝐧𝐭𝐞 𝐝𝐞 𝐝𝐢𝐬𝐩𝐚𝐫𝐢𝐝𝐚𝐝
𝐑𝐞𝐥𝐚𝐭𝐢𝐯𝐚 { 𝐂𝐨𝐞𝐟𝐢𝐜𝐢𝐞𝐧𝐭𝐞 𝐝𝐞 𝐯𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧
{ 𝐏𝐮𝐧𝐭𝐚𝐣𝐞 𝐙
𝐀𝐬𝐢𝐦𝐞𝐭𝐫í𝐚
{𝐃𝐞 𝐅𝐨𝐫𝐦𝐚 {𝐂𝐮𝐫𝐭𝐨𝐬𝐢𝐬
(1) MEDIDAS DE POSICIÓN
Nos facilitan información sobre los datos que estamos analizando. Estas medidas
permiten conocer diversas características de los datos.
Nos dan el valor que ocupa una determinada “posición" respecto al resto de la
muestra.
Características de las medidas de posición
1°) Debe estar definido en forma objetiva.
2°) Debe depender de toda la información obtenida en lo posible.
3°) Debe ser fácil de comprender (no debe tener un carácter abstracto) y de
interpretar.
4°) Debe ser fácil de calcular.
5°) Debe ser estable (no debe ser sensible a fluctuaciones).
6°) Debe ser adecuado a cálculos algebraicos posteriores.

Tipos
 Medidas de posición central: informan sobre los valores medios de los datos.
 Medidas de posición no central: informan de como se distribuye el resto de los

valores de los datos.
(1.1) Medidas de posición central
Nos dan un centro de la distribución de frecuencias, es un valor que se puede tomar

como representante de todos los datos. Las principales medidas de posición central
son: Promedio, Moda y Mediana.
(1.1.1) Promedio
Es el valor medio ponderado de los datos. Se pueden calcular diversos tipos de

promedio, siendo los más utilizados:
(1.1.1.1) Media aritmética
Es el va l or obtenido al s umar todos los da tos y di vi di r el resultado

entre el núme ro total de da tos. Se representa por 𝑥̅ . O sea:
𝑛
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 1
𝑥̅ = = ∑ 𝑥𝑖
𝑛 𝑛
𝑖=1
Ejemplo
Los pesos en kilogramos de seis trabajadores son: 84, 91, 72, 68, 87 y 78.
Hallar el peso medio.
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 84 + 91 + 72 + 68 + 87 + 78
𝑥̅ = = = 80 𝑘𝑔
𝑛 6
Media aritmética para datos agrupados
Si los da tos vienen agrupa dos en una tabla de frecuencias, la expresión

de la me di a es:
𝑀 𝑀
𝑛1 𝑦1 + 𝑛2 𝑦2 + ⋯ + 𝑛𝑀 𝑦𝑀 1
𝑦̅ = = ∑ 𝑛𝑖 𝑦𝑖 = ∑ 𝑛𝑖 𝑓𝑖
𝑛 𝑛
𝑖=1 𝑖=1

Propiedades de la media aritmética
1 º ) La s uma de las des vi a c i one s de los datos de una distribución

respecto de su me di a es igual a c e ro:
∑(𝑥𝑖 − 𝑥̅ ) = 0. Teorema de Koning
Ejemplo:
La suma de las desviaciones de los números 84, 91, 72, 68, 87, 78 de
su media aritmética 80 es igual a 0, en efecto:
(84 − 80) + (91 − 80) + (72 − 80) + (68 − 80) + (87 − 80) + (78 − 80)
= 4 + 11 − 8 − 12 + 7 − 2 = 0
2 º ) La me di a a ri tmé tic a de los c ua dra dos de las des vi a c i one s

de los valores de la variable con respecto a un núme ro cualquiera se
hace mí nim a cuando dicho núme ro coincide con la m edi a
a ri tmé ti c a .
∑(𝑥𝑖 − 𝑥̅ )2 ; es mínimo
3 º ) Si a todos los valores de la variable se les suma un mismo núme r o ,

la me di a a ri tmé ti ca queda a ume nta da en dicho núm e r o. O
sea:
𝑦𝑖 = 𝐴 + 𝑥𝑖 ⟹ 𝑦̅ = 𝐴 + 𝑥̅
4 º ) Si todos los valores de la variable se mul ti pl i c a n por un mismo

núme ro la me di a a ri tmé ti c a queda mul ti pl i c a da por dicho
núme ro . O sea:
𝑦𝑖 = 𝐴 ∙ 𝑥𝑖 ⟹ 𝑦̅ = 𝐴 ∙ 𝑥̅
Observaciones sobre la media aritmética
1 º ) La me di a se debe ha l l a r sólo para va ri abl e s c ua nti ta ti va s .
2 º ) La me dia es i nde pe ndi e nte de las a mpl i tude s de los

i nte rva l os .
3 º ) La me di a es muy sensible a los da tos ex tre mos .

E je mpl o . Si tenemos los siguientes pesos en kilogramos:
65, 65, 66, 69, 70, 72, 75 y 210
La me dia es igual a 86,5 kg, que es una me di da de

c e ntra l i za c i ón poco representativa de la distribución.
4 º ) La me di a no se puede calcular si hay un intervalo con una am pl itud

i nde te rmi na da (int e rva lo s a b ie rt o s o se m i a b ie rt o s)
(1.1.1.2) Media geométrica
Se eleva cada valor al número de veces que se ha repetido. Se multiplican

todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n"
el total de datos de la muestra), o sea:
𝑛
𝑛 𝑛 𝑛
𝑥̅𝐺 = √𝑥1 1 ∙ 𝑥2 2 ∙ … ∙ 𝑥𝑀𝑀
Se usa cuando las unidades de los valores son tasas de cambio o

proporciones, tipos de interés anuales, inflación, etc., donde el valor de
cada año tiene un efecto multiplicativo sobre el de los años anteriores.
(1.1.1.3) Media armónica
Es igual al número recíproco de la media aritmética de los valores

recíprocos de la distribución:
1 𝑛
𝑥̅ 𝐻 = = 𝑛
1 𝑛1 𝑛2 𝑛𝑀 ∑ 𝑖
𝑛 (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑀 ) 𝑥𝑖
Se usa cuando las unidades de los valores son cuocientes (m/seg; km/hr,
etc).

(1.1.1.4) Media cuadrática
Es igual a la raíz cuadrada de la media aritmética de los cuadrados de los

valores de la variable.
Se usa en el análisis de la varianza y para valores negativos de una

variable.
𝑛1 𝑥12 + 𝑛2 𝑥22 + ⋯ + 𝑛𝑀 𝑥𝑀
2
𝑥̅ 𝐶 = √
𝑛
NOTA
En datos agrupados, para calcular las medidas anteriores utilizamos las

marcas de clase, es decir, 𝑦𝑖 indicará el punto medio del intervalo.
La relación entre: la media, la media geométrica, y la media armónica es:
𝑥̅𝐻 ≤ 𝑥̅𝐺 ≤ 𝑥̅
(1.1.2) Mediana
Es el va l or que ocupa el l uga r c e ntra l de los da tos cuando éstos están

orde na dos de menor a ma yor . Se representa por: 𝑋̃ = 𝑀𝑒𝑑(𝑋) = 𝑀𝑒 =
𝑚𝑒𝑑𝑖𝑎𝑛𝑎
La me di a na se puede ha l la r sólo para va ri a bl es c ua nti ta tiva s .
Cálculo de la mediana para datos no agrupados
1 º ) O rde na mos los da tos de me nor a mayo r .
𝑛+1
2 º ) Ubicar la posición de la mediana, usando: 2
3 º ) Aplicar la fórmula: 𝑀𝑒 = 𝑑𝑒𝑐𝑖(𝑃𝑜𝑠) ∙ 𝑋(𝑃𝑜𝑠)+1 + (1 − 𝑑𝑒𝑐𝑖(𝑃𝑜𝑠)) ∙ 𝑋(𝑃𝑜𝑠)
E je mpl o: 2, 3, 4, 4, 5, 5, 5, 6, 6
Ubicar la posición de la mediana, usando:
𝑛+1 9+1
= = 5 → 𝐿𝑎 𝑀𝑒 𝑜𝑐𝑢𝑝𝑎 𝑙𝑎 5𝑡𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛 ⟹ 𝑀𝑒 = 5
2 2
E je mpl o: 7, 8, 9, 10, 11, 12
(1º) Ubicar la posición de la mediana, usando:
𝑛+1 6+1
= = 3,5 → 𝐿𝑎 𝑀𝑒 𝑒𝑠𝑡á 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎 3𝑟𝑎 𝑦 𝑙𝑎 4𝑡𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛
2 2
2º) Aplicar la interpolación lineal:
𝑀𝑒 = 𝑑𝑒𝑐𝑖(𝑃𝑜𝑠) ∙ 𝑋(𝑃𝑜𝑠)+1 + (1 − 𝑑𝑒𝑐𝑖(𝑃𝑜𝑠)) ∙ 𝑋(𝑃𝑜𝑠) = 0,5 ∙ 10 + 0,5 ∙ 9 = 9,5
Cálculo de la mediana para datos agrupados
1º) La me dia na se encuentra en el i nte rva l o donde la frec ue nc ia

a c umul a da llega hasta la mi ta d de l a s uma de la s fre cue nc i as
a bs ol uta s , es decir tenemos que buscar el intervalo hasta donde tenemos
el 𝟓𝟎% 𝒅𝒆 𝒏.
2º) Aplicamos la fórmula de interpolación:
𝐴𝑀𝑒
𝑀𝑒 = 𝐿𝐼𝑀𝑒 + ∙ (50% ∙ 𝑛 − 𝑁𝑀𝑒 −1 )
𝑛𝑀𝑒
Donde :
𝑳𝑰𝑴𝒆 , 𝑒𝑠 𝑒𝑙 𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑒𝑛𝑐𝑢𝑒𝑛𝑡𝑟𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.
𝟓𝟎% ∙ 𝒏, 𝑒𝑠 𝑙𝑎 𝑠𝑒𝑚𝑖𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎𝑠.
𝑵𝑴𝒆 −𝟏 , 𝑒𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.
𝒏𝑴𝒆 , 𝑒𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.
𝑨𝑴𝒆 , 𝑒𝑠 𝑙𝑎 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
Propiedad
La mediana hace mínima la suma de todas las desviaciones absolutas de los

valores de la variable respecto a una constante k cualquiera. Es decir:
∑𝑛𝑖=1 𝑛𝑖 |𝑥𝑖 − 𝑀𝑒 | ≤ ∑𝑛𝑖=1 𝑛𝑖 |𝑥𝑖 − 𝑘|; para cualquier constante k.

(1.1.3) Moda
Es el va l or que tiene ma yor fre c ue nc i a a bs ol uta . Se representa por M o .
Se puede hallar la moda para va ri a bl e s cua l i ta ti va s y c ua nti ta ti va s .
Ejemplo
Ha l l a r la moda de la distribución:
2, 3, 3, 4, 4, 4, 5, 5 𝑀0 = 4
Si en un grupo hay dos o va ri os va l ore s con la mis ma fre c ue nc i a y esa

frecuencia es la máxima, la di s tri buc i ón es bi moda l o multi moda l , es
decir, tiene va ri a s moda s .
Ejemplo
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 𝑀0 = 1; 5 𝑦 9. TRI MO D AL
Cuando todos los va l ore s de un grupo tienen la mi s ma fre c uenc i a , no hay

moda .
Ejemplo
2, 2, 3, 3, 6, 6, 9, 9
Si dos va l ore s a d ya c e ntes tienen la fre c ue nci a má x i ma , la m oda es

el prome di o de los dos va l ore s adyacentes.
Ejemplo
0, 1, 3, 3, 5, 5, 7, 8 𝑀0 = 4
Cálculo de la moda para datos agrupados
Intervalos con igual amplitud.
1º) Observando las frecuencias absolutas, determinamos el intervalo con mayor

frecuencia |𝐿𝐼𝑀0 ; 𝐿𝑆𝑀0 |, a este intervalo le llamaremos intervalo modal.
𝑛𝑀0 − 𝑛𝑀0−1
𝑀0 = 𝐿𝐼𝑀0 + 𝐴𝑀0 ∙
(𝑛𝑀0 − 𝑛𝑀0−1 ) + (𝑛𝑀0 − 𝑛𝑀0 +1 )

𝑳𝑰𝑴𝟎 , 𝑒𝑠 𝑒𝑙 𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
𝒏𝑴𝟎 , 𝑒𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
𝒏𝑴𝟎−𝟏 , 𝑒𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑖𝑛𝑚𝑒𝑑𝑖𝑎𝑡𝑎𝑚𝑒𝑛𝑡𝑒 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
𝒏𝑴𝟎+𝟏 , 𝑒𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑖𝑛𝑚𝑒𝑑𝑖𝑎𝑡𝑎𝑚𝑒𝑛𝑡𝑒 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎 𝑚𝑜𝑑𝑎𝑙
𝑨𝑴𝟎 , 𝑒𝑠 𝑙𝑎 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
También se utiliza otra fórmul a de la moda que nos da un va l or

a prox i ma do :
𝑛𝑀0+1
𝑀0 = 𝐿𝐼𝑀0 + 𝐴𝑀0 ∙
𝑛𝑀0−1 + 𝑛𝑀0 +1
Intervalos con distinta amplitud.

𝑛
1º) Calcular las alturas: ℎ𝑖 = 𝐴𝑖
𝑖
2º) La clase modal es la que tiene mayor altura.
3º) Aplicamos la fórmula de la moda cuando existen distintas amplitudes:
ℎ𝑀0 − ℎ𝑀0−1
𝑀0 = 𝐿𝐼𝑀0 + 𝐴𝑀0 ∙
(ℎ𝑀0 − ℎ𝑀0−1 ) + (ℎ𝑀0 − ℎ𝑀0 +1 )
También se utiliza otra fórmul a de la moda que nos da un va l or

a prox i ma do :
ℎ𝑀0+1
𝑀0 = 𝐿𝐼𝑀0 + 𝐴𝑀0 ∙
𝑛𝑀0−1 + 𝑛𝑀0 +1
COMPARACIÓN ENTRE MEDIA, MODA Y MEDIANA
Estas 3 medidas de posición central son muy usuales. ¿Cuando las utilizamos?
La media; es la mejor por que utiliza toda la información, es decir, tiene en

consideración todos los valores de la distribución, tiene también como ventaja
que es única. Como desventaja más importante está el hecho de que es muy
sensible a la presentación de datos anómalos o atípicos que hacen que la

media se desplace hacia ellos y como consecuencia no es recomendable usar

la media en estos casos. Otra desventaja es que puede no coincidir con uno
de los valores de la variable.
La mediana; utiliza menos información que la media, puesto que no depende

de los valores de la variable sino del orden que ocupa. Por este motivo tiene la
ventaja de no estar afectada por observaciones extremas. La mediana la
utilizaremos cuando la media falle. Otra ventaja frente a la media es que es un
valor de la variable.
La moda; es la que menos información maneja y por lo tanto la peor. Tiene la

ventaja de que puede calcularse incluso para datos cualitativos. Otra
desventaja es que no es única.
Si la distribución es simétrica, coinciden las tres. En el caso de distribuciones

asimétricas, la mediana está con frecuencia entre la media y la moda (algo más
cerca de la media). La siguiente relación nos permite calcular una de estas
medidas de centralización en función de las otras:
𝑀0 ≈ 3𝑀𝑒 − 2𝑥̅
Observe que:
 ̅ = 𝑴𝟎 = 𝑴𝒆 , la distribución es simétrica
Si 𝒙
 ̅ > 𝑴𝒆 , la distribución es asimétrica con cola a la derecha (sesgada a la

Si 𝒙
derecha).
 ̅ < 𝑴𝒆 , la distribución es asimétrica con cola a la izquierda (sesgada a la

Si 𝒙
izquierda)

(1.2) Medidas de posición no central
Los cuantiles son valores de la distribución que la dividen en partes

porcentualmente iguales. Los más usados son los cuartiles, deciles y percentiles.
(1.2.1) Percentil al k%
El percentil al k%, es el valor que cumple que el k% de las observaciones de la

muestra son inferiores a él (y por lo tanto el resto son superiores a él).
Se representa por P k .
P50, coincide con la mediana
P25, P50 y P75, corresponden a los cuartiles: C1, C2 y C3
P 2 0 , P 4 0 , P 6 0 y P 8 0 , corresponden a los quintiles:. Q1, Q2, Q3 y Q4
P 1 0 , P 2 0 ,…, P 9 0 , corresponden a los deciles:. D1, D2,…,D9.
Cálculo de los percentiles para datos no agrupados
Para “n” datos, la metodología de cálculo de los percentiles, resulta ser:
1 º ) O rde na mos los da tos de me nor a mayo r .
2 º ) Ubicar la posición del percentil, usando:
𝑘
𝑃𝑜𝑠 = (𝑛 + 1) ∙ ; 𝑘 = 1,2, … , 99
100
3 º ) Aplicar la fórmula:
𝑃𝑘 = 𝑑𝑒𝑐𝑖(𝑃𝑜𝑠) ∙ 𝑋(𝑃𝑜𝑠)+1 + (1 − 𝑑𝑒𝑐𝑖(𝑃𝑜𝑠)) ∙ 𝑋(𝑃𝑜𝑠)
Cálculo de los percentiles para datos agrupados
1º) Buscamos la clase donde se encuentra el k %  n , en la tabla de las

frecuencias acumuladas.
𝐴𝑃𝑘
𝑃𝑘 = 𝐿𝐼𝑃𝑘 + ∙ (𝑘% ∙ 𝑛 − 𝑁𝑃𝑘−1 )
𝑛𝑃𝑘
Donde :
𝑳𝑰𝑷𝒌 , 𝑒𝑠 𝑒𝑙 𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑃𝑘 .
𝒌% ∙ 𝒏, 𝑒𝑠 𝑙𝑎 𝑢𝑏𝑖𝑐𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑃𝑘 .
𝑵𝑷𝒌−𝟏 , 𝑒𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑃𝑘 .
𝒏𝑷𝒌 , 𝑒𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑃𝑘 .
𝒂𝑷𝒌 , 𝑒𝑠 𝑙𝑎 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑃𝑘 .
Ejemplo de medidas de posición para datos agrupados
EDAD DE LOS EMPLEADOS, EN LA EMPRESA TBC EN HUATACONDO, AÑO 2017
Edad Marca Nº de Nº de empleados Porcentaje Porcentaje

de clase
(en años) empleados Acumulados Acumulados
[20,0 ; 26,5[ 23,25 8 8 20,0 20,0
[26,5 ; 33,0[ 29,75 11 19 27,5 47,5
[33,0 ; 39,5[ 36,25 7 26 17,5 65,0
[39,5 ; 46,0[ 42,75 6 32 15,0 80,0
[46,0 ; 52,5[ 49,25 2 34 5,0 85,0
[52,5 ; 59,0[ 55,75 2 36 5,0 90,0
[59,0 ; 65,5] 62,25 4 40 10,0 100
TOTAL 40 100
Se pide calcular las medidas de posición central y no central, además el gráfico de

caja.
Solución
(1) Media aritmética:
8 ∙ 23,25 + 11 ∙ 29,75 + 7 ∙ 36,25 + 6 ∙ 42,75 + 2 ∙ 49,25 + 2 ∙ 55,75 + 4 ∙ 62,25

𝑦̅ =
50
= 37,0625
Por lo tanto, la edad media de estos empleados es de 37,0625 (≈ 37) años.

(2) Mediana:
1º) 𝒌% ∙ 𝒏 = 𝟓𝟎% ∙ 𝟒𝟎 =
𝟐𝟎 𝑎𝑣𝑎 𝑢𝑏𝑖𝑐𝑎𝑐𝑖ó𝑛, 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑝𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎𝑙 𝑡𝑒𝑟𝑐𝑒𝑟 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝐴𝑀𝑒 6,5
2º) 𝑀𝑒 = 𝐿𝐼𝑀𝑒 + 𝑛 ∙ (50% ∙ 𝑛 − 𝑁𝑀𝑒−1 ) = 33 + ∙ (20 − 19) = 33,9286
𝑀𝑒 7
La mediana es 33,93 años, ya que por debajo está el 50% de las edades
3) Moda:
El intervalo de mayor frecuencia es el 2𝑑𝑜 intervalo (intervalo modal), en efecto:
𝑛𝑀0 − 𝑛𝑀0−1 11 − 8
𝑀0 = 𝐿𝐼𝑀0 + 𝐴𝑀0 ∙ = 26,5 + 6,5 ∙
(𝑛𝑀0 − 𝑛𝑀0−1 ) + (𝑛𝑀0 − 𝑛𝑀0 +1 ) (11 − 8) + (11 − 7)
= 29,2857 ≈ 29,3
Cálculo aproximado: de la moda
𝑛𝑀0+1 8
𝑀0 = 𝐿𝐼𝑀0 + 𝐴𝑀0 ∙ = 26,5 + 6,5 ∙ = 29,5333 ≈ 29,5
𝑛𝑀0−1 + 𝑛𝑀0 +1 8+7
La moda de esta muestra es 29,3 años.
4) Percentil 25
1º) 𝒌% ∙ 𝒏 = 𝟐𝟓% ∙ 𝟒𝟎 =
𝟏𝟎 𝑎𝑣𝑎 𝑢𝑏𝑖𝑐𝑎𝑐𝑖ó𝑛, 𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 25 𝑝𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎𝑙 2𝑑𝑜. 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝐴𝑃25 6,5
2º) 𝑄1 = 𝑃25 = 𝐿𝐼𝑃25 + 𝑛 ∙ (25% ∙ 𝑛 − 𝑁𝑃25−1 ) = 26,5 + 11 ∙ (10 − 8) =
𝑃25
27,6818 ≈ 27,7
El percentil 25 es 27,7 años, ya que, por debajo de el se sitúa el 25% de las

edades.
5) Percentil 75
1º) 𝒌% ∙ 𝒏 = 𝟕𝟓% ∙ 𝟒𝟎 =
𝟑𝟎 𝑎𝑣𝑎 𝑢𝑏𝑖𝑐𝑎𝑐𝑖ó𝑛, 𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 75 𝑝𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎𝑙 4𝑡𝑜. 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝐴𝑃75 6,5
2º) 𝑃75 = 𝐿𝐼𝑃75 + 𝑛 ∙ (75% ∙ 𝑛 − 𝑁𝑃75 −1 ) = 39,5 + 11 ∙ (30 − 26) = 43,833 ≈ 43,8
𝑃75

El percentil 75 es 43,8 años, ya que, por debajo de ella se sitúa el 75% de las
edades.
6) El gráfico de caja es:
Comentario: Distribución No normal, Asimétrica positiva; existe mayor

concentración de valores a la izquierda de la media que a su derecha. D = 43,83 -
27,68 = 16,50, por lo tanto no hay valores extremos.
(2) MEDIDAS DE DISPERSIÓN
Las medidas de posición central tenían como objetivo el resumir los datos en un valor
representativo, las medidas de dispersión nos dirán hasta que punto estas medidas
de posición central son representativas como resumen de la información. Las
medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los
valores de la distribución respecto a un valor central.
Distinguiremos entre medidas de dispersión absolutas, que no son comparables

entre diferentes muestras y las relativas que nos permitirán comparar varias
muestras.
(2.1) Medidas de dispersión absolutas
Por orden de importancia tenemos:

(2.1.1) Varianza (𝝈𝟐 )
Es el promedio del cuadrado de las distancias entre cada dato y la media

aritmética del conjunto de datos, o:
̅)𝟐 ∑ 𝒏𝒊 𝒙𝟐 − 𝒏𝒙
∑ 𝒏𝒊 (𝒙𝒊 − 𝒙 ̅𝟐 ̅̅̅𝟐
𝝈𝟐 = = =𝒙 −𝒙 ̅𝟐
𝒏 𝒏
(1) Si los datos están agrupados utilizamos las marcas de clase.
(2) En el caso extremo en que todas las observaciones fueran iguales, la media
coincidiría con ese valor común y la varianza sería cero. En general, cuanto
más dispersas sean las observaciones, mayores serán las diferencias dentro
de los cuadrados y por lo tanto mayor será el valor de s2.
(3) La varianza es el momento de orden 2 respecto a la media: (𝝈𝟐 = 𝒎𝟐 )
(4) En la práctica es conveniente usar la cuasi-varianza, llamada varianza

muestral:
̅)𝟐 ∑ 𝒏𝒊 𝒙𝟐 − 𝒏𝒙
∑ 𝒏𝒊 (𝒙𝒊 − 𝒙 ̅𝟐
𝑺𝟐 = =
𝒏−𝟏 𝒏−𝟏
Propiedades de la varianza
1 ) La varianza de una variable X es siempre positiva y es igual a cero cuando la

variable X toma el valor constante B, esto es: 𝑽𝒂𝒓(𝑩) = 𝟎
2 ) La varianza no se altera al sumar una constante B a los valores de la variable,

o sea, una traslación del origen no altera el valor numérico de la varianza, esto
es:
𝑽𝒂𝒓(𝑿 ± 𝑩) = 𝑽𝒂𝒓(𝑿), 𝑩 𝒆𝒔 𝒖𝒏 𝒏ú𝒎𝒆𝒓𝒐 𝒓𝒆𝒂𝒍
3 ) 𝑽𝒂𝒓(𝑩 ∙ 𝑿) = 𝑩𝟐 ∙ 𝑽𝒂𝒓(𝑿), 𝑩 𝒆𝒔 𝒖𝒏 𝒏ú𝒎𝒆𝒓𝒐 𝒓𝒆𝒂𝒍
4 ) 𝑽𝒂𝒓(𝑨 + 𝑩 ∙ 𝑿) = 𝑩𝟐 ∙ 𝑽𝒂𝒓(𝑿), 𝑨 𝒚 𝑩 𝒔𝒐𝒏 𝒏ú𝒎𝒆𝒓𝒐𝒔 𝒓𝒆𝒂𝒍𝒆𝒔
5 ) Sean 𝑥̅1 𝑦 𝑥̅2 las medias de 2 submuestras de tamaño 𝑛1 𝑦 𝑛2

respectivamente y sean 𝑆12 𝑦 𝑆22 las varianzas correspondientes. La varianza
de la muestra de tamaño 𝑛 = 𝑛1 + 𝑛2 es:

2 2
2
(𝑛1 − 1) ∙ 𝑆12 + (𝑛2 − 1) ∙ 𝑆22 + 𝑛1 ∙ (𝑥̅1 − 𝑥̿𝑝 ) + 𝑛2 ∙ (𝑥̅2 − 𝑥̿𝑝 )
𝑆 =
𝑛−1
𝐷𝑜𝑛𝑑𝑒: 𝑥̿ 𝑝 𝑒𝑠 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑎 𝑑𝑒 𝑥̅1 𝑦 𝑥̅2
Esta propiedad se puede generalizar para un número cualquiera de

submuestras, digamos para L muestras:
2
2
∑(𝑛𝑖 − 1) ∙ 𝑆𝑖2 ∑ 𝑛𝑖 ∙ (𝑥̅𝑖 − 𝑥̿ 𝑝 )
𝑆 = + = 𝐼𝑛𝑡𝑟𝑎𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 + 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝑛−1 𝑛−1
𝐼𝑛𝑡𝑟𝑎𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎: 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑠𝑡𝑟𝑎𝑡𝑜𝑠 𝑜 𝑠𝑢𝑏𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠
𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎: 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑒𝑠𝑡𝑟𝑎𝑡𝑜𝑠 𝑜 𝑠𝑢𝑏𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠
a) El hecho de que la desviación estándar es matemáticamente lógica

significa que puede ser satisfactoriamente utilizada en cálculos
posteriores. Esta característica es la que da a la desviación estándar su
gran superioridad sobre las demás medidas de dispersión.
b) La desviación estándar es de la misma naturaleza que la variable X y

depende de su magnitud.
c) Para distribuciones simétricas resulta que:
1) 𝐸𝑙 68,26% 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑒𝑠𝑡á𝑛 𝑐𝑜𝑚𝑝𝑟𝑒𝑛𝑑𝑖𝑑𝑜𝑠 𝑒𝑛𝑡𝑟𝑒: 𝑥̅ − 1 ∙ 𝑆 𝑦 𝑥̅ + 1 ∙ 𝑆

(2.1.2) Desviación estándar (𝑺)
Es la raíz cuadrada positiva de la varianza 𝑺 = √𝑺𝟐
(2.1.3) Desviación media respecto de la media (𝑫𝒚̅ )
Es el promedio de las desviaciones en valor absoluto respecto de la media

aritmética:
∑ 𝑛𝑖 |𝑦𝑖 − 𝑦̅|
𝑫𝒚̅ =
𝑛
Si 𝑫𝒚̅ toma valores grandes significa que los valores de la variable se distribuirán
en valores alejados de la media.
Ejemplo
LI i ; LSi  yi ni fi N i Fi ni yi  y
20,0 – 26,5 23,25 8 20,0 8 20,0 110,5
26,5 – 33,0 29,75 11 27,5 19 47,5 80,4375
33,0 – 39,5 36,25 7 17,5 26 65,0 5,6875
39,5 – 46,0 42,75 6 15,0 32 80,0 34,125
46,0 – 52,5 49,25 2 5,0 34 85,0 24,375
52,5 – 59,0 55,75 2 5,0 36 90,0 37,375
59,0 – 65,5 62,25 4 10,0 40 100,0 100,75
Total 40 393,25
393,25
𝑦̅ = 37,0625 𝑫𝒚̅ = = 9,83125
40
(2.1.4) Desviación media respecto de la mediana (𝑫𝑴𝒆 )
Es el promedio de las desviaciones en valor absoluto respecto de la mediana:
∑ 𝑛𝑖 |𝑦𝑖 − 𝑀𝑒 |
𝑫𝑴𝒆 =
𝑛
Si 𝑫𝑴𝒆 es grande los valores están dispersos respecto de la mediana.
Ejemplo
LI i ; LSi  yi ni fi N i Fi ni yi  M e
20,0 – 26,5 23,25 8 20,0 8 20,0 85,4285714
26,5 – 33,0 29,75 11 27,5 19 47,5 45,9642857
33,0 – 39,5 36,25 7 17,5 26 65,0 16,25
39,5 – 46,0 42,75 6 15,0 32 80,0 52,9285714
46,0 – 52,5 49,25 2 5,0 34 85,0 30,64285714
52,5 – 59,0 55,75 2 5,0 36 90,0 43,64285714
59,0 – 65,5 62,25 4 10,0 40 100,0 113,2857143
Total 40 388,1428571
388,1428571
𝑀𝑒 = 33,9286 𝑫𝑴𝒆 = = 9,7035714
40
(2.1.5) Recorrido o rango (𝑹𝒆 )
Es la diferencia entre el máximo valor y el mínimo valor de los datos:
𝑹𝒆 = 𝒙𝒎á𝒙 − 𝒙𝑴í𝒏
Ejemplo: 𝑹𝒆 = 𝟔𝟓 − 𝟐𝟎 = 𝟒𝟓
(2.1.6) Recorrido intercuartílico (𝑹𝑰)
Es la diferencia entre el tercer y el primer cuartil. 𝑹𝑰 = 𝑪𝟑 − 𝑪𝟏
Ejemplo: 𝑹𝑰 = 𝟒𝟑, 𝟖𝟑𝟑𝟑 − 𝟐𝟕, 𝟔𝟖𝟏𝟖 = 𝟏𝟔, 𝟏𝟓𝟏𝟓
(2.2) Medidas de dispersión relativas

(2.2.1) Coeficiente de variación de Pearson (𝑪𝑽)
Cuando se quiere comparar el grado de dispersión de dos distribuciones que no

vienen dadas en las mismas unidades o que las medias no son iguales se utiliza
el coeficiente de variación de Pearson que se define como el cociente entre la
desviación estándar y el valor absoluto de la media aritmética, o sea:
𝑺
𝑪𝑽 =
|𝒙
̅|
Al hacer el cociente eliminamos las unidades.
CV representa el número de veces que la desviación típica contiene a la media

aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la
representatividad de la media.
Recomendación.
i) Para 50 o menos datos. Si CV es menor que el 50%, entonces:
1º) Los datos son homogéneos y
2º) La media es representativa
ii) Para más de 50 datos. Si CV es menor que el 10%, entonces:
1º) Los datos son homogéneos y
2º) La media es representativa

Ejemplo:
EDAD DE LOS EMPLEADOS, DE LA EMPRESA TBC, EN HUATACONDO, AÑO 2017
Edad Marca Nº de Nº de empleados Porcentaje Porcentaje

de clase
(en años) Empleados Acumulados acumulados
[20,0 ; 26,5[ 23,25 8 8 20,0 20,0
[26,5 ; 33,0[ 29,75 11 19 27,5 47,5
[33,0 ; 39,5[ 36,25 7 26 17,5 65,0
[39,5 ; 46,0[ 42,75 6 32 15,0 80,0
[46,0 ; 52,5[ 49,25 2 34 5,0 85,0
[52,5 ; 59,0[ 55,75 2 36 5,0 90,0
[59,0 ; 65,5] 62,25 4 40 10,0 100
TOTAL 40 100
(1) Rango: Es la diferencia entre el máximo valor (65) y el mínimo valor (20). Luego
el rango de esta muestra es 45.
(2) Varianza muestral: La media de esta muestra es 37,0625. Aplicando la fórmula:
8 ∙ (23,25 − 37,0625)2 + 11 ∙ (29,75 − 37,0625)2 + 7 ∙ (36,25 − 37,0625)2 + 6 ∙ (42,75 − 37,0625)2

+2 ∙ (49,25 − 37,0625)2 + 2 ∙ (55,725 − 37,0625)2 + 4 ∙ (62,25 − 37,0625)2
𝑆2 =
40 − 1
= 149,9063
Por lo tanto, la varianza es 149,9063
(3) Desviación estándar: es la raíz cuadrada positiva de la varianza.
𝑆 = +√149,9063
Luego: 𝑆 = 12,2436
(4) Coeficiente de variación de Pearson: se calcula como el cociente entre la

desviación estándar y la media de la muestra.
𝑺 𝟏𝟐, 𝟐𝟒𝟑𝟔
𝑪𝑽 = =
̅ 𝟑𝟕, 𝟎𝟔𝟐𝟓
𝒚
Luego: 𝐶𝑉 = 0,3304 = 33,04%
El interés del coeficiente de variación es que al ser un porcentaje permite comparar

el nivel de dispersión de dos muestras. Esto no ocurre con la desviación estándar,
ya que viene expresada en las mismas unidas que los datos de la serie
(2.2.2) Variable tipificada, normalizada o estandarizada (𝒁)
Supongamos que hacemos la siguiente transformación a los datos:
̅
𝒙𝒊 − 𝒙
𝒁𝒊 =
𝑺𝒙
Es decir, a cada valor de la variable le restamos la media y lo dividirnos por la

desviación típica.
̅
−𝒙 𝟏
Se trata de una transformación lineal: 𝒁𝒊 = 𝑨 + 𝑩𝒙𝒊 → 𝑨 = 𝒚𝑩=𝑺
𝑺𝒙 𝒙
Usando las propiedades de la media y de la desviación típica, es fácil demostrar

que la nueva distribución de frecuencias tiene media aritmética cero y desviación
típica 1. Diremos entonces que la muestra o la distribución de frecuencias está
tipificada y a la transformación anterior se le llama tipificación.
(2.2.3) Coeficiente de disparidad (𝑪𝑫)
Se la define por:
𝒙𝒎á𝒙
𝑪𝑫 =
𝒙𝒎í𝒏
Cuanto mayor sea, mayor dispersión habrá.
(3) MEDIDAS DE FORMA
Es la que cuantifica el grado de deformación horizontal (asimetría) y el grado de

deformación vertical (apuntamiento o curtosis) de una distribución de frecuencias.
Comparan la forma que tiene la representación gráfica, bien sea el histograma o el

diagrama de barras de la distribución, con la distribución normal.

(3.1) Medidas de asimetría
Miden la deformación horizontal.
Miden la simetría de la distribución. Si representamos gráficamente una

distribución de frecuencias: tracemos una perpendicular al eje de las x por x.
Diremos que la distribución es simétrica si existe a ambos lados el mismo número
de valores, con la misma frecuencia. Asimetría se refiere a si la curva que forman
los valores de la serie presenta la misma forma a izquierda y derecha de un valor
central (media aritmética).
I
Para medir el nivel de asimetría, tenemos:
(1) Coeficiente de Asimetría de Fisher:
̅) 𝟑
𝒎𝟑 ∑ 𝒏𝒊 (𝒙𝒊 − 𝒙
𝒈𝟏 = =
𝝈𝟑 𝒏𝝈𝟑
Los resultados pueden ser los siguientes:
 g1 = 0 (distribución simétrica; existe la misma concentración de valores

a la derecha y a la izquierda de la media)
 g1 > 0 (distribución asimétrica positiva; existe mayor concentración de

valores a la izquierda de la media que a su derecha)
 g1 < 0 (distribución asimétrica negativa; existe mayor concentración de

valores a la derecha de la media que a su izquierda)

Ejemplo:
LI i ; LSi  yi ni fi N i Fi X  X   n  X  X   n
i
2
i i
3
i
20,0 – 26,5 23,25 8 20,0 8 20,0 1526,28125 -21081,75977
26,5 – 33,0 29,75 11 27,5 19 47,5 588,1992188 -4301,206787
33,0 – 39,5 36,25 7 17,5 26 65,0 4,62109375 -3,754638672
39,5 – 46,0 42,75 6 15,0 32 80,0 194,0859375 1103,86377
46,0 – 52,5 49,25 2 5,0 34 85,0 297,0703125 3620,544434
52,5 – 59,0 55,75 2 5,0 36 90,0 698,4453125 13052,19678
59,0 – 65,5 62,25 4 10,0 40 100,0 2537,640625 63916,82324
Total 40 5846,3438 56306,7070
Vamos a calcular el Coeficiente de Asimetría de Fisher
Recordemos que la media de esta muestra es 37,0625, y 𝜎 = 12,0896
̅)𝟑
∑ 𝒏𝒊 (𝒙𝒊 −𝒙 𝟓𝟔𝟑𝟎𝟔,𝟕𝟎𝟕𝟎
Luego: 𝒈𝟏 = = (𝟒𝟎)(𝟏𝟐,𝟎𝟖𝟗𝟔)𝟑 = 𝟎, 𝟕𝟗𝟔𝟔
𝒏𝝈𝟑
Por lo tanto el Coeficiente de Asimetría de Fisher de esta muestra es 0,7966,

lo que quiere decir que presenta una distribución asimétrica positiva (se
concentran levemente más valores a la izquierda de la media que a su derecha)
(2) Coeficiente de Asimetría de Pearson
Es mucho más fácil de calcular que el anterior pero sólo es aplicable a

aquellas distribuciones que tienen una sola moda y cuya distribución tiene
forma de campana. Es:
̅ − 𝑴𝟎
𝒙
𝑨𝑺 =
𝑺
Si 𝑨𝑺 = 𝟎 la distribución es simétrica.
Si 𝑨𝑺 > 𝟎 la distribución es asimétrica positiva.
Si 𝑨𝑺 < 𝟎 la distribución es asimétrica negativa.

(3.2) Medidas de curtosis
El Coeficiente de Curtosis analiza el grado de concentración que presentan los

valores alrededor de la zona central de la distribución.
Mide la deformación vertical.
Se definen 3 tipos de distribuciones según su grado de curtosis:
 Distribución mesocúrtica: presenta un grado de concentración medio

alrededor de los valores centrales de la variable (el mismo que presenta una
distribución normal)
 Distribución leptocúrtica: presenta un elevado grado de concentración

alrededor de los valores centrales de la variable.
 Distribución platicúrtica: presenta un reducido grado de concentración

alrededor de los valores centrales de la variable.
El Coeficiente de Curtosis viene definido por la siguiente fórmula:
̅) 𝟒
𝒎𝟒 ∑ 𝒏𝒊 (𝒙𝒊 − 𝒙
𝒈𝟐 = = −𝟑
𝝈𝟒 𝒏𝝈𝟒
Los resultados pueden ser los siguientes:
 g2 = 0 (distribución mesocúrtica)
 g2 > 0 (distribución leptocúrtica)
 g2 < 0 (distribución platicúrtica)

Ejemplo:
LI i ; LSi  yi ni fi N i Fi X  X   n X  X   n
i
2
i i
4
i
20,0 – 26,5 23,25 8 20,0 8 20,0 1526,28125 291191,8068
26,5 – 33,0 29,75 11 27,5 19 47,5 588,1992188 31452,57463
33,0 – 39,5 36,25 7 17,5 26 65,0 4,62109375 3,050643921
39,5 – 46,0 42,75 6 15,0 32 80,0 194,0859375 6278,225189
46,0 – 52,5 49,25 2 5,0 34 85,0 297,0703125 44125,38528
52,5 – 59,0 55,75 2 5,0 36 90,0 698,4453125 243912,9273
59,0 – 65,5 62,25 4 10,0 40 100,0 2537,640625 1609904,985
Total 40 5846,3438 2226868,9552
Calculemos el Coeficiente de Curtosis. Sabemos que la media es 37,0625 y

𝜎 = 12,0896, luego:
̅) 𝟒
∑ 𝒏𝒊 (𝒙𝒊 − 𝒙 𝟐𝟐𝟐𝟔𝟖𝟔𝟖, 𝟗𝟓𝟓𝟐
𝒈𝟐 = 𝟒
−𝟑= − 𝟑 = −𝟎, 𝟑𝟗𝟑𝟗
𝒏𝝈 (𝟒𝟎)(𝟏𝟐, 𝟎𝟖𝟗𝟔)𝟒
Por lo tanto, el Coeficiente de Curtosis de esta muestra es –0,3939, lo que quiere

decir que se trata de una distribución platicúrtica, es decir, con una reducida
concentración alrededor de los valores centrales de la distribución.
(4) TRANSFORMACIONES LINEALES
En este punto veremos como quedan afectadas algunas de las medidas de una
variable cuando le sumamos o multiplicamos alguna cantidad. Es decir, calculamos
una transformación lineal de la variable original, y de la que obtenemos queremos
saber cuanto vale su media, mediana, varianza y desviación típica.
Teorema 1.
̅, mediana
Supongamos que tenemos una muestra aleatoria 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 con media 𝒙
𝑴𝒆𝑿 y desviación estándar 𝑺𝑿 y que hacemos una transformación lineal de los datos:

𝒚𝒊 = 𝑨 + 𝑩𝒙𝒊 , 𝒑𝒂𝒓𝒂 𝒊 = 𝟏, 𝟐, … , 𝒏
Entonces: la media, la mediana, la varianza y la desviación estándar de la muestra

𝒚𝟏 , 𝒚𝟐 , … , 𝒚𝒏 son:
𝑴𝒆𝒅𝒊𝒂 → ̅ = 𝑨 + 𝑩𝒙
𝒚 ̅
𝑴𝒆𝒅𝒊𝒂𝒏𝒂 → 𝑴𝒆𝒀 = 𝑨 + 𝑩𝑴𝒆𝑿
𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 → 𝑺𝟐𝒀 = 𝑩𝟐 𝑺𝟐𝑿
Demostración de tarea.
Teorema 2.
̅ y desviación estándar 𝑺𝑿 , la
Dada la muestra aleatoria 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 con media 𝒙
distribución de las variables estandarizadas:
̅
𝒙𝒊 − 𝒙
𝒚𝒊 = , 𝒑𝒂𝒓𝒂 𝒊 = 𝟏, 𝟐, … , 𝒏
𝑺𝑿
Tiene media 0 y desviación estándar 1
Demostración de tarea.
Nótese que:
Las variables estandarizadas:
̅
𝒙𝒊 − 𝒙
𝒚𝒊 = , 𝒑𝒂𝒓𝒂 𝒊 = 𝟏, 𝟐, … , 𝒏
𝑺𝑿
Es una transformación lineal, en efecto:
̅
𝒙𝒊 − 𝒙
𝒚𝒊 = ⟹
𝑺𝑿
̅ 𝟏
−𝒙
𝒚𝒊 = + ∙ 𝒙 𝒑𝒂𝒓𝒂 𝒊 = 𝟏, 𝟐, … , 𝒏
𝑺𝑿 𝑺𝑿 𝒊
𝑫𝒐𝒏𝒅𝒆:
̅
−𝒙
𝑨=
𝑺𝑿
𝟏
𝑩=
𝑺𝑿

(5) EJERCICIOS RESUELTOS APLICADOS
1) En una Empresa donde los salarios tienen una media de $100.000 y una desviación
estándar de $10.000, el sindicato solicita que cada salario X, se transforme en Y,
mediante la siguiente relación: Y  2,5  X  10.000 . El Gerente acoge la petición
rebajando los salarios propuestos por el sindicato en 10%, lo que es aceptado. ¿Qué
distribución de salarios es más homogénea?. ¿Qué propuesta prefieren los
trabajadores?
Solución:
Tenemos: X  100.000 y s X  10.000
Luego:
Y  2,5  X  10.000  Y  2,5  X  10.000  2,5  100 .000  10.000  260 .000 y
s Y  2,5  s X  2,5  10.000  25.000
Por lo tanto,
CV Y  
25.000
 0,09615
260.000
Lo propuesto por el gerente es:
Z  Y  10%Y  0,9  Y  Z  0,9  Y  0,9  260.000  234.000 y

s Z  0,9  sY  0,9  25.000  22.500
Por lo tanto,
CV Z  
22.500
 0,09615
234.000
Ambas distribuciones son iguales de homogéneas. El sindicato prefiere su

propuesta, ya que, esta tiene un promedio mayor
2) En una empresa industrial, el salario medio semanal de los hombres es de $40.000

con una desviación estándar de $15.000, y el de las mujeres es en promedio de
$30.000 con desviación estándar de $12.000. Halle el coeficiente de variación de los
salarios de los hombres y mujeres.
Solución: Aplicando la fórmula del coeficiente de variación tenemos:

Para los hombres:
s 15.000
CV  H   0,375  37,5%
H 40.000
Para las mujeres:
s 12.000
CV  M   0,4  40%
M 30.000
Luego, podemos concluir que los salarios de las mujeres presentan mayor dispersión
relativa que los salarios de los hombres.
3) El CV de los ingresos de 200 empleados de cierta empresa es 57%. Después de

reajustar, según ley, todos los sueldos en $11.000, este CV es ahora de 50%. Sin
embargo la empresa fija un sueldo mínimo de $71.000. Antes del reajuste había 35
personas que tenían un sueldo promedio de $40.000 y todos ellos ganaban menos
de $60.000; con la nueva política de la empresa, sus sueldos serán elevados a
$71.000. Determinar la cantidad de dinero que necesitará la empresa, para pagar los
sueldos después de hacer efectivos los reajustes.
Solución: De acuerdo a los datos del problema tenemos:
s
i)  0,57  s  0,57  X (1)
X
s
ii )  0,50  s  0,50  ( X  11.000) (2)
X  11.000
Reemplazando (1) en (2) se tiene:
0,57  x  0,50  ( x  11.000)  0,50  x  5.500

Por lo tanto : x  78.571,43 (salario promedio antes del reajuse)
Además, esta media está compuesta por la ponderación de las medias de dos
grupos: 35 personas con ingreso medio de $40.000 y 165 personas con ingreso
promedio x2 que se obtendrá de:
35  40.000  165  x 2
78.571,43  x p   78.571,43  200  35  40.000  165  x 2
200
 x 2  86.753,25

Las nuevas medias aritméticas después de los reajustes serán:
a) El primer grupo de n1  35 personas tendrá un ingreso promedio de: y1  $71.000
b) El segundo grupo de n2  65 personas tendrá un ingreso promedio de:
y2  86.753,25 11.000  $97.753,25
Por tanto, la cantidad que necesitará la empresa será:
Cantidad total:  35  71.000  165  97.753,25  $18.614.286,25
4) Calcular las medidas de posición, dispersión y forma (Comente) de los ingresos

semanales en dólares (variable X) de 50 empleados:
46 47 52 54 56 57 57 58 58 59
60 61 63 63 64 65 66 67 67 67
67 67 68 68 69 69 70 70 70 70
72 72 73 73 73 74 76 76 77 77
77 79 80 82 84 85 86 88 93 94
Solución:
Los cálculos realizados con el Software SPSS son:
n: número de observaciones 50
Media 69,32
Mediana 69,00
Moda 67
Desv. típ. 10,801
Varianza 116,671
Asimetría 0,135
Error típ. de asimetría 0,337

Curtosis -0,003
Error típ. de curtosis 0,662
Rango 48
Mínimo 46
Máximo 94
Coeficiente de variación 0,1558
Rango intercuartílico 13,75
Percentiles 10 56,10
25 62,50
50 69,00
75 76,25
90 84,90
Comentarios
1. La media, la mediana y la moda, todas ellas medidas de centralización están muy

próximas, lo cual da un indicio de que los datos pueden ajustarse bien a una
distribución normal (en ésta, cuando el ajuste es perfecto, la media, la mediana y la
moda coinciden)
2. En cuando a las medidas de dispersión, la desviación estándar o desviación típica

es menor al 50%, exactamente el 15,58% dado por el coeficiente de variación, lo que
indica que estamos ante una distribución concentrada (o sea, media representativa
y datos homogéneos). Esa concentración también se observa, si se tiene en cuenta
que el rango intercuartílico, que contiene la mayor parte de las observaciones, es de
sólo 13,75 dólares
3. Tanto el sesgo como la curtosis, ambos estandarizados, son inferiores a 2 en valor

absoluto, lo que es otro indicio de que podemos estar hablando de una distribución
normal. Al ser el sesgo positivo, podemos pensar en una distribución de frecuencias
sesgada hacia la derecha. Por su parte, siendo la curtosis negativa, estamos ante
una distribución Platicúrtica, más aplastada que la distribución normal.
5) Para la siguiente distribución, calcule las medidas de posición, dispersión y forma:
EDAD DE LOS EMPLEADOS DE LA EMPRESA TBC, EN HUATACONDO, AÑO 2017
Edad Marca de N° de N° de Porcentaje Porcentaje de

clase empleados de empleados
(en años) Empleados ni  xi ni  xi2
acumulados empleados Acumulados
yi ni
[20,0 ; 26,5[ 23,25 8 8 20,0 20,0 186 4324,5
[26,5 ; 33,0[ 29,75 11 19 27,5 47,5 327,25 9735,688
[33,0 ; 39,5[ 36,25 7 26 17,5 65,0 253,75 9198,438
[39,5 ; 46,0[ 42,75 6 32 15,0 80,0 256,5 10965,38
[46,0 ; 52,5[ 49,25 2 34 5,0 85,0 98,5 4851,125
[52,5 ; 59,0[ 55,75 2 36 5,0 90,0 111,5 6216,125
[59,0 ; 65,5] 62,25 4 40 10,0 100,0 249 15500,25
TOTAL 40 100 1482,5 60791,5
Solución
1 7
y  MY 
1
(1) La media   ni yi   1482,5  37,0625
50 i1 50

7
n y
2
2
 n y
60791 ,5  40  37 ,0625 
i i 2
(2) La varianza s 2  VarY   i 1
  149 ,9063
40  1 40  1
60791,5  40  37,0625 
2
(3) La desviación estándar s  deY      149,9063  12,2436
40  1
deY  12,2436
(4) El Coeficiente de variación CV Y     0,3304  33,04%
y 37,0625
Como la edad de los empleados fue dado en años, podemos afirmar que la edad
promedio del grupo de 40 empleados es de 37,0625 años, con una desviación
estándar de 12,2436 años y un coeficiente de variación de 33,04%, este último
nos indica que la media aritmética es representativa y las edades son
homogéneos

(5) Cálculo de cuantiles
Percentil 10
1º) k %  n  10%  40  4 ava ubicación, el percentil 10 pertenece al primer intervalo
aP10
 10%  n  N anterior  20   8  0  23,25
6,5
2º) D1  P10  LI P10 
nP10 8
Percentil 25
1º) k %  n  25%  40  10 ava ubicación, el percentil 25 pertenece al segundo

intervalo
aP25
 25%  n  N anterior   26,5   10  8  27,6818
6,5
2º) Q2  P25  LI P25 
nP25 11
Percentil 50
1º) k %  n  50%  40  20 ava ubicación, el percentil 50 pertenece al tercer intervalo
aP50
 50%  n  N anterior   33   20  19   33,9286
6,5
2º) D5  Q2  P50  LI P  50
nP50 7
Percentil 75
1º) k %  n  75%  40  30 ava ubicación, el percentil 75 pertenece al cuarto

intervalo
aP75
 75%  n  N anterior   39,5   30  26   43,8333
6,5
2º) Q3  P75  LI P75 
nP75 6
Percentil 90
1º) k %  n  90%  40  36 ava ubicación, el percentil 90 pertenece al séptimo

intervalo
aP90
 90%  n  N anterior   59   36  36   59,000
6,5
2º) D9  P90  LI P90 
nP90 2
M 0  LI Mo  a 
ni  ni1
 26,5  6,5 
11  8  29,2857
(6) La moda
ni  ni1   ni  ni1  11  8  11  7
ni1 8
Aproximadamente: M 0  LI Mo  a   26,5  6,5   29,5333
ni1  ni1 87
(7) El coeficiente de asimetría
x  Mo 37,0625  29,2857 , distribución levemente asimétrica positiva

CA    0,6352
s 12,2436
(8) El coeficiente de apuntamiento
P75  P25 43,8333  27,6818

CAP    0,2259  0,263, la distribuci ón es levemente leptocúrti ca
2( P90  P10 ) 2(59,00  23,25)
(9) El gráfico de caja y bigote
Comentario: Distribución No normal, Asimétrica positiva; existe mayor

concentración de valores a la izquierda de la media que a su derecha.
6) Una empresa decide hacer un reajuste entre sus empleados. La clasificación se lleva
a cabo mediante la aplicación de un test que arroja las siguientes puntuaciones.
Clases Nº de empleados
[ 0 ; 30[ 94
[30 ; 50[ 140
[50 ; 70[ 160
[70 ; 90[ 98
[90 ; 100] 8

Total 500
La planificación óptima de la empresa exige que el 65% sean Jornaleros, el 20%

Técnicos, el 10% Administrativos y el 5% Ejecutivos, según sea la puntuación
obtenida. Se pide calcular la puntuación máxima para ser Jornalero, Técnico y
Administrativo.
Solución: Según los datos tenemos:
Porcentaje Porcentaje acumulado
Jornaleros 65% 65%
Técnicos 20% 85%
Administrativos 10% 95%
Ejecutivos 5% 100%
Luego, tendremos que hallar los percentiles 65, 85 y 95. Los cálculos que
necesitamos son:
Clases ni Ni
[ 0 ; 30[ 94 94
[30 ; 50[ 140 234
[50 ; 70[ 160 394 clase que contiene a P65
[70 ; 90[ 98 492 clase que contiene a P85 y P95
[90 ; 100] 8 500
Total 500
Percentil 65

1º) k %  n  65%  500  325 ava ubicación, el percentil 65 pertenece al tercer

intervalo
aP65
 65%  n  N anterior  50   325  234   61,37
20
2º) P65  LI P65 
nP65 160
Percentil 85

intervalo
aP85
 85%  n  N anterior   70   425  394   76,33
20
2º) P85  hLI P85 
nP85 98
Percentil 95

intervalo
aP95
 95%  n  N anterior   70   475  394   86,53
20
2º) P95  hLI P95 
nP95 98
Por lo tanto, la puntuación máxima para Jornalero es 61,37; para Técnico es

76,33 y para Administrativo es 86,53.
7) Se han medido las pulsaciones de un equipo de atletas después de una carrera.
Pulsaciones [70 ; 75) [75 ; 80) [80 ; 85) [85 ; 90) [90 ; 95) [95 ; 100] Total
Nº de atletas 3 3 7 10 12 8 43
Se pide:
a) Hallar el primer coeficiente de Pearson
b) Hallar el coeficiente de asimetría de Fisher
c) Decir qué tipo de apuntamiento le corresponde a la distribución.
Solución:
a) El primer coeficiente de Pearson es:

xM
CA  o  88,2  91,67  0,476  0
s 7,285
Por lo tanto, la curva de frecuencias es sesgada hacia la izquierda.
b) El coeficiente de asimetría de Fisher es:
M
M

 n  x x
i i
3

 9.195,65
CA  3  i  1   0,553  0
s 3 ns 3 43  7,285 3
En efecto, la distribución de frecuencias presenta asimetría a la izquierda.
c) El coeficiente de curtosis es:
Q Q P P
25  93,85  83,39  0,2597  0,263
   
CAP  3 1  75
2 P  P 2 P  P 97,31  77,17
90 10 90 10
Luego, la curva de frecuencias es suavemente Leptocúrtica.

UNIDAD II. PROBABILIDAD
1) INTRODUCCIÓN
En la unidad I, vimos que la distribución de frecuencias de las observaciones de un

fenómeno, es un recurso muy poderoso para entender la variación del mismo. Sin
embargo, haciendo suposiciones apropiadas sobre el fenómeno en estudio y sin
observar directamente el mismo, podemos construir un modelo teórico que
represente en forma adecuada a la distribución de frecuencias cuando el fenómeno
es observado directamente. Estos modelos son llamados modelos de probabilidad.
En esta unidad se desarrollan las nociones básicas y propiedades del modelo

propuesto que serán utilizadas en la inferencia estadística.
2) CONCEPTOS BÁSICOS INICIALES
(1) Experimento aleatorio (𝜺)
Es un proceso o fenómeno, cuyos resultados dependen del azar. Se simboliza

por: 𝜺.
(2) Espacio muestral (𝛀)
Es el conjunto de todos los resultados posibles de un experimento aleatorio.
Se simboliza por: 𝛀.
Donde: 𝛀 = {𝒘/𝒘 𝒆𝒔 𝒖𝒏 𝒓𝒆𝒔𝒖𝒍𝒕𝒂𝒅𝒐 𝒅𝒆 𝒂𝒍𝒈ú𝒏 𝒆𝒙𝒑𝒆𝒓𝒊𝒎𝒆𝒏𝒕𝒐 𝒂𝒍𝒆𝒂𝒕𝒐𝒓𝒊𝒐}.
(3) Suceso
Es un subconjunto del espacio muestral 𝛀, se simbolizan con letras mayúsculas.
Nótese que:
Si 𝛀 = {𝒘𝟏 , 𝒘𝟐 , … , 𝒘𝒏 } es un espacio muestral finito de n resultados, en él se

pueden definir 𝟐𝒏 sucesos diferentes, algunos de ellos son:
 El suceso imposible, 𝝓, que no tiene resultados, o sea, no ocurre nunca
 Los sucesos unitarios o elementales , wi  , que contienen un sólo resultado

 Los sucesos compuestos, que consisten de dos o más sucesos
 El suceso seguro o cierto, 𝛀 , el mismo espacio muestral, ya que es el

subconjunto que contiene a todos los resultados posibles de un experimento
aleatorio.

(4) Un suceso A ocurre
Si contiene por lo menos un resultado de algún experimento aleatorio, es decir:
Un suceso A ocurre si y sólo si existe 𝒘 ∈ 𝑨
(5) Un suceso A no ocurre
Un suceso A no ocurre si y sólo si 𝒘 ∉ 𝑨
(6) El suceso A es un subsuceso o está contenido en el suceso B, simbolizado

𝑨 ⊂ 𝑩, si toda vez que ocurre A ocurre también B
(7) Los sucesos A y B son iguales, 𝑨 = 𝑩 si y sólo si 𝑨 ⊂ 𝑩 y 𝑩 ⊂ 𝑨
(8) Se denomina complemento del suceso A al suceso que se denota por

̅ , que consiste de todos los resultados que no están en el suceso A, es
𝐴𝑐 ó Á, 𝒐 𝑨
decir:
𝐴𝑐 = {𝒘 ∈ 𝛀 / 𝒘 ∉ 𝑨}
El suceso 𝐴𝑐 describe el suceso de que no ocurre A
Ejemplos:
(1) Experimento: Se tira un dado y se observa el nº que aparece en la cara

superior
Espacio muestral asociado: 𝛀 = {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔}
Suceso: 𝐴: 𝑜𝑏𝑡𝑒𝑛𝑒𝑟 𝑢𝑛 𝑛ú𝑚𝑒𝑟𝑜 𝑝𝑎𝑟; 𝐴 = {2, 4, 6}
(2) Experimento: Tirar una moneda y observar el resultado
Espacio muestral asociado: 𝛀 = {𝑪, 𝑺}; 𝑪 = 𝒄𝒂𝒓𝒂 ; 𝑺 = 𝒔𝒆𝒍𝒍𝒐
Suceso: 𝐵: 𝑜𝑏𝑡𝑒𝑛𝑒𝑟 𝑐𝑎𝑟𝑎; 𝐵 = {𝐶}
(3) Experimento: Tirar dos monedas y observar el resultado
Espacio muestral asociado; 𝛀 = {𝑪𝑪, 𝑪𝑺, 𝑺𝑪, 𝑺𝑺}
Suceso: 𝐷: 𝑜𝑏𝑡𝑒𝑛𝑒𝑟 𝑑𝑜𝑠 𝑐𝑎𝑟𝑎𝑠; 𝐷 = {𝐶𝐶}

(4) Experimento: Arrojar una moneda 4 veces y contar el n° total de sellos

obtenidos
Espacio muestral asociado: 𝛀 = {𝟎, 𝟏, 𝟐, 𝟑, 𝟒}
Suceso: 𝐸: 𝑜𝑏𝑡𝑒𝑛𝑒𝑟 𝑚á𝑠 𝑑𝑒 𝑑𝑜𝑠 𝑠𝑒𝑙𝑙𝑜𝑠; 𝐸 =

{3, 4}
(5) Experimento: Se fabrica un conjunto de artículos hasta producir 10 no

defectuosos. Se cuenta el número total de artículos manufacturados.
Espacio muestral asociado: 𝛀 = {𝟏𝟎, 𝟏𝟏, 𝟏𝟐, 𝟏𝟑, … }
Suceso: 𝑅: 𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑟 𝑛𝑜 𝑚á𝑠 𝑑𝑒 𝑑𝑜𝑠 𝑑𝑒𝑓𝑒𝑐𝑡𝑢𝑜𝑠𝑜𝑠; 𝑅 =

{10, 11, 12}
(6) Experimento: Lanzar dos dados y se observa los puntos obtenidos
(𝟏, 𝟏), (𝟏, 𝟐), (𝟏, 𝟑), (𝟏, 𝟒), (𝟏, 𝟓), (𝟏, 𝟔)
(𝟐, 𝟏), (𝟐, 𝟐), (𝟐, 𝟑), (𝟐, 𝟒), (𝟐, 𝟓), (𝟐, 𝟔)
(𝟑, 𝟏), (𝟑, 𝟐), (𝟑, 𝟑), (𝟑, 𝟒), (𝟑, 𝟓), (𝟑, 𝟔)
Espacio muestral asociado: 𝛀 =
(𝟒, 𝟏), (𝟒, 𝟐), (𝟒, 𝟑), (𝟒, 𝟒), (𝟒, 𝟓), (𝟒, 𝟔)
(𝟓, 𝟏), (𝟓, 𝟐), (𝟓, 𝟑), (𝟓, 𝟒), (𝟓, 𝟓), (𝟓, 𝟔)
{(𝟔, 𝟏), (𝟔, 𝟐), (𝟔, 𝟑), (𝟔, 𝟒), (𝟔, 𝟓), (𝟔, 𝟔)}
Suceso: 𝐴: 𝑜𝑏𝑡𝑒𝑛𝑒𝑟 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑝𝑢𝑛𝑡𝑜𝑠 ≥ 𝑎 10; 𝐴 =

{(𝟒, 𝟔), (𝟓, 𝟓), (𝟓, 𝟔), (𝟔, 𝟒), (𝟔, 𝟓), (𝟔, 𝟔)}
(7) Experimento: Se lanza dos monedas y un dado. Se observa los resultados

obtenidos
𝑪𝑪𝟏, 𝑪𝑪𝟐, 𝑪𝑪𝟑, 𝑪𝑪𝟒, 𝑪𝑪𝟓, 𝑪𝑪𝟔

𝑪𝑺𝟏, 𝑪𝑺𝟐, 𝑪𝑺𝟑, 𝑪𝑺𝟒, 𝑪𝑺𝟓, 𝑪𝑺𝟔
Espacio muestral asociado: 𝛀 = {
𝑺𝑪𝟏, 𝑺𝑪𝟐, 𝑺𝑪𝟑, 𝑺𝑪𝟒, 𝑺𝑪𝟓, 𝑺𝑪𝟔
𝑺𝑺𝟏, 𝑺𝑺𝟐, 𝑺𝑺𝟑, 𝑺𝑺𝟒, 𝑺𝑺𝟓, 𝑺𝑺𝟔
Sucesos: 𝑀: 𝑞𝑢𝑒 𝑎𝑝𝑎𝑟𝑒𝑧𝑐𝑎𝑛 𝑑𝑜𝑠 𝑐𝑎𝑟𝑎𝑠 𝑦 𝑢𝑛 𝑛ú𝑚𝑒𝑟𝑜 𝑝𝑎𝑟; 𝑀 =

{𝐶𝐶2, 𝐶𝐶4, 𝐶𝐶6}
𝑁: 𝑞𝑢𝑒 𝑎𝑝𝑎𝑟𝑒𝑧𝑐𝑎 𝑢𝑛 𝑑𝑜𝑠; 𝑁 = {𝐶𝐶2, 𝐶𝑆2, SC2, 𝑆𝑆2}
OPERACIONES CON SUCESOS

(1) Unión (∪)
Se denomina unión de los sucesos A y B, al suceso 𝑨 ∪ 𝑩 que consiste de todos

los resultados que pertenecen a A o a B, o a ambos, es decir:
𝑨 ∪ 𝑩 = {𝒘 ∈ 𝛀 / 𝐰 ∈ 𝐀 ∨ 𝐰 ∈ 𝐁}
El suceso 𝑨 ∪ 𝑩 describe el suceso de que ocurre por lo menos uno de ellos
Unión de sucesos: 𝑨 ∪ 𝑩

(2) Intersección (∩)
Se denomina intersección de los sucesos A y B, al suceso A  B que consiste

de todos los los resultados que son comunes a A y a B, es decir:
𝑨 ∩ 𝑩 = {𝒘 ∈ 𝛀 / 𝐰 ∈ 𝐀 ∧ 𝐰 ∈ 𝐁}
El suceso 𝑨 ∩ 𝑩 describe el suceso de que ocurren ambos A y B
Intersección de sucesos: 𝑨 ∩ 𝑩
(3) Mutuamente excluyentes
Dos sucesos A y B son mutuamente excluyentes, si no tienen resultados en

común, es decir 𝑨 ∩ 𝑩 = 𝝓. En general diremos que los sucesos: 𝑨𝟏 , 𝑨𝟐 , … , 𝑨𝒏
son mutuamente excluyentes si, 𝑨𝒊 ∩ 𝑨𝒋 = 𝝓, ∀ 𝒊 ≠ 𝒋; 𝒊, 𝒋 = 𝟏, 𝟐, 𝟑, … , 𝒏
(4) Diferencia (−)
La diferencia del suceso B menos A es el suceso 𝑩 − 𝑨, que consiste de todos

los resultados que pertenecen al suceso B y no pertenecen al suceso A, es decir:
𝑩 − 𝑨 = {𝒘 ∈ 𝛀 / 𝐰 ∈ 𝐁 ∧ 𝐰 ∉ 𝐀}
El suceso 𝑩 − 𝑨 = 𝑩 ∩ 𝑨𝒄 describe el suceso de que ocurre B y no ocurre A
Diferencia de sucesos: 𝑩 − 𝑨
Todos los elementos de B que no estén en A
(5) Producto cartesiano (𝒙)

El producto cartesiano de los sucesos A y B, es el suceso 𝑨𝒙𝑩 que consiste

de todos los pares ordenados de resultados (𝒘𝟏 , 𝒘𝟐 ), siendo 𝒘𝟏 ∈ 𝐀 𝐲 𝒘𝟐 ∈ 𝐁,
es decir:
𝑨𝒙𝑩 = {(𝒘𝟏 , 𝒘𝟐 ) / 𝒘𝟏 ∈ 𝐀 ∧ 𝒘𝟐 ∈ 𝐁}
El suceso 𝑨𝒙𝑩 describe el suceso de que ocurre 1º A y 2º B
4) ALGEBRA DE SUCESOS
Las siguientes identidades básicas se verifican para los sucesos
Intersección Unión
1) Conmutativa 𝐴∩𝐵 =𝐵∩𝐴 𝐴∪𝐵 =𝐵∪𝐴
2) Asociativa 𝐴 ∩ (𝐵 ∩ 𝐶) = (𝐴 ∩ 𝐵) ∩ 𝐶 𝐴 ∪ (𝐵 ∪ 𝐶) = (𝐴 ∪ 𝐵) ∪ 𝐶
3) Idempotente 𝐴∩𝐴 =𝐴 𝐴∪𝐴=𝐴
4) Simplificación 𝐴 ∩ (𝐴 ∪ 𝐵) = 𝐴 𝐴 ∪ (𝐴 ∩ 𝐵) = 𝐴
5) Distributiva 𝐴 ∩ (𝐵 ∪ 𝐶) = (𝐴 ∩ 𝐵) 𝐴 ∪ (𝐵 ∩ 𝐶) = (𝐴 ∪ 𝐵)
∪ (𝐴 ∩ 𝐶) ∩ (𝐴 ∪ 𝐶)
6) Elemento Neutro 𝐴∩Ω=𝐴 𝐴∪Ω=𝐴
7) Absorción 𝐴∩𝜙 =𝜙 𝐴∪Ω=Ω
8) Leyes de De Morgan (𝐴 ∩ 𝐵)𝑐 = 𝐴𝑐 ∪ 𝐵 𝑐 (𝐴 ∪ 𝐵)𝑐 = 𝐴𝑐 ∩ 𝐵 𝑐
𝐴 ∩ 𝐴𝑐 = ϕ 𝐴 ∪ 𝐴𝑐 = Ω
9) Diferencia 𝐴 − 𝐵 = 𝐴 ∩ 𝐵𝑐
NOTA
Sea 𝑨𝟏 , 𝑨𝟐 , … , 𝑨𝒏 cualquier colección finita de n sucesos
(1) El suceso de que ocurra por lo menos uno de ellos se describe por el conjunto:
𝑛
𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 = ⋃ 𝐴𝑖
𝑖=1

(2) El suceso de que ocurran todos ellos junto se describe por el conjunto
𝑛
𝐴1 ∩ 𝐴2 ∩ … ∩ 𝐴𝑛 = ⋂ 𝐴𝑖
𝑖=1
(3) La regla de De Morgan
𝑛 𝑐 𝑛 𝑛 𝑐 𝑛
(⋃ 𝐴𝑖 ) = ⋂(𝐴𝑖 )𝑐 𝑦 (⋂ 𝐴𝑖 ) = ⋃(𝐴𝑖 )𝑐
𝑖=1 𝑖=1 𝑖=1 𝑖=1
(4) El producto cartesiano de los n sucesos es el suceso
𝐴1 𝑥𝐴2 𝑥 … 𝑥𝐴𝑛 = {(𝑤1 , 𝑤2 , … , 𝑤𝑛 ) / 𝑤𝑖 ∈ 𝐴𝑖 ∀ 𝑖 = 1,2, … , 𝑛 }

5) Conteo de resultados posibles
Cuando es grande el número de resultados posibles de un experimento aleatorio, no

suele ser fácil el recuento de tales resultados, por eso, es necesario dar ciertas reglas
que nos faciliten el conteo de resultados posibles.
(1) Número de resultados posibles
El número de elementos de un suceso arbitrario A se denota por 𝒏(𝑨) o por #(𝑨).

Es evidente que: 𝒏(𝝓) = 𝟎 𝒚 𝒏(𝑨) ≥ 𝟎, 𝒑𝒂𝒓𝒂 𝒕𝒐𝒅𝒐 𝒔𝒖𝒄𝒆𝒔𝒐 𝑨
 Regla de multiplicación
Si una operación puede realizarse de 𝒏𝟏 formas y por cada una de estas una
segunda operación puede realizarse de 𝒏𝟐 formas, entonces, las dos
operaciones pueden realizarse de 𝒏𝟏 ∙ 𝒏𝟐 formas; y así sucesivamente
 Regla de adición
Si los sucesos 𝑨𝟏 , 𝑨𝟐 , … , 𝑨𝒏 son mutuamente excluyentes (conjuntos

disjuntos), entonces:
𝒏 𝒏
𝒏 (⋃ 𝑨𝒊 ) = ∑ 𝒏(𝑨𝒊 )
𝒊=𝟏 𝒊=𝟏
(2) Variaciones
A Variaciones simples
Definición. Se denominan variaciones simples o sin repetición o simplemente

variaciones de k objetos tomados de n objetos distintos, a cada uno de los
arreglos u órdenes que se hagan con los k objetos, de manera, que estos
arreglos difieran en algún elemento o en el orden de colocación.
El número de variaciones diferentes de k objetos tomados de n objetos

distintos, denotado por Vkn o nVk , está dado por:
n!
Vkn 
n  k !
B Variaciones con repetición

Definición. Se denominan variaciones con repetición de k objetos tomados

de n objetos distintos, a cada uno de los arreglos de k de tales objetos de
manera que 2, 3, ..., k de ellos, pueden ser uno mismo de los n objetos.
El número de variaciones con repetición de k objetos a partir de n objetos

distintos, que denotaremos por 𝑽𝑹𝒏𝑲 , es:
𝑽𝑹𝒏𝑲 = 𝒏𝒌
Ejemplo
Hallar el número de maneras diferentes en que se pueden formar números de

5 cifras con los dígitos 3, 4, 5, 6, 7, 8 y 9 de manera que empiecen con 6 ó
terminen en 8, a) los dígitos: no se repiten. b) se repiten
Solución. Sean los conjuntos
𝐴 = {𝑁ú𝑚𝑒𝑟𝑜𝑠 𝑞𝑢𝑒 𝑐𝑜𝑚𝑖𝑒𝑛𝑧𝑎𝑛 𝑐𝑜𝑛 6}
𝐵 = {𝑁ú𝑚𝑒𝑟𝑜𝑠 𝑞𝑢𝑒 𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑛 𝑒𝑛 8}
⟹ 𝐴 ∩ 𝐵 = {𝑁ú𝑚𝑒𝑟𝑜𝑠 𝑞𝑢𝑒 𝑐𝑜𝑚𝑖𝑒𝑛𝑧𝑎𝑛 𝑐𝑜𝑛 6 𝑦 𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑛 𝑒𝑛 8}
Se debe calcular: 𝑛(𝐴 ∪ 𝐵) = 𝑛(𝐴) + 𝑛(𝐵) − 𝑛(𝐴 ∩ 𝐵)
a) Si los dígitos no se repiten
𝑛(𝐴) = 𝑉46 = 6𝑥5𝑥4𝑥3 = 360; 𝑛(𝐵) = 𝑉46 = 6𝑥5𝑥4𝑥3 = 360;
𝑛(𝐴 ∩ 𝐵) = 𝑉45 = 5𝑥4𝑥3 = 60
Luego, 𝑛(𝐴 ∪ 𝐵) = 𝑛(𝐴) + 𝑛(𝐵) − 𝑛(𝐴 ∩ 𝐵) = 360 + 360 − 60 = 660
b) Si los dígitos se repiten
𝑛(𝐴) = 𝑉𝑅47 = 7𝑥7𝑥7𝑥7 = 2401; 𝑛(𝐵) = 𝑉𝑅47 = 74 = 2401;
𝑛(𝐴 ∩ 𝐵) = 𝑉𝑅37 = 73 = 343
Luego, 𝑛(𝐴 ∪ 𝐵) = 𝑛(𝐴) + 𝑛(𝐵) − 𝑛(𝐴 ∩ 𝐵) = 2401 + 2401 − 343 = 4459
(3) Permutaciones
A Permutaciones simples

Definición. Se denominan permutaciones de n objetos a cada una de las

variaciones de los n objetos distintos.
El número de permutaciones de n objetos distintos, denotado por 𝑷𝒏 o 𝑷𝒏 es

igual al número de variaciones de n objetos tomados de n objetos distintos,
está dado por:
𝑷𝒏 = 𝑽𝒏𝒏 = 𝒏!
B Permutaciones circulares
Definición. Se denominan permutaciones circulares a las diferentes

permutaciones que pueden formarse con n objetos distintos, donde no hay ni
primero ni último objeto, ya que todos forman un círculo.
El total de permutaciones “circulares” que pueden formarse con n objetos

distintos, denotado por 𝑷𝑪𝒏 , es: 𝑷𝑪𝒏 = (𝒏 − 𝟏)!
C Permutaciones con objetos repetidos
El número de permutaciones de n objetos de los cuales 𝒏𝟏 son iguales entre

sí, 𝒏𝟐 son iguales entre sí, ..., 𝒏𝒌 son iguales entre sí, que denotaremos por
𝑷𝒏𝒏𝟏 ,𝒏𝟐 ,…,𝒏𝒌 , está dado por: 𝑷𝒏 𝒏!
𝒏𝟏 ,𝒏𝟐 ,…,𝒏𝒌 =
𝒏𝟏!∙𝒏𝟐 !∙…∙𝒏𝒌
(4) Combinaciones
A Combinaciones simples
Definición. Se denominan combinaciones de k objetos tomados de n objetos

distintos, a cada selección que podamos hacer de k objetos de los n dados,
sin tener en cuenta el orden de los mismos y de manera que no pueden haber
dos combinaciones con los mismos elementos.
El número de combinaciones de orden k que se pueden formar a partir de n

𝒏
objetos distintos, denotado por 𝑪𝒏𝒌 𝒐 𝒏𝑪𝒌 𝒐 ( ) , está dado por: 𝑪𝒏𝒌 =
𝒌
𝒏 𝒏!
𝒏𝑪𝒌 = (𝒌) = 𝒌!∙(𝒏−𝒌)!
B Combinaciones con repetición

El número de combinaciones de k objetos tomados de n objetos, de manera

que 2, 3, ..., k objetos pueden ser uno mismo y que denotaremos por 𝑪𝑹𝒏𝒌 , esta
dado por:
𝒏+𝒌−𝟏 (𝒏 + 𝒌 − 𝟏)!
𝑪𝑹𝒏𝒌 = ( )=
𝒌 𝒌! ∙ (𝒏 − 𝟏)!
6) PROBABILIDAD DE UN SUCESO
Definición de función de probabilidad
Sea  un experimento aleatorio y 𝛀 su espacio muestral. Sea 𝑨𝒊 un suceso de 𝛀,

llamaremos función de probabilidad a 𝑷(𝑨𝒊 ), si satisface los siguientes axiomas:
Axioma 1: 𝑷(𝑨𝒊 ) ≥ 𝟎, para todo suceso 𝑨𝒊
Axioma 2: 𝑷(𝛀) = 𝟏
Axioma 3: Si para los sucesos 𝑨𝟏 , 𝑨𝟐 , … , 𝑨𝒏 sucede que 𝑨𝒊 ∩ 𝑨𝒋 = 𝝓, ∀ 𝒊 ≠ 𝒋.
Entonces:
𝒏 𝒏
𝑷 (⋃ 𝑨𝒊 ) = ∑ 𝑷(𝑨𝒊 )
𝒊=𝟏 𝒊=𝟏

Como consecuencia de los axiomas, se tienen los teoremas:
Teorema 1. Si 𝛟 es el suceso imposible, entonces: 𝐏(𝛟) = 𝟎

Demostración
Los sucesos 𝛀 y 𝝓 son disjuntos. Además, 𝛀 = 𝛀 ∪ 𝝓
Por el ax. 3. 𝑷(𝜴) = 𝑷(𝜴) + 𝑷(𝛟), de donde resulta 𝐏(𝛟) = 𝟎

Teorema 2. Si 𝑨𝒄 , es el suceso complementario del suceso A, entonces,
𝑷(𝑨) + 𝑷(𝑨𝒄 ) = 𝟏
Demostración
Los sucesos 𝑨 𝒚 𝑨𝒄 son disjuntos. Además, 𝛀 = 𝑨 ∪ 𝑨𝒄
Por el ax. 3. . 𝐏(𝛀) = 𝐏(𝐀) + 𝐏(𝑨𝒄 ).
Teorema 3. Si A y B son dos sucesos tales que 𝑨 ⊂ 𝑩, entonces, . 𝐏(𝐀) ≤ 𝐏(𝐁)
Demostración
𝑨 ⊂ 𝑩, implica 𝑩 = 𝑨 ∪ (𝑩 − 𝑨), donde A y 𝑩 − 𝑨 son sucesos disjuntos.
Por el ax. 3, se tiene, 𝑷(𝑩) = 𝑷(𝑨) + 𝑷(𝑩 − 𝑨) o 𝑷(𝑩) − 𝑷(𝑨) = 𝑷(𝑩 − 𝑨).
Además por ax. 1 𝑷(𝑩 − 𝑨) ≥ 𝟎, de donde resulta 𝑷(𝑩) − 𝑷(𝑨) ≥ 𝟎, o 𝑷(𝑩) ≥ 𝑷(𝑨)
NOTA: Para todo suceso A, se verifica: 𝝓 ⊂ 𝑨 ⊂ 𝛀, entonces:
𝑷(𝝓) ≤ 𝑷(𝑨) ≤ 𝑷(𝛀), consecuentemente 𝟎 ≤ 𝑷(𝑨) ≤ 𝟏
Teorema 4 (Regla de la adición). Sean A y B sucesos cualesquiera de  , entonces:
𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝐀 ∩ 𝐁)
Demostración
Como: 1) 𝑨 ∪ 𝑩 = 𝑨 ∪ (𝑨𝒄 ∩ 𝑩), siendo 𝑨 𝒚 (𝑨𝒄 ∩ 𝑩) disjuntos
2) 𝑩 = (𝑨 ∩ 𝑩) ∪ (𝑨𝒄 ∩ 𝑩), siendo (𝑨 ∩ 𝑩) 𝒚 (𝑨𝒄 ∩ 𝑩) disjuntos
Por el ax. 3: 𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑨𝒄 ∩ 𝑩) y 𝑷(𝑩) = 𝑷(𝑨 ∩ 𝑩) + 𝑷(𝑨𝒄 ∩ 𝑩)
De estas dos identidades resulta:

𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝐀 ∩ 𝐁)
NOTAS:
1) Una consecuencia inmediata del teorema 4 es: 𝑷(𝑨 ∪ 𝑩) ≤ 𝑷(𝑨) + 𝑷(𝑩)
2) Para tres sucesos cualesquiera A, B y C, se tiene que:
3) 𝑷(𝑨 ∪ 𝑩 ∪ 𝑪) = 𝑷(𝑨) + 𝑷(𝑩) + 𝑷(𝑪) − 𝑷(𝐀 ∩ 𝐁) − 𝑷(𝐀 ∩ 𝐂) − 𝑷(𝐁 ∩ 𝐂) + 𝑷(𝐀 ∩

𝐁 ∩ 𝐂)
Teorema 5. Sea 𝛀 = ⋃𝒏𝒊=𝟏 𝑨𝒊 sucesos elementales e incompatibles dos a dos.

𝟏
Supongamos además, que: 𝑷(𝑨𝒊 ) = 𝒏 ; 𝒊 = 𝟏, 𝟐, … , 𝒏. Entonces, ∀ 𝑨 = ⋃𝒌𝒊=𝟏 𝑨𝒊 , con
𝒌 ≤ 𝒏 se tiene que:
𝒌
𝒌
𝑷(𝑨) = ∑ 𝑷(𝑨𝒊 ) =
𝒏
𝒊=𝟏
Nota: La propiedad anterior se conoce como Regla de Laplace y es de gran utilidad

cuando se pretende calcular probabilidades en espacios muestrales finitos con
resultados equiprobables. Suele enunciarse como:
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑎𝑙 𝑠𝑢𝑐𝑒𝑠𝑜 𝐴 #𝐴

𝑷(𝑨) = =
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 #Ω
EJEMPLOS RESUELTOS
1) De 300 estudiantes de Ingeniería, 100 cursan matemática y 80 estadística. Estas

cifras incluyen 30 estudiantes que siguen ambos cursos.
¿Cuál es la probabilidad de que un estudiante escogido al azar?:
a) Curse matemática o estadística?. b) No curse matemática? c) No curse

estadística?
Solución:
 = Estudiantes de Ingeniería
A = Cursan matemática

B = Cursan estadística
A y B = Cursan matemática y estadística
𝟏𝟎𝟎 𝟖𝟎 𝟑𝟎
̅
𝑷(𝑨) = 𝟑𝟎𝟎 = 𝟎, 𝟑 ̅ 𝑷(𝑨 ∩ 𝑩) =
𝑷(𝑩) = 𝟑𝟎𝟎 = 𝟎, 𝟐𝟔 = 𝟎, 𝟎𝟏
𝟑𝟎𝟎
𝟏𝟓𝟎
a) 𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩) = 𝟑𝟎𝟎 = 𝟎, 𝟓
b) 𝑷(𝑨𝒄 ) = 1 − 𝑃(𝐴) = 1 − 0, 3̅ = 0, 6̅
c) 𝑷(𝑩𝒄 ) = 1 − 𝑃(𝐵) = 1 − 0,26̅ = 0,73̅
2) Una caja contiene 220 tornillos iguales, de los cuales 80 son producidos por la
máquina A, 60 por la máquina B, 50 por la máquina C y 30 por la máquina D. Si se
elige un tornillo al azar de la caja. ¿Cuál es la probabilidad que el tornillo elegido haya
sido producido por las máquinas A o C?
Solución. Es claro que A, B, C y D son sucesos mutuamente excluyentes, porque

cada tornillo es producido por una y sólo una máquina.
𝟖𝟎 𝟓𝟎 𝟏𝟑𝟎
𝑷(𝑨 ∪ 𝑪) = 𝑷(𝑨) + 𝑷(𝑪) = + = ̅̅̅̅
= 𝟎, 𝟓𝟗𝟎
𝟐𝟐𝟎 𝟐𝟐𝟎 𝟐𝟐𝟎
𝐀𝐝𝐞𝐦á𝐬: 𝛀 = {𝑨, 𝑩, 𝑪, 𝑫}
𝟖𝟎 𝟔𝟎 𝟓𝟎 𝟑𝟎
𝑷(𝑨 ∪ 𝑩 ∪ 𝑪 ∪ 𝑫) = 𝑷(𝑨) + 𝑷(𝑩) + 𝑷(𝑪) + 𝑷(𝐃) = + + + =𝟏
𝟐𝟐𝟎 𝟐𝟐𝟎 𝟐𝟐𝟎 𝟐𝟐𝟎
3) De un comité de 20 estudiantes constituido por estudiantes de Ingeniería, Economía

y Agronomía, se va a elegir al azar al presidente del comité; se sabe que la
probabilidad de elegir un estudiante de Economía es 0,4, ¿cuál es la probabilidad de
que el presidente no sea de economía?
Solución.
𝑨 = 𝑷𝒓𝒆𝒔𝒊𝒅𝒆𝒏𝒕𝒆 𝒔𝒆𝒂 𝒅𝒆 𝒆𝒄𝒐𝒏𝒐𝒎í𝒂 𝑨𝒄 = 𝑷𝒓𝒆𝒔𝒊𝒅𝒆𝒏𝒕𝒆 𝒏𝒐 𝒔𝒆𝒂 𝒅𝒆 𝒆𝒄𝒐𝒏𝒐𝒎í𝒂
⟹ 𝑷(𝑨𝒄 ) = 𝟏 − 𝑷(𝑨) = 𝟏 − 𝟎, 𝟒 = 𝟎, 𝟔
4) Si A es el suceso de “extraer un As” de una baraja y B es el suceso de “extraer un

corazón” de la baraja, entonces A y B no son mutuamente excluyentes, puesto que
se puede extraer el “As de corazones”. Luego la probabilidad de extraer una carta
que “sea un As o un corazón” o ambos casos es:
Solución.
𝟒 𝟏𝟑 𝟒 𝟏𝟑 𝟒
𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝐀 ∩ 𝐁) = + − ∙ =
𝟓𝟐 𝟓𝟐 𝟓𝟐 𝟓𝟐 𝟏𝟑
5) En una empresa comercial trabajan 8 hombres y 18 mujeres, de las cuales la mitad de

los hombres y la mitad de las mujeres han nacido en Iquique. Hallar la probabilidad de
que un trabajador elegido al azar sea hombre o que haya nacido en Iquique.
Solución.
𝑆𝑒𝑎 𝐻 = {𝑒𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟 𝑠𝑒𝑎 ℎ𝑜𝑚𝑏𝑟𝑒}
𝐼 = {𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟 𝑛𝑎𝑐𝑖𝑑𝑜 𝑒𝑛 𝐼𝑞𝑢𝑖𝑞𝑢𝑒}
Entonces ser hombre o nacido en Iquique será 𝑯 ∪ 𝑰
𝟖 𝟏𝟑 𝟒
𝑷(𝑯) = 𝟐𝟔 𝑷(𝑰) = 𝟐𝟔 𝑷(𝑯 ∩ 𝑰) = 𝟐𝟔
𝟖 𝟏𝟑 𝟒 𝟏𝟕
𝑷(𝑯 ∪ 𝑰) = 𝑷(𝑯) + 𝑷(𝑰) − 𝑷(𝑯 ∩ 𝑰) = + − =
𝟐𝟔 𝟐𝟔 𝟐𝟔 𝟐𝟔
6) En una empresa se publican 3 revistas A, B y C, el 30% de los trabajadores lee A, el

20% lee B y el 15% lee C, el 12% lee A y B, el 9% A y C, el 6% B y C; y finalmente
3% lee A, B y C. Hallar la probabilidad de que los trabajadores lean:
i) Al menos una de las revistas. ii) La revista B ó C pero no A. iii) A o bien no

leen B ni C.
Solución:
 Trabajadores de la empresa
A Trabajador lee la revista A.
B Trabajador lee la revista B.
C Trabajador lee la revista C.
i) 𝑷(𝑨 ∪ 𝑩 ∪ 𝑪) = 𝑷(𝑨) + 𝑷(𝑩) + 𝑷(𝑪) − 𝑷(𝐀 ∩ 𝐁) − 𝑷(𝐀 ∩ 𝐂) − 𝑷(𝐁 ∩ 𝐂) + 𝑷(𝐀 ∩

𝐁 ∩ 𝐂)
𝑷(𝑨 ∪ 𝑩 ∪ 𝑪) = 𝟎, 𝟑 + 𝟎, 𝟐 + 𝟎, 𝟏𝟓 − 𝟎, 𝟏𝟐 − 𝟎, 𝟎𝟗 − 𝟎, 𝟎𝟔 + 𝟎, 𝟎𝟑 = 𝟎, 𝟒𝟏
ii) 𝑷[(𝑩 ∪ 𝑪) ∩ 𝑨𝒄 ] = 𝑷[(𝑩 ∩ 𝑨𝒄 ) ∪ (𝑪 ∩ 𝑨𝒄 )] = 𝑷(𝑩 ∩ 𝑨𝒄 ) + 𝑷(𝑪 ∩ 𝑨𝒄 ) − 𝑷(𝑨𝒄 ∩ 𝑩 ∩ 𝑪)

𝑷[(𝑩 ∪ 𝑪) ∩ 𝑨𝒄 ] = 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩) + 𝑷(𝑪) − 𝑷(𝑨 ∩ 𝑪) − {𝑷(𝑩 ∩ 𝑪) − 𝑷(𝑨 ∩ 𝑩 ∩ 𝑪)}
𝑷[(𝑩 ∪ 𝑪) ∩ 𝑨𝒄 ] = 𝟎, 𝟐 − 𝟎, 𝟏𝟐 + 𝟎, 𝟏𝟓 − 𝟎, 𝟎𝟗 − {𝟎, 𝟎𝟔 − 𝟎, 𝟎𝟑} = 𝟎, 𝟏𝟏
iii) 𝑷[𝑨 ∪ (𝑩𝒄 ∩ 𝑪𝒄 )] = 𝟏 − 𝑷[𝑨𝒄 ∩ (𝑩 ∪ 𝑪)] = 𝟏 − 𝟎, 𝟏𝟏 = 𝟎, 𝟖𝟗
7) PROBABILIDAD CONDICIONAL
Definición: Sean A y B dos sucesos en un espacio muestral. La probabilidad

condicional de B dado A, es el número 𝑷(𝑩⁄𝑨) que se define por:
𝑷(𝑨 ∩ 𝑩)
𝑷(𝑩⁄𝑨) = ; 𝒔𝒊 𝑷(𝑨) ≠ 𝟎
𝑷(𝑨)
NOTAS
1) Si 𝑷(𝑨) = 𝟎, se define 𝑷(𝑩⁄𝑨) = 𝟎
2) Observar que (𝑨 ∩ 𝑩) ⊂ 𝑨 , luego, cada vez que se calcula 𝑷(𝑩⁄𝑨) estamos

realmente calculando 𝑷(𝑩) con respecto al espacio muestral reducido A. Por esto,
𝑷(𝑩⁄𝑨) se interpreta también como la actualización de 𝑷(𝑩) cuando el suceso A
ha ocurrido
3) En particular, si A y B son dos sucesos de un espacio muestral finito equiprobable

 , la probabilidad condicional de B dado A, se calcula por:
#(𝑨 ∩ 𝑩)
𝑷(𝑩⁄𝑨) = ; 𝒔𝒊 #(𝑨) ≠ 𝟎
#(𝑨)
4) Si 𝑨 ∩ 𝑩 = 𝝓, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑷(𝑩⁄𝑨) = 𝟎
𝑷(𝑨)
5) Si 𝑨 ⊂ 𝑩, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑷(𝑩⁄𝑨) = 𝑷(𝑨) = 𝟏
𝑷(𝑩)
6) Si 𝑩 ⊂ 𝑨, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑷(𝑩⁄𝑨) = 𝑷(𝑨)
𝝓
7) Si 𝑷(𝑩) > 𝟎 ⟹ 𝑷 ( ⁄𝑩) = 𝟎
𝒄
8) 𝑷 (𝑨 ⁄𝑩) = 𝟏 − 𝑷(𝑨⁄𝑩)

9) 𝑷(𝑨 ∪ 𝑪⁄𝑩) = 𝑷(𝑨⁄𝑩) + 𝑷(𝑪⁄𝑩) − 𝑷(𝑨 ∩ 𝑪⁄𝑩)
Ejemplo
Un club consiste de 150 socios. Del total, 3/5 son hombres y 2/3 son profesionales.
Además, 1/3 de las mujeres son no profesionales.
a) Se elige al azar un socio del club:
a1) Calcular la probabilidad de que sea hombre y profesional
a2) Calcular la probabilidad de que sea hombre, dado que es profesional
b) Se eligen 3 socios al azar:
b1) Si las 3 son mujeres, ¿cuál es la probabilidad de que al menos una de ellas
sea profesional?
b2) Si resultan ser del mismo sexo, ¿cuál es la probabilidad de que sean mujeres
Solución.
El espacio muestral 𝛀 consiste de los 150 socios del club que son clasificados en:
Hombre (H), Mujer (M), Profesional (P), y No profesional (NP), vea la tabla siguiente.
Profesional (P) No Profesional (NP) Total
Hombre (H) 60 30 90
Mujer (M) 40 20 60
Total 100 50 150
a) Si se elige al azar un socio del club:
#(𝑯∩𝑷) 𝟔𝟎
a1) 𝑷(𝑯 ∩ 𝑷) = = 𝟏𝟓𝟎 = 𝟎, 𝟒
#(𝛀)
a2) Considerando el espacio muestral reducido P, tenemos:
#(𝑯 ∩ 𝑷) 𝟔𝟎
𝑷(𝑯⁄𝑷) = = = 𝟎, 𝟔
𝑷(𝐏) 𝟏𝟎𝟎
b) Si se eligen 3 socios al azar
b1) Sean los sucesos A: “las 3 son mujeres” y B: “al menos una es profesional

Considerando el espacio muestral reducido A se tiene:
𝑩 #(𝑨 ∩ 𝑩) 𝑪𝟒𝟎 𝟐𝟎 𝟒𝟎 𝟐𝟎 𝟒𝟎 𝟐𝟎
𝟏 ∙ 𝑪𝟐 + 𝑪𝟐 ∙ 𝑪𝟏 + 𝑪𝟑 ∙ 𝑪𝟎 𝑪𝟒𝟎 𝟐𝟎
𝟎 ∙ 𝑪𝟑
𝑷( ⁄𝑨) = = =𝟏−
#(𝑨) 𝑪𝟔𝟎 𝟑 𝑪𝟔𝟎 𝟑
= 𝟎, 𝟗𝟔𝟔𝟔𝟖𝟔
b2) Sean los sucesos A: “los 3 son del mismo sexo” y B: “las 3 son mujeres”.
Observar que el suceso A es “los 3 son H o los 3 son M”, y que 𝑩 ⊂ 𝑨, luego,
𝑩∩𝑨=𝑩
Entonces, #𝑨 = 𝑪𝟗𝟎 𝟔𝟎
𝟑 + 𝑪𝟑 = 𝟏𝟓𝟏. 𝟕𝟎𝟎, y considerando el espacio muestral
reducido A, se tiene:
#(𝑩) 𝟑𝟒. 𝟐𝟐𝟎

𝑷(𝑩⁄𝑨) = = = 0,225576796
#(𝑨) 𝟏𝟓𝟏. 𝟕𝟎𝟎
8) SUCESOS INDEPENDIENTES
Definición 1: Se dice que el suceso B es independiente (estadísticamente o

estocásticamente o vía probabilidad) del suceso A, si,
𝑷(𝑩⁄𝑨) = 𝑷(𝑩) ó 𝑷(𝑨⁄𝑩) = 𝑷(𝑨)
Definición 2: Dos sucesos A y B son independientes sí y sólo sí:
𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑨) ∙ 𝑷(𝑩)
NOTA: A y B independientes no significa 𝑨 ∩ 𝑩 = 𝝓
Generalizando esta definición para n sucesos: se dice que n sucesos A1, A2, ... An
son mutuamente independientes si y sólo si:
𝒏 𝒏
𝑷 (⋃ 𝑨𝒊 ) = ∏ 𝑷(𝑨𝒊 )
𝒊=𝟏 𝒊=𝟏
es válida para cualquier pareja de sucesos k = 2, 3, 4, ... n.
TEOREMAS: Si A y B son sucesos independientes entonces:
a) 𝑨 𝒚 𝑩𝒄 son independientes

b) 𝑨𝒄 𝒚 𝑩 son independientes.
c) 𝑨𝒄 𝒚 𝑩𝒄 son independientes
Demostraciones (Ejercicio)
Demostración c).
Por demostrar: 𝑷(𝑨𝒄 ∩ 𝑩𝒄 ) = 𝑷(𝑨𝒄 ) ∙ 𝑷(𝑩𝒄 ), en efecto:
𝑷(𝑨𝒄 ∩ 𝑩𝒄 ) = 𝑷(𝑨 ∪ 𝑩)𝒄 = 𝟏 − 𝑷(𝑨 ∪ 𝑩)

= 𝟏 − {𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩)}
= 𝟏 − 𝑷(𝑨) − 𝑷(𝑩) + 𝑷(𝑨 ∩ 𝑩) = 𝟏 − 𝑷(𝑨) − 𝑷(𝑩) + 𝑷(𝑨) ∙ 𝑷(𝑩)
= (𝟏 − 𝑷(𝑨)) − 𝑷(𝑩) ∙ (𝟏 − 𝑷(𝑨)) = (𝟏 − 𝑷(𝑨)) ∙ (𝟏 − 𝑷(𝑩)) = 𝑷(𝑨𝒄 ) ∙ 𝑷(𝑩𝒄 )
Ejemplo
La probabilidad de que un comerciante, venda dentro de un mes, un lote de

refrigeradores es 0,25 y la probabilidad de vender un lote de cocinas dentro de un mes
es 0,3. Hallar la probabilidad de que:
1. Venda los dos lotes de artículos dentro de un mes.
2. Venda “al menos uno” de los lotes dentro de un mes.
3. Venda “ninguno” de los lotes dentro de un mes.
4. Solamente venda el lote de refrigeradores dentro de un mes.
Solución.
Sea R; suceso de vender los refrigeradores dentro de un mes, entonces: P(R) = 0,25
C; suceso de vender las cocinas dentro de un mes, entonces: P(C) = 0,3
Luego calculamos:
1. 𝑷(𝑹 ∩ 𝑪) = 𝑷(𝑹) ∙ 𝑷(𝑪) = 𝟎, 𝟐𝟓 ∙ 𝟎, 𝟑 =

𝟎, 𝟎𝟕𝟓; 𝒅𝒂𝒅𝒐 𝒒𝒖𝒆 𝑹 𝒚 𝑪 𝒔𝒐𝒏 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒊𝒆𝒏𝒕𝒆𝒔
2. 𝑷(𝑹 ∪ 𝑪) = 𝑷(𝑹) + 𝑷(𝑪) − 𝑷(𝑹 ∩ 𝑪) = 𝟎, 𝟓 + 𝟎, 𝟑 − 𝟎, 𝟎𝟕𝟓 = 𝟎, 𝟕𝟐𝟓
3. 𝑷(𝑹𝒄 ∩ 𝑪𝒄 ) = 𝑷(𝑹𝒄 ) ∙ 𝑷(𝑪𝒄 ) = 𝟎, 𝟕𝟓 ∙ 𝟎, 𝟕 = 𝟎, 𝟓𝟐𝟓

4. P(𝑹 ∩ 𝑪𝒄 ) = 𝑷(𝑹) ∙ 𝑷(𝑪𝒄 ) = 𝟎, 𝟐𝟓 ∙ 𝟎, 𝟕 = 𝟎, 𝟏𝟕𝟓
9) TEOREMA DE LA MULTIPLICACIÓN
𝑷(𝑨∩𝑩)
Generalmente en la expresión: 𝑷(𝑨⁄𝑩) = , 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑩 ∩ 𝑨) resulta muy
𝑷(𝑩)
difícil de calcular, sin embargo al eliminar la fracción, se tiene: 𝑷(𝑩 ∩ 𝑨) = 𝑷(𝑩) ∙

𝑷(𝑨⁄𝑩), expresión que constituye el “teorema de la multiplicación”, o sea:
Teorema: La probabilidad de la ocurrencia simultánea para los sucesos B y A es

igual a la probabilidad de ocurrencia de B multiplicado por la probabilidad de A, dado
que B ha tenido que ocurrir 𝑷(𝑩 ∩ 𝑨) = 𝑷(𝑩) ∙ 𝑷(𝑨⁄𝑩)
En general:
𝒏
𝑨
𝑷 (⋂ 𝑨𝒊 ) = 𝑷(𝑨𝒊 ) ∙ 𝑷 ( 𝒊⁄ 𝒏−𝟏 )
⋂𝒊=𝟏 𝑨𝒊
𝒊=𝟏
Ejemplos
1) Supongamos que en una urna hay 7 bolas del mismo tamaño, de los cuales 4 son
blancas y 3 son rojas. Se extraen sucesivamente dos bolas al azar sin reemplazo.
¿Cuál es la probabilidad de que la primera bola extraída sea blanca y la segunda
sea roja?
Solución.
𝑺𝒆𝒂 𝑩 = {𝒑𝒓𝒊𝒎𝒆𝒓𝒂 𝒃𝒐𝒍𝒂 𝒔𝒆𝒂 𝒃𝒍𝒂𝒏𝒄𝒂}
𝑹 = {𝒔𝒆𝒈𝒖𝒏𝒅𝒂 𝒃𝒐𝒍𝒂 𝒔𝒆𝒂 𝒓𝒐𝒋𝒂}
𝟒 𝟑 𝟐
⟹ 𝑷(𝑩 ∩ 𝑹) = 𝑷(𝑩) ∙ 𝑷(𝑹⁄𝑩) = ∙ = = 𝟎, 𝟐𝟖𝟓𝟕
𝟕 𝟔 𝟕
2) En un lote de 10 artículos hay 3 defectuosos. Si se toman al azar tres artículos uno

tras otro. ¿Cuál es la probabilidad de que los tres artículos sean buenos?
Solución.

𝑺𝒆𝒂 𝑨𝒊 = {𝒂𝒓𝒕í𝒄𝒖𝒍𝒐 𝒊 𝒆𝒔 𝒃𝒖𝒆𝒏𝒐; 𝒊)𝟏, 𝟐, 𝟑}
𝑨𝟐 𝑨 𝟕 𝟔 𝟓
𝑷(𝑨𝟏 ∩ 𝑨𝟐 ∩ 𝑨𝟑 ) = 𝑷(𝑨𝟏 ) ∙ 𝑷 ( ⁄𝑨 ) ∙ 𝑷 ( 𝟑⁄𝑨 ∩ 𝑨 ) = ∙ ∙ = 𝟎, 𝟐𝟗𝟏𝟕
𝟏 𝟏 𝟐 𝟏𝟎 𝟗 𝟖
Si 𝑨𝟏 , 𝑨𝟐 , … , 𝑨𝒏 son n sucesos mutuamente excluyentes, de los cuales al menos uno

de los 𝑨𝒊 (𝒊 = 𝟏, 𝟐, … , 𝒏) Ai debe ocurrir, y sea B un suceso cualesquiera en 𝛀, la
probabilidad condicional de la ocurrencia de 𝑨𝒊 cuando el suceso B ha ocurrido es:
𝑷(𝑨𝒊 ) ∙ 𝑷 (𝑩⁄𝑨 )
𝑨 𝒊
𝑷 ( 𝒊⁄𝑩) =
∑𝒏𝒊=𝟏 𝑷(𝑨𝒊 ) ∙ 𝑷 (𝑩⁄𝑨 )
𝒊
Ejemplos
1) En una empresa del total de trabajadores, se tiene que el 50% son Técnicos
Profesionales, el 30% son Administrativos y el 20% Personal de Servicio; además se
tiene que el 8% de los Profesionales, 9% de los Administrativos y el 10% del Personal
de Servicio son “afuerinos” (nacidos fuera de Iquique). Supongamos que se selecciona
un trabajador al azar y resulta ser “afuerino” (B). Hallar la probabilidad de que el
trabajador sea Técnico Profesional (A1).
Solución.
𝑆𝑒𝑎 𝐴1 = {𝐸𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟 𝑒𝑠 𝑇é𝑐𝑛𝑖𝑐𝑜 𝑝𝑟𝑜𝑓𝑒𝑠𝑖𝑜𝑛𝑎𝑙}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐴1 ) = 0,5
𝐴2 = {𝐸𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟 𝑒𝑠 𝐴𝑑𝑚𝑖𝑛𝑖𝑠𝑡𝑟𝑎𝑡𝑖𝑣𝑜}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐴2 ) = 0,3
𝐴3 = {𝐸𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟 𝑒𝑠 𝑃𝑒𝑟𝑠𝑜𝑛𝑎𝑙 𝑑𝑒 𝑠𝑒𝑟𝑣𝑖𝑐𝑖𝑜}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐴3 ) = 0,2
𝐵 = {𝐸𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟 𝑒𝑠 𝐴𝑓𝑢𝑒𝑟𝑖𝑛𝑜}
𝐴
Debemos hallar 𝑃 ( 1⁄𝐵 ), de acuerdo al Teorema de Bayes:
P(A1 ) ∙ P (B⁄A )
A 1
P ( 1⁄B) =
P(A1 ) ∙ P ( ⁄A ) + P(A2 ) ∙ P ( ⁄A ) + P(A3 ) ∙ P (B⁄A )
B B
1 2 3
0,5 ∙ 0,08
= = 0,4698
0,5 ∙ 0,08 + 0,3 ∙ 0,09 + 0,2 ∙ 0,1

2) En la empresa RA, el 25% de los trabajadores hombres y el 10% de las trabajadoras

mujeres tienen sueldos superiores a los $ 300.000 mensuales. Además, el 60% de los
trabajadores son mujeres. Si se selecciona un trabajador al azar y gana más de $
300.000 mensuales, ¿cuál es la probabilidad que el trabajador elegido sea mujer?.
Solución.
𝑆𝑒𝑎 𝐴1 = {𝐸𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐴1 ) = 0,6
𝐴2 = {𝐸𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟 𝑒𝑠 ℎ𝑜𝑚𝑏𝑟𝑒}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐴2 ) = 0,4
𝐵 = {𝐸𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟 𝑡𝑖𝑒𝑛𝑒 𝑠𝑢𝑒𝑙𝑑𝑜 𝑚𝑎𝑦𝑜𝑟 𝑎 $300.000}
𝐴
𝑃(𝐴1 ) ∙ 𝑃 (𝐵⁄𝐴 ) 0,6 ∙ 0,1

𝐴 1
𝑃 ( 1⁄𝐵 ) = = = 0,375
𝑃(𝐴1 ) ∙ 𝑃 (𝐵⁄𝐴 ) + 𝑃(𝐴2 ) ∙ 𝑃 (𝐵⁄𝐴 ) 0,6 ∙ 0,1 + 0,4 ∙ 0,25
1 2
3) En una Universidad, el 60% de los estudiantes son del grupo estudiantil ALFA y el
40% del grupo BETA. En las elecciones para presidente de la Federación de
estudiantes se presentaron dos candidatos, Luis y Enrique. Realizada la elección, el
80% del grupo ALFA y el 10% del grupo BETA votaron por Luis. El 20% de ALFA y el
90% de BETA votaron por Enrique. Si se selecciona un votante al azar y resulta que
voto por Enrique, ¿cuál es la probabilidad de que sea del grupo ALFA?.
Solución.
𝑆𝑒𝑎 𝐴1 = {𝐸𝑙 𝑣𝑜𝑡𝑎𝑛𝑡𝑒 𝑒𝑠 𝑑𝑒 𝐴𝐿𝐹𝐴}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐴1 ) = 0,6
𝐴2 = {𝐸𝑙 𝑣𝑜𝑡𝑎𝑛𝑡𝑒 𝑒𝑠 𝑑𝑒 𝐵𝐸𝑇𝐴}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐴2 ) = 0,4
𝐵 = {𝐸𝑙 𝑣𝑜𝑡𝑎𝑛𝑡𝑒 𝑣𝑜𝑡ó 𝑝𝑜𝑟 𝐸𝑛𝑟𝑖𝑞𝑢𝑒}
𝐴
𝑃(𝐴1 ) ∙ 𝑃 (𝐵⁄𝐴 ) 0,6 ∙ 0,2

𝐴 1
𝑃 ( 1⁄𝐵 ) = = = 0,25
𝑃(𝐴1 ) ∙ 𝑃 (𝐵⁄𝐴 ) + 𝑃(𝐴2 ) ∙ 𝑃 (𝐵⁄𝐴 ) 0,6 ∙ 0,2 + 0,4 ∙ 0,9
1 2
4) Tres máquinas A, B y C producen respectivamente 20%, 30% y 50% del número

total de artículos de una fábrica. Los porcentajes de desperfecto de producción de
estas máquinas son 3%, 4% y 5%. Si se selecciona al azar un artículo, hallar la

probabilidad de que:
a) el artículo sea defectuoso
b) el artículo defectuoso haya sido producido por la máquina A.
Solución:
𝑆𝑒𝑎 Ω = {𝑀á𝑞𝑢𝑖𝑛𝑎 𝐴, 𝐵, 𝐶}
𝐴 = {𝐸𝑙 𝑎𝑟𝑡í𝑐𝑢𝑙𝑜 𝑒𝑠 𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑑𝑜 𝑝𝑜𝑟 𝑙𝑎 𝑚á𝑞𝑢𝑖𝑛𝑎 𝐴}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐴) = 0,2
𝐵 = {𝐸𝑙 𝑎𝑟𝑡í𝑐𝑢𝑙𝑜 𝑒𝑠 𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑑𝑜 𝑝𝑜𝑟 𝑙𝑎 𝑚á𝑞𝑢𝑖𝑛𝑎 𝐵}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐵) = 0,3
𝐶 = {𝐸𝑙 𝑎𝑟𝑡í𝑐𝑢𝑙𝑜 𝑒𝑠 𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑑𝑜 𝑝𝑜𝑟 𝑙𝑎 𝑚á𝑞𝑢𝑖𝑛𝑎 𝐶}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐶) = 0,5
𝐷 = {𝐸𝑙 𝑎𝑟𝑡í𝑐𝑢𝑙𝑜 𝑒𝑠 𝑑𝑒𝑓𝑒𝑐𝑡𝑢𝑜𝑠𝑜}
a) 𝑃(𝐷) = 𝑃(𝐴) ∙ 𝑃(𝐷⁄𝐴) + 𝑃(𝐵) ∙ 𝑃(𝐷⁄𝐵 ) + 𝑃(𝐶) ∙ 𝑃(𝐷⁄𝐶 ) = 0,2 ∙ 0,03 + 0,3 ∙ 0,04 +
0,5 ∙ 0,05 = 0,043
𝑃(𝐴)∙𝑃(𝐷⁄𝐴) 0,2∙0,03
b) 𝑃(𝐴⁄𝐷) = = = 0,1395
𝑃(𝐷) 0,043
5. El centro de cálculo de una determinada compañía consta, entre otras, de tres salas,
A, B y C, de PC con 8, 6 y 4 computadores cada una. Se sabe, por un cartel que hay
en la puerta, que uno de los computadores de cada sala contiene virus.
Si una persona entra a trabajar en una sala cualquiera, ¿cuál es la probabilidad de

que se siente en el computador infectado?
Solución: Si denotamos los sucesos por:
1
𝐴 = {𝐸𝑛𝑡𝑟𝑎𝑟 𝑒𝑛 𝑙𝑎 𝑠𝑎𝑙𝑎 𝐴}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐴) =
3
1
𝐵 = {𝐸𝑛𝑡𝑟𝑎𝑟 𝑒𝑛 𝑙𝑎 𝑠𝑎𝑙𝑎 𝐵}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐵) =
3
1
𝐶 = {𝐸𝑛𝑡𝑟𝑎𝑟 𝑒𝑛 𝑙𝑎 𝑠𝑎𝑙𝑎 𝐶}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐶) =
3
𝐵 = {𝐸𝑙 𝑎𝑟𝑡í𝑐𝑢𝑙𝑜 𝑒𝑠 𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑑𝑜 𝑝𝑜𝑟 𝑙𝑎 𝑚á𝑞𝑢𝑖𝑛𝑎 𝐵}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐵) = 0,3
𝐶 = {𝐸𝑙 𝑎𝑟𝑡í𝑐𝑢𝑙𝑜 𝑒𝑠 𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑑𝑜 𝑝𝑜𝑟 𝑙𝑎 𝑚á𝑞𝑢𝑖𝑛𝑎 𝐶}, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝑃(𝐶) = 0,5

𝐷 = {𝐸𝑙 𝑎𝑟𝑡í𝑐𝑢𝑙𝑜 𝑒𝑠 𝑑𝑒𝑓𝑒𝑐𝑡𝑢𝑜𝑠𝑜}
𝐶𝑉 = {𝐶𝑜𝑚𝑝𝑢𝑡𝑎𝑑𝑜𝑟 𝑐𝑜𝑛 𝑣𝑖𝑟𝑢𝑠}
Aplicando el Teorema de la Probabilidad Total:
1 1 1 1 1 1
𝑃(𝐶𝑉) = 𝑃(𝐴) ∙ 𝑃(𝐶𝑉⁄𝐴) + 𝑃(𝐵) ∙ 𝑃(𝐶𝑉⁄𝐵 ) + 𝑃(𝐶) ∙ 𝑃(𝐶𝑉⁄𝐶 ) = ∙ + ∙ + ∙
3 8 3 6 3 4
13
=
72
Si la persona en cuestión ha encendido un computador y estaba contaminado, ¿cuál

es la probabilidad de que hubiera entrado en la sala A?
Aplicando el Teorema de Bayes, la probabilidad pedida es:
1 1
𝑃(𝐴) ∙ 𝑃(𝐶𝑉⁄𝐴) ∙ 3
𝑃(𝐴⁄𝐶𝑉 ) = =3 8=
𝑃(𝐶𝑉) 13 13
72

UNIDAD 3 VARIABLES ALEATORIAS UNIDIMENSIONALES
1) INTRODUCCIÓN
En la unidad anterior se han estudiado los experimentos aleatorios describiéndolos

mediante espacios probabilísticos, de manera que a cada suceso se le asigna una
probabilidad. Lo que interesa es el número de veces que ha ocurrido un suceso, o la
medida de ciertas magnitudes como el tiempo, la longitud, el peso, etc. Estas
medidas se representan mediante variables aleatorias discretas y continuas.
En esta unidad se definen y caracterizan las variables aleatorias discretas y

continuas y se exponen diversos ejemplos que intentan clarificar estos conceptos.
2) VARIABLE ALEATORIA
Es una función real definida sobre 𝛀 que asigna a cada elemento de 𝛀 un número
real. Transforma, por lo tanto, los elementos del espacio muestral en valores
numéricos.
Al realizar un experimento aleatorio se obtienen una serie de sucesos elementales

que forman el espacio muestral 𝛀. Veamos algunos ejemplos para aclarar este
concepto.
Ejemplos
(1) Sea el experimento aleatorio de lanzar dos monedas. Los resultados posibles son:
𝛀 = {(𝒄, 𝒄), (𝒄, 𝒔), (𝒔, 𝒄), (𝒔, 𝒔)}; 𝒄 = 𝒄𝒂𝒓𝒂 𝒚 𝒔 = 𝒔𝒆𝒍𝒍𝒐
Se puede definir, por ejemplo, la variable aleatoria:
𝑿 = 𝑵ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒄𝒂𝒓𝒂𝒔 𝒂𝒍 𝒍𝒂𝒏𝒛𝒂𝒓 𝒍𝒂𝒔 𝒅𝒐𝒔 𝒎𝒐𝒏𝒆𝒅𝒂𝒔.
La variable aleatoria X asigna un número real a cada elemento de 𝛀.
𝑿(𝒄, 𝒄) = 𝟐; 𝑿(𝒄, 𝒔) = 𝟏; 𝑿(𝒔, 𝒂); 𝑿(𝒔, 𝒔) = 𝟎
El posible conjunto de los posibles valores de X es {𝟎, 𝟏, 𝟐}.

(2) Sea el experimento aleatorio consistente en lanzar dos monedas hasta que
salgan dos caras. Este experimento da lugar a una colección infinita numerable
de sucesos elementales.
Se define la variable aleatoria:
Y = Número de veces que se han de tirar las dos monedas hasta que salgan dos
caras.
El conjunto de valores posibles de Y es: {𝟎, 𝟏, 𝟐, 𝟑, 𝟒, 𝟓, … }.
TIPOS DE VARIABLES ALEATORIAS
Variable aleatoria discreta
Es aquella variable aleatoria que toma un número finito o infinito numerable de

valores.
Variable aleatoria contínua
Es aquella variable aleatoria que toma cualquier valor en un intervalo real dado.
Teniendo en cuenta que los valores de una variable aleatoria quedan determinados
por el resultado de un experimento aleatorio, es posible asignar probabilidad a cada
uno de ellos en el caso de las variables aleatorias discretas, o bien definir una función
para evaluar la probabilidad en intervalos, en el caso de las variables aleatorias
continuas.
La forma de caracterizar estas variables se tratará más adelante.
3) VARIABLE ALEATORIA DISCRETA. FUNCIÓN DE CUANTÍA
Sea X una variable aleatoria y sea k uno de los valores que toma dicha variable, la
probabilidad de que la variable tome dicho valor es: 𝑷(𝑿 = 𝒌) = 𝒑(𝒌).
Función de cuantía (masa)
Es cualquier función que cumple:
1) 𝑷(𝑿 = 𝒌) = 𝒑(𝒌) ≥ 𝟎
2) ∑𝒌 𝒑(𝒌) = 𝟏
La función de cuantía de una variable aleatoria discreta se puede representar

gráficamente mediante un diagrama de barras del mismo modo que las variables
estadísticas, si bien en lugar de levantar barras de longitud proporcional a las
frecuencias se hacen de longitud proporcional a las probabilidades.
Ejemplo. Sea la variable aleatoria X definida por. 𝑿 =

𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒄𝒂𝒓𝒂𝒔 𝒂𝒍 𝒕𝒊𝒓𝒂𝒓 𝒅𝒐𝒔 𝒎𝒐𝒏𝒆𝒅𝒂𝒔, que toma los valores {𝟎, 𝟏, 𝟐}. Entonces:
1 1
𝑃(𝑋 = 0) = 𝑝(0) = 𝑃{(𝑠, 𝑠)} = ; 𝑃(𝑋 = 1) = 𝑝(1) = 𝑃{(𝑠, 𝑐), (𝑐, 𝑠)} = ; 𝑃(𝑋 = 2)
4 2
1
= 𝑝(2) = 𝑃{(𝑐, 𝑐)} =
4
Entonces, se tiene:
X 0 1 2
𝑝(𝑥) 0,25 0,50 0,25
4) VARIABLE ALEATORIA CONTÍNUA. FUNCIÓN DE DENSIDAD
En el caso continuo, la variable aleatoria toma valores en un intervalo. A menudo, lo

que interesa son variables que miden el peso de una persona, el tiempo de duración
de un suceso, la longitud de una barra de cobre, etc. No es posible, en estos casos,
conocer el valor exacto, ya que dar un valor que toma una variable de este tipo
consiste en clasificarlo dentro de un intervalo. Por ejemplo, se dice que el peso de
una determinada sustancia es de 2 mg cuando se observa que está entre 1,5 y 2,5
mg. Por tanto, en el caso de las variables aleatorias continuas sólo se puede hablar
de la probabilidad de intervalos, ya que la probabilidad de que la variable aleatoria
tome un valor concreto es cero.
4.1) FUNCIÓN DE DENSIDAD DE PROBABILIDAD (FDP)
Es cualquier función que cumple:
1) 𝒇(𝒙) ≥ 𝟎, −∞ < 𝒙 < +∞
+∞
2) ∫−∞ 𝒇(𝒙)𝒅𝒙=1

Nótese que:
 𝑷(𝒂 ≤ 𝑿 ≤ 𝒃) = 𝑷(𝒂 < 𝑿 ≤ 𝒃) = 𝑷(𝒂 ≤ 𝑿 < 𝒃) = 𝑷(𝒂 < 𝑿 < 𝒃) =

𝒃
∫𝒂 𝒇(𝒙)𝒅𝒙
𝒂
 𝑷(𝑿 = 𝒂) = ∫𝒂 𝒇(𝒙)𝒅𝒙 = 𝑭(𝒂) − 𝑭(𝒂) = 𝟎
5) FUNCIÓN DE DISTRIBUCIÓN ACUMULADA DE UNA V.A
Función de Distribución acumulada (fda)
Es una función definida para cada número real que hace corresponder a cada x la
probabilidad de que la variable aleatoria tome un valor menor o igual que él:
𝑭(𝒌) = 𝑷(𝑿 ≤ 𝒌)
Esta función caracteriza tanto a variables continuas como discretas.
Tal como está definida, se trata de una función no decreciente que verifica:
1º) 𝐥𝐢𝐦 𝑭(𝒙) = 𝟏

𝒙→+∞
2º) 𝐥𝐢𝐦 𝑭(𝒙) = 𝟎

𝒙→−∞
y que presenta un perfil diferente según se trate de variables aleatorias discretas o

continuas.
En el caso de las variables aleatorias discretas, si se conoce la función de cuantía,

se puede obtener la función de distribución:
𝑭(𝒌) = 𝑷(𝑿 ≤ 𝒌) = ∑ 𝒑(𝒌)

𝒙𝒊 ≤𝒌
Recíprocamente, conocida la función de distribución, se puede hallar la distribución

de probabilidad, así como la probabilidad de cualquier intervalo.
Ejemplo Sea X: número de caras al tirar dos monedas, se tiene:

𝟎 𝒙<𝟎
𝟏
𝟎≤𝒙<𝟏
𝑭(𝒙) = 𝟒
𝟑
𝟏≤𝒙<𝟐
𝟒
{𝟏 𝒙≥𝟐
En el caso de las variables aleatorias continuas, la función de distribución se obtiene:
𝑭(𝒌) = 𝑷(𝑿 ≤ 𝒌) = ∫ 𝒇(𝒙)𝒅𝒙

−∞
Utilizando el Teorema Fundamental del Cálculo Integral, basta con derivar en los
puntos en que sea posible la función F(x) para obtener f(x). En los puntos en los que
no sea derivable F(x), se adopta el convenio de asignar a f(x) el valor 0.
Las variables aleatorias continuas se caracterizan porque su función de distribución

es una función continua.
6) MOMENTOS DE UNA VARIABLE ALEATORIA
Hasta aquí hemos caracterizado las distribuciones de probabilidad de las variables

aleatorias por su función de cuantía o la función de densidad, según sean discretas
o continuas, o bien por la función de distribución. A menudo, se necesita una
descripción más concisa para simplificar el estudio una variable, para lo que se
definen una serie de medidas como el valor esperado (también llamado media o
esperanza matemática), denotado por 𝑬(𝑿); la mediana, que se define como el
valor 𝒙𝑴𝒆 que verifica:
1 1
𝑷(𝑿 ≤ 𝒙𝑴𝒆 ) ≤ 𝑦 𝑷(𝑿 > 𝒙𝑴𝒆 ) ≤
2 2
y la moda, que se define como el valor 𝒙𝑴𝒐 para el que 𝒇(𝒙) 𝒐 𝒑(𝒙𝒊 ) toman el valor
máximo. La media, la moda y la mediana son medidas de tendencia central o de
centralización de una variable aleatoria X .
El valor esperado de una variable aleatoria X se define:
∑𝒊 𝒙𝒊 𝒑(𝒙𝒊 ) ; 𝒔𝒊 𝑿 𝒆𝒔 𝒗. 𝒂 𝒅𝒊𝒔𝒄𝒓𝒆𝒕𝒂
𝑬(𝑿) = { +∞ siempre que exista
∫−∞ 𝒙𝒇(𝒙)𝒅𝒙 ; 𝒔𝒊 𝑿 𝒆𝒔 𝒗. 𝒂 𝒄𝒐𝒏𝒕𝒊𝒏𝒖𝒂

(6.1) MOMENTOS DE UNA VARIABLE ALEATORIA
Sea X una variable aleatoria y sea 𝒀 = 𝒈(𝑿) otra variable aleatoria en función de X
. Se calcula la esperanza o valor esperado de Y como:
∑ 𝒈(𝒙𝒊 )𝒑(𝒙𝒊 ) ; 𝒔𝒊 𝑿 𝒆𝒔 𝒗. 𝒂 𝒅𝒊𝒔𝒄𝒓𝒆𝒕𝒂

𝒊
𝑬(𝒀) = +∞
∫ 𝒈(𝒙)𝒇(𝒙)𝒅𝒙 ; 𝒔𝒊 𝑿 𝒆𝒔 𝒗. 𝒂 𝒄𝒐𝒏𝒕𝒊𝒏𝒖𝒂
{−∞
Tiene especial interés el caso en que 𝒈(𝒙) = 𝒙𝒌 ; 𝒑𝒂𝒓𝒂 𝒙 = 𝟏, 𝟐, 𝟑, …
Se define el momento respecto del origen de orden k 𝜶𝒌 de la variable aleatoria

X como: 𝜶𝒌 = 𝑬[𝑿𝒌 ]
Observar que el primer momento, 𝜶𝟏 = 𝑬[𝑿], es el valor esperado o media de la

variable aleatoria X , que a menudo también se denota por 𝝁.
Para centrar el origen de las medidas, conviene trabajar con potencias de 𝑿 − 𝑬(𝑿).
Se define el momento central de orden k, 𝝁𝒌 , de una variable aleatoria X como:
𝝁𝒌 = 𝑬[𝑿 − 𝑬(𝑿)]𝒌
Tiene especial interés cuando 𝒌 = 𝟐; 𝝁𝟐 = 𝑬[𝑿 − 𝑬(𝑿)]𝟐; conocido como la varianza

de 𝑿, 𝑽𝒂𝒓(𝑿), a menudo denotado por 𝜎 2 .
El cálculo de la varianza se hace utilizando un resultado análogo al visto en la primera

unidad.
𝟐
𝝁𝟐 = 𝑬(𝑿𝟐 ) − (𝑬(𝑿))
La varianza de una variable aleatoria X es un número real no negativo. Su raíz

cuadrada 𝝈 se llama desviación est andar. La varianza y la desviación típica son
medidas de la dispersión de una variable aleatoria respecto de su media. Si X tiene
una distribución concentrada, es decir, si toma los valores cercanos a 𝑬(𝑿) con
probabilidad grande, la varianza es pequeña; en otro caso, la varianza es grande. La
desviación típica tiene la ventaja sobre la varianza de que está expresada en las
mismas unidades que la variable X
UNIDAD 4 VARIABLES ALEATORIAS n-DIMENSIONALES
1) INTRODUCCIÓN
En muchos experimentos es frecuente que se estudien a la vez varias características

de los elementos de una población. Surgen así, de manera natural, las variables
aleatorias multidimensionales. La mayor parte de las cuestiones a estudiar en este
capitulo son una extensión directa de los conceptos ya vistos para variables
aleatorias unidimensionales.
2) VARIABLES ALEATORIAS MULTIDIMENSIONALES
Dado un experimento aleatorio con espacio muestral asociado 𝛀, se llama variable

aleatoria n-dimensional a una aplicación X del espacio muestral 𝛀 en el espacio
real n-dimensional. 𝑋 es de la forma (𝑿𝟏 , … , 𝑿𝒏 ) , de manera que 𝑿𝟏 , … , 𝑿𝒏 son
variables aleatorias unidimensionales.
Ejemplo 4.1
Asociada al experimento consistente en lanzar dos dados al aire, podemos definir la

variable aleatoria bidimensional 𝑿 = (𝑿𝟏 , 𝑿𝟐 ) definida como:
𝑿𝟏 = 𝒗𝒂𝒍𝒐𝒓 𝒐𝒃𝒕𝒆𝒏𝒊𝒅𝒐 𝒄𝒐𝒏 𝒆𝒍 𝒑𝒓𝒊𝒎𝒆𝒓 𝒅𝒂𝒅𝒐
𝑿𝟐 = 𝒎á𝒙𝒊𝒎𝒐 𝒅𝒆 𝒍𝒐𝒔 𝒗𝒂𝒍𝒐𝒓𝒆𝒔 𝒐𝒃𝒕𝒆𝒏𝒊𝒅𝒐𝒔 𝒄𝒐𝒏 𝒍𝒐𝒔 𝒅𝒐𝒔 𝒅𝒂𝒅𝒐𝒔
Esta variable bidimensional toma los pares de valores:

{𝟏, 𝟏}, (𝟏, 𝟐), … , (𝟏, 𝟔), … , (𝟔, 𝟏), … , (𝟔, 𝟔)
A partir de este momento se trabajará con variables aleatorias bidimensionales. Los

resultados son totalmente análogos para el caso de n-variables. Solamente se
generalizarán aquellos resultados que sean de especial interés. Por comodidad,
denotamos al par (𝑋1 , 𝑋2 ) como (𝑋, 𝑌).
3) FUNCIÓN DE DISTRIBUCIÓN
Análogamente al caso unidimensional, se define la función de distribución de

(𝑋, 𝑌) como:
𝑭(𝒙, 𝒚) = 𝑷(𝑿 ≤ 𝒙, 𝒀 ≤ 𝒚)
Sin embargo, la función de distribución en el caso bidimensional ya no verifica las

buenas propiedades del caso unidimensional y no resulta de gran interés.
4) DISTRIBUCIONES BIVARIANTES DISCRETAS
Se dice que una variable aleatoria bidimensional (𝑋, 𝑌) es de tipo discreto si el

conjunto de pares de valores que toma es finito o infinito numerable.
Para estudiar la distribución de este tipo de variables, se define la función de

cuantía conjunta: 𝑝𝑖𝑗 = 𝑃(𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 ); 𝑖 = 1,2, … , 𝑛; 𝑗 = 1,2, … , 𝑛; que verifica:
a) 𝟎 ≤ 𝒑𝒊𝒋 ≤ 𝟏 b) ∑𝑛𝑖=1 ∑𝑛𝑗=1 𝑝𝑖𝑗
Ejemplo:
Para la variable definida en el ejemplo 4.1, se tiene que la función de cuantía

conjunta:
𝟏
𝑷(𝑿 = 𝒊, 𝒀 = 𝒋) = 𝟑𝟔; 𝒑𝒂𝒓𝒂 𝒕𝒐𝒅𝒐 𝒊 ≠ 𝒋; 𝒊, 𝒋 = 𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔
𝟏 𝟐 𝟑
𝑷(𝑿 = 𝟏, 𝒀 = 𝟏) = 𝟑𝟔 𝑷(𝑿 = 𝟐, 𝒀 = 𝟐) = 𝟑𝟔 𝑷(𝑿 = 𝟑, 𝒀 = 𝟑) = 𝟑𝟔
𝟒 𝟓 𝟔
𝑷(𝑿 = 𝟒, 𝒀 = 𝟒) = 𝟑𝟔 𝑷(𝑿 = 𝟓, 𝒀 = 𝟓) = 𝟑𝟔 𝑷(𝑿 = 𝟔, 𝒀 = 𝟔) = 𝟑𝟔
5) DISTRIBUCIONES BIVARIANTES CONTINUAS
Se dice que una variable aleatoria bidimensional es de tipo continuo si el conjunto

de valores que toma es un recinto del plano.
Para medir la probabilidad en esta situación, se define, análogamente al caso

unidimensional, la función de densidad conjunta asociada a la variable aleatoria
(𝑿, 𝒀) como una función de dos variables, 𝒇(𝒙, 𝒚), que verifica las dos siguientes
propiedades:
+∞
1) 𝒇(𝒙, 𝒚) ≥ 𝟎 2) ∫−∞ 𝒇(𝒙, 𝒚)𝒅𝒙𝒅𝒚
Esta función permite calcular la probabilidad de cualquier rectángulo como:
𝒃 𝒅
𝑷(𝒂 < 𝑿 < 𝒃, 𝒄 < 𝒀 < 𝒅) = ∫ ∫ 𝒇(𝒙, 𝒚)𝒅𝒙𝒅𝒚

𝒂 𝒄
Por lo tanto, la función de distribución conjunta se obtiene como: 𝑭(𝒙, 𝒚) =

𝒙 𝒚
∫−∞ ∫−∞ 𝒇(𝒖, 𝒗)𝒅𝒖𝒅𝒗
Para obtener la distribución de densidad conjunta a partir de la función de

distribución, basta con derivar la expresión anterior respecto de ambas variables en
los puntos de continuidad de 𝒇(𝒙, 𝒚), adoptándose el criterio de que en el resto de
los puntos vale cero.
𝟐 𝟎<𝒙<𝒚<𝟏
Ejemplo 4.2: Sea: 𝒇(𝒙, 𝒚) = {
𝟎 𝒓𝒆𝒔𝒕𝒐
Se comprueba de manera inmediata que 𝒇(𝒙, 𝒚) es función de densidad de una

variable aleatoria continua bidimensional.
6) DISTRIBUCIONES MARGINALES
Dada una variable aleatoria bidimensional (𝑿, 𝒀), se llaman variables marginales a
cada una de las variables componentes X e Y , y a sus distribuciones,
distribuciones marginales.
En el caso de ser (𝑿, 𝒀) de tipo discreto, tomando los pares de valores (𝒙𝒊 , 𝒚𝒋 ), 𝒊 =
𝟏, … , 𝒏: 𝒋 = 𝟏, … , 𝒌, con probabilidades 𝒑𝒊𝒋 , las variables marginales X e Y , son de
tipo discreto;
X toma como valores 𝑥𝑖 , 𝑖 = 1,2, … , 𝑛 con probabilidades: 𝑃(𝑋 = 𝑥𝑖 ) = ∑𝑘𝑗=1 𝑝𝑖𝑗
Y toma los valores 𝑦𝑗 , 𝑗 = 1,2, … , 𝑘, con probabilidades: 𝑃(𝑌 = 𝑦𝑗 ) = ∑𝑛

𝑖=1 𝑝𝑖𝑗
Si (𝑿, 𝒀) es de tipo continuo, con densidad 𝒇(𝒙, 𝒚), entonces X e Y son variables
continuas con densidades respectivas:
∞ ∞
𝑓(𝑥) = ∫−∞ 𝑓(𝑥, 𝑦)𝑑𝑦 y 𝑓(𝑦) = ∫−∞ 𝑓(𝑥, 𝑦)𝑑𝑥
Ejemplo
Para la variable discreta del ejemplo 4.1, la variable marginal X toma los valores 1,
1
2, 3, 4, 5, 6, con probabilidades 6 para todos ellos.
Para la variable continua del ejemplo 4.2, X toma valores en el intervalo (0,1), y su
densidad se obtiene como:
𝑓(𝑥) = ∫ 2𝑑𝑦 = 2 − 2𝑥
𝑥
La variable Y toma valores en el intervalo (0,1) y su densidad es:

𝑦
𝑓(𝑦) = ∫ 2𝑑𝑥 = 2𝑦
0
7) DISTRIBUCIONES CONDICIONALES
Al hablar de probabilidad condicional, se supone que existe información adicional

sobre un determinado experimento aleatorio. La idea aquí es similar; si se tiene
información sobre el valor que ha tomado una de las variables, se puede tratar de
estudiar la distribución de la otra variable condicionada al valor que conocemos de
la primera.
Dada una variable aleatoria bidimensional (𝑿, 𝒀), se llama distribución condicional
de X sobre Y a la distribución de la variable unidimensional X sabiendo que Y ha
tomado un determinado valor y. Análogamente se define la distribución
condicional de Y sobre X . La notación para estas distribuciones será: 𝑋⁄𝑌 = 𝑦 e
𝑌⁄
𝑋 = 𝑥, respectivamente:
𝑋 = 𝑥𝑖 𝑃(𝑋=𝑥𝑖 , 𝑌=𝑦𝑗 ) 𝑌 = 𝑦𝑗 𝑃(𝑌=𝑦𝑗 , 𝑋=𝑥𝑖 )

𝑃( ⁄𝑌 = 𝑦 ) = 𝑃(𝑌=𝑦 ) y 𝑃( ⁄𝑋 = 𝑥 ) =
𝑗 𝑗 𝑖 𝑃(𝑋=𝑥𝑖 )
Si (𝑿, 𝒀) es de tipo continuo con densidad 𝑓(𝒙, 𝒚), 𝑋⁄𝑌 = 𝑦 e 𝑌⁄𝑋 = 𝑥, son variables
unidimensionales de tipo continuo con densidades respectivas:
𝑓(𝑥,𝑦) 𝑦 𝑓(𝑥,𝑦)
𝑓(𝑥⁄𝑦) = y 𝑓( ⁄𝑥) = 𝑓(𝑥)
𝑓(𝑦)
Ejemplo
Para la variable continua del ejemplo 4.2:
𝑦 2
La variable 𝑌⁄𝑋 = 𝑥 tiene como densidad 𝑓( ⁄𝑥) = 2−2𝑥 𝑐𝑢𝑎𝑛𝑑𝑜 𝑥 < 𝑦 < 1, y
1
La variable 𝑋⁄𝑌 = 𝑦 tiene como densidad 𝑓(𝑥⁄𝑦) = 𝑦 𝑐𝑢𝑎𝑛𝑑𝑜 0 < 𝑥 < 𝑦..
8) INDEPENDENCIA DE VARIABLES ALEATORIAS
El concepto de independencia de variables aleatorias es una generalización del caso

de independencia de sucesos asociados a un experimento aleatorio.
Ejemplo. Ligado al experimento consistente en lanzar dos monedas al aire, las

variables X , definida como el resultado al lanzar la primera moneda, e Y , resultado
al lanzar la segunda moneda, son independientes (de manera intuitiva). Sin
embargo, las variables definidas en el ejemplo 4.1 no son independientes
(intuitivamente).
Se dice que X e Y son variables aleatorias independientes si la distribución de la

variable 𝑋⁄𝑌 = 𝑦 coincide con la distribución de la variable X , para cualquier valor
de Y .
De esta definición se deduce de manera inmediata la siguiente caracterización, que

suele utilizarse a menudo para comprobar si dos variables aleatorias son
independientes o no:
"Sea (𝑿, 𝒀) discreta, entonces, X e Y son independientes sí y sólo sí:
𝑃(𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 ) = 𝑃(𝑋 = 𝑥𝑖 ) ∙ 𝑃(𝑌 = 𝑦𝑗 ), para todo i=l,2,...,n y j = 1,2,...,k.
Si (𝑿, 𝒀) es continua con densidad 𝒇(𝒙, 𝒚), X e Y son independientes sí y sólo sí,
"𝒇(𝒙, 𝒚) = 𝒇(𝒙) ∙ 𝒇(𝒚)"
Entonces, a partir del conocimiento de la distribución conjunta de la variable aleatoria

bidimensional y de las distribuciones marginales, es inmediato comprobar si las
variables X e Y son independientes.
Este resultado es muy importante, y se suele emplear en muchas ocasiones para el

caso de n variables, es decir:

1. "Si (𝑋1 , … , 𝑋𝑛 ) es una variable discreta, entonces, 𝑋1 , … , 𝑋𝑛 son independientes

sí y sólo sí, 𝑃(𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 ) = 𝑃(𝑋1 = 𝑥1 ) ∙ … ∙ 𝑃(𝑋𝑛 = 𝑥𝑛 )
2. Si la variable es de tipo continuo con densidad 𝑓(𝑥1 , … , 𝑥𝑛 ), entonces las variables

𝑋1 , … , 𝑋𝑛 son independientes sí y sólo sí, 𝑓(𝑥1 , … , 𝑥𝑛 ) = 𝑓(𝑥1 ) ∙ … ∙ 𝑓(𝑥𝑛 )".
9) ESPERANZA Y VARIANZA DE FUNCIONES DE V.A
Para el caso bidimensional, la esperanza no tiene una interpretación clara. Por ello,
resulta mucho más útil hablar de la esperanza de una función de la variable aleatoria.
Sea (𝑿, 𝒀) una variable aleatoria bidimensional y g una función cualquiera. Se

calcula:
𝒏 𝒌
∑ ∑ 𝒈(𝒙𝒊 , 𝒚𝒋 )𝒑𝒊𝒋 𝒄𝒂𝒔𝒐 𝒗. 𝒂 𝒅𝒊𝒔𝒄𝒓𝒆𝒕𝒂

𝒊=𝟏 𝒋=𝟏
𝑬[𝒈(𝑿, 𝒀)] = ∞ ∞
∫ ∫ 𝒇(𝒙, 𝒚)𝒈(𝒙, 𝒚)𝒅𝒙𝒅𝒚 𝒄𝒂𝒔𝒐 𝒗. 𝒂 𝒄𝒐𝒏𝒕𝒊𝒏𝒖𝒂

{−∞ −∞
Esto permite definir los momentos respecto al origen de órdenes h y k:
𝜶𝒉𝒌 = 𝑬(𝑿𝒉 𝒀𝒌 )
y los momentos respecto a la media de órdenes h y k:
𝒉 𝒌
𝝁𝒉𝒌 = 𝑬 [(𝑿 − 𝑬(𝑿)) (𝒀 − 𝑬(𝒀)) ]
Resulta de especial interés la covarianza, 𝝁𝟏𝟏 , que permite medir la relación lineal
existente entre las variables X e Y. También se suele denotar por Cov(X,Y). Se
suele emplear normalizada, dando lugar al coeficiente de correlación lineal:
𝝁𝟏𝟏
𝝆=
√𝝁𝟎𝟐 ∙ 𝝁𝟐𝟎
𝝆 toma valores entre –1 y 1, de manera que cuanto más cercano a uno sea el valor
absoluto de 𝝆, mayor es la dependencia lineal entre las variables. Si 𝝆 es positivo,
la relación entre las variables es directa, mientras que si es negativo, esta relación
es inversa. En el caso en que 𝝆 sea 0, no existe dependencia lineal entre las

variables, y se dice que X e Y son incorrelacionadas.
Para el caso de n variables, se define la matriz de varianzas-covarianzas como

una matriz de dimensión n x n que tiene en la diagonal principal la varianza de cada
una de las variables, y en la posición ij, con i  j , la covarianza entre las variables
Xi y Xj.
Por último, sin más que aplicar las definiciones dadas en 4.9 y la caracterización de
independencia para el caso de n variables, se demuestran los siguientes resultados:
1. 𝑬(𝒂𝟏 𝑿𝟏 + ⋯ 𝒂𝒏 𝑿𝒏 ) = 𝒂𝟏 𝑬(𝑿𝟏 ) + ⋯ + 𝒂𝒏 𝑬(𝑿𝒏 )
2. Si 𝑿𝟏 , … , 𝑿𝒏 son independientes, entonces:
i.𝑬(𝒂𝟏 𝑿𝟏 ∙ … ∙ 𝒂𝒏 𝑿𝒏 ) = 𝒂𝟏 𝑬(𝑿𝟏 ) ∙ … ∙ 𝒂𝒏 𝑬(𝑿𝒏 )
ii.𝑽𝒂𝒓(𝒂𝟏 𝑿𝟏 + ⋯ 𝒂𝒏 𝑿𝒏 ) = 𝒂𝟐𝟏 𝑽𝒂𝒓(𝑿𝟏 ) + ⋯ + 𝒂𝟐𝒏 𝑽𝒂𝒓(𝑿𝒏 )
3. Sean X e Y variables aleatorias cualesquiera, entonces:
𝑽𝒂𝒓(𝒂𝑿 + 𝒃𝒀) = 𝒂𝟐 𝑽𝒂𝒓(𝑿) + 𝒃𝟐 𝑽𝒂𝒓(𝒀) + 𝟐𝒂𝒃𝑪𝒐𝒗(𝑿, 𝒀)

UNIDAD 5 MODELOS DE DISTRIBUCIONES DISCRETAS
1) INTRODUCCIÓN
En este capítulo se estudian algunas de las distribuciones discretas que se presentan

con mayor frecuencia y que sirven para modelar un gran número de experimentos
aleatorios.
2) DISTRIBUCIÓN UNIFORME DISCRETA
Se considera una v.a que toma un conjunto finito de valores de manera que la
probabilidad de tomar cada valor es la misma. Se dice entonces que la v.a sigue una
distribución Uniforme Discreta.
Ejemplo
𝟏
En el sorteo del kino la probabilidad de ganarlo es y la v.a que indica el
𝟒.𝟒𝟓𝟕.𝟒𝟎𝟎
número premiado sigue una distribución Uniforme Discreta.
3) DISTRIBUCIÓN BINOMIAL
Se considera un experimento con sólo dos resultados posibles, 𝑨 𝒚 𝑨𝒄 , que llamamos

"éxito" y "fracaso" con probabilidades constante 𝒑 𝒚 𝒒 = 𝟏 − 𝒑, respectivamente. Se
repite de modo independiente el experimento n veces y se pretende estudiar la v.a:
X = “número de éxitos en las n pruebas"
Esta variable aleatoria toma los valores 𝒌 = 𝟏, 𝟐, … , 𝒏 con probabilidad:
𝒏
𝑷(𝑿 = 𝒌) = 𝒑(𝒌) = ( ) ∙ 𝒑𝒌 ∙ (𝟏 − 𝒑)𝒏−𝒌
𝒌
y se dice que sigue una Distribución Binomial de parámetros n y p. Se designa por

𝑩(𝒏, 𝒑)
Un caso particular de esta distribución es la 𝑩(𝟏, 𝒑) llamada prueba de Bernoulli.
Aunque la distribución Binomial modela un gran número de experimentos, conviene

observar que para utilizar esta variable aleatoria es preciso, que se tenga evidencia

de que la probabilidad de éxito es constante a lo largo de las repeticiones, y que

éstas se realizan de modo independiente.
Ejemplo.
Si en un proceso de fabricación la probabilidad de obtener una pieza defectuosa es

p y se extrae una muestra de n piezas, la v.a. X = "nº de piezas defectuosas entre
las n" sigue una distribución 𝑩(𝒏, 𝒑).
Como característica importante de la distribución Binomial, indicaremos que si X

sigue una distribución 𝑩(𝒏, 𝒑), entonces: 𝑬(𝑿) = 𝒏𝒑 𝒚 𝑽𝒂𝒓(𝑿)𝒏𝒑(𝟏 − 𝒑)
Además, si 𝑿𝟏 , … , 𝑿𝒌 son v.a independientes con distribuciones 𝑩(𝒏𝒊 , 𝒑) 𝒊 = 𝟏, … , 𝒌,

respectivamente, la v.a 𝑿𝟏 + ⋯ + 𝑿𝒌 tiene una distribución 𝑩(𝒏𝟏 + ⋯ + 𝒏𝒌 , 𝒑). Se
dice entonces que la Binomial es reproductiva respecto del parámetro n.
Ejemplo.
Si el número de caras obtenidas al lanzar una moneda es una v.a con distribución
𝑩(𝟏, 𝟎, 𝟓), el número de caras obtenidas al lanzar 4 monedas será una v.a con
distribución 𝑩(𝟒, 𝟎, 𝟓).
4) DISTRIBUCIÓN DE POISSÓN
Esta v.a discreta también es conocida como “ley de los sucesos raros”, y
representa experimentos del tipo:
 "número de llamadas que llegan a una central telefónica en un intervalo de tienpo"
 “número de vehículos que llegan a la cola de un peaje en cierto intervalo de

tiempo"
 "número de barcos que llegan a puerto en un día determinado", etc.
En general, la distribución de Poisson modela el número de veces que se verifican

algunos fenómenos por unidad de tiempo, espacio, superficie o volumen, y su
parámetro 𝝁 representa el número medio de veces que han ocurrido.
Se dice que una v.a X sigue una distribución de Poisson de parámetro 𝝁 y se designa
por 𝑰𝑷(𝝁) si toma los valores 𝒌 = 𝟎, 𝟏, … , ∞ con probabilidades:
−𝝁
𝝁𝒌
𝑷(𝑿 = 𝒌) = 𝒑(𝒌) = 𝒆 ∙
𝒌!
Tiene la propiedad de que su media y su varianza son iguales e iguales al

parámetro de la distribución: 𝑬(𝑿) = 𝑽𝒂𝒓(𝑿) = 𝝁
Esta distribución también verifica la propiedad de reproductividad; es decir, si

𝑿𝟏 , … , 𝑿𝒌 son v.a independientes con distribuciones 𝑰𝑷(𝝁𝒊 ) 𝒊 = 𝟏, … , 𝒌 ,
respectivamente, entonces la v.a 𝑿𝟏 + ⋯ + 𝑿𝒌 tiene una distribución.𝑰𝑷(𝝁𝟏 + ⋯ +
𝝁𝒌 )
Ejemplo.
Si el número de accidentes laborales en una planta química durante un periodo de

un mes es una v.a con distribución de Poisson de media 2, entonces, el número de
accidentes laborales en dicha planta durante un año será una v.a de Poisson de
parámetro 24.
La distribución de Poisson puede obtenerse también como límite de una Binomial,

en ciertas condiciones:
Sea X una v.a con distribución 𝑩(𝒏, 𝒑):
𝝁𝒌
Si: 𝒏 → ∞, 𝒑 → 𝟎 𝒚 𝒏𝒑 → 𝝁, entonces se demuestra que: 𝐥𝐢𝐦 𝑷(𝑿 = 𝒌) = 𝒆−𝝁 ∙
𝒏→∞ 𝒌!
A título práctico, se puede indicar que la aproximación de la distribución Binomial

por la Poisson es aceptable si: 𝒏 > 𝟓𝟎, 𝒑 < 𝟎, 𝟏 𝒚 𝒏𝒑 < 𝟓.
5) DISTRIBUCIÓN GEOMÉTRICA
Se considera un experimento en el cual sólo pueden darse dos resultados, 𝑨 𝒚 𝑨𝒄 ,

con probabilidades constantes 𝒑 𝒚 𝒒 = 𝟏 − 𝒑 , respectivamente. Se considera,
además, que el experimento puede repetirse indefinidamente de modo
independiente.
La v.a X = "número de la prueba en la cual se produce el primer éxito" se dice

que sigue una distribución geométrica de parámetro 𝒑 y se designa por 𝑮(𝒑).
Esta variable toma los valores 𝒌 = 𝟎, 𝟏, … , ∞ con probabilidades:

𝑷(𝑿 = 𝒌) = 𝒑(𝒌) = 𝒑 ∙ (𝟏 − 𝒑)𝒌−𝟏
La media y la varianza de esta v.a son:
𝟏 𝟏−𝒑
𝑬(𝑿) = 𝒚 𝑽𝒂𝒓(𝑿) =
𝒑 𝒑𝟐
Una propiedad de la distribución geométrica es la falta de memoria de esta

distribución; es decir, la probabilidad de que ocurra 𝑨𝒄 es independiente de las veces
que haya ocurrido anteriormente. Esto puede expresarse como:
𝑷 (𝑿 = 𝒏 + 𝒌⁄𝑿 ≥ 𝒌) = 𝑷(𝑿 = 𝒌)
6) DISTRIBUCIÓN HIPERGEOMÉTRICA
La distribución binomial es importante en muestreos “con reemplazo”, sin embargo

cuando el muestreo es “sin reemplazo” en una población finita se usa la
“Distribución Hipergeométrica”.
Se dice que una v.a X = Nº de éxitos en “n” extracciones sin reemplazamiento;

sigue una distribución Hipergeométrica de parámetro 𝑵𝟏 , 𝑵𝟐 𝒚 𝒏 se designa por
𝑯𝑮(𝒏, 𝑵𝟏 , 𝑵𝟐 ) si toma los valores 𝒌 = 𝟎, 𝟏, … , ∞ con probabilidades:
𝑵𝟏 𝑵
()∙( 𝟐 )
𝑷(𝑿 = 𝒌) = 𝒌 𝒏−𝒌
𝑵
( )
𝒏
Donde:
𝑛: 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑥𝑡𝑟𝑎𝑐𝑐𝑖𝑜𝑛𝑒𝑠.
𝑁1 : 𝑁ú𝑚𝑒𝑟𝑜 𝑖𝑛𝑖𝑐𝑖𝑎𝑙 𝑑𝑒 é𝑥𝑖𝑡𝑜𝑠.
𝑁2 : 𝑁ú𝑚𝑒𝑟𝑜 𝑖𝑛𝑖𝑐𝑖𝑎𝑙 𝑑𝑒 𝑓𝑟𝑎𝑐𝑎𝑠𝑜𝑠.
𝑁 = 𝑁1 + 𝑁2 .
𝑵𝟏 𝑵𝟏 𝑵𝟏 𝑵 − 𝒏
𝝁=𝒏∙ ; 𝝈𝟐 = 𝒏 ∙ ∙ (𝟏 − ) ∙
𝑵 𝑵 𝑵 𝑵−𝟏
Ejemplo.
Una lista de 100 artículos contiene 20 defectuosos. Se eligen 10 artículos al azar, sin
sustituir el artículo antes que sea elegido el próximo. ¿Cuál es la probabilidad de que
exactamente la mitad de los artículos escogido sea defectuoso?
Solución:
𝑵𝟏 = 𝟐𝟎 𝟐𝟎 𝟖𝟎
( )∙( )
𝒏 = 𝟏𝟎 } ⟹ 𝑷(𝑿 = 𝟓) = 𝒑(𝟓) = 𝟓 𝟓 = 𝟎, 𝟎𝟐𝟏 = 𝟐, 𝟏%
𝟏𝟎𝟎
𝑵𝟐 = 𝟖𝟎 ( )
𝟏𝟎

UNIDAD 6 MODELOS DE DISTRIBUCIONES CONTINUAS
1) INTRODUCCIÓN
En este capítulo se estudian algunas distribuciones continuas que han demostrado

en la práctica servir de modelo a un gran número de experimentos aleatorios.
2) DISTRIBUCIÓN UNIFORME
Se considera una v.a X que toma valores en un intervalo finito a, b , de manera que
la probabilidad asignada a subintervalos de igual amplitud es la misma. Se dice
entonces que dicha v.a está uniformemente distribuida en el intervalo a, b y se
designa por X ~ U a, b . La función de densidad de esta v.a viene dada por:
1
𝑓(𝑥) = {𝑏 − 𝑎 𝑠𝑖 𝑥 𝜖 [𝑎, 𝑏]
0 𝑟𝑒𝑠𝑡𝑜
Se verifica que si 𝑋~𝑈(𝑎 , 𝑏), entonces:
𝑏+𝑎 (𝑏−𝑎)2
𝐸(𝑋) = y 𝑉𝑎𝑟(𝑋) =
2 12
Como ejemplo, obsérvese que la distribución uniforme proporciona una buena

representación de los errores de truncamiento o redondeo. Si un número se
redondea al entero más próximo, el error cometido en la aproximación está
uniformemente distribuido en  0,5;0,5; si se trunca la v.a que representa el error
cometido sigue una distribución U 0;1. Si una calculadora un computador dan un
resultado con nueve decimales, el error de redondeo cometido sigue una distribución
 
U  0,5  10 9 ;0,5  10 9 .
3) DISTRIBUCIÓN NORMAL
Es la distribución continua más usada, y además sirve de aproximación a muchas

distribuciones que aparecen en la práctica.
Se dice que una v.a X sigue una distribución Normal de parámetros 𝝁 𝒚 𝝈𝟐 y se

designa por 𝐍(𝛍 , 𝛔𝟐 ) si su función de densidad es de la forma:
1 𝑥−𝜇 2
1
𝑓(𝑥) = 𝜎√2𝜋 𝑒 −2( )
𝜎 ; ∀ 𝑥 𝜖 𝐼𝑅, 𝜇 𝜖 𝐼𝑅; 𝜎 > 0
La gráfica de esta función se conoce como campana de Gauss (tiene forma de

campana). Puede observarse que es simétrica, está centrada en 𝝁, tiene dos puntos
de inflexión de abscisas 𝛍 − 𝛔; 𝛍 + 𝛔, y al eje OX como asíntota.
Se puede demostrar que la media y la varianza de esta v.a son, respectivamente,

𝝁 𝒚 𝝈𝟐 .
(3.1) PROCESO DE TIPIFICACIÓN
Como no existe primitiva de la función de densidad, para calcular probabilidades es

preciso utilizar métodos numéricos. Para la v.a 𝐙~𝐍(𝟎 , 𝟏) existen tablas con valores
de 𝐏(𝐙 ≤ 𝐤) o 𝐏(𝐙 ≥ 𝐤) o 𝐏(𝟎 ≤ 𝐙 ≤ 𝐤) para distintos valores de k. Si se precisa
calcular probabilidades a partir de una v.a X con distribución 𝐍(𝛍 , 𝛔𝟐 ), se hace una
𝑋−𝜇
transformación para pasar de dicha variable X a otra variable 𝑍 = con
𝜎
distribución 𝐍(𝟎 , 𝟏), que es la que esta tabulada. A este proceso se le conoce como
tipificar la variable.
La función de densidad de esta nueva variable es:
𝑧2
1
𝑓(𝑧) = 𝑒 − 2 ; ∀ 𝑧 𝜖 𝐼𝑅
√2𝜋
La distribución Normal verifica además la propiedad de reproductividad. Si

𝐗𝟏, 𝐗𝟐, … , 𝐗𝐧 son v.a independientes con distribuciones 𝐍(𝝁𝒊 , 𝝈𝟐𝒊 ), 𝑖 =
1,2, … , 𝑛,respectivamente, entonces la v.a 𝐗 𝟏 + 𝐗 𝟐 + ⋯ + 𝐗 𝐧 tiene una distribución,
𝐍(∑𝒏𝒊=𝟏 𝝁𝒊 , ∑𝒏𝒊=𝟏 𝝈𝟐𝒊 )
En particular, si todas las Xi tienen la misma distribución, es decir, si 𝛍𝟏 = 𝛍𝟐 = ⋯ =
𝛍𝐧 = 𝝁 y 𝝈𝟐𝟏 = 𝝈𝟐𝟐 =. . . = 𝝈𝟐𝒏 = 𝝈𝟐 , entonces 𝐗 𝟏 + 𝐗 𝟐 + ⋯ + 𝐗 𝐧 tiene una distribución

𝐍(𝒏𝝁 , 𝐧𝝈𝟐 ).
Anteriormente se ha dicho que la distribución Normal sirve de aproximación a otras

distribuciones. El siguiente teorema permite, en determinadas condiciones,
aproximar la suma de v.a independientes por una Normal.

(3.2) TEOREMA CENTRAL DEL LÍMITE
Es frecuente tomar muestras de poblaciones que no son normales, cualquiera que

sea la distribución de la población con tal de que tenga varianza finita, la media
muestral tendrá aproximadamente, para muestras grandes, la distribución normal.
Esta propiedad se conoce como teorema central del límite.
La importancia de este teorema, en lo que concierne a aplicaciones prácticas, se

debe al hecho de que el promedio de una muestra aleatoria procedente de cualquier
distribución con varianza finita 𝝈𝟐 y media 𝝁, tiene para muestras grandes, una
𝝈𝟐
distribución aproximadamente normal con media 𝝁 y varianza . O sea:
𝒏
𝝈𝟐
̅ ~𝑵 (𝝁 ,
𝑺𝒊 𝑿𝒊 ~𝑵(𝝁 , 𝝈𝟐 ) ⟹ 𝑿 )
𝒏
COMO APLICACIONES INTERESANTES DE ESTE TEOREMA SE TIENEN
1. Si 𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 tienen distribución 𝑩(𝟏 , 𝒑) y se considera 𝐗 = 𝐗 𝟏 + 𝐗 𝟐 + ⋯ + 𝐗 𝐧 .

𝐗−𝐧𝐩
Entonces: ~𝐍(𝟎 , 𝟏)
√𝐧𝐩(𝟏−𝐩)
Este resultado se conoce como teorema de Moivre, y sirve para aproximar una
v.a por una normal cuando n es grande y 0,1 < 𝑝 < 0,9
𝐧 ̅ −𝛍
̅ = ∑𝐢=𝟏 𝐗 𝐢 , se tiene que
2. En las hipótesis del teorema, llamando 𝐗
𝑿
𝝈 ~𝐍(𝟎 , 𝟏).
𝐧 ⁄ 𝒏
√
Este es un resultado de gran interés en inferencia estadística y se retomará más

adelante.

4) DISTRIBUCIÓN GAMMA
Sea X una v.a continua. Se dice que X sigue una distribución Gamma de parámetros
𝜶 𝒚 𝜷 y se escribe X ~   ;   si su función de densidad es de la forma:
   -x  -1
 e x si x  0,   0,   0
f x     
0
 resto

Donde     e  x x 1dx
0
 y Var X   2
EX  
 
La v.a Gamma verifica la propiedad de reproductividad respecto del parámetro  ,

es decir, si 𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 son v.a independientes con distribuciones   i ;   ,
i  1,2,..., n , entonces la v.a X 1  X 2  ...  X n ~  1  ...   n ;   .
Si 𝜶 = 𝟏, se obtiene un caso particular de la distribución Gamma de especial interés

que se conoce con el nombre de distribución Exponencial. Su función de densidad
es:
 e - x si x  0,   0
f x   
0 resto
La v.a que tiene esta función de densidad se llama Exponencial de parámetro  y

se designa por exp   . Tiene interés propio, ya que aparece en diversas
aplicaciones, entre las que cabe destacar, la teoría de colas (si el número de llegadas
a una cola sigue una distribución de Poisson, entonces el tiempo entre dos llegadas
consecutivas es exponencial) y la fiabilidad (es un modelo apropiado para la duración
de ciertos componentes).

La distribución Exponencial es, además, la única v.a continua y no negativa que tiene
la propiedad de falta de memoria; es decir si X ~ exp   , entonces t  0

P X th
X t
  P X  h  .
Otro caso particular interesante de la distribución Gamma se produce cuando   n
es entero. En este caso, la distribución  n;   se llama distribución de Erlang y
utilizando que si n  IN , n  n  1! , se obtiene la función de densidad:
  n -x n-1
 si x  0, n  0,   0
f x    n  1!
e x
0
 resto

UNIDAD 7 ESTIMACIÓN PUNTUAL
1) INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
Hasta ahora se han estudiado modelos probabilísticos teóricos que explican en cierto
modo el comportamiento de determinadas variables (el número de llamadas a una
central telefónica se suele modelar con una distribución de Poisson, la duración de
determinados componentes electrónicos puede modelarse con una distribución
exponencial, etc.).
Se puede decir que el objetivo de lo que se conoce por inferencia estadística es

estimar alguna característica de un modelo probabilístico (o incluso el mismo
modelo) a partir de ciertos valores observados en la población habrá, pues, tres
aspectos fundamentales:
1.1) Obtención de los datos. Técnicas de muestreo
1.2) Análisis de los datos y
1.3) Inferencias sobre el modelo.
1.1) OBTENCIÓN DE LOS DATOS. TÉCNICAS DE MUESTREO
Se pueden distinguir dos formas de obtención de datos sobre una población:
1. Censo: cuando se estudia a toda la población.
2. Muestra: cuando se estudia sólo una parte representativa de la población.
Por ejemplo, los resultados de las encuestas preelectorales se basan en muestras,

mientras que los resultados de las elecciones se obtienen de toda la población con
derecho a voto (censo electoral).
En general, trabajar con censos es muy costoso y en algunos casos carece de

sentido (resistencia ante un choque a 100 km/hora de un determinado modelo de
auto), De ahí la importancia de las muestras. Para que las conclusiones que se
tomen tengan cierta garantía, habrá que cuidar especialmente dos aspectos:
(1) El tamaño de la muestra

Habrá de ser suficientemente grande para que las estimaciones sean fiables,
pero tampoco en exceso para no despilfarrar recursos.
(2) El modo de elegirla
Si la población es homogénea, se suele usar el muestreo aleatorio simple, que

se basa en que todos los elementos de la población tienen la misma probabilidad
de ser seleccionados en una muestra. Si la población es heterogénea, se puede
utilizar el denominado muestreo estratificado, que consiste en dividir la
población en grupos homogéneos (estratos) y en cada uno de ellos hacer un
muestreo aleatorio simple (el tamaño de la muestra en cada estrato será
proporcional al tamaño del grupo, a su variabilidad, etc.).
Para analizar las muestras teóricamente, se necesita una formalización matemática.
Definición
Llamaremos muestra aleatoria simple (m.a.s) de tamaño n de la v.a X a un

conjunto de v.a (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ) tales que son independientes entre sí y tienen la
misma distribución que X. Obsérvese que una m.a.s, puede considerarse también
como una v.a n-dimensional.
En adelante, se denotan por 𝑿𝒊 las v.a de una m.a.s, por 𝒙𝒊 a los valores concretos
de una muestra y por n al tamaño de la muestra.
Por ejemplo, si X es la v.a “nota en estadística de los alumnos de cierta carrera

en cierta universidad”, y se quiere tomar una m.a.s de tamaño 5, 𝑿𝟒 será la v.a
“nota del cuarto alumno elegido para la muestra”. Si se toma la muestra y se
obtienen los siguientes datos: (𝟓, 𝟔; 𝟔, 𝟖; 𝟓, 𝟖; 𝟔, 𝟔; 𝟔, 𝟎), se tiene que 𝒙𝟒 = 𝟔, 𝟔.
1.2) ANÁLISIS DE LOS DATOS
Conocidos los datos de una muestra, se necesita algún método o función que permita
obtener la información que se desea. Por ejemplo, si se tienen los datos
(𝐱 𝟏 , 𝐱 𝟐 , … , 𝐱 𝐧 ) y se quiere obtener información sobre la media de la población, se
𝐱𝟏 +,𝐱𝟐 +⋯+𝐱𝐧
puede elegir la función 𝑮(𝐱 𝟏 , 𝐱 𝟐 , … , 𝐱 𝐧 ) = para estimarla. Esta es la idea
𝒏
de estadístico.

Como las muestras pueden ser distintas, para cada una de ellas se obtendrá una
estimación distinta. Se tiene, por lo tanto, que el estadístico ha de ser considerado
también como una v.a y tendrá su propia distribución de probabilidad.
Formalizando, dada una m.a.s (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ), se llama estadístico G a cualquier v.a
definida como una función de dicha muestra, G  G X 1 ,..., X n  .
Cuando un estadístico se utiliza para estimar el valor de un determinado parámetro

 de una v.a, se dice que es un estimador de  .
1.3) INFERENCIAS SOBRE EL MODELO
Una vez obtenida la muestra, se pueden hacer distintos tipos de inferencias sobre el
modelo:
(1) Inferencia Paramétrica
Se supone conocido el modelo de distribución y se pretende estimar el valor de

los parámetros que determinan dicho modelo. Las distintas formas de llevar a
cabo dicha estimación da lugar a esta unidad y a los siguientes: intervalos de
confianza y pruebas paramétricas.
(2) Inferencia no Paramétrica
Pretende verificar si las suposiciones hechas (sobre el modelo de distribución que

sigue una variable o sobre la independencia de variables, por ejemplo) son
aceptables con cierto grado de incertidumbre.
2) ESTIMACIÓN PUNTUAL
En adelante, se considera que la v.a X sigue una distribución de probabilidad

conocida de la que se desconoce el valor de alguno(s) de sus parámetros.
Ejemplo, se sabe que el número de clientes diarios de una tienda sigue una
distribución de Poisson, pero se desconoce su media. O bien, se sabe que la nota
de estadística de un curso se distribuye como una normal, pero se desconocen su
media y su varianza.
Lo que se estudia en el resto del capítulo es como estimar estos parámetros.
3) OBTENCIÓN DE ESTIMADORES
(3.1) MÉTODO DE LOS MOMENTOS
Consiste en igualar momentos muestrales con los momentos de v.a del mismo orden
(momentos poblacionales). Se igualan tantos momentos como parámetros
desconocidos se tengan, de modo que el sistema de ecuaciones resultante permita
despejar los parámetros que se quieren estimar.
(3.2) MÉTODO DE MÁXIMA VEROSIMILITUD
Consiste en elegir el valor del parámetro que hace más probable (más verosímil) los
valores obtenidos en la muestra.
El método general se basa en buscar el valor del parámetro que hace máximo el
valor de una función que mide la probabilidad de la muestra. Esta función es la
llamada función de verosimilitud.
Si se denota por  al parámetro (o parámetros) del que depende la distribución, la

función de verosimilitud se define como:
 n
 p , x i  para una v.a discreta X
 i 1
L ; x1 ,..., x n    n
 f  , x 
 i para una v.a continua X
i 1
Donde:
p , x  es la función de cuantía de la v.a discreta X, y x1 ,..., xn  los datos concretos
de una m.a.s
f  , x es la función de densidad de la v.a continua X, y x1 ,..., xn  los datos
concretos de una m.a.s
En general, para la obtención del máximo se utilizan técnicas de cálculo diferencial.

Para simplificar los cálculos, se busca el valor de  que hace máximo el valor de
L ; x1 ,..., xn  (al ser Ln(X) una función monótona creciente, la nueva función tiene
los mismos extremos que la función de verosimilitud). En la mayoría de los casos,
basta con hallar los valores que anulan la derivada.
Ejemplo
Para calcular el estimador de máxima verosimilitud del parámetro  de una

distribución de Poisson, se siguen los pasos siguientes:
1º) Definir la función de verosimilitud
n
x
L ; x1 ,..., xn    e 
i
i 1 xi !
2º) Aplicar la función logaritmo y simplificar
n
  xi  n n
LnL; x1 ,..., xn    Ln e    n  Ln  xi   Lnxi !
i 1  xi !  i 1 i 1
3º) Buscar los valores que anulan la derivada
n
d
LnL ; x1 ,..., xn   n   xi  0    X
d i 1
Por lo tanto, el estimador de máxima verosimilitud para  es:   X

*
NOTAS:
1) El método de máxima verosimilitud tiene la propiedad deseable de proporcionar

estimadores que son funciones de estadísticas suficientes, siempre y cuando el
estimador de MV sea único. Además, el método de MV proporciona el estimador
eficiente, si es que existe. Sin embargo los estimadores MV son generalmente
sesgados, salvo una constante. Los estimadores MV se simbolizarán por  * y si
se "reparan" para que sean insesgados por ˆ .
2) Debido a la naturaleza de la función de verosimilitud se escoge, por lo general,

maximizar el logaritmo natural de L ; x1 ,..., xn 

3) Otra propiedad deseable de los estimadores MV es la propiedad de invarianza.

Sea   g x1 ,..., xn  el estimador de MV de  . si h  es una función univaluada
*
de  , entonces, el estimador MV de h  es h  .

*
 
4) PROPIEDADES DE LOS ESTIMADORES
En algunos casos, dependiendo del método elegido, se pueden obtener distintos

estimadores para un mismo parámetro. En estas situaciones, ¿cómo se elige el más
adecuado?, al ser los estimadores v.a que dependen de una m.a.s y cuyo objetivo
es estimar el valor de un parámetro  , algunas propiedades “deseables” son:
1. Que su esperanza sea el valor  .
2. Que su varianza con respecto a  sea la mínima posible
3. Que aproveche toda la información que aporta la muestra.
Estas ideas (o deseos), se concretan en las siguientes propiedades:
(4.1) ESTIMADORES CENTRADOS O INSESGADOS
Se dice que un estimador T de  es centrado o insesgado si ET    .
Ejemplo
 
Si la media de una v.a X es  , E X   , el estadístico X , media muestral, es un
estimador centrado para  . En efecto:
 n

 X 
EX i  1
 
i
  n n
    n n  
i 1 1
E X  E  
 n  i 1 n n i 1
 
 
Ejemplo
Si  2 es la varianza de una v.a X, Var X    se tiene que m2, varianza muestral,

2
no es un estimador centrado para  2 . En concreto, se puede demostrar que:

n 1 2
E m2     2
n
 X 
n
2
i X
Si se toma: s2  i 1
n 1
Se tiene que s2 cuasivarianza muestral de X, sí es un estimador centrado para la

varianza de una v.a pues E s 2    2 .
(4.2) ESTIMADORES EFICIENTES
Se dice que el estimador T1 es más eficiente que el estimador T2 si tiene menor

varianza VarT1   VarT2  .
Se dice que un estimador centrado de  es eficiente si es el más eficiente de todos

los estimadores centrados de  .
Para verificar si un estimador centrado es eficiente, es de gran utilidad el siguiente

resultado, conocido como la Cota de Frechet-Cramer-Rao:
Sea X una v.a con función de densidad (o de probabilidad) f  , x tal que el

conjunto de valores que toma dicha variable no depende del parámetro  . Sea T
un estimador centrado de  . Entonces, se verifica que:
Var T  
1
I n  
Siendo    
2
 2  denominada cantidad de información de
I n    nE   Lnf  ; x    nE  2 Lnf  ; x 
       

Fisher.
Por lo tanto, si se verifican las hipótesis del resultado anterior {la relativa a los valores
que toma la v.a y que el estimador T sea centrado} y se observa que su varianza es
iguala 1 , se puede asegurar que T es un estimador eficiente de  .
I n  
La anterior condición es una condición suficiente para probar la eficiencia, por tanto
puede haber estimadores eficientes que no alcancen la cota.
Ejemplo.
En el caso de una v.a con distribución de Poisson, P  , se sabe que X es un

estimador centrado para  ; la v.a puede tomar todos los valores enteros no
negativos, independientemente del valor de  ; por tanto es válida la desigualdad.
 
Se calcula Var X y se obtiene:
  n X   1 2 n 
2
1
Var X  Var  i          n 
 i¡1 n   n  i 1  n  n
Se calcula la cota inferior de la varianza de la siguiente forma:
X  X 
f  ; X   e    Ln f  ; X   e        XLn   Ln X !
X!  X ! 
2  X   X
Ln f  ; X   e   
  
2
X !   2
 2   X    X  1
I n    nE  2 Ln f  ; X   e      n  2 E  X   2  
n n
  nE  2
   
  X !       
1 

I n   n
Como la varianza es igual a la cota, se puede asegurar que X es un estimador

eficiente para  .
Este resultado no es válido para modelos uniformes ni para estimar el parámetro n

de una distribución binomial. En el caso uniforme, la v.a toma valores en el intervalo
a, b , por lo que depende de los Parámetros a y b. En el caso de una binomial
𝑩(𝒏, 𝒑), dicha variable puede tomar los valores x  0,1,2,..., n , que claramente
depende de n.
(4.3) ERROR CUADRÁTICO MEDIO
Un concepto que valora las dos cualidades anteriores conjuntamente es el error

cuadrático medio (ECM). Si T es un estimador de  , se define:
ECM T   E T     2

(Representa la dispersión del estimador respecto del parámetro). Además, se tiene:
ECM T   Var T     E T 
2
(Obsérvese que si T es centrado, ECM T   VarT  ).

(4.4) OTRAS PROPIEDADES
Otras propiedades de los estimadores que requieren un análisis más complejo, y que
no se abordan aquí, son las siguientes:
1. Consistencia. La idea es que cuando el tamaño de la muestra tiende a infinito,

la esperanza de un estimador consistente tiende al valor del parámetro, y su
varianza a cero. Es decir, en el límite, el estimador es centrado y eficiente.
2. Suficiencia. La idea es que un estimador suficiente recoge toda la información

que aporta la muestra para estimar el parámetro.

UNIDAD 8 DISTRIBUCIONES EN EL MUESTREO
1) INTRODUCCIÓN
Ya se comentó en el capítulo anterior que un estadístico es una variable aleatoria

(dependiendo de la muestra elegida puede tomar distintos valores) y por tanto tiene
una determinada distribución de probabilidad. En esta unidad se estudian diversos
modelos de distribuciones de probabilidad relacionados con los estimadores más
usuales: X y s 2 . Como estas distribuciones dependen de m.a.s, se denominan
distribuciones en el muestreo.
2) DISTRIBUCIONES EN EL MUESTREO PARA UNA POBLACIÓN NORMAL
En este caso se supone que (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ) es una m.a.s de una v.a X con


distribución N  ;  2 
(2.1) DISTRIBUCIÓN ASOCIADA A 𝑿 (𝝈𝟐 𝒄𝒐𝒏𝒐𝒄𝒊𝒅𝒂)
 
Como X ~ N  ;  2 , por la definición de 𝑿 y las propiedades de reproductividad de
 
la normal, se tiene que X ~ N   ;   .
2
 n 
En general se expresa:
Z
X 
0

~N0 ,1
n
¿Qué ocurre si  2 es desconocida?, lo lógico será sustituirla por un estimador suyo.

El estimador elegido es s 2 . Por tanto, es preciso estudiar previamente la distribución
de s 2 .
(2.2) DISTRIBUCIÓN ASOCIADA A s 2

La distribución del estadístico s 2 está relacionada con un nuevo modelo, la

denominada Chi-cuadrado de Pearson.
Si Z1 ,..., Z n son v.a independientes con distribución N 0;1 , se dice que la v.a
Z1  ...  Z n sigue una distribución Chi-cuadrado con n grados de libertad, y se denota
 n2 .
Se puede comprobar que:
n 1
 n2 ~   ; 
2 2
De lo anterior se sigue que si X ~  n , E X   n y Var X   2n . Además, la  n es

2 2
reproductiva respecto de n (si se suman dos v.a independientes con distribuciones

 n2 y  m2 , la v.a suma tiene una distribución  n
2
m ).
El resultado que relaciona al estadístico s2 con la distribución  n es el denominado

2
 
Teorema de Fisher: Si X 1 ,..., X n es una m.a.s de una v.a X ~ N  ;  2 , entonces:
1. s2 y X son independientes
2. n  12s ~  n21
2
(2.3) DISTRIBUCIÓN ASOCIADA A 𝑿 (𝝈𝟐 𝒅𝒆𝒔𝒄𝒐𝒏𝒐𝒄𝒊𝒅𝒂)
Para determinar el modelo de distribución relacionado con X al estimar  2 por s2

se tiene que definir un nuevo tipo de distribución, la denominada t de Student.
 
Si Z y X son v.a independientes tales que Z ~ N 0 ; 1 y X ~  n , se dice que la v.a
2
Z X tiene una distribución t de Student con n grados de libertad, y se denota por

n
tn.
A partir de esta definición, y utilizando el Teorema de Fisher, es fácil comprobar que:

X 
~ t n 1
s
n
La distribución t de Student es muy similar a la N(0,1), pero algo más aplastada.

Además, cuando n es suficientemente grande (n > 30, por ejemplo) se puede
aproximar por la normal.
3) DISTRIBUCIONES EN EL MUESTREO PARA COMPARAR DOS POBLACIONES

NORMALES
Un problema muy común en estadística es la comparación de las medias y las

varianzas de dos poblaciones, en especial para comprobar su posible igualdad. Para
ello, serán de gran utilidad diversos estadísticos que comparan sus respectivas
medias y cuasivarianzas muestrales. En este caso se consideran dos v.a
  
independientes X1 y X2 tales que X 1 ~ N 1 ; 1 y X 2 ~ N  2 ; 2 y se denotan por
2 2

X 1 y X 2 a las medias muestrales respectivas, y por s12 y s 22 a sus cuasivarianzas
muestrales.
(3.1) DISTRIBUCIÓN ASOCIADA A X 1  X 2 sup oniendo 1   2

2 2
 
Se supone que las dos poblaciones tienen la misma varianza.
Se distinguen dos casos:
i) Las v.a X1 y X2 son independientes. Entonces:
X 1  X 2  1   2  donde: s c 
n1  1s12  n2  1s 22
1 1
~ t n1  n2 2 n1  n2  2
sc 
n1 n2
ii) Las muestras de X1 y X2 están pareadas.
En este caso, el i-ésimo valor de la muestra de ambas poblaciones se toma en

condiciones similares. Por ejemplo, si X1 y X2 representan las velocidades de
ejecución de dos algoritmos distintos, una muestra pareada consistirá en evaluar
ambos algoritmos sobre los mismos problemas:

X1 X 2 D  X1  X 2
Problema 1 x11 x 21 d1  x11  x21
d 2  x12  x22
Problema 2 x12 x 22
... ... ... ...
Problema n x1n x 2 n d n  x1n  x2n
Siendo x11 ,...x1n  la muestra de X1 y x21 ,...x2 n  la muestra de X2. 0bviamente, el
tamaño de las muestras es el mismo.
Para Comparar estas poblaciones, se estudia la media muestral de la variable

D  1   2 
diferencia, D  X 1  X 2 , que verifica: ~ t n 1
sD
n
 d 
n
D
i d i  x1i  x2i
donde: s D  i 1
y donde
n 1 D  X1  X 2
2 2
(3.2) DISTRIBUCIÓN PARA COMPARAR s1 Y s 2
Para comparar las cuasivarianzas muestrales se utiliza una distribución relacionada

con el cociente de las mismas. Este modelo se define de la siguiente forma:
Si X e Y son v.a independientes tales que X ~  n e Y ~  m , entonces se dice que la

2 2
X
v.a n sigue una distribución F de Snedecor con n y m grados de libertad, y se
Y
m
denota por Fn ,m .
s12
2 2  12
Conocidas las distribuciones asociadas ha s1 y s 2 , se tiene que: ~ Fn1 1,n2  2
s 22
 22

4) DISTRIBUCIONES EN EL MUESTREO PARA POBLACIONES CUALESQUIERA
Cuando se trabaja con poblaciones no normales, el Teorema Central del Limita

permite obtener resultados semejantes a los anteriores al estimar la media de la
población.
En la práctica, si el tamaño de la muestra es suficientemente grande (n > 30), se

utilizan los resultados obtenidos para poblaciones normales (por homogeneidad de
la notación, dada una v.a Xi, se considera que E  X i    i y Var  X i    i ).
2
Sin embargo, en lo relativo a los estimadores de la varianza, los resultados vistos

anteriormente no se conservan cuando no se cumplen las hipótesis de normalidad.
5) DISTRIBUCIONES EN EL MUESTREO DEL ESTIMADOR DE UNA PROPORCIÓN
Un caso particular de especial interés es la estimación de la proporción en que un

suceso se verifica en una población (proporción de no fumadores en una ciudad, de
piezas defectuosas en la producción de una fábrica, etc.).
Esta situación se modela con una binomial. La v.a que indica si un individuo tiene o
 
no una determinada característica puede considerarse una B 1 ; p , representando
el parámetro p la proporción de individuos de la población que tienen dicha
característica.
El estimador que se utiliza para estimar p es p  X . Si el tamaño de la muestra n

*
es suficientemente grande, se tiene:
p*  p

N0 ,1
1  p p
* *

Obsérvese que en lugar de s 2 para estimar la varianza, se ha utilizado 1  p p . (La
* *

varianza de la binomial es 1  p  p .
Si se quieren comparar las proporciones de 2 poblaciones independientes

 
X 1 ~ B1, p1  y X 2 ~ B 1 , p2 , se utiliza:

p1*  p2*   p1  p2 

N0 ,1  para valores suficientemente grandes de n1 y n2 .
1  p p
*
1
*
1

n

UNIDAD 9 ESTIMACIÓN POR INTERVALO
1) INTRODUCCIÓN
En las unidades anteriores se han visto las formas de obtención de estimadores

puntuales, las propiedades de los mismos y las diferentes distribuciones en el
muestreo. Al ser prácticamente imposible que el valor obtenido para el estimador
coincida con el valor del parámetro estimado, lo que interesa en la práctica es dar no
solamente el valor de la estimación, sino acompañar éste de un intervalo en el que
con cierta confianza se pueda afirmar que se encuentra su verdadero valor.
2) INTERVALOS DE CONFIANZA
En general, la construcción de un intervalo de confianza para un parámetro

desconocido 𝜽 consiste en encontrar una estadística suficiente 𝑻 y relacionarla con
otra variable aleatoria 𝑾 = 𝒇(𝑻; 𝜽), en donde 𝑾 involucra a 𝜽 pero la distribución de
𝑾 no contiene a 𝜽, así como tampoco a ningún otro parámetro desconocido.
Entonces se seleccionan dos valores a y b, tal que:
𝐏(𝐚 ≤ 𝐖 ≤ 𝐛) = 𝟏 − 𝛂 o bien:
𝐏(𝒈𝟏 (𝜽) ≤ 𝐓 ≤ 𝒈𝟐 (𝜽)) = 𝟏 − 𝛂
Donde: 𝟏 − 𝛂 recibe el nombre de coeficiente de confianza.
Mediante algunas manipulaciones algebraicas, se obtiene:
𝐏(𝒉𝟏 (𝑻) ≤ 𝜽 ≤ 𝒉𝟐 (𝑻)) = 𝟏 − 𝛂
Donde: 𝒉𝟏 (𝑻) 𝐲 𝒉𝟐 (𝑻) son funciones de la estadística 𝑻 y de ésta forma, variables

aleatorias.
El intervalo de confianza para 𝜽 se obtiene sustituyendo en 𝒉𝟏 (𝑻) 𝐲 𝒉𝟐 (𝑻) los

estimadores calculados a partir de los datos muestrales, dando origen a lo que se
conoce como intervalo de confianza bilateral.
𝐏(𝒇𝟏 (𝑻) ≤ 𝜽) = 𝟏 − 𝛂; intervalo de confianza unilateral inferior para 𝜽
𝐏(𝜽 ≤ 𝒇𝟐 (𝑻)) = 𝟏 − 𝛂; intervalo de confianza unilateral superior para 𝜽.

NOTAS:
1) W se conoce como variable aleatoria pivotal, el método en general, recibe el

nombre de método pivotal.
2) Los pasos a seguir por este método son:
1º Obtener el estimador insesgado MV del parámetro 𝜽
2º ̂.
Encontrar la distribución del estimador 𝛉
3º Construir la variable aleatoria pivotal 𝑾.
4º Obtener el intervalo de confianza pedido.
3) La probabilidad de que el intervalo contenga al verdadero valor del parámetro es

𝟏𝟎𝟎(𝟏 − 𝜶)%. Una vez tomada la muestra se obtiene un intervalo concreto, por
lo tanto no se puede ya hablar formalmente de probabilidad y se habla de
confianza.
4) Si lo anterior se interpreta a partir de la frecuencia relativa, indica que si se toman

diferentes muestras y se obtienen los intervalos asociados a cada una de ellas,
el número de veces que el verdadero valor del parámetro está en los intervalos
es el 𝟏𝟎𝟎(𝟏 − 𝜶)%.
A continuación, y siguiendo los pasos detallados anteriormente, se presentan varios

casos:
(2.1) INTERVALO DE CONFIANZA PARA LA MEDIA 𝝁 DE UNA POBLACIÓN

NORMAL CON VARIANZA CONOCIDA.
Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ) una m.a.s, de una población normal con media 𝛍 desconocida y

varianza 𝝈𝟐𝟎 conocida, es decir, 𝑿~𝑵(𝛍 , 𝝈𝟐𝟎 ). Dado: 𝛂 𝛜 [𝟎 , 𝟏]
La v.a pivotal y su distribución es:
̅ −𝝁
𝑿
𝐙= 𝝈𝟎 ~𝑁(0 , 1)
√𝒏
Como la distribución Z es simétrica, entonces:

𝐏(−𝒁𝟏−𝜶 ≤ 𝐙 ≤ 𝒁𝟏−𝜶 ) = 𝟏 − 𝛂
Reemplazando 𝐙 y realizando algunas manipulaciones algebraicas, se obtiene, el

intervalo de 𝟏𝟎𝟎(𝟏 − 𝜶)% de confianza para 𝛍:
𝝈𝟎 𝝈𝟎
̅ − 𝒁𝟏−𝜶∙
𝐏 (𝑿 ̅ + 𝒁𝟏−𝜶 ∙
≤𝝁≤𝑿 )=𝟏−𝛂
√𝒏 √𝒏
Observaciones:
̅ − 𝒁𝟏−𝜶∙ 𝝈𝟎 𝐡𝐚𝐬𝐭𝐚 𝑿
1) La probabilidad de que el intervalo aleatorio: 𝑿 ̅ + 𝒁𝟏−𝜶 ∙ 𝝈𝟎
𝒏 √ 𝒏 √
contenga el verdadero valor de la media 𝛍 es (𝟏 − 𝜶)
̅ por su estimación 𝒙
2) Reemplazando la variable aleatoria 𝑿 ̅ calculado a partir de
̅±
los datos de la m.a.s, un intervalo del 𝟏𝟎𝟎(𝟏 − 𝜶)% para 𝛍, resulta ser: 𝒙
𝝈𝟎 𝝈𝟎 𝝈𝟎 𝝈𝟎
𝒁𝟏−𝜶∙ ̅ − 𝒁𝟏−𝜶∙
o bien: 𝐼𝜇;1−𝛼 = [ 𝒙 ̅ + 𝒁𝟏−𝜶 ∙
;𝒙 ̅ − 𝒁𝟏−𝜶∙
] ; donde: 𝒙 ̅+
𝐲 𝒙
√𝒏 √𝒏 √𝒏 √𝒏
𝝈𝟎
𝒁𝟏−𝜶 ∙ reciben el nombre de límites de confianza inferior y superior
√𝒏
respectivamente.
3) Nótese que si 𝐧 → ∞, entonces, más pequeño es el ancho del intervalo o para un

coeficiente de confianza (𝟏 − 𝜶) más grande, mayor es el ancho del intervalo de
confianza.
𝝈𝟎
4) La longitud del intervalo de confianza, resulta ser: 𝒍𝒐𝒏𝒈[𝐼𝜇;1−𝛼 ] = 𝟐 ∙ 𝒁𝟏−𝜶 ∙
√𝒏
Ejemplo. Los siguientes datos corresponden a los pesos en gr. del contenido de 16
cajas de cereal que se seleccionaron de un proceso de llenado con el propósito de
verificar el peso promedio: 506; 508; 499; 503; 504; 510; 497; 512; 514; 505; 493;
496; 506; 502; 509 y 496. Si el peso de cada caja es una variable aleatoria normal
con una desviación estándar 𝛔 = 𝟓 𝐠𝐫. , obtener los intervalos de confianza
estimados del 90, 95 y 99%, para la media.
Solución:
̅ = 𝟓𝟎𝟑, 𝟕𝟓 𝒈𝒓. Los intervalos de confianza, están dados por:

La media muestral es: 𝒙
̅ ± 𝒁𝟏−𝜶∙ 𝟏𝟐𝟓
𝒙
Nivel de confianza 𝒁𝟏−𝜶∙ Límite inferior Límite superior Longitud

90% 1,645 501,69 505,81 4,12
95% 1,96 501,30 506,20 4,90
99% 2,575 500,53 506,97 6,44
Observación
Supóngase que el muestreo se realiza sobre una población que tiene distribución normal
con media 𝛍 desconocida y varianza 𝝈𝟐𝟎 conocida. Se desea estimar el tamaño necesario
de la muestra de manera tal que, con una probabilidad 𝟏𝟎𝟎(𝟏 − 𝜶)%, la media muestral
̅ se encuentre en un intervalo igual a 𝜺 unidades alrededor de la media poblacional 𝛍.
𝑿
𝛔
̅ − 𝛍| < 𝛆) = 𝟏 − 𝛂 𝐞𝐧 𝐝𝐨𝐧𝐝𝐞 𝛆 = 𝐙𝟏−𝛂 ∙
Solución: 𝐏(|𝐗 ; resolviendo para n, se
√𝐧
𝒁𝟐𝟏−𝜶 ∙𝝈𝟐
tiene: 𝐧 = 𝛆𝟐
(2.2) INTERVALO DE CONFIANZA PARA LA MEDIA 𝛍 DE UNA POBLACIÓN

NORMAL CON VARIANZA DESCONOCIDA.
Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ) una m.a.s, de una población normal con media 𝛍 desconocida y
varianza  desconocida, es decir, 𝑿~𝑵(𝛍 , 𝝈𝟐 ). Dado: 𝛂 𝛜 [𝟎 , 𝟏]

2
̅−𝝁
𝑿
𝐓= ~𝒕𝒈𝒍=𝒏−𝟏
𝑺
√𝒏
Como la distribución t de Student es simétrica, entonces:
𝐏(−𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏 ≤ 𝐓 ≤ 𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏 ) = 𝟏 − 𝛂
Reemplazando 𝐓 y realizando algunas manipulaciones algebraicas, se obtiene, el

intervalo de 𝟏𝟎𝟎(𝟏 − 𝜶)% de confianza para 𝛍:
𝑺 𝑺
̅ − 𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏
𝐏 (𝑿 ̅ + 𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏 ∙
≤𝝁≤𝑿 )=𝟏−𝛂
√𝒏 √𝒏
Observaciones:

𝑺
̅ − 𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏
1) La probabilidad de que el intervalo aleatorio: 𝑿 ̅+
𝐡𝐚𝐬𝐭𝐚 𝑿
√𝒏
𝑺
𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏 ∙ contenga el verdadero valor de la media 𝛍 es (𝟏 − 𝜶).
√𝒏
̅ por su estimación 𝒙
2) Reemplazando la variable aleatoria 𝑿 ̅ calculado a partir de
̅±
los datos de la m.a.s, un intervalo del 𝟏𝟎𝟎(𝟏 − 𝜶)% para 𝛍, resulta ser: 𝒙
𝑺 𝑺 𝑺
𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏 ∙ ̅ − 𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏
o bien 𝑰𝝁;𝟏−𝜶 = [𝒙 ̅ + 𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏 ∙
;𝒙 ] donde:
√𝒏 √𝒏 √𝒏
𝑺 𝑺
̅ − 𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏
𝒙 ̅ + 𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏 ∙
𝐲 𝒙 reciben el nombre de límites de
√𝒏 √𝒏
confianza inferior y superior respectivamente.
3( Nótese que si 𝒏 → ∞, entonces, más pequeño es el ancho del intervalo o para un

coeficiente de confianza (𝟏 − 𝜶) más grande, mayor es el ancho del intervalo de
confianza.
4) La longitud del intervalo de confianza, resulta ser:
𝑺
𝒍𝒐𝒏𝒈[𝑰𝝁;𝟏−𝜶 ] = 𝟐𝒕𝟏−𝜶;𝒈𝒍=𝒏−𝟏
√𝒏
Ejemplo: Usando la información del ejemplo anterior, obtener intervalos de

confianza estimados del 90, 95 y 99%, para la media de llenado de este proceso.
̅ = 𝟓𝟎𝟑, 𝟕𝟓 𝒈𝒓. La estimación de la varianza

Solución: La media muestral es: 𝒙
muestral es: 𝑺𝟐 = 𝟔, 𝟐𝟐
Los intervalos de confianza, están dados por: 𝟓𝟓𝟎𝟑, 𝟕𝟓 ± 𝒕𝟏−𝜶;𝒈𝒍=𝟏𝟓 ∙ 𝟏, 𝟓𝟓
Nivel de confianza 𝒕𝟏−𝜶;𝒈𝒍=𝟏𝟓 Límite inferior Límite superior Longitud
90% 1,753 501,03 506,47 5,44
95% 1,131 500,45 507,05 6,02
99% 2,947 499,18 508,32 9,14
(2.3) INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS 1   2 DE

DOS POBLACIONES NORMALES E INDEPENDIENTES.

Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝒏𝟏 ) y (𝐘𝟏 , 𝐘𝟐 , … , 𝐗 𝒏𝟐 ) dos m.a.s, de dos poblaciones normales e
independientes con media 1 y  2 desconocidas, es decir, X ~ N 1 ;  12   y
 
Y ~ N  2 ;  22 . Dado: 𝛂 𝛜 [𝟎 , 𝟏]
CASO 1: VARIANZAS CONOCIDAS (IGUALES O DESIGUALES)

X 1  X 2  1   2 
Z ~N0 ;1  
 01
2
 02
2

n1 n2
Entonces el intervalo de 𝟏𝟎𝟎(𝟏 − 𝜶)% de confianza para 1   2 , resulta ser:
Por simetría de la distribución normal, se tiene:
P z1  Z  z1   1  
Reemplazando Z y realizando algunas manipulaciones algebraicas, se obtiene:
 2 2  X2  Y2 
P X  Y  z1  01  02  1   2  X  Y  z1    1
 n n n n 
 1 2 X Y 
Observaciones:
1) La probabilidad de que el intervalo aleatorio:
 012  022  01
2
 02
2
X  Y  z1   hasta X  Y  z1  
n1 n2 n1 n2
Contenga al verdadero valor de la diferencia de medias 1   2 es 1   .
2) Reemplazando la variable aleatoria X  Y por su estimación x  y calculado a

partir de los datos de la m.a.s, un intervalo del 𝟏𝟎𝟎(𝟏 − 𝜶)% para 1   2 , resulta
ser:
 01
2
 02
2
x  y  z1  
n1 n2

o bien:
 2 2 2 2 
I 1 2 ;1 ;   X  Y  z1  01  02 ; X  Y  z1  01  02 
 n1 n2 n1 n2 
 01
2
 02
2
 01
2
 02
2
donde: x  y  z1   y x  y  z1   reciben el nombre de límites
n1 n2 n1 n2
de confianza inferior y superior respectivamente.
3) Nótese que si n   , entonces, más pequeño es el ancho del intervalo o para

un coeficiente de confianza (𝟏 − 𝜶) más grande, mayor es el ancho del intervalo
de confianza.
 12  22
 
long I 1  2 ;1 ;  2  z1 
n1

n2
CASO 2: VARIANZAS DESCONOCIDAS, PERO IGUALES
X 1  X 2  1   2 
T ~ t1 ; gl n1  n2 2
1 1
sc  
n1 n2
El intervalo de 𝟏𝟎𝟎(𝟏 − 𝜶)% de confianza para 1   2 , resulta ser:
1 1
X  Y  t1 ; gl n1 n2 2  sc   o bien
n1 n2
 1 1 1 1 
I 1  2 ;1   X  Y  t1 ; gl n1  n2 2  sc   ; X  Y  t1 ; gl n1  n2 2  sc   
 n1 n 2 n1 n2 
Donde la varianza común es:
sc2 
n1  1  s12  n2  1  s22
n1  n2  2

Ejemplo
Se piensa que los estudiantes de Contaduría pueden esperar un mayor salario

promedio al egresar, que el que esperan los estudiantes de Administración.
Recientemente se obtuvieron muestras aleatorias de ambos grupos de un área
geográfica relativamente homogénea, proporcionando los datos que se encuentran
en la tabla adjunta. Determinar un intervalo de confianza unilateral inferior del 90 %
para la diferencia entre los salarios promedios para los estudiantes de Contaduría y
los de Administración  A   B al egresar (suponga que las varianzas  A y  B son
2 2
iguales).
Salarios iniciales anuales para recién graduados(en miles de U$)
CONTADORES (A) ADMINISTRACION (B)
16.300 13.200
18.200 15.100
17.500 13.900
16.100 14.700
15.900 15.600
15.400 15.800
15.800 14.900
17.300 18.100
14.900 15.600
15.100 15.300
16.200
15.200
15400
16.600
Solución:
1) A partir de los datos muestrales se puede calcular las siguientes cantidades:

n A  10 n B  14
A  16.250 B  15.400
s 2A  1.187.222,22 s 2B  1.352.307,69
s c2  1.284.772,73  s c  1.133,48
2) Un intervalo de confianza unilateral inferior del 90% está dado por:
1 1
A  B  t 0,90; gl 22  sc  
n1 n2
Al sustituir los resultados numéricos, se tiene:
16.250  15.400  1,321  1.133,48 

1 1

10 14
Por lo tanto, I  A   B ;0,90  230,05; 
Interpretación. Un intervalo de confianza unilateral del 90% para la diferencia

real entre los salarios promedio es de U$ 230,05, es decir, en el 90% de las
muestras posibles, el verdadero valor de la media poblacional será mayor o igual
a U$230,05.
(2.4) INTERVALO DE CONFIANZA PARA LA VARIANZA DE UNA POBLACIÓN

NORMAL.

Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ) una m.a.s, de una población normal, o sea, X ~ N ; 2 . Dado: 
𝛂 𝛜 [𝟎 , 𝟏]
n  1s 2 ~  2
La v.a pivotal y su distribución es: W  n 1
2
Entonces, el intervalo de 𝟏𝟎𝟎(𝟏 − 𝜶)% de confianza para  2 , resulta ser:
Pa  W  b  1  
 n  1  s 2 n  1  s 2 
es decir: P  2    1  
 b a 
Para que el intervalo sea de longitud mínima:

a   12 n  1 y b   2 n  1
2 2
Observaciones:
1) La probabilidad de que el intervalo aleatorio:
n  1  s 2 hasta
n  1  s 2 contenga el verdadero valor de la media  2 es (𝟏 − 𝜶)
b b
2) Reemplazando la variable aleatoria s2 por su realización calculada a partir de los

datos de la m.a.s de tamaño n, un intervalo del 𝟏𝟎𝟎(𝟏 − 𝜶)% para  2 , resulta ser
 n  1  s 2 n  1  s 2 
I  2 ;1   ; 
 b a 
n  1  s 2 n  1  s 2
donde: y reciben el nombre de límites de confianza inferior
b a
y superior respectivamente.
  1 1
long I  2 ;1  n  1  s 2    
a b
Ejemplo: Un proceso produce cierta clase de cojinetes de bola cuyo diámetro interior
es de 3 cm. Se seleccionan, en forma aleatoria, 12 de estos cojinetes y se miden sus
diámetros internos, que resultan ser: 3,01; 3,05; 2,99; 3,00; 3,02; 2,99; 2,97; 2,97;
3,02 y 3,01. Suponiendo que el diámetro es una variable aleatoria normalmente
distribuida, determinar un intervalo de confianza del 99% para la varianza  2 .
Solución:
1) A partir de los datos muestrales se pueden calcular las cantidades siguientes:
n  10  los grados de libertad son n - 1  9

s 2  0,024517567
a   02,995 9  1,734926 ; b   02,005 9  23,5893
2) El intervalo de confianza del 99%, está dado por:

 n  1  s 2 n  1  s 2 
I  2 ;99%   ; 
 b a 
Al sustituir los resultados numéricos, se obtiene:
 9  0,024517567 9  0,024517567 

I  2 ;99%   ;   0,009354;0,12718
 23,5893 1,734926 
(2.5) INTERVALO DE CONFIANZA PARA EL COCIENTE DE DOS VARIANZAS

CUANDO SE MUESTREAN DOS POBLACIONES NORMALES E
INDEPENDIENTES
Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝒏𝟏 ) y (𝐘𝟏 , 𝐘𝟐 , … , 𝐘𝒏𝟐 ) dos m.a.s, de dos poblaciones normales e
independientes con media 1 y  2 desconocidas, es decir, X ~ N 1 ;  12   y
 
Y ~ N  2 ;  22 . Dado: 𝛂 𝛜 [𝟎 , 𝟏]
s12
 12
La v.a pivotal y su distribución es: F  ~ Fn1 1,n2 2
s 22
 22
El intervalo de 𝟏𝟎𝟎(𝟏 − 𝜶)% de confianza, tal que:
 s12 
 
 12
P a 2  b  1
 s2 
  2 
 2 
 s 
2 2

P a  12  22  b   1  
 s2  1 
 s2  2
2 2
s 22 
P a  2  2  b  2   1  

 s1  1 s1 
 22
De ésta forma un intervalo de 𝟏𝟎𝟎(𝟏 − 𝜶)% de confianza para está dado por:
 12
 s 22 s 22 
I 2  a  2 ; b  2 
;1
 s1 s1 
2
 12
; b  f1 n1  1; n2  1
1
donde: a
f1 n2  1; n1  1

Ejemplo (ver datos del ejemplo de recién graduados). Se desea un intervalo de
confianza del 90% para  B

2
 A2
Solución
1) A partir de los datos muestrales se puede calcular las siguientes cantidades:
n A  10 n B  14 s2A  1.187 .222 ,22 s2B  1.352 .307 ,69
b  f 0,90 9;13  2,71

1 1
a   0,328
f 0,90 13;9 3,05
2) El intervalo de 90% de confianza para  B2 está dado por:

 A2
 s B2 s B2 
I 2  a  2 ; b  2 
;1
 sA sA 
B
 A2
Al sustituir los resultados numéricos, se obtiene:
 1.352 .307 ,69 

I 2  0,328 
1.352.307 ,69
; 2,71  
  0,3736 ; 3,0868 
B
 A2
;0,90  1.187.222,22 1.187 .222,22 
Interpretación. Un intervalo de confianza del 90% para el cociente de varianzas

real entre los salarios es de 0,3736;3,0868, es decir, en el 90% de las muestras
posibles, el verdadero valor del cociente entre las varianzas poblacionales será
de 0,3736 hasta 3,0868.
(2.6) INTERVALO DE CONFIANZA PARA EL PARÁMETRO P CUANDO SE

MUESTREA UNA POBLACIÓN BINOMIAL
Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ) una m.a.s, de una población binomial, o sea, X ~ B n ; P . Dado:  

𝛂 𝛜 [𝟎 , 𝟏]
La v.a pivotal y su distribución, cuando n   es:
P  Pˆ
Z  
 
~N0 ;1
Pˆ  1  Pˆ
n
El intervalo de 𝟏𝟎𝟎(𝟏 − 𝜶)% de confianza para P, es tal que:

Por simetría de la distribución normal:
P z1  Z  z1   1  

P Pˆ  z1 
 
Pˆ  1  Pˆ
 P  Pˆ  z1 
    1  
Pˆ  1  Pˆ
 n n 
 
o bien:

I P;1   Pˆ  z1 
 
Pˆ  1  Pˆ ˆ
; P  z1 

Pˆ  1  Pˆ 
 n n 
Ejemplo:
Un fabricante asegura, a una compañía que le compra un producto en forma regular,

que el porcentaje de productos defectuosos no es mayor del 5 %. La compañía
decide comprobar la afirmación del fabricante seleccionado, de su inventario, 200
unidades de este producto y probándolos. ¿Deberá sospechar la compañía de la
afirmación del fabricante si se descubre un total de 19 unidades defectuosas en la
muestra?. Use   5%
Solución
La sospecha estará apoyada si existe un intervalo de confiabilidad alta para el cual

la proporción P se encuentra completamente a la derecha del valor asegurado 0,05.
El estimado de P es Pˆ  19  0,095
200
 ˆ ˆ  ˆ 
ˆ 
Luego el intervalo aleatorio, resulta ser: I P;1   Pˆ  z1  P  1  P ; Pˆ  z1  P  1  P   
 n n 
 0,095  1  0,095 0,095  1  0,095 

I P;95%  0,095  1,96  ;0,095  1,96    0,05436;0,1356
 200 200 
Existe una razón para sospechar de la afirmación del fabricante, ya que el intervalo
de confianza se encuentra completamente a la derecha del valor asegurado.

OBSERVACIONES:
1) Los métodos presentados deben usarse sólo cuando el tamaño de la muestra es

suficientemente grande. De otro modo deberán emplearse los intervalos de
confianza exactos.
2) La distribución t de Student sigue siendo válida para inferencias con respecto a

las medias, aun a pesar de que se haga un muestreo de una distribución que no
es normal, el efecto que se tiene por una violación t de Student, parece ser
pequeño, aun para un tamaño n relativamente modesto.
3) Para estimar un intervalo de confianza para la diferencia de medias con varianzas

desconocidas y distintas cuando se haga un muestreo de una población normal,
se utiliza la variable aleatoria pivotal:
X  Y   X   Y 
T
s X2 sY2

n X nY
que tiene una distribución t de Student con  grados de libertad, donde:
2
 s X2 sY2 
  
 n X nY 
v 2 2
2
 s X2  1  sY2  1
      
 n X  n X  1  nY  nY  1
N n
4) Si se conoce N, la varianza se corrige multiplicándola por:
N 1
(2.7) INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES

P1  P2 DE DOS POBLACIONES BINOMIALES E INDEPENDIENTES.
Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝒏𝟏 ) y (𝐘𝟏 , 𝐘𝟐 , … , 𝐘𝒏𝟐 ) dos m.a.s, de dos poblaciones binomiales e
independientes con parámetro P1 y P2 desconocidos, es decir, X ~ B n1 ; P1   y
 
Y ~ B n2 ; P2 . Dado: 𝛂 𝛜 [𝟎 , 𝟏]
La v.a pivotal y su distribución, cuando n1 ,n2   es:

Z
Pˆ  Pˆ  P  P  ~ N 0 ; 1
1 2 1 2
Pˆ  1  Pˆ  Pˆ  1  Pˆ 
1

1 2 2
n1 n2
El intervalo de 𝟏𝟎𝟎(𝟏 − 𝜶)% de confianza para P1  P2 , es tal que:
Por simetría de la distribución normal:
P z1  Z  z1   1  

    
Pˆ  1  Pˆ1 Pˆ2  1  Pˆ2
P Pˆ1  Pˆ2  Z1  1 
   
Pˆ  1  Pˆ1 Pˆ2  1  Pˆ2
 P1  P2  Pˆ1  Pˆ2  Z1  1  
  
 n1 n2 n1 n2 
 
o bien:


   
Pˆ  1  Pˆ1 Pˆ2  1  Pˆ2 ˆ ˆ
I P1  P2 ;1   Pˆ1  Pˆ2  Z1  1 
   
Pˆ  1  Pˆ1 Pˆ2  1  Pˆ2

; P1  P2  Z1  1 

 n1 n2 n1 n2 
(2.8) DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA
Los intervalos de confianza permiten estimar el tamaño muestral necesario para

obtener una precisión determinada fijado un nivel de confianza. Basta con considerar
la amplitud del intervalo. Esta idea es la que se muestra a continuación:
(2.8.1) TAMAÑO MUESTRAL PARA ESTIMAR 𝛍
Sea  el error máximo de estimación o precisión. Se desea que el intervalo de

confianza para la media de una población a un nivel de confianza (𝟏 − 𝜶) tenga
una amplitud 2 . El intervalo debe ser X   , con lo que tiene que ser:

z1   , lo que hace,
n
z12   2
n
2
Si se conoce N:

N  z12   2
n
z12   2   2  N  1
Si no se conoce la varianza poblacional, se la estima por s 2 Para conocer s2 se

toma una “muestra piloto" pequeña a partir de la que se la calcula. Esta muestra
se utiliza, una vez determinado n, como parte de la muestra definitiva.
(2.8.2) TAMAÑO MUESTRAL PARA ESTIMAR P
Sea  el error máximo de estimación o precisión. Se desea que el intervalo de

confianza para la proporción de una población a un nivel de confianza (𝟏 − 𝜶)
tenga una amplitud 2 . El intervalo debe ser P̂   , con lo que tiene que ser:
z1

Pˆ  1  Pˆ 
  , lo que hace:
n
n

z1  Pˆ  1  Pˆ 
 2
Si se conoce N:
n
N  z12  Pˆ  1  Pˆ  
2
z
1  
 Pˆ  1  Pˆ   2  N  1
1
Si no se conoce la varianza poblacional, se la estima con Pˆ  .
2
UNIDAD 10 PRUEBAS PARAMÉTRICAS
1) INTRODUCCIÓN
En muchos aspectos, la técnica de prueba de hipótesis es similar al método

científico. El científico observa la naturaleza, establece una teoría y después verifica
si los datos de la realidad la corroboran. Si los datos se contraponen a la teoría, ésta
será rechazada; en caso contrario, se acepta o bien considera que no puede ser
rechazada.

En las denominadas pruebas paramétricas, la hipótesis es relativa al valor del

parámetro de una distribución de probabilidad. A partir de los datos de una muestra
se estudiará si dicha suposición es aceptable o no.
Este enfoque es adecuado para problemas del tipo:
1) Estudiar si una máquina produce piezas de acuerdo con sus especificaciones.
2) Estudiar si los años de experiencia laboral es un factor del rendimiento laboral.
3) Estudiar si una nueva máquina es más efectiva que la utilizada actualmente.
En esta unidad se analizarán los criterios para determinar la aceptabilidad o no de la

hipótesis hecha sobre un parámetro concreto.
Es importante comentar que lo que aporta la prueba de hipótesis es precisamente

eso, información sobre la aceptabilidad o no de una hipótesis.
Para resolver el problema de decisión entre diversas opciones alternativas, se

utilizarán otras técnicas, que dan lugar a la denominada Teoría de la Decisión.
2) CONCEPTOS BÁSICOS
(1) Hipótesis estadística
Una Hipótesis estadística es una suposición que se hace acerca de la Distribución

de una variable aleatoria
Ejemplos
 Cierta Distribución tiene media 20.3
 Cierta Distribución tiene varianza 9.
(2) Prueba estadística de una hipótesis.
Es un procedimiento en el cuál se usa una muestra con el fin de determinar cuándo

no rechazar (aceptar) la hipótesis, es decir, actuar como si fuera cierta, o cuándo
debemos "rechazar" ésta, es decir, actuar como si fuera falsa.
Ejemplos

 Producción de hilo; nos interesa el peso o la resistencia a la rotura.
 Producción de tornillos; nos interesa el diámetro medio. (𝛍 = 𝟓, 𝟖 𝒄𝒎). Probaremos

la Hipótesis 𝛍 = 𝟓, 𝟖 𝒄𝒎 mientras las medias de las muestras no se desvíen
demasiado del valor 𝛍 = 𝟓, 𝟖 𝒄𝒎, se permite que la producción continúe.
(3) Fuentes comunes para hipótesis
 La Hipótesis puede aparecer de un requisito de calidad.
 La Hipótesis resulta de una teoría que se desea comprobar.
 La Hipótesis está basada en valores conocidos por experiencias anteriores.
 La Hipótesis es nada más una sospecha provocada por observaciones casuales.
Observaciones:
1) Algunas veces a la Hipótesis original se le llama hipótesis nula y a la suposición

que está en contraste con la hipótesis nula, se le llama hipótesis alternativa o
bien alternativa.
2) Si una Hipótesis clasifica completamente la distribución, esto es, si especifíca su

forma funcional al igual que los valores de todos los parámetros, se le llama
hipótesis simple, si no es así, se le llama hipótesis compuesta.
3) TIPOS DE PRUEBAS DE HIPÓTESIS. TIPOS DE ERRORES
(3.1) TIPOS DE PRUEBAS DE HIPÓTESIS
La Hipótesis a probar recibe el nombre de hipótesis nula, y una suposición contraria

se llama hipótesis alternativa (alternativa). Al número  ó 100  % se le llama
nivel de significación de la prueba, y a C se le llama valor crítico. La región que
contiene los valores para los que se rechaza la hipótesis se llama región de rechazo
o región critica.
La región de los valores en que no se rechaza la hipótesis se llama región de no

rechazo (o región de aceptación).
Para una Hipótesis nula existen varias Hipótesis Alternativas:

1) H 0 :   0 v/s H a :   0
//////////////////////////////////////
C 0
La regla de decisión es: Rechace H0 si  0  C
2) H 0 :   0 v/s H a :   0
//////////////////////////////////////////
0 C
La regla de decisión es: Rechace H0 si  0  C
3) H 0 :   0 v/s H a :   0
 2  2
////////////////////////////////////// //////////////////////////////////////////
C1 0 C2
La regla de decisión es: Rechace H0 si  0  C1 ó  0  C 2
(3.2) Tipos de errores
Supongamos que deseamos probar la Hipótesis:
H 0 :   0 v/s H a :   0
Los riesgos que se pueden cometer al hacer o tomar falsas decisiones son:
ERROR DE TIPO I (ETI). La Hipótesis es cierta, pero se rechaza debido a que el

estimador toma un valor ˆ  C . Es obvio que la probabilidad de cometer éste error
es igual a:
P  C
ˆ 
   0   
que es el nivel de significación de la prueba.
ERROR DE TIPO II (ETII). La Hipótesis es falsa, pero no se rechaza, ya que el

estimador toma un valor ˆ  C . Es obvio que la probabilidad de cometer éste error se
representa por ß; así:
P  C
ˆ 
    a   
Observaciones:
1) La cantidad ß depende de la Alternativa  a
2) La cantidad POT 1   ser llama Potencia de la prueba; es decir, POT es la

probabilidad de evitar un ERROR DE TIPO II.
3) Si la Alternativa no es un sólo  , entonces ß resulta ser, función de  . Esta

función    se llama Característica de operación (CO) de la prueba y su curva
se llama curva CO.
4) Obviamente la potencia de la prueba POT es función de  , es decir:

POT    1    
5) En la práctica, a partir de una curva que conduce a la aceptación de cierta

Hipótesis H0, no se deduce que ésta sea la única Hipótesis o la mejor Hipótesis
posible. Por lo tanto el término "No rechazar", resultan ser mejor que el término
Aceptar. Debemos ser prudentes mientras no se conozca qué tan grande es 
6) Una Prueba de Hipótesis estadística con respecto a alguna característica

desconocida de la población, es cualquier regla para decidir si se rechaza la
hipótesis nula con base en una ma.(n) de la población.
7) La decisión se baza en alguna estadística apropiada, la cual recibe el nombre de

Estadística de prueba. Para ciertos valores de la Estadística de Prueba, la
decisión será el rechazar la hipótesis nula. Estos valores constituyen lo que se
conoce como la Región crítica de la prueba.

4) APLICACIONES DE LA DISTRIBUCIÓN NORMAL
(4.1) PRUEBA DE HIPÓTESIS PARA LA MEDIA DE LA DISTRIBUCIÓN NORMAL
Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ) una m.a.s de una distribución normal con media desconocida µ,

 
pero con una varianza  0 conocida, es decir: X ~ N  ;  2 . Dado: 𝛂 𝛜 [𝟎 , 𝟏]
2
Metodología:
1º) Plantear las Hipótesis de interés (uno de los tres tipos):
a)   0

H 0 :   0 v/s H a : b)    0
c)   
 0
2º) Calcular la Estadística de prueba (valor calculado), bajo H0, es decir:
a) Si se conoce la desviación estándar poblacional 0 . X ~ N  ;  

2
0
x  0
La estadística de prueba es: Z calc 
0
n
b) Si no se conoce la desviación estándar poblacional . X ~ N  ;  2
x  0
La estadística de prueba es: Tcalc 
s
n
3º) Construir la regla de decisión y decidir, es decir:
a) Si se conoce la desviación estándar poblacional 0
Regla de decisión:
Para a) H a :    0 Rechace H0 si Z calc  Z tabla
Para b) H a :    0 Rechace H0 si Z calc  Z tabla
Para c) H a :    0 Rechace H0 si Z calc   Z tabla o Z calc  Z tabla

b) Si no se conoce la desviación estándar poblacional 

Regla de decisión:
Para a) H a :    0 Rechace H0 si Tcalc  Ttabla
Para b) H a :    0 Rechace H0 si Tcalc  Ttabla
Para c) H a :    0 Rechace H0 si Tcalc  Ttabla o Tcalc  Ttabla
NOTAS:
1) Los valores de t tabla se obtienen con n  1 grados de libertad
2) Cuando se utiliza la distribución “t” el control del tamaño del ETII debe hacerse
mediante tablas “t” no centradas
3) Decidir, si el valor calculado pertenece a la región de rechazo (RR), entonces se

rechaza H 0 , en caso contrario no se rechaza H 0 .
Ejemplo: Se tiene la siguiente información:
n  25   4 X  16,5   5%  0,05
Pruebe que : H 0 :   18 v/s H a :   18
Solución:
1º) Plantear la Hipótesis Nula y la Hipótesis Alternativa correspondiente, es

decir:
H 0 :   18 v/s H a :   18
2º) Calcular la Estadística de prueba, bajo H0, es decir:
x  0 16,5  18
Z calc    1,875
0 4
n 25
Decisión:

No rechazamos H0, ya que Z calc  1,875  Z tabla  1,96
Por lo tanto, no existe suficiente evidencia para rechazar que la media

poblacional es 18, o bien no tome ninguna decisión
(4.2) PRUEBA DE HIPÓTESIS PARA LA VARIANZA DE UNA DISTRIBUCIÓN

NORMAL CON MEDIA POBLACIONAL DESCONOCIDA
Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ) una m.a.s de una distribución normal con media desconocida 
, y con una varianza  2 , es decir: X ~ N  ;  2  . Dado: 𝛂 𝛜 [𝟎 , 𝟏]
Metodología:
1º) Plantear las hipótesis de interés, es decir:
a )  2   02

H 0 :  2   02 v/s H a : b)  2   02
c)  2   2
 0
 calc
2

n  1  s 2
 02
Regla de decisión:
Para a) H a :    0 Rechace H0 si  calc   a

2 2 2 2
Para b) H a :    0 Rechace H0 si  calc   b

2 2 2 2
Para c) H a :    0 Rechace H0 si  calc   c o  calc   d

2 2 2 2 2 2
Los valores de  a ,  b ,  c y  d se obtienen con n  1 grados de libertad.

2 2 2 2

Ejemplo:
Sea
n  15 s 2  36,29   5%  0,05
Pruebe que : H 0 :  2   02  40 v/s H a :  2   02  40
Solución:
1º) Plantear las hipótesis de interés, es decir:
H 0 :  2   02  40 v/s H a :  2   02  40
 calc
2

n  1  s 2 
14  36,29
 12,7
 2
0 40
Decisión:
No rechazamos H0, ya que  c  5,62872   calc  12,7   d  26,1190

2 2 2
Por lo tanto, no existe suficiente evidencia para rechazar que la varianza

poblacional es 40, o bien no tome ninguna decisión.
(4.3) PRUEBA DE HIPÓTESIS PARA LA IGUALDAD DE VARIANZAS DE DOS

DISTRIBUCIONES NORMALES E INDEPENDIENTES
Sean:
(𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝒏𝟏 ) una m.a.s de la variable aleatoria X ~ N 1 ;  12 y  

 
(𝐘𝟏 , 𝐘𝟐 , … , 𝐘𝒏𝟐 ) una m.a.s de la variable aleatoria Y ~ N 2 ;  22 . Dado: 𝛂 𝛜 [𝟎 , 𝟏]
Metodología:
1º) Plantear las Hipótesis de interés, es decir:

a )  12   22

H 0 :  12   22 v/s H a : b)  12   22
c )  2   2
 1 2
s12
Fcalc 
s 22
NOTA: utilizar aquel Fcalc  1 , en caso contrario invertir.
Regla de decisión:
Para a) H a :  1   2 Rechace H0 si Fcalc  F1

2 2
Para b) H a :  1   2 Rechace H0 si Fcalc  F2

2 2
Para c) H a :  1   2 Rechace H0 si Fcalc  F3 Fcalc  F4

2 2
o
F2  f  n1  1; n 2  1
1
F1 
f  n 2  1; n1  1
Donde:
F4  f  n1  1; n 2  1
1
F3 
f n 2  1; n1  1 2
2
Ejemplo: Sea
n1  165 n 2  25 s12  4685,4 s 22  1193,7   5%  0,05

Pruebe que : H 0 :    2
1
2
2 v/s Ha :   2
1
2
2
Solución:
1º) Plantear las Hipótesis de interés, es decir: H 0 :  1   2 H a :  12   22

2 2
v/s

s12 4685,4
Fcalc  2   3,925
s 2 1193,7

Regla de decisión:
Rechace H0, ya que:

1 1
Fcalc  3,925  F4  f 0,025 (15;24)  2,44 Además : F3  0,37  
f 0,025 24;15 2,7
Por lo tanto, existe suficiente evidencia para rechazar que las varianzas
poblacionales son iguales a un 5% de significación.
(4.4) PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS DE DOS

DISTRIBUCIONES NORMALES E INDEPENDIENTES
Sean:

(𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝒏𝟏 ) una m.a.s de la variable aleatoria X ~ N 1 ; 01 y
2

 
(𝐘𝟏 , 𝐘𝟐 , … , 𝐘𝒏𝟐 ) una m.a.s de la variable aleatoria Y ~ N  2 ; 02 . Dado: 𝛂 𝛜 [𝟎 , 𝟏]
2
Metodología:
a )  1   2  D

H 0 : 1   2  D v/s H a : b) 1   2  D
c )     D
 1 2
A) Si se conocen las desviaciones estándar poblacional
La estadística de prueba es:
X Y  D
Z calc 
 01
2
 02
2

n1 n2
B) Si no se conocen las desviaciones estándar poblacional, pero se

suponen iguales
La estadística de prueba es:

Tcalc 
X Y  D
donde s c2 
n1  1 s12  n2  1 s22
1 1 n1  n2  2
sc  
n1 n2
A) Si se conocen las desviaciones estándar poblacional
Regla de decisión:
Para a) H a :  1   2  D Rechace H0 si Z calc   Z tabla
Para b) H a :  1   2  D Rechace H0 si Z calc  Z tabla
Para c) H a :  1   2  D Rechace H0 si Z calc   Z tabla o Z calc  Z tabla
B) Si no se conocen las desviaciones estándar poblacional, pero se

suponen iguales
Regla de decisión:
Para a) H a :  1   2  D Rechace H0 si Tcalc  t tabla
Para b) H a :  1   2  D Rechace H0 si Tcalc  t tabla
Para c) H a :  1   2  D Rechace H0 si Tcalc  t tabla o Tcalc  t tabla
NOTAS:
1) Los valores de ttabla se obtienen con n1  n2  2 grados de libertad.
2) Cuando se utiliza la distribución “t” el control del tamaño del ETI debe hacerse
mediante tablas “t” no centradas.
3) Decidir, si el valor calculado pertenece a la región de rechazo (RR), entonces se

rechaza H0, en caso contrario no se rechaza H0.
4) Los supuestos que se deben cumplir:
1º) Normalidad de las poblaciones
2º) Independencia de las poblaciones

3º) Igualdad de varianzas poblacionales
Ejemplo 1:
n1  50 n2  60 X  4,5 Y  3,75  02  1,8   5%  0,05

Sea:
Pruebe que : H 0 : 1   2 v/s H a : 1   2
Solución:
H 0 : 1   2 v/s H a : 1   2
X Y  D 4,5  3,75  0
Z calc    2,18
 01
2
 02
2 1,8 1,8


n1 n2 50 60
3º) Construir la regla de decisión y decidir, o sea:
Regla de decisión:
Rechace H0, ya que: Z calc  2,18  Z tabla  1,96 .
Por lo tanto, existe suficiente evidencia para rechazar que las medias
poblacionales son iguales a un 5% de significación.
Ejemplo 2:
n1  15 n2  21 x  85 y  87 s12  30 s 22  25   5%
Sea:
Pruebe que : H 0 : 1   2 v/s H a : 1   2
Solución:
1º) Probaremos: H 0 :  1   2 H a :  12   22
2 2
v/s
s12 30
a) La Estadística de prueba, bajo H0, es: Fcalc  2
  1,2
s 2 25
b) Decisión:
No rechazamos H0, ya que, Fcalc  f 0,05 14;20  2,2

Por lo tanto, no existe suficiente evidencia para rechazar que las varianzas
poblacionales son iguales, o no tome ninguna decisión, a un 5% de
significación.
2º) Ahora probaremos: H 0 : 1   2 v/s H a : 1   2
a) La Estadística de prueba, bajo H0, es:
x yD 85 - 87
Tcalc    1,14
1 1 1 1
sc   27  
n1 n2 15 21
n1  1  s12  n 2  1  s 22 14  30  20  25
donde s c2    27
n1  n 2  2 15  21  2
b) Decisión:
Rechace H0, ya que:  1,96  t 0,025 34   Tcalc  1,14  t 0,025 34   1,96 .
Por lo tanto, existe suficiente evidencia para rechazar que las medias
poblacionales son iguales, o no tome ninguna decisión, a un 5% de
significación.
(4.5) PRUEBAS DE HIPÓTESIS RELATIVAS A PROPORCIONES
Las pruebas de hipótesis relativas a proporciones son básicamente iguales a las

relativas a medias. Consideremos el problema de probar la hipótesis que la
proporción de éxitos en un proceso de Bernoulli (experimento binomial) es igual a un
valor específico, cuando n   . Es decir: sabiendo que la proporción muestral es:
x
Pˆ  p 
n
Metodología:
a ) P  P0

H 0 : P  P0 v/s H a : b) P  P0
c ) P  P
 0

Pˆ  P0
Z calc 
P0  1  P0 
n
Regla de decisión:
Para a) H a : P  P0 Rechace H0 si Z calc  Z tabla
Para b) H a : P  P0 Rechace H0 si Z calc  Z tabla
Para c) H a : P  P0 Rechace H0 si Z calc   Z tabla o Z calc  Z tabla
Ejemplo:
Sea
n  120 P̂  p  0,17   5%  0,05

Pruebe que : H 0 : P  0,25 v/s H a : p  0,25
Solución:
H 0 : P  0,25 v/s H a : p  0,25
Pˆ  P0 0,17  0,25
Z calc    2,02
P0  1  P0  0,25  0,75
n 120
Decisión:
Rechazamos H0, ya que Z calc  2,02  Z tabla  1,645
Por lo tanto, existe suficiente evidencia para rechazar que la proporción

poblacional es 0,25, a un 5% de significación

(4.6) PRUEBA DE HIPÓTESIS RELATIVA A DIFERENCIA DE PROPORCIONES
Las pruebas de hipótesis relativas a diferencias de proporciones son básicamente

iguales a las relativas a diferencias de medias. Consideremos el problema de probar
la hipótesis que la proporción de éxitos en un proceso X de Bernoulli es igual a la
proporción de éxitos en un proceso Y de Bernoulli (experimentos binomiales),
cuando n1 y n 2   , es decir:
Metodología:
a) P1  P2

H 0 : P1  P2 v/s H a : b) P1  P2

c) P1  P2
Pˆ1  Pˆ2
Z calc 
  
Pˆ1  1  Pˆ1 Pˆ2  1  Pˆ2


n1 n2
Regla de decisión:
Para a) H a : P1  P2 Rechace H0 si Z calc   Z tabla
Para b) H a : P1  P2 Rechace H0 si Z calc  Z tabla
Para c) H a : P1  P2 Rechace H0 si Z calc   Z tabla o Z calc  Z tabla
Ejemplo:
Sea
n1  100 n2  120 p1  0,23 p 2  0,27   5%  0,05

Pruebe que : H 0 : P1  P2 v/s H a : P1  P2
Solución:

1º) Plantear la Hipótesis Nula y la Hipótesis Alternativa correspondiente, es

decir:
H 0 : P1  P2 v/s H a : P1  P2
Pˆ1  Pˆ2 0,23  0,27

Z calc    0,68
  
Pˆ1  1  Pˆ1 Pˆ2  1  Pˆ2

 0,23  1  0,23  0,27  1  0,27 

n1 n2 100 120
Regla de decisión:
No rechace H0, ya que: 1,96  Z tabla  Z calc  0,68  Z tabla  1,96 .
Por lo tanto, no existe suficiente evidencia para rechazar que las proporciones
poblacionales son iguales a un 5% de significación, o bien no tome ninguna
decisión.
(4.7) ALGUNAS LIMITACIONES DE ESTA METODOLOGÍA
Al estudiar pruebas de hipótesis en función de la región crítica tiene algunas

limitaciones:
 No permite evaluar la confianza con que se acepta que    0 o con la que se
rechaza.
 Una pequeña variación en el nivel de significación puede variar el resultado de la

prueba.
 Cuando se rechaza H 0 , conviene estimar el valor más adecuado para  y
estudiar si su diferencia es significativa a efectos reales.
Para compensarla se puede utilizar el denominado p-valor.

5) EL P-VALOR DE UNA PRUEBA
Si ese valor  no difiere mucho del original, da a entender que la hipótesis de

igualdad no es muy consistente. Sin embargo, si hay que incrementar mucho su valor
para rechazar H 0 , indicará que los datos muestrales no son contrarios a la hipótesis
nula.
Esta idea permite evaluar en cierta forma el grado de confianza con el que se acepta
o rechaza una hipótesis. Formalizando, se define el p-valor de una prueba como
el mínimo nivel de significación para el que, con los datos de una muestra
concreta, se tendría que rechazar H 0 .
¿CÓMO SE INTERPRETA EL P-VALOR DE UNA PRUEBA?
En general, cuanto más próximo sea p a 1, mayor evidencia habrá para no rechazar
H 0 , mientras que cuanto más cercano a 0, con mayor confianza se rechazará H 0 .
A título práctico
1º) Si p  0,25 , no se rechaza H 0 , se puede considerar que no hay evidencia para
rechazar H 0 ;
2º) Si p  0,05 , se rechaza H 0 , y
3º) Si 0,05  p  0,25 , habrá que considerar las consecuencias prácticas de aceptar o
rechazar H 0 .
Si se ha fijado de antemano un nivel de significación  :
1º) Rechace H 0 si p   .
2º) No rechace H 0 si p   ,
Obsérvese que con estos criterios no es preciso el cálculo de la región crítica. De

hecho, los paquetes estadísticos suelen calcular sólo el p-valor (Significance Level)
y deciden la prueba en función del  dado.
Regla de decisión, usando el valor p (p-value),   5%  0,05


UNIDAD 11 PRUEBAS NO PARAMÉTRICAS
1) INTRODUCCIÓN
El objetivo de las denominadas pruebas no paramétricas es estudiar si son

aceptables las hipótesis hechas sobre los parámetros de una distribución
poblacional. Por ejemplo, se ha visto que para estudiar la igualdad de las medias de
dos poblaciones se daban por supuestas algunas condiciones: normalidad,
independencia y aleatoriedad. Estas hipótesis son las que se podrán ratificar
mediante determinadas pruebas.
2) MÉTODO GENERAL PARA PROBAR LA VALIDEZ DE UN MODELO
El método general se basará en elegir un estadístico que mida las diferencias entre
los valores obtenidos en una muestra y los valores esperados o teóricos
(suponiendo cierta la hipótesis hecha sobre el modelo que sigue la población).
(2.1) PRUEBA DE LA  (CHI-CUADRADO)

2
Esta prueba se basa en la comparación de las frecuencias obtenidas en la muestra

y las frecuencias esperadas.
Es válido para variables aleatorias continuas o discretas, pero requiere un tamaño

muestral mayor que 30.
METODOLOGÍA:
Sea (𝐗 𝟏 , 𝐗 𝟐 , … , 𝐗 𝐧 ) una m.a.s de la variable aleatoria X ~ f x;  . Dado: 𝛂 𝛜 [𝟎 , 𝟏].

X ~


 f x;  o
Las frecuencia s no son todas iguales
H0 : 

F x  F0 x  o v/s Ha : 
i  1,2,3,..., k
E  E
 i

k
Oi  E i 2
 calc
2

i 1 Ei
donde :
O i : son las frecuencia s observadas en la muestra
E i : son las frecuencia s esperadas, bajo H 0
E i  n  p i ; i  1,2,..., k
Regla de decisión:
Rechace H0 si  calc   tabla

2 2
NOTA: Los valores de  tabla se basan en k  1 grados de libertad

2
OBSERVACIONES:
1º) La naturaleza de la prueba de bondad de ajuste es discreta, sin embargo es

factible su uso para probar normalidad, siempre y cuando n   .
En este caso n debe ser al menos igual a 5 veces el número de clases.
Otra regla conservadora es seleccionar una muestra de manera tal que, toda
frecuencia esperada (Ei), no debe ser menor que 5, esto se puede lograr
combinando clases vecinas.
2º) Puede probarse que la potencia de la prueba tiende a 1 cuando n   , esto

implica que es casi seguro rechazar H0 para muestras grandes, lo cual hace
cuestionable su aplicación.
3º) Si las frecuencias esperadas(Ei) se determinan como funciones de los E.M.V,

entonces,  calc    k  1  r  ; donde: r = número de parámetros que se está
2 2
estimando.
Ejemplo.
Supongamos que el dueño de un establecimiento de reventa de automóviles está

tratando de organizar vacaciones de su personal, para lo cual decide probar la

hipótesis nula de que las reventas de automóviles se han distribuido igualmente

durante los 6 primeros meses del año 2000, ver tabla.
Meses Enero Febrero Marzo Abril Mayo Junio
Nº autos vendidos 27 18 15 24 36 30
Solución:
H 0 : E1  E 2  E 3  E 4  E 5  E 6  E  25 v/s H a : Las frecuencia s no son todas iguales
k
Oi  E i 2 27  25
2
30  25
2
 2
calc    ...   12,0
i 1 Ei 25 25
Las frecuencias observadas (Oi) y las frecuencias esperadas (Ei) son para n =
150
Meses Enero Febrero Marzo Abril Mayo Junio
Nº autos vendidos(Oi) 27 18 15 24 36 30
Ei 25 25 25 25 25 25
Regla de decisión: Rechazamos H0, ya que, 12,0   calc   0,95 5  11,1
2 2
Esta prueba se recomienda para modelos discretos. Para modelos continuos, el p-

valor de la prueba depende mucho de la elección de las clases. En estos casos, se
recomienda utilizar la prueba de Kolmogorov-Smirnov.
(2.2) LA PRUEBA DE KOLMOGOROV-SMIRNOV
Si la prueba 2 comparaba frecuencias, la prueba de Kolmogorov-Smirnov se basa

en la comparación de funciones de distribución.

Es válida para v.a. continuas, y es más conveniente que la prueba 2, pues no
requiere ninguna elección arbitraria de intervalos en los que comparar. Además,
tiene la ventaja de que se puede aplicar con muestras pequeñas.
Metodología
1º) Ordenar en forma creciente la m.a.(n), es decir: X 1  X 2   ...  X n 
2º) Calcular la función de distribución acumulativa muestral (f.d.a.m.), S(x), dada por:
0 x  x k 

k
sx    x  k   x  x n 
n
1 x  x n 
donde :
s  x  : es la proporción del nº de valores en la muestra
que son menores o iguale a x
3º) Calcular las probabilidades F0(x), bajo H0 y obtener los D(x), tal que:
Dx   sx   F0 x  x
4º) El estadístico de prueba Dcalc, resulta ser:
Dcalc  máx sx   F0 x   x
5º) La regla de decisión, resulta ser:
Rechace H0, si: Dcalc  D n  ; ver tabla de S-K
Ejemplo.
Dada la ordenada ma16 de respuestas correctas de cierta prueba especial que se

aplico a todos los estudiantes que ingresaron a una Universidad, éstos resultan ser:
852; 875; 910; 933; 957; 963; 981; 998; 1007; 1010; 1015; 1018; 1023; 1035; 1048
y 1063.
En años anteriores, el número de respuestas correctas estaba representado por una

N(985;50). Con base en ésta muestra, ¿existe alguna razón para creer que ha

ocurrido un cambio en la distribución de respuestas correctas para la prueba especial

en ésta Universidad?
Solución:
1º) Plantear la Hipótesis Nula y la Hipótesis Alternativa de interés, es decir:


 X  N 985;50
 ~  o
H0 : 
 
v/s H a : No es así
F x  F0 x


Dcalc  0,1207
Los cálculos de s(x), F0(x) y D(x), se muestran en la tabla adjunta
Valores ordenados sx  F0  x  Dx   sx   F0 x 
852 0,0625 0,0039 0,0586
875 0,1250 0,0139 0,1111
910 0,1875 0,0668 0,1207 máximo
933 0,2500 0,1492 0,1008
957 0,3125 0,2877 0,0248
963 0,3750 0,3300 0,0450
981 0,4375 0,4681 0,0306
998 0,5000 0,6026 0,1026
1007 0,5625 0,6700 0,1075
1010 0,6250 0,6915 0,0665
1015 0,6875 0,7257 0,0382
1018 0,7500 0,7454 0,0046
1023 0,8125 0,7764 0,0361

1035 0,8750 0,8413 0,0337
1048 0,9370 0,8962 0,0413
1063 1,0000 0,9406 0,0594
Regla de decisión: No rechazamos H0, ya que,

0,1207  Dcalc  D5% 16  0,3290
(2.3) PRUEBA DE HIPÓTESIS PARA INDEPENDENCIA EN TABLAS DE

CONTINGENCIA
La necesidad de determinar si existe alguna relación entre dos rasgos diferentes en

los que una población ha sido clasificada y en donde cada rasgo se encuentra
subdividido en cierto número de categorías o niveles ha llevado a crear algunas
pruebas, tales como: La Prueba Chi-Cuadrado, la Prueba de Rachas, etc.
Cuando una m.a.s que se obtiene de una población se clasifica de ésta manera, el
resultado recibe el nombre de tabla de contingencia con dos criterios de
clasificación. Sea la m.a.s de una población que se clasifica de acuerdo con dos
categorías A y B, cada una de las cuales contiene un número r y c de categorías
respectivamente. Además, sea Nij el número de observaciones en la categoría (i,j)
de las características A y B, respectivamente, para i  1,2,..., r y j  1,1,2..., c .
Entonces, una tabla de contingencia es un arreglo matricial de r * c, dado en la
tabla que se muestra a continuación, en donde las entradas representan las
realizaciones de las variables aleatorias Nij.
TABLA DE CONTINGENCIA CON DOS CLASIFICACIONES
Característica B
1 2 ...j... C
Categorías Totales
1 n11 n12 n1 j n 1c n1
: : : : : :

I n i1 n i 2 n ij n ic ni
Característica A
: : : : : :
R n r1 n r 2 n rj n rc n r
n1 n 2 n j n c n
Totales
Donde :
c r c r
n i    n ij n  j   n ij n   n ij
j 1 i 1 j 1 i 1
i  1,2,..., r j  1,2,..., c
Para probar:
H 0 : p ij  p i   p  j ; i  1,2,..., r j  1,2,..., c
o equivalent emente
H 0 : Los niveles de la categoría A son independie ntes de
los niveles de la categoría B
Se procede como sigue:
1º) Calcular el estadístico de prueba, bajo H0, éste es:
c r O  E ij 
2
  
2 ij
calc
j 1 i 1 E ij
donde :
ni   n j
E ij 
n
2º) La regla de decisión, resulta ser: Rechace H0 si  calc

2
  0 r  1  c  1
Ejemplo.
Un Sociólogo desea saber si hay relación entre el grado de liberalismo y la

antigüedad en la Universidad. El Sociólogo seleccionó una muestra de 500
estudiantes y construyo la siguiente tabla:
TABLA DE CONTINGENCIA CON DOS CLASIFICACIONES
Grado de liberalismo

Ligero Moderad Alto

Antigüedad Totales
o
1er Año 30 (22,50) 83 (66,90) 37 150

(60,60)
2do Año 19 (18,75) 56 (55,75) 50 125

(50,50)
3er Año 16 (18,75) 46 (55,75) 63 125

(50,50)
4to Año 10 (15,00) 38 (44,60) 52 100

(40,40)
75 223 202 500

Totales
1º Las hipótesis de interés son:
H0: El grado de liberalismo y la antigüedad son independientes
Ha: El grado de liberalismo y la antigüedad no son independientes
2º Calcular la estadística de prueba, bajo H0, es decir:
 calc
2

30  22,52  83  66,92  ... 
52  40,42  26,752
22,5 66,9 40,4
3º La regla de decisión, resulta ser:
Rechazamos H0, ya que 26,752   calc

2
  52% 4  1  3  1   52% 6  12,6
Rechazamos H0 y concluimos que el grado de liberalismo y la antigüedad en la

universidad no son independientes, a un 5% de significación.
3) PRUEBA DE NORMALIDAD
Probar la normalidad de una variable es importante por ser una hipótesis necesaria
en muchos casos.

En esta sección se explica una prueba basado en el ajuste de la muestra a una recta
al dibujarla en papel probabilístico normal. Se rechaza la hipótesis de normalidad
cuando el ajuste no sea bueno.
En este caso, el estadístico mide la bondad del ajuste de datos a la recta; cuanto
mayor sea su valor, más credibilidad tiene la hipótesis de normalidad. Si denotamos
por W el estadístico, la región crítica es del tipo W  k .
Uno de los estadísticos más usuales para muestras pequeñas n  51 es el de

Shapiro Wilks:
2
 h 
 ai ,n xni 1  xi  

 
W   i 1 n 
 
2
xi  X
i 1
n
siendo x i  el valor ordenado de la muestra que ocupa el lugar i-ésimo; h es si n
2
n 1
es par y si es impar. Los valores a i , n están tabulados y se obtienen a partir de
2
la inversa de la función de distribución de la N(0,1).
Para muestras mayores de 50, se utiliza otro estadístico, denominado Shapiro-

Francia.
4) PRUEBA DE RACHAS
En la inferencia estadística, es básico el trabajo con muestras aleatorias simples para

las que se supone la independencia entre las distintas observaciones. El objetivo de
la prueba de rachas es detectar aquellos casos en los que dicha hipótesis no se
corresponde con la realidad. También puede decirse que lo que estudia es la
aleatoriedad de la muestra.
En principio, esta prueba es aplicable a muestras en donde cada elemento puede

ser uno de dos resultados (éxito o fracaso, por ejemplo). Se define una racha como
una sucesión máxima de resultados similares.
Ejemplo.

Al tirar 10 veces una moneda, se obtiene el resultado de la figura (se denota por C
el resultado cara (éxito), y por S el resultado sello (fracaso)):
CC S C SSS C S
en este caso hay 6 rachas
Si la sucesión obtenida es C,C,C,C,C,C,C,C,C,C (1 racha), no parece apoyar la

hipótesis de independencia. Sin embargo, un número muy elevado de rachas, como
en C,S,C,S,C,S,C,S,C,S (10 rachas), tampoco induce a aceptar la independencia de
los resultados. Tanto un número muy elevado de rachas como uno muy pequeño
despiertan dudas sobre la independencia entre los elementos de la muestra.
Por tanto, si R es el número de rachas en una muestra, se considera R el estadístico

de la prueba y la región critica será del tipo R  k1 o R  k 2 .
La distribución de R está tabulada para distintos valores de n1 (número de éxitos) y

n2 (número de fracasos), y éstos son suficientemente grandes (ambos mayores que
10), se utiliza una aproximación por una distribución normal:
R  E R 
 N 0,1
Var R 
siendo: E R   2n1n2 y Var R   2n1n2 2n12n2  n1  n2 

n1  n2 n1  n2  n1  n2  1
Esta prueba se puede aplicar también a variables más generales considerando que
una racha es una sucesión de valores por encima o por debajo de la mediana. De
esta forma, se tienen sólo dos opciones y se reduce al caso anterior.
Ejemplo.
Se tiene la siguiente muestra de una v.a
20 ; 50 ; 60,5 ; 70,2 ; 35,3 ; 44,2 ; 66,1 ; 70 ; 43
La mediana es 50. Si se denotan por + los valores situados por encima de ella y
por - los que están por debajo, se tiene la secuencia:
-++--++-
para la que el número de rachas es 5.
En este caso, n1  n2  4 , y para   0,05 la región crítica es R  2 o R  8 , por lo

que se acepta la hipótesis de independencia (o aleatoriedad) de la muestra.

UNIDAD 12 MODELOS DE REGRESIÓN LINEAL

1) INTRODUCCIÓN
Un análisis de regresión es un conjunto de técnicas, gráficas o analíticas, para

tratar de encontrar la relación existente entre una variable respuesta, Y, y una serie
de variables independientes, X 1 , X 2 ,..., X k llamadas variables regresoras o
explicatorias.
Se pretende con ello describir un conjunto de datos y realizar predicciones sobre y a

partir de un modelo propuesto.
Tienen igual interés los métodos de regresión lineal, donde se admite que la
relación entre la variable respuesta y las variables regresoras es lineal. Ello se debe
a la sencillez de este tipo de modelos y a que constituyen un primer escalón a la hora
de estudiar modelos más complejos.
2) EL MODELO DE REGRESIÓN SIMPLE
En este caso existe una única variable regresora, X, de la cual se han hecho n
observaciones, xi ; i  1,2,..., n . El modelo propuesto es:
yi   0  1 xi  ei
Donde yi son las observaciones hechas en la variable respuesta Y, ei son los
errores aleatorios cometidos en cada estimación y  0 ,  1 , son constantes a
determinar. Las hipótesis habituales sobre el modelo son:
1. E ei   0, i  1,2,..., n
2. Var ei    , i  1,2,..., n (hipotesis de varianza constante)

2
 
3. E ei e j  0, para i  j (hipótesis de incorrelación de los errores)
El análisis de este modelo conlleva:
1. Estimación de los parámetros  0 ,  1 y  2

2. Cálculo de intervalos de confianza y pruebas de hipótesis para estos parámetros.
3. Diagnóstico del modelo; es decir, ver si realmente el modelo propuesto se ajusta

a los datos y ver si las hipótesis que se han hecho son correctas. Este análisis
siempre se hace a posteriori.
3) ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO
De entre los métodos de estimación existentes, ha cobrado especial importancia el

método de mínimos cuadrados debido a su sencillez y a las buenas propiedades
de los estimadores que se obtienen.
Gráficamente, se trata de obtener la recta que más se acerca a todos los puntos. Por
ello, se minimizará la suma de las distancias de cada punto a la recta, tal y como se
indica en la figura 12.1
Figura 12.1
Analíticamente, se trata de obtener los valores  0 y  1 que minimizan la suma de los
errores cometidos al estimar los valores yi por los valores  0  1 xi , es decir,
minimizar la expresión:
y   0   1 xi 
2
i
i 1
Derivando e igualando a cero, se llega a las llamadas ecuaciones normales:

n n
n 0  1  xi   yi
i 1 i 1
n n n
 0  xi  1  xi2   xi yi
i 1 i 1 i 1
Que forman un sistema de ecuaciones cuya resolución permite obtener los

estimadores de  0 y  1 :
ˆ0  y  1* x
 y x  x 
n
i i
ˆ1  i 1
 x  x 
n
2
i
i 1
Sustituyendo estos valores en la matriz de segundas derivadas, se comprueba que

proporcionan un mínimo de la función lineal.
A partir de los llamados valores ajustados, denotados por:
yî  ˆ0  ˆ1 xi
Se define el estimador para la varianza de los errores,  2 como:
 y  yˆ 
2
2
i i
ˆ 2  i 1
n2
Llamada varianza residual. Su interpretación es similar a la cuasivarianza muestral

como estimador para la varianza de la población en el caso de estimación puntual
paramétrica. El denominador, que representa el número de observaciones menos el
número de parámetros a estimar en el modelo, hace que el estimador propuesto sea
centrado para  2 Este estimador se puede escribir también a partir de los residuos:
eî  yi  yˆ i
De forma que:

 eˆ 2
i
ˆ 2  i 1
n2
Se verifica que los estimadores obtenidos para los parámetros  0 y  1 son:
1. Centrados para  0 y  1 .
2. Lineales en las observaciones de la variable respuesta.
3. Los estimadores de mínima varianza dentro de la clase de estimadores lineales y

centrados (teorema de Gauss-Markov).
4. Si se quiere avanzar más en la teoría de estimación y pruebas de hipótesis, se

necesita suponer una distribución de probabilidad sobre los errores. Entonces,
como cuarta hipótesis sobre el modelo inicial suele suponerse que la distribución
de los errores es normal.
4) INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPÓTESIS
Si la distribución de los errores es normal, se verifica que:
a) ˆ0 y ˆ1 son los estimadores de máxima verosimilitud para  0 y  1 .
n2 2
b) ˆ el estimador de máxima verosimilitud para  2
n
Además, se verifica un resultado similar al teorema de, Fisher:
a) ˆ0 y ˆ1 tienen distribución normal y son independientes de
n2 2
b) ˆ ~  n22
n
Utilizando este resultado y los métodos clásicos de construcción de intervalos de

confianza, se obtienen los siguientes intervalos para  0 ,  1 y  2 :

 
 
ˆ0  t n-1, 2 1
ˆ  
 x
2

ˆ1  t n-1,
ˆ 2

   x  x
n n
n
 xi  x 
2 2 2 2
 i
 i 1  i 1
Estos intervalos utilizan expresiones de la varianza de los estimadores de  0 y  1 ,
que son respectivamente:
 
 
  1
Var ˆ0  ˆ  
2  x
2

 
Var ˆ1 
ˆ 2

   x  x
n n
n
 xi  x 
2 2
 i
 i 1  i 1
En el contexto de regresión, las pruebas de hipótesis clásicos son bilaterales con

hipótesis del tipo H 0 :  0  0 y H 0 : 1  0. Las regiones críticas de esas pruebas se
obtienen con sólo recordar la relación existente entre intervalos de confianza y las
pruebas de hipótesis bilaterales.
5) EL COEFICIENTE DE DETERMINACIÓN
La evaluación global de la recta de regresión puede hacerse mediante la varianza

residual, que es un índice de la precisión del error cometido. Sin embargo, esta
medida no es útil para rectas de regresión de variables distintas, porque de las
unidades de medida. Una medida más adecuada del de ajuste de la recta de
regresión a la nube de puntos es el coeficiente de determinación, que se define
como:
 y  yˆ 
n
2
i i
i 1
R2  1 
 y  y 
n
2
i
i 1
Se verifica que este coeficiente toma valores entre 0 y 1 y que cuanto más cercano
a 1 se encuentre, mejor es el ajuste de la recta de regresión a la nube de puntos.

Además, se comprueba que la raíz cuadrada del coeficiente de determinación

coincide con el coeficiente de correlación lineal entre las variables X e Y.
6) EL MODELO LINEAL GENERAL
La mayor parte de las ideas y resultados vistos para el caso de una única variable
regresora se pueden extender para el caso general en el que existan k variables
regresoras, X 1 , X 2 ,..., X k .
Al igual que para el caso de una variable, se han tomado n observaciones para cada
una de las k variables regresoras, xi1 ,..., xik , i  1,2,..., n .
El modelo que se propone es:
k
yi    ij xij  ei
j 1
donde se establecen las hipótesis:
a) E ei   0, i  1,2,..., n
b) Var ei    , i  1,2,..., n (hipotesis de varianza constante)

2
c) La distribución de los errores es normal y los errores se consideran

independientes dos a dos.
Para facilitar los cálculos que habrán de realizarse a partir de ahora, el modelo lineal
general suele emplearse escrito en forma matricial:
 y1   x11 x12 ... x1k  1   e1 

      
 y2   x21 x22 ... x2 k   2   e2 
.  .  .   . 
      
.  .  .   . 
      
.  .     . 
y  x ... xnk   k   en 
 n   n1 xn2
O, de forma más simplificada:

Y  Xβ  e
Donde
(1) Y   y1 ,..., yn  es el vector que contiene las n observaciones hechas en la variable
respuesta,
(2) X es una matriz nxk, k  n , con las observaciones en las k variables

regresoras,
(3) β  1 ,  2 ,...,  k  es el vector de parámetros y
(4) e  e1 ,..., en  es el vector de errores, que contiene los errores cometidos en las n
estimaciones.
A partir de este momento, los cálculos se complican en exceso. Sin embargo, las
ideas y resultados son similares a los estudiados en el caso de una única variable
regresora.
El método de mínimos cuadrados trata ahora de minimizar en β la expresión:
Y  XβT Y  Xβ
Derivando respecto de β e igualando a 0, se llega a las ecuaciones normales:
X Xβ  X Y
T T
Si se verifica que el rango de la matriz X es k, este sistema tiene solución única y se

obtiene que el estimador para β es:
 1

βˆ  XT X XT Y
Este estimador sigue verificando las buenas propiedades del caso unidimensional:
a) Es centrado para β ,
b) Es lineal en la variable respuesta Y
c) Se sigue verificando el teorema de Gauss-Markov.
Análogamente al caso unidimensional, se define el vector de valores ajustados:

 
ˆ  Xβˆ  X XT X 1 XT Y
Y
Y el vector de residuos:
ˆ
eˆ  Y  Y
Además, el estimador para la varianza de los errores es una extensión natural del
estimador para el caso unidimensional:
eˆ T eˆ
ˆ 2 
nk
Siendo este estimador centrado para  2 .
Con normalidad, se siguen cumpliendo las propiedades que se verifican para el caso
unidimensional:
(1) β̂ es el estimador de máxima verosimilitud,
nk 2
(2) ̂ es el estimador de  2 ,
n
(3) β̂ tiene distribución normal y es el análogo al teorema de Fisher en el contexto

de regresión multivariante,
(4) β̂ y ̂ 2 son independientes
nk 2
(5) ˆ ~  n2k
n
Estos resultados permiten desarrollar una elegante teoría en lo referente a regiones

de confianza y pruebas de hipótesis para los parámetros del modelo lineal general,
pero complicada en exceso para los objetivos que se persiguen en este curso de
Estadística General básico.
Para medir el ajuste del modelo general a una nube de puntos, se define el
coeficiente de determinación de la misma forma y con las mismas características
que para el caso de una única variable regresora.
Un caso particular del modelo lineal general que se utiliza con cierta frecuencia es la
regresión polinomial. El modelo es:

Yˆ  ˆ0  ˆd1 x  ˆ2 x 2  ...  ˆk x k
Ante un problema determinado, se suelen incluir potencias hasta un grado a partir

del cual la inclusión de nuevas potencias no mejora el ajuste del modelo a la nube
de puntos de manera sustancial. En la práctica, la mejora que se consigue es
despreciable para exponentes mayores que 3.

UNIDAD 13 DIAGNÓSTICO EN MODELOS DE REGRESIÓN
1) INTRODUCCIÓN
En la unidad anterior se han estudiado las fases de formulación de un problema

clásico de regresión, ajuste y estimación del modelo, sin embargo, tan importante
como éstas es la fase de critica, que trata de encontrar algún tipo de disconformidad
entre el modelo de regresión y el conjunto de datos al que se ha ajustado.
Existen dos tipos diferentes de diagnóstico en modelos de regresión: lo que

podríamos llamar diagnóstico clásico, que trata de validar las hipótesis hechas
inicialmente al formular el modelo de regresión, y diagnóstico de influencia, dirigido
a la critica de los datos.
2) DIAGNÓSTICO CLÁSICO: VALIDACIÓN DE HIPÓTESIS
En la formulación de un modelo de regresión, se han hecho varias hipótesis que es

necesario ver si se verifican para nuestro conjunto de datos Este trabajo se hace a
posteriori, una vez que se ha ajustado el modelo de regresión.
Las hipótesis hechas son:
a) Linealidad del modelo
b) Igualdad de varianzas, normalidad e independencia de los errores.
Para validar las hipótesis hechas, la herramienta fundamental son los residuos
eî  yi  yˆ i ya que los errores, ê i , no son directamente observables.
Las técnicas basadas en el estudio de los residuos son de dos tipos: gráficas y
analíticas.
Los gráficos de residuos se basan en sus propiedades. O sea, se puede demostrar

que:
n
a)  eˆ
i 1
i 0
n
b)  eˆ y
i 1
i i 0

Esta propiedad indica que los residuos y los valores ajustados son incorrelados.
n
c)  eˆ x
i 1
i i 0
Esta propiedad indica que los residuos y las variables regresoras son
incorrelados.
Se presenta a continuación el estudio de validación de las hipótesis del modelo:
A) GRÁFICOS NORMALES (PROBABILITY PLOTS}
Se demuestra que si los residuos tienen distribución normal, el conjunto de puntos

i  0,5 
formado por los residuos ordenados y los valores ai   1   , donde  es la
 n 
función de distribución de la N(0,1), están dispuestos en una recta a través del origen.
Entonces, los gráficos normales con forma de S aplastada (Figura 13.1) indican
salidas de la distribución normal hacia distribuciones con colas más altas que ella,
mientras que los gráficos con forma contraria (Figura 13.2), indican salidas hacia
distribuciones con colas más bajas que la normal.
Figura 13.1 Figura 13.2
Los resultados obtenidos en estos gráficos deben apoyarse en las pruebas usuales
de normalidad (estudiados en la unidad 11), como el de Shapiro-Francia, cuyo
estadístico es:
W
eˆ a
T 2
a a eˆ
T
i e 
2
Donde valores significativamente pequeños de W darán evidencia contra la

distribución normal.

Si hay evidencia suficiente como para asegurar que la hipótesis de normalidad de

los errores no se cumple, se suele recurrir a transformaciones en la variable
respuesta Y, de manera que la variable transformada ya cumpla la hipótesis de
normalidad.
B) GRÁFICOS DE RESIDUOS FRENTE A VALORES AJUSTADOS
Si las hipótesis hechas sobre el modelo se cumplen, los residuos y los valores
ajustados son incorrelados. Además, como la suma de los residuos es cero, éstos
deben encontrarse en una franja centrada respecto al origen sin presentar una
tendencia especial- En esta situación, estos gráficos son del siguiente tipo:
Otros tipos de gráficos pueden ser:

Un gráfico del tipo de la Figura 13.4 indica que la variabilidad de los residuos
aumenta con la magnitud de las predicciones. Este tipo de gráficos indican que la
hipótesis de varianza constante de lo errores no se está cumpliendo. En esta
situación, para realizar el ajuste del modelo se recurre al método de mínimos
cuadrados generalizados, donde se supone una estructura determinada para la
matriz de varianzas-covarianzas de los errores.
Un gráfico del tipo de la Figura 13.5 indica que la varianza de los errores no es
constante y que se está violando la hipótesis de linealidad, por lo que es preciso
revisar el modelo propuesto.
Para decidir analíticamente, existen pruebas de hipótesis que prueban la hipótesis

de igualdad de varianzas.
C) GRÁFICOS DE RESIDUOS FRENTE A VARIABLES REGRESORAS
En el caso de k variables regresoras, se tendrán k gráficos. Estos gráficos suelen

indicar si existe necesidad de incluir potencias en las variables representadas. Por
ejemplo, véase el gráfico de la Figura 13.6:
A la vista de este gráfico, se hace necesario incluir en el modelo una potencia en x2

para la variable regresora presentada.
D) GRÁFICOS DE RESIDUOS FRENTE AL TIEMPO O FRENTE AL ORDEN DE

OBTENCIÓN
Estos gráficos tienen interés. Ya que la dependencia entre los errores es un problema
frecuente si las varianzas en estudio dependen del tiempo.

Los tipos de gráficos que indican correlación de los errores pueden ser los de las
Figuras 13.7 y 13.8.
El gráfico 13.7 indica que  {coeficiente de correlación entre dos errores

consecutivos) es positivo, ya que residuos grandes van seguidos de residuos
grandes y residuos pequeños van seguidos de residuos pequeños. El gráfico 13.8
muestra que  es negativo, ya que residuos grandes van seguidos de residuos
pequeños y viceversa. Ambos gráficos muestran que los errores no son incorrelados.
El gráfico 13.9 refleja la situación ideal   0 .
Estos gráficos pueden complementarse con la prueba de Durbin-Watson, que

comprueba si   0 .
 eˆ 
n
2
i  eî 1
i 2
d n
 eˆ
2
i
i 1
Si d es próximo a 0, hay correlación positiva de los errores
Si d se aproxima a 4, existe correlación negativa de los errores, mientras que
Si d es próximo a 2, se acepta la hipótesis   0 .
En el caso de detectar correlación entre los errores, se acude al criterio de mínimos

cuadrados generalizados para ajustar el modelo, donde se supone una estructura
especial para la matriz de varianzas-covarianzas de los errores.
3) DIAGNÓSTICO DE INFLUENCIA

En un conjunto de datos es importante poder determinar qué casos están influyendo

de una manera especial en el ajuste del modelo de regresión propuesto.
Se llama caso i-ésimo al conjunto formado por la i-ésima observación en la variable

respuesta, yi , junto con la i-ésima observación hecha en las k variables regresoras,
xi1 , xi 2 ,..., xik .
Se dice que un caso es influyente cuando su eliminación del conjunto de datos hace
que se modifiquen sustancialmente los resultados. Esta situación es sencilla de
describir gráficamente (ver figuras 13.10 y 13.11).
Tomando como ejemplo el modelo de regresión simple, se puede observar en el

dibujo que A no es un caso influyente, puesto que su eliminación no modifica la recta
de regresión sustancialmente, mientras que B si que es un caso influyente al
modificarla de manera completa.
Para medir la influencia del caso i-ésimo en el análisis, se debe realizar primero el
ajuste del modelo con todos los casos y luego ajustar el modelo excluyendo el caso
i-ésimo para, a continuación comparar los resultados. El caso será tanto más
influyente cuanto mayor sea la diferencia entre los dos análisis.
Existen una serie de medidas de influencia, entre los que destacan:
(1) La medida de Cook: mide la influencia del caso i-ésimo sobre el vector de
parámetros,  , comparando el estimador obtenido para  con todos los casos
y excluyendo el caso i ésimo. Se define como:
Ci   
1 ˆ ˆ T T ˆ ˆ
kˆ 2

   i  X X    i  
Se considera que el caso i ésimo es influyente si Ci es grande. Normalmente,
valores de Ci mayores que 1 suelen indicar casos influyentes.
(2) Los DFFITS: miden la influencia del caso i ésimo sobre los valores ajustados,
comparando los valores ajustados obtenidos al hacer el análisis con todos los
casos y excluyendo el caso i-ésimo. Se define como:
ˆ Y
Y ˆ
i 
DFFITSi 
i
̂ i  hii
donde los términos del denominador representan respectivamente, la varianza

residual al hacer el análisis excluyendo el caso i-ésimo y el elemento ii de la matriz
XX T X X T . Se suelen considerar como casos influyentes aquellos para los

1
cuales:
k
DFFITS i  1,5
nk
Donde k es el número de variables regresoras en el modelo y n el número de

casos.
Es importante detectar las observaciones influyentes ya que pueden estar

descubriendo, por ejemplo, datos anómalos producidos por errores de
trascripción u observaciones especialmente importantes en el estudio (caso de
estrellas gigantes en astronomía) o bien pueden estar, indicando un cambio
brusco en el modelo.

INDICE GENERAL
Pág N°
UNIDAD I. ESTADISTICA DESCRIPTIVA 1
1) Introducción 1
2) Conceptos básicos iniciales 1
3) Distribución de frecuencias (o tabla) 4
Formas genéricas: 5
Tipos de frecuencias 7
4) Presentación de la información mediante gráficos 10
Resumen de Herramientas Gráficas 13
Usos de las herramientas gráficas 13
5) Estadísticas de variables cuantitativas continuas 14
(1) Medidas de posición 14
(1.1) Medidas de posición central 15
(1.1.1) Promedio 15
(1.1.1.1) Media aritmética 15
(1.1.1.2) Media geométrica 16
(1.1.1.3) Media armónica 16
(1.1.1.4) Media cuadrática 16
(1.1.2) Mediana 17
(1.1.3) Moda 18
COMPARACIÓN ENTRE MEDIA, MODA Y MEDIANA 19
(1.2) Medidas de posición no central 21

(1.2.1) Percentiles 21
(2) Medidas de dispersión 24
(2.1) Medidas de dispersión absolutas 24
(2.1.1) Varianza  s 2  24
 
(2.1.2) Desviación estándar s  25
(2.1.3) Desviación media respecto de la media D y   25
(2.1.4) Desviación media respecto de la mediana DMe  26
(2.1.5) Recorrido o rango Re  26
(2.1.6) Recorrido intercuartílico RQ  27
(2.2) Medidas de dispersión relativas 27
(2.2.1) Coeficiente de variación de Pearson CV  27
(2.2.2) Variable tipificada, normalizada o estandarizada Z  28
(2.2.3) Coeficiente de disparidad CD  28
(3) Medidas de forma 29
(3.1) Medidas de asimetría 29
(3.2) Medidas de curtosis 30
(4) Transformaciones Lineales 32
(5) Ejercicios resueltos aplicados 33
UNIDAD II. PROBABILIDAD 39
1) Introducción 39
2) Conceptos básicos iniciales
3) Operaciones con sucesos

(1) Unión  
(2) Intersección   29
(3) Mutuamente excluyentes 30
(4) Diferencia   30
(5) Producto cartesiano x  30
4) Algebra de sucesos 30
5) Conteo de resultados posibles 31
(1) Número de resultados posibles 31
 Regla de multiplicación 31
 Regla de adición 31
(2) Variaciones 31
A Variaciones simples
B Variaciones con repetición
(3) Permutaciones 31
A Permutaciones simples
B Permutaciones circulares 32
C Permutaciones con objetos repetidos 32
(4) Combinaciones 32
A Combinaciones simples 32
B Combinaciones con repetición 32
6) Probabilidad de un suceso 33
Ejemplos resueltos 34
7) Probabilidad condicional 35
8) Sucesos independientes 36
9) Teorema de la multiplicación 37
10) Teorema de Bayes 37
UNIDAD 3 VARIABLES ALEATORIAS UNIDIMENSIONALES 39
1) Introducción 39
2) Variable aleatoria 39
3) Variable aleatoria discreta. Función de cuantía 39
4) Variable aleatoria contínua. Función de densidad 40
4.1) Función de densidad de probabilidad (fdp) 40
5) Función de distribución acumulada de una v.a 40
6) Momentos de una variable aleatoria 41
(6.1) Momentos de una variable aleatoria 41
UNIDAD 4 VARIABLES ALEATORIAS n-DIMENSIONALES 42
1) Introducción 42
2) Variables aleatorias multidimensionales 42
3) Función de distribución 42
4) Distribuciones bivariantes discretas 42
5) Distribuciones bivariantes continuas 43
6) Distribuciones marginales 43
7) Distribuciones condicionales 44
8) Independencia de variables aleatorias 44
9) Esperanza y varianza de funciones de v.a 45

UNIDAD 5 MODELOS DE DISTRIBUCIONES DISCRETAS 46
1) Introducción 46
2) Distribución uniforme discreta 46
3) Distribución Binomial 46
4) Distribución de Poissón 46
5) Distribución geométrica 47
1 6) DISTRIBUCIÓN HIPERGEÓMETRICA 47
UNIDAD 6 MODELOS DE DISTRIBUCIONES CONTINUAS 48
1) Introducción 48
2) Distribución uniforme 48
3) Distribución normal 48
(3.1) Proceso de tipificación 49
2 (3.2) TEOREMA CENTRAL DEL LÍMITE 49
4) Distribución gamma 49
UNIDAD 7 ESTIMACIÓN PUNTUAL 51
1) Introducción a la inferencia estadística 51
(1.1) Obtención de los datos. Técnicas de muestreo 51
(1.2) Análisis de los datos 51
(1.3) Inferencias sobre el modelo 52
2) Estimación puntual 52
3) Obtención de estimadores 52

(3.1) Método de los momentos 52
(3.2) Método de máxima verosimilitud 52
4) Propiedades de los estimadores 53
(4.1) Estimadores centrados o insesgados 53
(4.2) Estimadores eficientes 53
(4.3) Error cuadrático medio 54
(4.4) Otras propiedades 54
UNIDAD 8 DISTRIBUCIONES EN EL MUESTREO 55
1) Introducción 55
2) Distribuciones en el muestreo para una población normal 55

(2.1) Distribución asociada a X  conocida
2
 55
(2.2) Distribución asociada a s 2 55

(2.3) Distribución asociada a X  desconocida
2
 55
3) Distribuciones en el muestreo para comparar dos poblaciones normales

56

(3.1) Distribución asociada a X 1  X 2 sup oniendo 1   2
2 2
 56
2 2
(3.2) Distribución para comparar s1 y s 2 56
4) Distribuciones en el muestreo para poblaciones cualesquiera 57
5) Distribuciones en el muestreo del estimador de una proporción 57
UNIDAD 9 ESTIMACIÓN POR INTERVALO 58
1) Introducción 58
2) Intervalos de confianza 58
(2.1) Intervalo de confianza para la media  de una población normal con varianza
conocida. 59
(2.2) Intervalo de confianza para la media  de una población normal con varianza
desconocida. 60
(2.3) Intervalo de confianza para la diferencia de medias 1   2 de dos

poblaciones normales e independientes. 61
2.1.1.1 CASO 1: Varianzas conocidas (iguales o desiguales) 62

CASO 2: Varianzas desconocidas, pero iguales 62
(2.4) Intervalo de confianza para la varianza de una población normal. 63
(2.5) Intervalo de confianza para el cociente de dos varianzas cuando se

muestrean dos poblaciones normales e independientes 64
(2.6) Intervalo de confianza para el parámetro P cuando se muestrea una

población binomial 65
(2.7) Intervalo de confianza para la diferencia de proporciones P1  P2 de dos

poblaciones binomiales e independientes. 66
(2.8) Determinación del tamaño de la muestra 67
(2.8.1) Tamaño muestral para estimar  67
(2.8.2) Tamaño muestral para estimar P 67
UNIDAD 10 PRUEBAS PARAMÉTRICAS 68
1) Introducción 68
2) Conceptos básicos 68
3) Tipos de pruebas de hipótesis. Tipos de errores 68
(3.1) Tipos de pruebas de hipótesis 68
(3.2) Tipos de errores 69
4) Aplicaciones de la distribución normal 70

(4.1) Prueba de hipótesis para la media de la distribución normal 70
(4.2) Prueba de hipótesis para la varianza de una distribución normal con media
poblacional desconocida 71
(4.3) Prueba de hipótesis para la igualdad de varianzas de dos distribuciones

normales e independientes 72
(4.4) Prueba de hipótesis para la diferencia de medias de dos distribuciones

normales e independientes 73
(4.5) Pruebas de hipótesis relativas a proporciones 75
(4.6) Prueba de hipótesis relativa a diferencia de proporciones 76
(4.7) Algunas limitaciones de esta metodología 77
5) El p-valor de una prueba 77
(1) ¿Cómo se interpreta el p-valor de una prueba? 77
UNIDAD 11 PRUEBAS NO PARAMÉTRICAS 78
1) Introducción 78
2) Método general para probar la validez de un modelo 78
(2.1) Prueba de la  (chi-cuadrado)

2
78
(2.2) La prueba de Kolmogorov-Smirnov 79
(2.3) Prueba de hipótesis para independencia en tablas de contingencia 80
3) Prueba de normalidad 81
4) Prueba de rachas 82
3 UNIDAD 12 MODELOS DE REGRESIÓN LINEAL 83
1) Introducción 83
2) El modelo de regresión simple 83

3) Estimación de los parámetros del modelo 83
4) Intervalos de confianza y pruebas de hipótesis 84
5) El coeficiente de determinación 85
6) El modelo lineal general 85
UNIDAD 13 DIAGNÓSTICO EN MODELOS DE REGRESIÓN 87
1) Introducción 87
2) Diagnóstico clásico: validación de hipótesis 87
A) Gráficos normales (Probability Plots} 87
B) Gráficos de residuos frente a valores ajustados 88
C) Gráficos de residuos frente a variables regresoras 88
D) Gráficos de residuos frente al tiempo o frente al orden de obtención 89
3) Diagnóstico de influencia 89
INDICE GENERAL 91

Apunte Estadistica Aplicada 2017

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Apunte Estadistica Aplicada 2017

Caricato da

Copyright:

Formati disponibili

UNIVERSIDAD ARTURO PRAT – IQUIQUE CHILE Pág.

UNIDAD I. ESTADISTICA DESCRIPTIVA

Se han planteado muchas definiciones de la estadística, algunas caracterizando la

Es un conjunto de técnicas para:

Organizar (clasificar, agrupar),

Analizar datos con el fin de describirlos o de realizar inferencias válidas

De acuerdo a esta definición.

Es un conjunto de técnicas para: describir, mostrar o presentar datos a través de

Es un conjunto de técnicas para: inferir los resultados obtenidos en la muestra hacia

NOTA: Estas dos partes de la estadística no son mutuamente excluyentes, ya que,

ESTADISTICA APLICADA. JUAN ZAMBRANO CHALLAPA. 2017

2) CONCEPTOS BÁSICOS INICIALES

(1) Dato estadístico (o información estadística)

Es cualquier dato que se puede comparar, analizar e interpretar

Pero los valores son sólo dos: cara y sello

Es el conjunto de todos los datos con características comunes.

Al número de datos de la población se le llama “N” (tamaño poblacional).

Es un subconjunto representativo de la población.

Al número de datos de la muestra se le llama “n” (tamaño muestral).

(4) Unidad de análisis

ESTADISTICA APLICADA. JUAN ZAMBRANO CHALLAPA. 2017

(1) Variable cualitativa

Ejemplos: Género, Estado Civil; Profesión; Nivel Educacional; Causas de

(1.1) Variable cualitativa nominal

Es aquella cuando se definen categorías y se cuenta el número de

 Género: femenino y masculino

(1.2) Variable cualitativa ordinal

Es aquella cuando el investigador ordena sus casos en términos del

 Resultado en un examen: reprobado, aprobado, notable,

 Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, …

 Clase social: Alta, media y baja

 Nivel educacional: Básica, media y universitaria

 Medallas de una prueba deportiva: oro, plata, bronce. Etc.

ESTADISTICA APLICADA. JUAN ZAMBRANO CHALLAPA. 2017

(2) Variable cuantitativa

Es aquella cuando el valor de la variable se expresa por una cantidad, es de

Ejemplos: Número de hijos por trabajador; edad, tiempo de servicios; etc.

(2.1) Variable cuantitativa discreta

Es aquella cuyo valor se obtiene por conteo, su valor está

Ejemplo: Número de hijos por trabajador, número de accidentes por

(2.2) Variable cuantitativa contínua

Es aquella cuyo valor se obtiene por medición, es decir, dentro de un

Ejemplo: Edad, peso, estatura, tiempo de servicios, ingresos, etc.

Es una medida de alguna característica en la población:

Es una medida de alguna característica en la muestra:

𝐌𝐞𝐝𝐢𝐚 𝐦𝐮𝐞𝐬𝐭𝐫𝐚𝐥: 𝐱 (𝐱 𝐛𝐚𝐫𝐫𝐚)

ESTADISTICA APLICADA. JUAN ZAMBRANO CHALLAPA. 2017

3) DISTRIBUCIÓN DE FRECUENCIAS (O TABLA)

Es una tabla que divide un conjunto de datos en un número adecuado de “clases”.

(1) El Titulo. Es la indicación que se coloca en la parte superior de la misma y debe

¿Qué son los datos incluídos en el cuerpo de la tabla?

¿Dónde está el área representada por los datos?

¿Cómo están los datos clasificados?

¿Cuándo ocurrieron los datos?

(3) El encabezamiento. Es la parte de la tabla en que se indica la naturaleza del

(4) Columna Matriz. Es la parte de la tabla en que es designada la naturaleza (las

ESTADISTICA APLICADA. JUAN ZAMBRANO CHALLAPA. 2017

(5) Indicaciones complementarias.

(a) Fuente: Es el indicador de la entidad responsable de donde se obtuvieron los

Formato de una Distribución de frecuencias para Variable Cualitativa

Categorías de la Variable Frecuencia Absoluta Frecuencia Relativa

ESTADISTICA APLICADA. JUAN ZAMBRANO CHALLAPA. 2017

Formato de una Distribución de frecuencias para Variable Cuantitativa Discreta

Frecuencia Frecuencia Frecuencia Frecuencia