Sei sulla pagina 1di 50

FACULTA DE INFORMATICA Y CIENCIAS APLICADAS

CATEDRA DE ESTADISTICAS
METODOS DESCRIPTIVOS E INFERENCIALES

Asignatura: estadística y probabilidades


Catedrático: Ing. Pedro Alfredo Rodríguez Ozuna
Estudiantes: Carnet
Saúl Armando Jiménez Arévalo 4644972016
Luis Alonso Gómez hércules 46-2582-2012

Ciclo: 01-2018

San Salvador, 18 de abril de 2018


Estadística Descriptiva
Conjunto de métodos y procedimientos gráficos y numéricos que organizan,
resumen y presentan datos.
Es usada para transformar datos en información:
 Recolectar Datos
 Instrumentos, Encuestas
 Presentar Datos
 Tablas y Gráficos
 Resumir Datos
 Media muestral

Aplicaciones de la estadística descriptiva


La estadística descriptiva es aplicable en casi todas las áreas donde se recopilan
datos cuantitativos. Puede brindar información acerca de productos, procesos o
diversos aspectos del sistema de gestión de la calidad, como también en el ámbito
de la dirección y organización de personas, la logística, etc. Algunos ejemplos de
dichas aplicaciones son los siguientes:

 Resumen de las mediciones principales de las características de un


producto.
 Describir el comportamiento de algún parámetro del proceso, como puede
ser la temperatura de un horno.
 Caracterizar el tiempo de entrega o el tiempo de respuesta en el sector de
los servicios.
 Procesar datos relacionados con muestras a clientes, tales como la
satisfacción o insatisfacción del cliente.
 Ilustrar la medición de los datos, tales como los datos de calibración del
equipo.
 Visualizar el resultado del desempeño de un producto en un periodo
mediante un gráfico de tendencia.

Ejemplo de cálculo de estadística descriptiva

El gerente calcula los siguientes estadísticos descriptivos numéricos:


Estadístico Valor de la muestra

Media 6.2 minutos

Desviación estándar 1.5 minutos

Rango 3 a 10 minutos

N (tamaño de la muestra) 50

El gerente examina las siguientes gráficas para visualizar los tiempos de espera:

Histograma de tiempos de espera Gráfica de caja de tiempos de espera

RECOPILACION DE DATOS
Es el momento en el cual el investigador se pone en contacto con los objetos o
elementos sometidos a estudio, con el propósito de obtener datos o respuestas de
las variables consideradas; a partir de estos datos o respuestas se calculan los
Estadígrafos o indicadores estadísticos.

FUENTES DE DATOS
La fuente de datos, es el lugar, la institución, las personas o elementos donde están
o que poseen los datos que se necesitan para cada uno de las variables o aspectos
de la investigación o estudio.

En general, se puede disponer de cinco tipos de fuentes de datos:

1. Las Oficinas de Estadística.- Como instituciones responsables de recopilar,


procesar y publicar las estadísticas sociales o nacionales.

2. Archivos o Registros Administrativos.- Como el Registro Civil, Electoral,


Escalafón o Personal, Padrón de Contribuyentes, etc.. Estos registros no tienen
fines Estadísticos, su función es de tipo legal y administrativo, sin embargo
pueden utilizarse como fuentes de datos estadísticos.

3. Documentos.- Boletines, e informes estadísticos que son las publicaciones o


estudios que preparan los organismos especializados.

4. Encuestas y Censos.- Son fuentes directas y especiales, que se construyen en


un momento determinado, recopilando datos de una parte o de la totalidad de
una población.

5. Los Elementos o Sujetos.- Son aquellos que están sometidos a un estudio,


pueden ser personas, instituciones, animales u objetos.

TECNICAS DE RECOPILACION O RECOLECCION DE DATOS


Es el conjunto de métodos y procedimientos que se llevan a cabo para recolectar
los datos.
Las más frecuentes técnicas utilizadas son:

1. La Observación.- Es la acción de mirar de mirar en forma sistemática y profunda,


con el interés de descubrir la importancia de aquello que se observa.

2. La Técnica Documental.- Es aquella que busca datos a través de documentos,


fuentes escritas o gráficas de todo tipo. Ejm.: Libros, Informes, Autobiografías,
fotografías, planos, videos, etc.
3. La Entrevista.- Es la interrelación o diálogo entre personas, donde una de ellas
se llama Entrevistador o Encuestador quien solicita a otra persona llamada
Entrevistado o Encuestado le proporcione algunos datos o información.

4. El Cuestionario.- Es un instrumento constituido por un conjunto de preguntas


sistemáticamente elaboradas, que se formulan al Entrevistado o Encuestado,
con el propósito de obtener los datos de las variables consideradas en el estudio.
El Cuestionario se desarrolla en el Formulario o Cédula, en donde las preguntas
están debidamente organizadas.
5. La Encuesta.- Es la técnica por la cual se obtiene la información tal como se
necesita, preparada exprofesamente y con objetivo estadístico. Permite
observar y registrar características en las unidades de análisis de una
determinada población o muestra, delimitada en el tiempo y en el espacio. El
Entrevistado da respuesta a las preguntas en el formulario o Cédula.

Estadística inferencial

Es el proceso por el cual se deducen (infieren) propiedades o características de


una población a partir de una muestra significativa.
Conjunto de métodos utilizados para saber “algo” acerca de una población
basándose en una muestra.
Es usada para transformar información en conocimiento.

LAS VARIABLES ESTADISTICAS

LA VARIABLE:
Es la representación simbólica de los datos.

Ejemplo:
Sea X: altura de 5 alumnos de WIENER Donde: Xi, i= 1 a 5
X1= 1.65 mts., X4 = 1.63 mts.

Las variables se clasifican en:


I. Variable Cualitativa: Es aquella variable que representa a datos que
indican cualidades, características, propiedades, etc., no son numéricas (no
medibles).

Ejemplos:

X= Control de calidad de productos de una industria. Bueno, Malo, Regular,


Muy Bueno.

Y= Estado Civil de una muestra de 200 personas. Soltero, Casado, Viudo,


Divorciado.

II. Variable Cuantitativa: Es aquella variable que representa a datos que


indican valores numéricos (son medibles), y se clasifican en:

Variable Discreta: Es aquella que representa a datos numéricos que no se


pueden fraccionar, sirven para contar o enumerar (pertenecen a los reales).

Variable Continua: Es aquella variable que representa a datos que pueden


ser fraccionados (pertenecen a los reales).

Ejemplo: El Peso (Kg.) de 6 personas.


65, 56, 59, 70, 63.
La variable continua es la que más utilizamos, especialmente para los estudios
correspondientes en Ingeniería (Volumen, Temperatura, Pesos, Mediciones,
etc.).

LA ORGANIZACIÓN DE LOS DATOS


Distribución o Tablas de Frecuencias: Es la condensación, simplificación,
ordenación, del conjunto de observaciones que forman la muestra; la característica
principal es no perder ningún dato de la muestra.
También se puede decir que la Distribución de Frecuencia es la representación
estructurada, en forma de tabla, de toda la información que se ha recogido sobre
la variable que se estudia.

Categorías o Clases.- Son los datos que están agrupados por sus características
comunes.

Frecuencia de Clases.- Es el número o cantidad de datos que componen una


Categoría o Clase. Las Frecuencias se clasifican en :
1. Frecuencia Absoluta (Simple).- Representa a la cantidad de datos de cada
Clase.
2. Frecuencia Absoluta Acumulada.- Representa a la suma en forma acumulativa
de Clase en Clase de sus respectivas Frecuencias Absolutas.
3. Frecuencia Relativa (Simple) .- Es el % que representa a la cantidad de datos
de una Clase con respecto al total de datos.
4. Frecuencia Relativa Acumulada.- Representa a la suma en forma acumulativa
de Clase en Clase de sus respectivas Frecuencias Relativas.

Veamos un ejemplo (4.1) :

Medimos la altura de los niños de una clase y obtenemos los siguientes resultados
(cm):

Alumno Estatura Alumno Estatura Alumno Estatura


x x X x x x
Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21
Alumno 2 1,28 Alumno 12 1,26 Alumno 22 1,29
Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26
Alumno 4 1,21 Alumno 14 1,21 Alumno 24 1,22
Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1,28
Alumno 6 1,29 Alumno 16 1,30 Alumno 26 1,27
Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26
Alumno 8 1,24 Alumno 18 1,25 Alumno 28 1,23
Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22
Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21

Si presentamos esta información estructurada obtendríamos la siguiente Tabla de


Frecuencias:

Variable Frecuencias Absolutas Frecuencias Relativas


(Valor) Simple Acumulada Simple Acumulada
X X X X x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite
muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra
manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco
valor a efectos de síntesis.

Según los tipos de variables y formas de la tabla de frecuencias, tendremos las


siguientes Tablas de frecuencias

1ER. CASO: Tablas de Frecuencias para la variable Cualitativa:


En este caso como la variable cualitativa indica cualidades, propiedades, etc., y no
son medibles; entonces se agrupa de acuerdo a cada categoría que se diferencia
en la variable cualitativa. (Sin un orden establecido).

Ejemplo: (4.2).

Se tiene la siguiente información que representa el Estado Civil de 50 personas


encuestadas (edad; 20-30 años).

Estado Civil No. de personas %

Soltero 25 50%
Casado 10 20%
Viudo 1 2%
Divorciado 6 12%
Conviviente 8 16%

Los gráficos que se presentan en este caso son los siguientes:


1). Diagrama de barra:

N° DE PERSONAS 30
25
20
15
10
5
0
Soltero

Conviviente
Divorciado
Casado

Viudo
ESTADO CIVIL

2. Gráfico por Sectores Circulares.

PORCENTAJES

Soltero

Conviviente

Divorciado
Viudo Casado

2DO. CASO: Tabla de frecuencia para la variable discreta y n < 30 :

En este caso la variable es discreta y la muestra pequeña, además hay que


considerar que no haya muchos datos diferentes. La Tabla de frecuencias es por
CLASES, donde cada clase representa el valor numérico de la variable.
La tdf es de la sgte. forma general:

Clase Xi Fi Fi hi Hi

x1 f1 F1 h1 H1
x2 f2 F2 h2 H2
. . . . .
. . . . .
. . . . .
Xm Fm Fm=n hm .Hm=1

Donde:

n = numero de clases o intervalos de clase.

fi = frecuencia absoluta: es el número de observaciones que hay en cada clase o


intervalo de clase. Además:

fi+f2+f3+. ...+ fm =n

 fi = n

i=1

Fi = frecuencia absoluta acumulada: es el numero de observaciones acumuladas


hasta la clase i, es decir:

F1=f1
F2=f1+f2
.
.
Fm=f1+f2+f3...+fm =

hi = frecuencia relativa: representa la relación que existe entre la frecuencia absoluta


y el número total de observaciones:

fi
hi 
n

Generalmente la frecuencia relativa se expresa en forma porcentual: hi % = 100%.

Hi = frecuencia relativa acumulada: frecuencias relativas acumuladas hasta la clase


i.

Hi=h1
H2=h1+h2
.
.
Hm=h1+h2+....hm=1

También :
Fi
Hi 
n

Se expresa en forma porcentual. Hi x 100%


Ejemplo:

Los siguientes datos representan el numero de defectos en 15 diskettes: 5, 10, 5,


11,6,6,3,3,3,5,5,5,10,6,3.
Agrupar en tabla de frecuencias:

Solución:

Como la muestra es pequeña y la variable representa a datos discretos, entonces


agrupamos en clases:

No de No. diskettes Fi hi% Hi%


Defectos
fi
Xi

3 4 4 26.7 23.7
5 5 9 33.3 60.0
6 3 12 20.0 80.0
10 2 14 13.3 93.3
11 1 15 6.7
100.0

Los gráficos que se presentan en este 2do. Caso son:

1. Histograma de frecuencias: En el sistema de coordenadas rectangulares


comparamos Xi vs. fi (o hi%).
HISTOGRAMA

6
N° DE DISKETTES

5
4
3
2
1
0
3´ 5´ 6´ 10´ 11´

DEFECTOS

3ER. CASO: Tabla de frecuencias por intervalos de clase:


En este caso generalmente la variable es continua, también puede ser usado para
la variable discreta siendo la muestra grande (generalmente n >= 30).

La tdf tiene la siguiente forma:

Intervalos Xi Fi Fi hi Hi
(Li - Ls)
[X’o - X’1> X1 f1 F1 h1 H1
[X’1 - X’2> X2 f2 F2 h2 H2
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
[X’m-1- X’m] Xm Fm Fm hm Hm

Donde:
X i= marca de clase o punto medio de cada intervalo de clase, se obtiene mediante
la semisuma de los limites de cada intervalo.

X i = Ls + Li
2

fi , Fi, hi, Hi ; representan las frecuencias definidas en el caso anterior.

Procedimiento para construir una tdf por intervalos de clase:

1er. Paso:

Calcular el número de intervalos de clase (K):

Para calcular el valor de K, tenemos dos criterios:

a) Criterio personal; de acuerdo a la experiencia del investigador se puede asumir


un valor de m para un tamaño de muestra determinado.

b) Mediante la Regla de Sturges:

K =1 +3.3 log. n

2do. Paso:

Calcular la amplitud o tamaño del intervalo de clase:(A)

Para calcular la amplitud del intervalo (A) nos basaremos en la siguiente


expresión:
A = Rango de la muestra
K

donde: Rango de la muestra = Valor Mayor – Valor Menor

Con este procedimiento calculamos una amplitud que será constante para cada
intervalo, y lo mismo ocurrirá entre cada marca de clase.

Los intervalos serán de la forma: [Li Ls], pudiendo ser considerado cerrado en el
último intervalo.

La amplitud A es preferible que sea redondeada considerando la misma cantidad


de decimales que tengan los dato de la muestra.

3er. Paso: Tabulaciones

Tabular y presentar los datos agrupados en la tdf.,

Ejemplos: (2.3)

Los siguientes datos representan el peso (gr.) de 35 sobrecitos de unas sustancias:


68, 73, 61, 46, 49, 96, 68, 90, 97, 53, 75, 93, 72, 60, 71, 75, 74, 75, 71, 77, 83, 68,
85, 76, 88, 59, 78, 62, 55, 48, 43, 47, 60, 84, 80. Agrupar en tdf.

Solución:

1) Calculamos K = 1 +3,3 Log 35 = 6.095 = 6


2) Calcula la amplitud del intervalo A:
97  43
A 9
6

A =9

3) Tabular en tdf:

Peso (grs) Xi fi Fi hi% Hi%

[43 – 52> 47.5 5 5 14.3 14.3


[52 – 61> 56.5 5 10 14.3 28.6
[61 – 70> 65.5 5 15 14.3 42.9
[70 – 79> 74.5 11 26 31.4 74.3
[79 – 88> 83.5 4 30 11.4 85.7
[88 – 97] 92.5 5 35 14.3 100.0

Se observa por ejemplo que: 11 sobrecitos tienen un peso comprendido en el


intervalo [70-79> grs. y representan el 31.4% del total.
También vemos que 15 sobrecitos pesan menos de 70 grs. y representan el 42.9%
del total.
PRESENTACION DE DATOS

LOS GRAFICOS
Los gráficos son representaciones en forma de figuras geométricas, de superficie
o volumen con el objeto de ilustrar los cambios o dimensión de una variable, para
comparar visualmente dos o más variables similares o relacionadas. Para una
rápida comprensión de situaciones o variaciones en cantidades, es muy útil traducir
los números en gráficos o imágenes. Por su naturaleza, un gráfico no toma en
cuenta los detalles y no tiene la misma precisión que una tabla estadística.
Veamos algunos tipos de Gráficos :

1. Histograma de frecuencias: Representa un conjunto de rectángulos


levantados desde cada intervalo de clase hasta la frecuencia correspondiente
(absoluta ó relativa).

2. Polígono de frecuencias: Consiste en unir los puntos medios ó marcas de clase


levantadas hasta cada frecuencia correspondientes, generalmente para su
construcción nos podemos basar del Histograma de frecuencias.
Propiedad: Area del Histograma = Area del Polígono de frecuencia.

3. Ojiva: Se construye basándose en un diagrama escalonado, es decir


considerando las frecuencias acumuladas (absoluta ó relativa), y uniendo los límites
de cada intervalo.
HISTOGRAMA Y POLIGONO DE FRECUENCIAS
HISTOGRAMA DE FRECUENCIAS

15.00

10.00
fi
5.00

0.00
.47.5 .56.5 .65.5 .74.5 .83.5 .92.5

Xi

SESION # 7

LOS ESTADIGRAFOS DE TENDENCIA CENTRAL

Se llaman así, porque tienden a ubicar el centro de las observaciones; Estos


estadígrafos de posición son: media, mediana, moda, media geométrica, media
armónica, etc. Estudiaremos los más importantes:

X 
1. La Media Aritmética
Llamada también promedio, es el estadigrafo de posición más simple y fácil
de calcular, por eso es el más común.
Se calcula teniendo en cuenta los siguientes casos:

1er. Caso: Datos no agrupados en tablas de frecuencias:


Sean X1, X2............, Xn variables que representan los n datos de una muestra, la
media aritmética se calcula:
n
Xi
X 
i 1 n

2do. Caso: Datos Agrupados en tabla de frecuencias:

En este caso se calcula mediante la siguiente fórmula:

X 
 Xi * fi fi = frec. Absoluta
n

hi = frec. Relativa

O también:

X   Xi * hi
hi = frec. Relativa

PROPIEDADES DE LA MEDIA ARITMETICA

1. La media de los datos todos iguales a una misma constante es igual a la


constante:

X  X (K )  K
Sea K = cte. y cada Xi = k -----------------

2. Si a cada dato e le suma o resta una constante k, la media queda sumada o


restada por dicha constante:
Si Xi = Xi + K -------------------- X(Y) = X(X+k) = X (X) + k

3. Si a cada dato se le multiplica o divide por una constante k, la media queda


multiplicada o dividida por dicha constante.

4. Sí Yi = Xi* k ------------------------- X(Y) = X(X* k) = X (X) * k

NOTA. Todas las propiedades cumplen para datos agrupados y no


agrupados

 ( Xi  X )  0 Datos no agrupados

 ( Xi  X ) * fi  0

5. La suma de las desviaciones respecto a la media es igual a cero.


Datos agrupados

ESTADIGRAFOS DE TENDENCIA CENTRAL

2. Media Geométrica: se eleva cada valor al número de veces que se ha repetido.


Se multiplican todo estos resultados y al producto final se le calcula la raíz "n"
(siendo "n" el total de datos de la muestra).
Según el tipo de datos que se analice será más apropiado utilizar la media
aritmética o la media geométrica.

La media geométrica se suele utilizar en series de datos como tipos de interés


anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicador
sobre el de los años anteriores. En todo caso, la media aritmética es la medida de
posición central más utilizada.

Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la


serie, por lo que no se pierde ninguna información.

Sin embargo, presenta el problema de que su valor (tanto en el caso de la media


aritmética como geométrica) se puede ver muy influido por valores extremos, que
se aparten en exceso del resto de la serie. Estos valores anómalos podrían
condicionar en gran medida el valor de la media, perdiendo ésta representatividad.

3. La Mediana (Me) :

Es aquel estadígrafo de posición que divide en dos partes iguales al conjunto


de observaciones; es decir la mediana representa el valor central de una
distribución de datos ordenados en forma creciente o decreciente.

1er. Caso: Datos No agrupados en TDF:


Primero se ordena los datos en forma creciente o decreciente y luego se
tiene en cuenta sí:

a) n es impar. La mediana es el valor central.

Es el elemento que ocupa la


 n 1
Me  X   posición (n+1) /2
 2 

Ejemplo: Calcular la Me de los siguientes valores:


32, 34, 31, 42, 36, 41, 32, 45, 37, n=9
Ordenando: 31, 32, 32, 34, 34, 36, 37, 41, 42, 45.
Observamos el valor central:

Me=36 (representa el 5to. dato)

c) n es par.La mediana es igual al promedio o la semisuma de los valores


centrales.

Ejemplo: la Me de 12,21,16,18,20,19,16,15,16,17.

Ordenando: 12,15,16,16,16,17,18,19,20,21,

16  17
Me   16.5
2

2do. Caso: Datos Agrupados en TD:

En este caso la Se me calcula mediante la siguiente fórmula:

Me  Li 

Ame * n  Fme1
2

f me

Donde:

Li = limite inferior de la clase mediana.


Ame := tamaño del intervalo de la clase mediana.
Fme-1 = Frec. Abs. Acumulada anterior a la clase mediana.
fme = Frecuencia absoluta de la clase mediana.
Clase Mediana: Es aquel intervalo que contiene el valor que ocupa la
posición media, es decir contiene a la mediana. Se calcula mediante:

El primer valor Fi mayor o igual que n/2

4. LA MODA (Mo)

Representa al valor que más se repite en un conjunto de observaciones:

- Si la distribución de frecuencias tiene un solo valor máximo, entonces:


UNIMODAL.
- Si la distribución presenta más de un valor máximo: , entonces:
POLIMODAL.
- Si no hay algún valor que se repita con más frecuencia:
DISTRIBUCION UNIFORME

1er. Caso: Datos no agrupadas

Señalar el valor que más se repite.


Ej. 4,5,6,7,4,5,4,6,5,5,4,5,5 Mo = 5 UNIMODAL

Ej. 7,7,6,8,8,6,8,7,7,9,12,11,10,8 Mo = 8 BIMODAL

2do. Caso: Datos Agrupados en Tablas de Frecuencias_

 D1 
M o  Li  Amo *  
 D1  D 2 
Donde:

Li = limite inferior de la clase modal.


Amo = Amplitud de la clase modal.

D1 = Diferencia ente la Frec. Absoluta de la clase

modal menos la frecuencia absoluta anterior.

D2 = Diferencia ente la Frec. Absoluta de

la clase modal menos la siguiente.

Clase Modal: Representa el intervalo con la mayor frecuencia absoluta.

Ejemplos. (3.1)

Calcular la Media Aritmética, Mediana y Moda de la Tabla de frecuencias del ejemplo (2.3).

47.5 * 5  56.5 * 5  ....  92.5 * 5 gramos


X   70.336
35

Para calcular la mediana, la clase mediana es el 4to. intervalo:

 35  15 
Me  70  9 *  2   72.05 gramos
 11 
 

Para calcular la Moda, la clase modal es el 4to. intervalo, por que presenta
la mayor frecuencia absoluta.
D1=11 - 5 = 6
D2=11 – 4 =7

 6  Gramos
M o  70  9 *    74.15
67

Nota: La media =mediana = moda, si la distribución es simétrica.

SESION # 9

ESTADIGRAFOS DE TENDENCIA NO CENTRAL

Las medidas de Posición o de Tendencia no centrales permiten conocer otros


puntos característicos de la distribución que no son los valores centrales. Entre
otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en
tramos iguales:

Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada


de forma creciente o decreciente, en cuatro tramos iguales, en los
que cada uno de ellos concentra el 25% de los resultados.

Deciles: son 9 valores que distribuyen la serie de datos, ordenada


de forma creciente o decreciente, en diez tramos iguales, en los que
cada uno de ellos concentra el 10% de los resultados.

Percentiles: son 99 valores que distribuyen la serie de datos,


ordenada de forma creciente o decreciente, en cien tramos iguales,
en los que cada uno de ellos concentra el 1% de los resultados.

Ejemplo: Vamos a calcular los cuartiles de la serie de datos referidos a la estatura


de un grupo de alumnos). Los deciles y percentiles se calculan de igual manera,
aunque haría falta distribuciones con mayor número de datos.

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
X x x x X
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

1º cuartil: es el valor 1,22 cm, ya que por debajo suya se situa el


25% de la frecuencia (tal como se puede ver en la columna de la
frecuencia relativa acumulada).

2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil


se situa otro 25% de la frecuencia.

3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil


se sitúa otro 25% de la frecuencia. Además, por encima suya queda
el restante 25% de la frecuencia.

Atención: cuando un cuartil recae en un valor que se ha repetido más de una vez
(como ocurre en el ejemplo en los tres cuartiles) la medida de posición no central
sería realmente una de las repeticiones

Fórmulas para calcular los Cuartiles

Para calcular el Primer Cuartil

n 
  F1i
Q1  Li   
4
F2
Para calcular el Segundo Cuartil
n 
  F1i
Q 2  Li   
2
F2

Para calcular el Tercer Cuartil

 3n 
  F1i
Q3  Li   
4
F2
DONDE:
Q1 = Primer Cuartil
Q2 = Segundo Cuartil
Q3 = Tercer Cuartil
Li = Límite Real inferior de la Clase que contiene el Cuartil
n = Número de datos
F1 = Frec. Acumulada de la clase anterior a la clase del Cuartil
F2 = Frecuencia absoluta de la Clase del Cuartil
i = Intervalo de Clase

Ejemplo: Calcular el Primer Cuartil de la siguiente distribución de frecuencias,


referente al consumo de energía eléctrica de un grupo de usuarios

Consumo Número de Frecuencia Límites


Kw Hora Consumido Acumulada Reales
r
05 - 24 4 4 4.5 -
24.5
25 - 44 6 10 24.5 -
44.5
45 - 64 14 24 44.5 -
64.5
65 - 84 22 46 64.5 -
84.5
85 - 104 14 60 84.5 -
104.5
105 - 124 5 65 104.5 -
124.5
125 - 144 7 72 124.5 -
144.5
145 - 164 3 75 144.5 -
164.5
75
 75 
  10  20
Q1  44.5   
4
 57 KwHora
14

Como cada Cuartil representa el 25%, entonces el Primer Percerntil será el 25%.
Respuesta.- El 25% de los usuarios consume 57 KW Hora.

Fórmula para calcular los Deciles

D = El Decil
Li = Límite Real inferior de la Clase que contiene el Decil
D # = El número de Decil que se quiere hallar
n = Número de datos
F1 = Frec. Acumulada de la clase anterior a la clase del Cuartil
F2 = Frecuencia absoluta de la Clase del Cuartil
i = Intervalo de Clase

Utilizando el ejemplo: Calcular el Cuarto Decil de la distribución de frecuencias,


referente al consumo de energía eléctrica del grupo de usuarios

Como cada Decil representa el 10%, entonces el Cuarto Decil será el 40%..
Respuesta.- El 40% de los usuarios consume 69.95 KW Hora.

Fórmula para calcular los Percentiles

P = El Percentil
Li = Límite Real inferior de la Clase que contiene el Percentil
P # = El número de Percentil que se quiere hallar
n = Número de datos
F1 = Frec. Acumulada de la clase anterior a la clase del Percentil
F2 = Frecuencia absoluta de la Clase del Percentil
i = Intervalo de Clase

Utilizando el ejemplo: Calcular el Percentil 79 de la distribución de frecuencias,


referente al consumo de energía eléctrica del grupo de usuarios

Como cada Percentil representa el 1%, entonces el Percerntil 79 será el 79%..


Respuesta.- El 79% de los usuarios consume 103.43 KW Hora.
SESION # 10

EXAMEN PARCIAL

SESION # 11

ESTADIGRAFOS DE DISPERSION O VARIABILIDAD

Son aquellos números que miden o cuantifican la variabilidad de las


observaciones, con respecto a un estadígrafo posición (generalmente la media
aritmética). Los principales estadígrafos de dispersión son los siguientes:

1. LA VARIANZA: V (X)

Se define como el promedio del cuadrado de las desviaciones con respecto a la


media.
Cuando la varianza es muestral, entonces V(x) se puede denotar como
y si la varianza es poblacional, entonces V(x) se denota como
.En este capítulo estudiaremos la varianza muestral.

La varianza se calcula, teniendo en cuenta los siguientes casos:

1er. Caso: Datos no agrupados en tablas de frecuencia:


Desarrollando esta sumatoria, obtenemos una forma más simple para
calcular la varianza:

2do. Caso: Datos agrupados en tablas de frecuencias:

O también:
Desarrollando esta sumatoria, obtenemos:

O también:

Donde:

Xi = marca de clases.
fi = frecuencia absoluta
hi = frecuencia relativa

Propiedades de la Varianza:

1. V(X) >= 0 (siempre la varianza es positiva ó


igual a cero).
2, V(K) = 0 Esto es si cada Xi = k (constante).
3. V(X+/- K) = V(X) si a cada Xi se le suma (o resta), una constante K
entonces la varianza no varia.

4. si a cada dato se multiplica (o por una constante


K, entonces la constante sale elevada cuadrado).

5. Siendo a y b constantes, X e
Y variables independientes

2. DESVIACION STANDART O TIPICA : S(X)

Se define como la raíz cuadrada positiva de la varianza, y como la varianza


esta expresada en unidades cuadradas, la desviación standart (que esta
expresada en las mismas unidades de los datos), representa mejor la
variabilidad de las observaciones.

3. COEFICIENTE DE VARIACION: C.V.

Representa la relación que existe entre la desviación standart y el promedio


de un conjunto de observaciones. El C.V. como no tiene unidades se debe
expresar en porcentaje y sirve como medios de comparación con otras
distribuciones de cualquier tipo de unidad.

Se calcula:

Donde:
S(x) = desviación típica
X = promedio aritmético ó

Ejemplos:

1. Los siguiente datos son temperaturas en grados Fahrenheit

415,500,480,490,476,500,432,479,489,497,496,478,453.

Sin ordenar en tablas de frecuencias:


a) Calcular la varianza.
b) Si a cada dato se le divide entre 5 y luego se suma 10. Hallar la nueva
varianza.

Solución:

a) Primero tenemos que calcular el promedio para datos no agrupados:


°F

Entonces, calculamos la varianza:


b) Es decir:

Esto se resuelve usando


propiedades:

2. Dada la siguiente tabla de frecuencias, que representa el peso (grs), de 34


sobres de cartas:

Intervalos Xi fi Fi
[ 7 – 8> 7.5 1 1
[ 8 – 9> 8.5 2 3
[ 9 – 10> 9.5 8 11
[10 – 11> 10.5 11 22
[11 – 12> 11.5 6 28
[12 – 13] 12.5 6 34

a) Calcular el peso promedio y la mediana.


b) Calcular el Coeficiente de Variación (C.V.)
Solución:
a) Calculando el promedio:

Gramos

Calculando la mediana:

Gramos

b) Para calcular el C.V. debemos primero calcular la varianza

Calculamos la desviación standart: S(X)=-1.2708 grs. Entonces:

3. Se tiene dos muestras:

En qué muestra cree Ud. Que halla menos variabilidad?

Solución:
Primero hay que tener en cuenta que no se puede comparar las desviaciones
standares de cada nuestra, porque están expresadas en diferente unidades,
pero si podemos compararlas con sus C.V. respectivos:

Entonces, comprando ambos coeficientes nos damos cuenta que existe


menor dispersión en los datos de la primera muestra.

NOTA: Un C.V. ideal debe estar:

SESION # 12

CAPITULO V: DISTRIBUCION BIDIMENSIONAL

ANALISIS DE REGRESION Y CORRELACION LINEAL SIMPLE

Los métodos estadísticos presentados lo hemos referido hasta Ahora a una


sola variable, muchos de los problemas de trabajo estadístico, sin embargo
involucran 2 ó más variables. En algunos casos las variables se estudian
Simultáneamente, para ver la forma en que se encuentran interrelacionadas,
también si se desea estudiar una variable de interés particular. Estos dos
casos de problemas se conocen por lo general con los nombres de
correlación y regresión.

Antes de definir estos casos hablaremos sobre aspectos importantes que


involucran 2 variables: Distribución Bidimensional.

5.1. Cálculo de la Covarianza: S (XY)


La varianza, es la medida que estudia la dispersión de dos variables, se
calcula teniendo en cuenta:

1er. Caso: Datos no agrupados en tablas de frecuencia: En este caso,


las variables X é Y se toman en forma simultánea; es decir se considera no
agrupados porque se toman los valores como puntos cartesianos (pares de
valores). (X1,Y2), (X2,Y2)..........(Xm,Ym). Esto es:

X X1 X2 X3 ........ XN
..
Y Y1 Y2 Y3 ........ YN
..

N: número de observaciones ó total de pares de valores.


De cada observación se analiza dos variables Simultáneamente.

Las Covarianza; S (XY) se define:

............................. ( I
)

desarrollando la sumatoria y simplificando:

.........................( II)
Para calcular la covarianza S(XY), es preferible utilizar la ec. (II). Los
promedios de X y de Y, así como las desviaciones standares S(X) Y S(Y),
se calculan como en los capítulos 3 y 4.

2do. Caso: Datos Agrupados en tablas de frecuencias:

En este caso cada variable X e Y, están agrupados en tablas de frecuencias


presentándose lo que se llama: Distribución Bidimensional o Tabla de Doble
Entrada.

En forma tabular:

X : agrupado en K intervalos (y = 1... k)


Y : agrupado en m intervalos (j = 1.. m).

Donde:

Xi : marca de clase (variable X)


Yj : marca de clase (variable Y)
fij : frecuencia absoluta conjunta, corresponde al número de
observaciones que existe en el I-ésimo intervalo de X con el
j-ésimo intervalo de Y.

Observaciones:

(1) Según la definición de la covarianza (tanto para datos agrupados


como no agrupados), la covarianza puede ser negativa.
(2) La covarianza presenta unidades de cada una de las variables
involucradas.
(3) La covarianza S(XY), también se denota: Cov (X,Y)

Ejemplos:

(5.1) Dada la siguiente tabla, que representa la medida (X) en cm. De 8


barretas de metal y el peso (Y) en libras de cada una de ellas, calcular:

a) S(X) b) S(Y) c) S(XY)


X 1 3 4 6 8 9 11 14
Y 1 2 4 4 5 7 8 9
Solución:

Este ejemplo, corresponde a datos no agrupados en tabla de frecuencias.

a) S2 S (X) = 4.06 (X) =


cm.

b) S2 (Y)
S (Y) = 2.65
lbs

S (XY) = 10.5 cm. lbs


(5.2) Dada la siguiente tabla en el cual se estudia las alturas (pulg) y los pesos
(libras) de 300 estudiantes hombres en una Universidad:

X : altura (pulgadas).
Y : peso (libras).

58-62 62-66 66-70 70-74 74- Total


Y 78 fy
X

90-110 2 1 3
100-120 7 8 4 2 21
130-140 5 15 22 7 1 50
50-160 2 12 63 19 5 101
170-180 7 28 32 12 79
190-200 2 10 20 7 39
210-220 1 4 2 7
Total
Fx 16 45 128 84 27 300

Calcular:

S (X) , S(Y) , S (XY)

Solución:

Como la tabla es Bidimensional, podemos formar tablas de frecuencias para


cada una de las variables por separado, a este proceso se le conoce como
TABLAS MARGINALES.
Tabla marginal para x::
Intervalos Xi Fi
58 – 62 60 16
62 – 66 64 45
66 – 70 68 128
70 – 74 72 84
74 – 78 76 27
300

Tabla Marginal para Yi:


Intervalos Yj f.j.
90 – 110 100 3
110 – 130 120 21
130 – 150 140 50
150 – 170 160 101
170 – 190 180 79
190 – 210 200 39
210 – 230 220 7
300

La variable X presenta 5 intervalos ( i = 1 .....5)


La variable Y presenta 7 intervalos ( j = 1 .....7)

Calculando:
S (X) = 3.929 pulgadas

S (Y) = 24.202 Lbs.

Calculando la Covarianza:

S(XY) =51.370 pulg/lib.


PROBLEMAS RESUELTOS

a) tablas de frecuencia y Estadigrafos de posición:

1) La siguiente distribución muestra el peso en gramos de 30 paquetes de


un determinado producto:

Gramos [10 14.5> [14.5 [19.5 [24.5 [29.5 35>


19.5> 24.5> 29.5>
hi M/2 0.17 2M M 0.13

Se pide completar la tabla:

Solución
Si la sumatoria de las hi = 1
Sabemos que : M/2 + 0.17 +2M +M +0.13 = 1

M/2 +3M = 1-0.30

M/2 +3M = 0.7

7M = 1.4

fi
M = 0.2 sabemos que hi 
n

Por lo tanto fi = hi * n

Remplazando valores de hi

hi hi
M/2 0.10
0.17 0.17
2M 0.40
M 0.20
0.13 0.13
Completando el cuadro:
Intervalos Xi fi Fi hi Hi
[10.5 14.5> 12.25 3 3 0.10 0.10
[14.5 19.5> 17 5 5 0.17 0.17
[19.5 24.5> 22 12 12 0.40 0.67
[24.5 29.5> 27 6 6 0.20 0.87
[29.5 35> 32.25 4 4 0.13 1.00
30 1.00

2)Los siguientes datos son los puntajes obtenidos por 50 estudiantes en un examen
de Estadística I:

33, 35, 35, 39, 41, 41, 42, 45, 47, 48,
50, 52, 53, 54, 55, 55, 57, 59, 60, 60,
61, 64, 65, 65, 65, 66, 66, 66, 67, 68,
69, 71, 73, 73, 74, 74, 76, 77, 77, 78,
80, 81, 84, 85, 85, 88, 89, 91, 94, 97.

Clasificar estos datos convenientemente en intervalos de clase de igual amplitud y


construir los gráficos respectivos.

Solución
I) Rango = 97-33 = 64
II) K = 1+3.32 * log (10) = 1+ 3.22 (1.699) = 6.47

Redondeando al entero inmediato superior K = 7 (siete intervalos)

III) La amplitud de Clase A = 64 / 7 = 9.14, aproximando al entero mayor


(recuerda que la amplitud debe tener la característica de los datos)
A = 10

Para facilitar el conteo de las frecuencias, tomaremos como límite inferior de la


primera clase 30.

clases xi fi Fi hI HI
[30, 40> 35 4 4 0.08 0.08
[40, 50> 45 6 10 0.12 0.20
[50, 60> 55 8 18 0.16 0.36
[60, 70 > 65 13 31 0.26 0.62
[70, 80> 75 9 40 0.18 0.80
[80, 90> 85 7 47 0.14 0.94
[90, 100> 95 3 50 0.06 1.00
TOTAL 50 1.00

Nótese que en el ultimo intervalo el límite superior puede ser abierto ya que
sobrepasa al valor más alto de los datos.

GRAFICOS

HISTOGRAMA Y
POLIGONO DE
20
FRECUENCIA

FRECUENCIAS

0
35 45 55 65 75 85 95
MARCAS DE CLASE

LA OJIVA
50
Fi
0
35455565758595
MARCAS DE CLASE…
Regresión lineal

1) La tabla muestra alturas con aproximación de pulgadas y los pesos con


aproximación de libras de una muestra seleccionada al azar:

altur 70 63 72 60 66 70 74 65 62 67 65 68
a
pes 15 150 180 135 156 168 178 160 132 145 139 152
o 5

a) Hallar la ecuación de la recta de ajuste usando mínimos cuadrados.


b) Estimar el peso de un estudiante cuya altura es de 61 pulgadas.
c) Estimar la altura de un estudiante cuyo peso es de 170 libras.

Solución:

X Y X*Y
70 155 4900 10850
63 150 3969 9450
72 180 5184 12960
60 135 3600 8100
66 156 4356 10296
70 168 4900 11760
74 178 5476 13172
65 160 4225 10400
62 132 3844 8184
67 145 4489 9715
65 139 4225 9035
68 152 4624 10336
X = 802 Y=1850  = 53792 X*Y =
124258

Calculando a y b:
a = -60.75

Y = -60.75 + 3.22 X
b = 3.22
a)

b)Y = -60.75 + 3.22(61) = 135.67 libras. Redondeando Y =136 libras.

b) 170 = -60.75 + 3.22 X

Pulgadas, redondeando X = 72 pulgadas

2) La producción de acero en Estados Unidos en millones de toneladas cortas (una


tonelada corta = 2000 libras), durante los años 1946 – 1956 aparecen en la
siguiente tabla:

Años Producción en
Ton. cortas
1946 66.6
1947 84.9
1948 88.6
1949 78.0
1950 96.8
1951 105.2
1952 93.2
1953 111.6
1954 88.3
1955 117.0
1956 115.2

a) Halla la ecuación de ajuste (recta de mínimos cuadrados).


b) Estima la producción de acero durante los años 1957 y 1958.
c) Estima la producción de acero durante los años 1945 y 1944.

Solución:
Para poder trabajar con los años se debe colocar una escala paralela que inicie en
cero (pues las fechas no sirven para estos cálculos).

Años X Y X*Y

1946 0 66.6 0 0
1947 1 84.9 1 84.9
1948 2 88.6 4 177.2
1949 3 78.0 9 234.0
1950 4 96.8 16 387.2
1951 5 105.2 25 526.0
1952 6 93.2 36 559.2
1953 7 111.6 49 781.2
1954 8 88.3 64 706.4
1955 9 117.0 81 1053
1956 10 115.2 100 1152
 TOTALES 55 1045.4 385 5661.1

a) Hallando la recta de ajuste

a = 75.30

Y = 75.30 + 3.95 X
b = 3.95
b y c) Estimando la producción:

Años X Producción
1944 -2 67.40
1945 -1 71.35
1957 11 118.75
1958 12 122.70