Sei sulla pagina 1di 158

Universidad Nacional de Piura – Sede Talara

Curso Estadística

MSc. Ing. Arturo Rodriguez P.


¿Qué es la estadística?

La Estadística es una ciencia, existiendo discrepancia de


considerarla una técnica, más precisamente como «la
tecnología del método científico» (A.M.Mood).
Proporcionando reglas, técnicas e instrumentos para los
investigadores, las que pueden ser de aplicación
completamente general y útiles en cualquier campo de las
ciencias: física, química, biología, economía, sociología,
ingeniería, etc.
La Estadística como ciencia cumple los
aspectos principales del método
científico, tales como:
i)Realización de experimentos y
observaciones.
ii)Obtención de conclusiones o proposiciones
objetivas a partir de los resultados de dichos
experimentos y observaciones.
iii)Formulación de leyes que simplifiquen la
descripción de un gran número de
experiencias u observaciones.
NOMENCLATURA ESTADISTICA
 Estadística, servirá para designar a la ciencia.
 Estadísticas, toda colección sistemática de datos referentes a un
determinado fenómeno.
 Estadístico, es la persona que se dedica al estudio de la Estadística.
 Estadígrafo, son medidas de resumen de una muestra, por ejemplo, la
media aritmética, la mediana, la varianza, el coeficiente de correlación, etc.
 Dato, es el valor o respuesta que adquiere la variable en cada unidad de
análisis. Es el resultado de la observación, entrevista o recopilación en
general. Los datos son la materia prima de la Estadística.
 Muestra, es una parte o subconjunto de una población en estudio.
 Información, es el resultado de los datos procesados de acuerdo a ciertos
objetivos.
 Indicadores, son elementos característicos que describen una situación
permitiendo su análisis.
 Parámetro, es un valor obtenido para describir en forma resumida las
características pertinentes o más importantes acerca de una población. Son
las medidas de resumen de una población.
 Población o universo, es un conjunto completo de individuos u objetos que
poseen alguna característica común observable.
 Unidad de análisis, es el objeto o elemento indivisible que será estudiado
en una población, sobre los cuales se va a obtener datos.
 Variable, es una característica que puede tomar diferentes valores, referido a
la unidad de análisis, y que puede ser susceptible de ser medido o
cuantificado.
ORGANIZACION Y PRESENTACION DE
DATOS
Cuando se realiza la recopilación de antecedentes con fines estadísticos, se
obtiene una gran cantidad de datos, algunas veces estos están en su forma
natural o empírica (fuentes primarias) y otras ya están organizadas en tablas,
cuadros y gráficos (fuentes secundarias). Constituyen los datos básicos para
iniciar un estudio, conocer y analizar el comportamiento y las características de
los elementos de una población.
Hay dos formas de presentar ordenadamente los datos estadísticos:
i) En forma tabular, como son los cuadros y tablas estadísticas.
ii) Mediante gráficos y diagramas.
TABLAS ESTADISTICAS
Las tablas estadísticas presentan ordenadamente los datos estadísticos en filas y
columnas, clasificados y agrupados de acuerdo a un criterio específico. En las
tablas, metodológicamente, conviene distinguirlas «tablas de frecuencia o de
distribución» y los «cuadros estadísticos o de análisis».
TABLAS DE FRECUENCIA O DE DISTRIBUCION
En ellas se observa la frecuencia o repetición de cada uno de los valores de la
variable, que se obtiene después de realizar la operación de tabulación; las tablas
presentan los diversos tipos de frecuencia (absoluta, relativas, etc.). Las tablas de
frecuencia también se utilizan para organizar los datos y calcular algunos
indicadores, medidas de resumen o estadígrafos.

CUADROS ESTADISTICOS
Ofrecer información estadística de fácil lectura, comparación e interpretación. Un
cuadro estadístico es el resultado de trabajos previos (planeamiento, recopilación,
tabulación, cálculos, etc.).
PARTES PRINCIPALES DE UN CUADRO ESTADÍSTICO
CONSTRUCCION DE TABLAS DE FRECUENCIA
En estas tablas, como producto de la operación de
tabulación, se observa cuántos elementos (frecuencia o
repetición) hay en cada categoría, valor o intervalo de
la variable. Constituye la agrupación de elementos que
tienen características comunes. Estas tablas presentan
diversos tipos de frecuencia (absolutas, relativas o
acumuladas).
TABLAS DE FRECUENCIA PARA VARIABLES
CUANTITATIVAS
Realizadas las observaciones o recopilación de datos, denotaremos la variable
por X y los datos originales por: X1, X2, X3,..., Xn, donde X¡ representa la i-
ésima observación de la variable con (i=1,2,3,4,...,n). Es decir que:

El subíndice “i”: Es un número entero, que expresa el orden de la observación.


El conjunto de “n” observaciones: Constituye una muestra de tamaño “n”
Habrá tantos valores de X como elementos tenga la población o muestra.
A. TABLAS DE FRECUENCIA DE VARIABLE DISCRETA
Es aquella cuyo valor sólo se puede expresar por números enteros
positivos; los valores corresponden a puntos aislados de la recta numérica.
Ejemplo . En una muestra de 20 pequeñas empresas considerar el número
de trabajadores por empresa. Con estos datos, determinar la distribución
(tabla de frecuencia) de las empresas según el número de trabajadores.
i) La Clasificación: se identifican los distintos valores que tiene Xi, se ubican Xmín=2 y
Xmáx=6, o sea, los valores de la variable van de 2 a 6.
La serie: 2,3,4,5,6
A los distintos valores que toma “Xi” lo denotamos por :
y1=2; y2=3; y3=4; y4=5; y5=6
El número de valores distintos de Xi, entonces m=5, siendo el tamaño de muestra n=20
ii) La Tabulación: consiste en determinar cuántas empresas hay en cada una de las
cinco categorías, es decir, cuántas veces se repite cada valor de “yi”, se llamará
Frecuencia Absoluta o Repetición, que se denota por En el ejemplo, se puede tabular a
mano usando rayitas o tarjados. “ni” o por “fi”.
B. TABLAS DE FRECUENCIA DE VARIABLE
CONTINUA
Una variable continua es aquella que puede tomar cualquier valor
del conjunto de los números racionales, es decir, su valor puede ser
un número entero o una fracción. Consistirá en determinar el número
de intervalos (m) y la amplitud de cada intervalo de Clase (c).

que se puede dividir en un número arbitrario de intervalos o pequeños segmentos.


Si m = número de intervalos, entonces: la amplitud de cada intervalo (c) es:
La amplitud o longitud de los intervalos no siempre son iguales; pueden utilizarse
amplitudes desiguales, pero siempre relacionados con una amplitud de intervalo como
unidad.
En general, hay tres tipos de intervalos:
a) Intervalos de igual amplitud.
b) Intervalos de diferente amplitud.
c) Intervalos abiertos.
Nota2: El número y amplitud de los intervalos de clase de una tabla tienen que
estar en relación con la naturaleza y el contexto del estudio. Sin embargo, se
podría determinar el número de intervalos mediante la fórmula propuesta con H.
A. Sturges:
m = 1 + 3.322 Log n

Nota 3: Para facilitar los cálculos, se recomienda que la amplitud de los


intervalos se redondee al número sencillo más cercano e inmediato superior. Esto
significa que el cociente R/m sea exacto.
Nota4: Definidos los intervalos, cada uno de ellos se denota por L¡ - Ls
donde L¡ es el extremo inferior, Ls es el extremo superior, entonces.

Los extremos de un intervalo deben estar perfectamente definidos, de modo que no


exista duda o ambigüedad en el momento de la tabulación. Un valor de X¡ sólo
puede pertenecer a un intervalo y sólo a uno.
Nota5: Los extremos de un intervalo deben estar perfectamente definidos.
Denominamos el intervalo como

Significa que es «abierto por la izquierda» y «cerrado por la derecha».

EJEMPLO: Los sueldos mensuales (en dólares) de 60 empleados de la Empresa


Pirámide S.A. en el año 1995 son los siguientes:
5° El punto medio de cada intervalo, es la MARCA DE CLASE, que se
denota con y¡ donde:
6° Finalmente se organiza la tabla:

ii) La Tabulación, definidos los intervalos de clase o categorías, se distribuyen los


empleados según el sueldo en cada uno de los intervalos, es decir, contabilizar
(tabulación) cuántos elementos o empleados se encuentran comprendidos en cada
intervalo. Tabulando los 60 valores se puede construir el siguiente cuadro:
ELEMENTOS DE UNA TABLA DE FRECUENCIA

En toda tabla de frecuencia completa, se identifican los siguientes


elementos:
1) Valor de la variable o intervalo de clase, que resulta de la clasificación
o categorización de la variable. Se representa por Y¡ a los puntos, y por
L¡- Ls a los intervalos de clase.

2) Frecuencia absoluta o repetición, es el número de veces que se repite un


determinado valor de la variable; Se representa por n¡ con (i= 1,2,,..m).
Algunos autores utilizan f¡ para las frecuencias, o sea f¡ = n¡.
6) Marca de clase, que es el punto medio de cada intervalo.
PROPIEDADES DE LAS FRECUENCIAS
LOS GRAFICOS ESTADISTICOS
Los gráficos estadísticos son representaciones de relaciones cuantitativas.
CONSTRUCCION DE GRAFICOS
Los gráficos de dos variables, se construye en el plano rectangular. En el eje Y
(ordenada) se colocan los valores de la variable dependiente y en X (abcisa) la
variable independiente, siendo y = f(x).
PRINCIPALES PARTES DE UN GRAFICO
1) Titulo, debe indicar claramente la naturaleza del fenómeno representado.
2) Los diagramas, es el propio dibujo del gráfico.
3) Escalas y/o leyendas, se precisa la correspondencia entre los elementos del
gráfico y la naturaleza de las medidas representadas.
4) Fuente de los datos estadísticos representados.
PRINCIPALES TIPOS DE GRAFICOS
ESTADIGRAFOS
Son medidas de resumen de una muestra, por ejemplo, la media
aritmética, la mediana, la varianza, el coeficiente de correlación,
etc.
Estas características descriptivas (cantidad), constituyen los
llamados ESTADÍGRAFOS, que son indicadores o medidas de
resumen estadístico. Por lo tanto para comparar totalmente dos
distribuciones de frecuencia o gráficos, sólo bastará comparar los
estadígrafos de ambas distribuciones.
En general, para llegar a determinar los ESTADÍGRAFOS se sigue el
siguiente esquema:
Gráfico N°01
De acuerdo al valor y naturaleza de la
variable, se puede obtener diversas
formas de distribución de frecuencia,
como se aprecia en el Gráfico N°01.
Como «medidas de resumen» del
comportamiento de estas
distribuciones se define cuatro tipos de
Estadígrafos:

a) De posición o tendencia central


b) De dispersión o variabilidad.
c) De deformación o asimetría.
d) De apuntamiento o Kurtosis.
ESTADÍGRAFOS DE POSICION

Como su nombre lo insinúa, son estadígrafos que describen la posición que ocupa
una distribución de frecuencia alrededor de un valor de la variable.
Los estadígrafos, son valores que de manera condensada representan en un sólo
valor, a una serie de datos y además describen resumidamente al conjunto de
observaciones. Los estadígrafos de posición de uso más frecuente son: la media
aritmética, la mediana, las cuartilas, las decilas, los percentiles y la moda;
existen además la media geométrica, la media armónica, etc.
LA MEDIA ARITMETICA
Es el estadígrafo de posición más importante. La media aritmética se denomina
simplemente MEDIA y comúnmente se le conoce como promedio.
La media aritmética se define y calcula dividiendo la suma de los valores de la variable
entre el número de observaciones o valores.

Para una variable X, la media se puede simbolizar como:


CALCULO DE LA MEDIA
01
CUADRO N°01
b.2. Tablas con intervalos
En el cálculo de la media a partir de las tablas de frecuencia con intervalos se
usa “marca de clase Yi” para representar el valor de cada elemento incluido en
su respectivo intervalo.
Se observa en la tabla el valor de las «marcas de clase» y¡ que luego son
ponderados (multiplicados) por su respectiva frecuencia n¡. Entonces el
sueldo promedio resultante es:

Los datos también pueden presentarse en una tabla de 7 intervalos (m=7) y


calcular la media aritmética; aquí c¡ = 30
Los estadígrafos no son valores determinantes, ni menos valores exactos, pero si son
los más representativos de una realidad.
PROPIEDADES DE LA MEDIA
e) «Si una muestra se divide en r submuestras, entonces la media total de la
muestra “Y” de tamaño “n” es:
Ejemplo: Se quiere conocer el Producto Bruto Interno (PBI) por habitante del área del Grupo
Andino. Para el efecto se dispone del número de habitantes (n¡) y el PBI por habitante (y¡ de
cada uno de los cinco países miembros para el año 1986. Hallar el PBI por habitante del Grupo
Andino equivale a calcular la media aritmética total (PBI promedio por habitante de la región);
conociendo la media de cada país y el respectivo número de habitantes, se prepara el siguiente
cuadro:
En el año 1993, el PBI promedio por habitante del Grupo Andino fue de 1729,60 dólares.
LA MEDIANA O EL VALOR
MEDIANO

La mediana (Me) es el valor de la variable que divide al total de las «n»


observaciones, debidamente ordenadas o tabuladas en dos partes de igual
tamaño.

CALCULO DE LA MEDIANA
b) La mediana de datos agrupados
Para calcular la Me a partir de tablas de frecuencia, debe determinarse las frecuencias
acumuladas N¡ = F¡, que permite conocer hasta que valor de la variable o intervalo se
tiene acumulado el 50% de n. El punto de partida es calcular n/2 y este valor se
compara con los Ni donde puede suceder que:
CU ARTI LAS ; Q1 y Q3
Las cuartilas son estadígrafos de posición que dividen al total de las observaciones,
debidamente ordenados o tabulados, en cuatro partes de igual tamaño. Esto significa
que entre dos cuartilas consecutivas se encuentren no más del 25 % del total de las
«n» observaciones.

El problema es dividir los datos ordenados en cuatro subconjuntos iguales


gráficamente dividir el segmento (Xmáx, Xm¡n). Entonces existen 3 cuartilas.
a) Primera cuartila o cuartila inferior Q,
El 25% de las observaciones tienen valores inferiores o iguales a Q1f en tanto que
el 75% restante tienen valores superiores a Qr.

b) Segunda cuartila o cuartila mediana Q2 = Me


Es un valor que está en el centro, y por lo tanto coincide con la mediana Q2= Me

c) Tercera cuartila o cuartila superior Q3 = Me

Es decir, que el 75% de las observaciones tienen valores inferiores o ¡guales a


Q3 y el 25% restante tienen valores superiores a Q3.
CALCULO DE LAS CUARTILAS
LAS DECILAS Dr
Las Decilas son estadígrafos de posición que dividen al total de las observaciones
en 10 partes iguales, tal que entre dos decilas consecutivas se encuentre no más
del 10% del total de las observaciones.
LAS QUINTILAS Kr
Las Quintilas son estadígrafos de posición que dividen al total de las observaciones en
5 partes iguales, es decir que entre dos quintilas consecutivas se encuentre no más
del 20% del total de las n observaciones.
Existen 4 quintilas:

Las fórmulas para calcular las quintilas con datos agrupados son similares a las
decilas, cuartilas, etc; por ejemplo para K3 se tiene:
LOS PERCENTILES o CENTILLAS: Pr
Los Percentiles son estadígrafos de posición que dividen a la totalidad de
observaciones en 100 partes iguales; Existen 99 percentiles, cuyo cálculo se realiza de
igual manera que la mediana, cuartilas, etc.
LA MODA o VALOR MODAL : Mo

La Moda (Mo), es «el valor de la variable que se presenta con más frecuencia en la
distribución». Es el valor de la variable que le corresponde la mayor frecuencia
absoluta (n¡ o f¡).
CALCULO DE LA MODA
a) Tablas sin Intervalos
Una vez agrupados los datos en una tabla de frecuencia, el valor modal será el
valor de la variable que más se repite o que tiene la mayor frecuencia. La mayor
frecuencia de denotará con nj.
b) Tablas con Intervalos
Cuando se tiene una tabla con intervalos, al igual que la mediana se determina el
Intervalo Modal (IMo), que es el intervalo que corresponde a la mayor
frecuencia (nj).
Nota
Relación Empinen entre Media, Mediana y Moda
En distribuciones de frecuencia unimodales, que son moderadamente
asimétricas, la posición relativa de la Media, Mediana y Moda es
generalmente como se indica a continuación:
LA MEDIA GEOMETRICA
La Media Geométrica se representa por «G» y se puede considerar:
a) Media Geométrica Simple.
b) Media Geométrica Ponderada.
MEDIA GEOMETRICA SIMPLE
Es la raíz enésima del producto de los n valores de una serie. Esto es, dado los n
valores Xv X2, X3, ... Xn

La media geométrica o promedio geométrico se usa para promediar razones,


proporciones o tasas de crecimiento.
MEDIA GEOMETRICA PONDERADA
La media geométrica ponderada es la raíz n-ésima del producto del valor
de la variable elevada a sus respectivas ponderaciones o frecuencias.
LA MEDIA ARMONICA
La media armónica se designa por «H». Es un estadígrafo de posición definido
como: «La media armónica de un conjunto de valores Xv X2,..., X es el inverso de
la media aritmética de los inversos de los valores considerados». También se
tiene media armónica simple y ponderada.

La media armónica se aplica cuando se presenta una relación entre variables


implícitas. Como por ejemplo productividad y tiempo.
Ejemplo
Un equipo de trabajadores textiles tienen que producir 180 metros de casimir; de los
cuales elaboran los primeros 90 metros con una productividad de 15 metros diarios,
y los 90 metros restantes lo hacen a razón de 20 metros por día. ¿Cuál es la
productividad diaria durante todo el trabajo? Se trata de hallar la media armónica.
ESTADIGRAFOS DE DISPERSION
En la descripción de un conjunto de datos ordenados no basta conocer sólo
sus estadígrafos de posición, para completar el análisis es necesario tener una
idea del grado de concentración o dispersión de las observaciones alrededor
de un valor central o de posición.
Estadígrafos de Dispersión.
Los Estadígrafos de Dispersión de mayor uso son:
a) Recorrido o rango (R)
b) Desviación media (D.M.)
c) Recorrido Semi Intercuartil (Q)
d) Varianza (s2)
e) Desviación Estándar o Típica (s)
f) Coeficiente de Variación (CV)
RECORRIDO O RANGO
El caso más simple para conocer la dispersión entre valores, es determinar la
diferencia o distancia entre el mayor y menor valor de una distribución. Esta
diferencia es el Recorrido (R) que se define :

a)Para datos originales o no agrupados : R = Xmáx - Xmin


Considerando los sueldos de 80 trabajadores se tiene:
R = 288 - 91 = 197 dólares.

b) Para datos agrupados en tablas con intervalo : R = Lm- L0 , donde


Lm = límite superior del último intervalo
L0 = límite o extremo inferior del primer intervalo
R = 300 - 90 = 210 dólares.
DESVIACION MEDIA
LA VARIANZA
Ejemplo
Hallarla desviación media del número de personas en 5 viviendas : 2,3,6,8,11.
Ejemplo
Calcular la desviación media, sabiendo que Y=174,40. Según los cálculos
indicados en la tabla siguiente, se tiene que:
RECORRIDO SEMI INTERCUARTIL
El recorrido semi intercuartil o desviación cuartil de un conjunto de datos
está definido por:

donde Q1 y Q3 son el primer y tercer cuartil de los datos. A veces se usa el


«Recorrido Intercuartil Q3 – Q1,» .
El recorrido semi-intercuartil o desviación cuartil, da una idea de la dispersión
del 50% de los datos centrales.
LA VARIANZA
En la perspectiva de construir un indicador que dimensione la desviación o
distancia promedio de los X¡ respecto a su media X.

Nota : La varianza es el estadígrafo de dispersión más importante, que


asociado a la media aritmética se constituyen en los pilares fundamentales
del edificio de la Estadística.
CALCULO DE LA VARIANZA
PROPIEDADES DE LA VARIANZA
COMPONENTES DE LA VARIANZA
LA DESVIACION ESTANDAR O TIPICA
«La desviación estándar o típica, se define como la raíz cuadrada de la varianza».

Ejemplo: Considerando los trabajadores de la Empresa Metal Mecánica, para la


distribución de sus sueldos se tiene:
COEFICIENTE DE VARIACION
Está definido por la expresión:

Es un estadígrafo que se utiliza para comparar dos o más distribuciones cuando


las unidades de medida de las variables están expresadas en diferentes unidades o
escalas de medida. Por ejemplo, comparar sueldos expresados en soles y en
dólares; extensiones o superficies medida en metros cuadrados y otro en pies
cuadrados, etc.
APLICACION DE LA DESVIACION ESTANDAR
La varianza y la desviación estándar son estadígrafos muy utilizados, sin embargo no
tienen una interpretación muy clara cuando se refiere a una sola distribución. Pero
hay que subrayar, que la media aritmética y la varianza constituyen los pilares que
sustentan todo el edificio estadístico.