Sei sulla pagina 1di 112

Estadística

Concepto de Estadística

¡ Se refiere a un conjunto de
métodos para manejar la
obtención, presentación y
análisis de observaciones
numéricas.
Concepto de Estadística

¡ Sus fines son describir al conjunto


de datos obtenidos y tomar
decisiones o realizar
generalizaciones acerca de las
características de todas las
observaciones bajo consideración.
Áreas que conforman a la Estadística

¡ Estadística Descriptiva (Deductiva):


es la encargada de la organización,
condensación, presentación de los
datos en tablas y gráficos y del
cálculo de medidas numéricas que
permitan estudiar los aspectos más
importantes de los datos.
Áreas que conforman a la Estadística

¡ Estadística Inferencial o Inferencia


Estadística: está definida por un
conjunto de técnicas, mediante las
cuales se hacen generalizaciones o
se toman decisiones en base a
información parcial obtenida
mediante técnicas descriptivas.
Áreas de Aplicación de la Estadística

¡ El uso de la Estadística es muy amplio.


Resulta difícil nombrar un área en la cual no
se emplee.
¡ Los métodos estadísticos han encontrado
aplicación en:
l Gobierno
l Negocios
l Ciencias Sociales
l Ingeniería
l Ciencias Física y Naturales
l Control de Calidad
l Procesos de Manufactura
l Muchos otros campos de la actividad intelectual.
Áreas de Aplicación de la Estadística

¡ Esto se debe a la creciente facilidad


con la cual se pueden manejar
grandes cantidades de datos
numéricos, debido al uso de …
Conceptos de Población y Muestra

¡ Población: es la colección de todas


las posibles mediciones u
observaciones que pueden hacerse
de una variable bajo estudio.
Conceptos de Población y Muestra

¡ Se clasifica en dos categorías:


l Finita: es aquella que incluye una
cantidad limitada contable de
observaciones, individuos o medidas.
Siempre que sea posible alcanzar
(contar) el número total de todas las
posibles mediciones, se considera como
finita la población.
Conceptos de Población y Muestra
l Infinita: es aquella que incluye un gran
conjunto de observaciones o
mediciones que no pueden alcanzarse
por conteo. Al menos, hipotéticamente,
no existe límite en cuanto al número de
observaciones que el experimento
puede generar.
Conceptos de Población y Muestra

¡ Muestra:
l es un conjunto de mediciones u
observaciones tomadas a partir de una
población.
l es un subconjunto de la población.
Conceptos de Población y Muestra

¡ Muestra aleatoria: se considera


aleatoria siempre y cuando cada
observación, medición o individuo
de la población tenga la misma
probabilidad de ser seleccionado.
Tipos de datos y escalas de medida

¡ Variables:
l son las características o lo que se
estudia de cada individuo de la muestra.
Ej: sexo, edad, peso, estatura, color de
ojos, estado civil, temperatura,
cantidad de nacimientos, presión,
grosor, diámetro, ...
¡ Datos:
l son los valores que toma la variable en
cada caso.
Tipos de datos
¡ Cualitativos: son datos que solo toman
valores asociados a las cualidades o
atributos, clasificándolos en una de varias
categorías, es decir, no son valores
numéricos. Ej:
l Sexo: f/m.
l Hábito de fumar: Fumador/No fumador
l Color de ojos: negro, azul, marrón, …
l Religión: católica, evangélica, …
l Estado civil: soltero, casado, divorciado,…
Tipos de datos
¡ Cuantitativos: provienen de variables que
pueden medirse, cuantificarse o
expresarse numéricamente. Ejemplos:
l Peso
l Edad
l Estatura
l Presión
l Humedad
l Intensidad de un sismo
l Cantidad de hermanos
Medidas de tendencia central:
Media aritmética, geométrica y
ponderada, Mediana, Moda
Media aritmética

La media aritmética es el resultado de


sumar todos los elementos del
conjunto y dividir por el número de
ellos:

x1  x2    xn
media aritmética 
n
Otra formula para media aritmética

X
 x
n
Ejemplo

De los siguientes datos hallar la


media aritmética.

10, 8, 6, 5, 10, 9

10  8  6  5  10  9
X 8
6
Caracteristicas de la media
aritmetica
1.- Es una medida totalmente numérica o sea sólo puede
calcularse en datos de características cuantitativas.
2.- En su cálculo se toman en cuenta todos los valores de
la variable.
3.- Es lógica desde el punto de vista algebraico.
4.- La media aritmética es altamente afectada por valores
extremos.
5.- La media aritmética es única, o sea, un conjunto de
datos numéricos tiene una y solo una media aritmética.
Ejemplo de valor extremo
1 1
2 3
3 5
4 2
5 6
6 8
7 13
8 8
9 13
10 125,295
sumatoria
media
Media ponderada

Esta media se usa cuando el peso que


tiene cada uno de los datos de la
muestra es diferente, se calcula de la
siguiente manera:
Ejemplo
Determine el promedio de calificacion que
obtuvo un alumno de Ingenieria Informatica
de 1er semestre si las calificaciones son:

MATERIA CREDITOS CALIFICACION

ADMINISTRACION PARA INFORMATICA 4 95


CALCULO DIFERENCIAL 5 95
FUNDAMENTOS DE PROGRAMACION 5 95
DESARROLLO SUSTENTABLE 6 70
TALLER DE ETICA 4 100
FUNDAMENTOS DE INVESTIGACION 4 96
CALCULANDO

MATERIA CREDITOS CALIFICACION XY

ADMINISTRACION PARA INFORMATICA 4 95 380


CALCULO DIFERENCIAL 5 95 475
FUNDAMENTOS DE PROGRAMACION 5 95 475
DESARROLLO SUSTENTABLE 6 70 420
TALLER DE ETICA 4 100 400
FUNDAMENTOS DE INVESTIGACION 4 96 384
CALCULANDO

MATERIA CREDITOS CALIFICACION XY


ADMINISTRACION PARA INFORMATICA 4 95 380
CALCULO DIFERENCIAL 5 95 475
FUNDAMENTOS DE PROGRAMACION 5 95 475
DESARROLLO SUSTENTABLE 6 70 420
TALLER DE ETICA 4 100 400
FUNDAMENTOS DE INVESTIGACION 4 96 384

CALIFICACION XY CREDITOS
SUMA 551 2534 28

MEDIA 91.83 DIFERENCIA

MEDIA P 90.5 1.33


Sí comparamos este promedio con el que se
obtiene usando simplemente la media
aritmética, nos damos cuenta de que este
último es mayor, por no tomar en cuenta
el peso o número de créditos que aporta cada
materia a la carrera que se estudia, el
promedio de esta persona es menor al de la
media aritmética debido a que obtiene una
calificación baja en desarrollo sustentable
que es una de las materias que aporta
más créditos.
Media Geométrica
La media geométrica de un conjunto
de datos es el resultado de
multiplicarlos entre si y aplicar la
enésima raíz.
Cabe destacar que la media
geométrica necesita que no haya
números negativos o que estos sean
un número par. Si los valores
contienen un número impar de
números negativos estaríamos
intentando aplicar una raíz a un
número negativo, no pudiendo
encontrar solución entre los números
reales.
Ejemplo

Calcular la media geométrica del


número de hermanos que tienen Berta,
Borja y Diana si tienen 2,2,4 y
respectivamente.
Ejemplo

Calcular la media geométrica del


número de hermanos que tienen Berta,
Borja y Diana si tienen 2,2,4 y
respectivamente.
Mediana

La mediana de un conjunto de datos,


es el valor que queda al centro de los
datos ordenados de mayor a menor o
de menor a mayor.
De acuerdo al número de casos o
datos, hay dos formas para calcular la
mediana: para número impar y para
número par.
Número impar de datos ordenados de
menor a mayor o de mayor a menor: la
mediana es el valor que queda justo al
centro.

Observa el ejemplo. Nuestros datos


son:

3-7-6-3-7-5-4-4-6-4
Los ordenaremos de menor a mayor:
3-4-4-4-5-6-6-7-7

El valor que queda al centro es el 5 ,


porque hay 4 datos antes y 4 datos
después de él, entonces la mediana es
5.
3-4-4-4-5-6-6-7-7
Número de datos par: en este caso
de busca la media aritmética entre los
dos valores centrales.

Por ejemplo, si nuestros datos son:


2-5-3-4-3-5
Ordenados quedan:
2-3-3-4-5-5
Los valores centrales son 3 y 4. Su
media aritmética es:

3 4
X  3.5
2

3.5 corresponde a la mediana de


nuestros datos.
Moda
La moda de un conjunto de datos
numéricos es el valor que más se
repite, es decir, el que tiene el mayor
número de frecuencias absolutas.
Ejemplo

Horas de Frecuencia
clases
7 2
8 5
9 3
10 1
La moda es 8 hrs. de clases, porque son 5
colegios que tiene ese n° de datos.
¿Qué pasa si hay más de un dato con la
frecuencia mayor
Ejemplo

Horas de Frecuencia
clases
7 2
8 5
9 5
10 1
Hay dos valores con frecuencia 5. Entonces,
decimos que hay más de una moda y en
este ejemplo es 8 y 9 hrs. de clases.
La moda es una medida de tendencia
central muy importante, porque
permite planificar, organizar y
producir para satisfacer las
necesidades de la mayoría.
Ejercicio

Del siguiente conjunto de datos,


obtener:
1. Media aritmética

2. Media ponderada

3. Media geométrica

4. Mediana

5. Moda
# Datos # Datos
1 2 14 6
2 4 15 3
3 6 16 4
4 4 17 8
5 7 18 3
6 3 19 5
7 5 20 6
8 2 21 8
9 7 22 9
10 8 23 11
11 5 24 2
12 8 25 3
13 5
Resultados

Media A 5.36
Media G 4.80674628
Media P N/A
Mediana 5
Moda 3, 5, 8
Medidas de dispersión, Varianza,
Desviación estándar, Desviación
media, Desviación mediana,
Rango.
Las medidas de dispersión, también
llamadas medidas de variabilidad,
muestran la variabilidad de una
distribución, indicando por medio de un
número, si las diferentes puntuaciones
de una variable están muy alejadas de
la media.
Cuanto mayor sea ese valor, mayor
será la variabilidad, cuanto menor sea,
más homogénea será a la media. Así
se sabe si todos los casos son
parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una
distribución tiene respecto de su media, se
calcula la media de las desviaciones de las
puntuaciones respecto a la media aritmética.
Pero la suma de las desviaciones es siempre
cero, así que se adoptan dos clases de
estrategias para resolver este problema. Una
es tomando las desviaciones en valor
absoluto (Desviación media) y otra es
tomando las desviaciones al cuadrado
(Varianza).
VARIANZA POBLACIONAL.
VARIANZA MUESTRAL
Ejemplo

En la distribución 4, 6, 6, 7, 9, 11, 13

La media = 8
Ejemplo

En la distribución 4, 6, 6, 7, 9, 11, 13

La media = 8

La varianza
Desviación estandar

La desviación entandar o desviación


típica, es la raíz cuadrada de la
varianza.

2
x 2
s s 
n
Desviación estandar

La desviación estándar es la mas


importante de todas las medidas de
dispersión ya que incluye mas o menos
el 68% de los términos de una
distribución normal, ademas , por sus
propiedades algebraicas se utiliza con
facilidad en el análisis estadístico.
Ejemplo

En la distribución 4, 6, 6, 7, 9, 11, 13

La media = 8
La varianza = 8.57
La desviación estandar:
Ejemplo

En la distribución 4, 6, 6, 7, 9, 11, 13

La media = 8
La varianza = 8.57
La desviación estandar:

s  8.57
s  2.93
Desviación media

La desviación media, D.m., es un


promedio de los valores absolutos de
las desviaciones, de cada elemento, xi,
de la distribución respecto a su media
Ejemplo

En la distribución 4, 6, 6, 7, 9, 11, 13

La media = 8
La desviación media:
Ejemplo

En la distribución 4, 6, 6, 7, 9, 11, 13

La media = 8
La desviación media:

2.57
desviación mediana

Dado un conjunto de datos, x1, ..., xn


su desviación mediana d.m., está
definida por :

donde m representa la mediana de los


datos.
desviación mediana

Puede verse entonces que, cuanto


mayor sea la dispersión existente entre
los datos, tanto mayor tenderá a ser el
promedio del valor absoluto de las
diferencias de los datos, respecto de la
mediana muestral.
desviación mediana
Rango

Dato mayor menos dato menor.

En la distribución 4, 6, 6, 7, 9, 11, 13

Rango=
Rango

Dato mayor menos dato menor.

En la distribución 4, 6, 6, 7, 9, 11, 13

Rango=13 - 4 = 9
Ejercicio

Del siguiente conjunto de datos


determine:

¡ Varianza
¡ Desviación estandar
¡ Desviación media
¡ Desviación mediana
¡ Rango
# Datos
1 2
2 3
3 4
4 5
5 7
6 4
7 8
8 2
9 1
10 4
11 6
12 4
13 6
14 8
15 9
16 11
17 2
18 9
19 3
20 7
Parámetros para datos
agrupados.
Distribución de frecuencia para
datos no Agrupados:
Es aquella distribución que indica las
frecuencias con que aparecen los datos
estadísticos, desde el menor de ellos hasta el
mayor de ese conjunto sin que se haya hecho
ninguna modificación al tamaño de las
unidades originales. En estas distribuciones
cada dato mantiene su propia identidad
después que la distribución de frecuencia se
ha elaborado. En estas distribuciones los
valores de cada variable han sido solamente
reagrupados, siguiendo un orden lógico con
sus respectivas frecuencias.
Distribución de frecuencia de clase
o de datos Agrupados:

Es aquella distribución en la que la


disposición tabular de los datos
estadísticos se encuentran ordenados
en clases y con la frecuencia de cada
clase; es decir, los datos originales de
varios valores adyacentes del
conjunto se combinan para formar un
intervalo de clase.
La razón fundamental para utilizar la
distribución de frecuencia de clases es
proporcionar mejor comunicación
acerca del patrón establecido en los
datos y facilitar la manipulación de los
mismos. Los datos se agrupan en
clases con el fin de sintetizar, resumir,
condensar o hacer que la información
obtenida de una investigación sea
manejable con mayor facilidad.
Componentes de una distribución
de frecuencia de clase

1.- Rango o Amplitud total


(recorrido).- Es el límite dentro del
cual están comprendidos todos los
valores de la serie de datos, en otras
palabras, es el número de diferentes
valores que toma la variable en un
estudio o investigación dada.
Componentes de una distribución
de frecuencia de clase

2.- Clase o Intervalo de clase.- Son


divisiones o categorías en las cuales
se agrupan un conjunto de datos
ordenados con características
comunes. En otras palabras, son
fraccionamientos del rango o
recorrido de la serie de valores para
reunir los datos que presentan
valores comprendidos entre dos
limites.
Para organizar los valores de la serie de datos
hay que determinar un número de clases que
sea conveniente. En otras palabras, que ese
número de intervalos no origine un número
pequeño de clases ni muy grande. Un número
de clases pequeño puede ocultar la naturaleza
de los valores y un número muy alto puede
provocar demasiados detalles como para
observar alguna información de gran utilidad
en la investigación.
Tamaño de los Intervalos de Clase
Los intervalos de clase pueden ser de
tres tipos, según el tamaño que estos
presenten en una distribución de
frecuencia: a) Clases de igual
tamaño, b) clases desiguales de
tamaño y c) clases abiertas.
Punto medio o Marca de clase

El centro de la clase, es el valor de los


datos que se ubica en la posición
central de la clase y representa todos
los demás valores de esa clase. Este
valor se utiliza para el calculo de la
media aritmética.
Marca de clase= (Li+Ls )/2
Frecuencia de clase

La frecuencia de clase se le denomina


frecuencia absoluta y se le designa
con las letras fi. Es el número total de
valores de las variables que se
encuentran presente en una clase
determinada, de una distribución de
frecuencia de clase.
Frecuencia Relativa

La frecuencia relativa es aquella que


resulta de dividir cada uno de los fi de
las clases de una distribución de
frecuencia de clase entre el número
total de datos(N) de la serie de
valores. Estas frecuencias se designan
con las letras fr; si cada fr se
multiplica por 100 se obtiene la
frecuencia relativa porcentual (fr %).
Frecuencias acumuladas

Las frecuencias acumuladas de una


distribución de frecuencias son aquellas
que se obtienen de las sumas sucesivas
de las fi que integran cada una de las
clases de una distribución de frecuencia
de clase, esto se logra cuando la
acumulación de las frecuencias se realiza
tomando en cuenta la primera clase hasta
alcanzar la ultima. Las frecuencias
acumuladas se designan con las letras fa.
Frecuencia acumulada relativa
La frecuencia acumulada relativa es
aquella que resulta de dividir cada una
de las fa de las diferentes clases que
integran una distribución de frecuencia
de clase entre el número total de datos
(N) de la serie de valores, estas
frecuencias se designan con las letras
far. Si las far se multiplican por 100 se
obtienen las frecuencias acumuladas
relativas porcentuales y las mismas se
designan así: far %.
Pasos para agrupar datos.

a.Determinar el rango o recorrido de


los datos.

Rango = Valor mayor – Valor menor

b.Establecer el número de clases (k)


en que se van a agrupar los datos
tomando como base par a e sto la
siguiente tabla.
Tamaño de muestra o No. Número de clases
De datos
Menos de 50 5a7
50 a 99 6 a 10
100 a 250 7 a 12
250 en adelante 10 a 20

El uso de esta tabla es uno de los criterios que se puede


tomar en cuenta para establecer el número de clases en
las que se van a agrupar los datos, aunque no es el unico
criterio.
Determinar la amplitud de clase para
agrupar (C)

Rango
C
k
Formar clases y agrupar datos.
Para formar la primera clase, se pone
como límite inferior de la primera clase
un valor un poco menor que el dato
menor encontrado en la muestra y
posteriormente se suma a este valor C,
obteniendo de esta manera el límite
superior de la primera clase, luego se
procede a obtener los límites de la
clase siguiente y así sucesivamente.
Ejemplo:

Los siguientes datos se refieren al


diámetro en pulgadas de un engrane.

6.75 7.00 7.00 6.75 6.50 6.50 7.15 7.00


6.50 6.50 6.50 6.25 6.25 6.50 6.65 7.00
7.25 6.70 6.00 6.75 6.00 6.75 6.75 7.10
7.00 6.70 6.50 6.75 6.25 6.65 6.75 7.10
7.25 6.75 6.25 6.25 7.00 6.75 7.00 7.15

Agrupe datos, considere k = 6.


6.75 7.00 7.00 6.75 6.50 6.50 7.15 7.00
6.50 6.50 6.50 6.25 6.25 6.50 6.65 7.00
7.25 6.70 6.00 6.75 6.00 6.75 6.75 7.10
7.00 6.70 6.50 6.75 6.25 6.65 6.75 7.10
7.25 6.75 6.25 6.25 7.00 6.75 7.00 7.15

LI LS F Fa Mc Fr Fra

Total
Medidas de tendencia
central para datos
agrupados
Media para datos agrupados

Cuando se tiene como única


información una tabla de frecuencias
agrupada, la media se puede calcular
considerando los puntos medios (PM)
de los intervalos y las frecuencias
observadas (f), como lo expresa la
siguiente fórmula:
Moda para datos agrupados

La Moda para datos agrupados


corresponde a la marca de clase o PM
de la clase que contenga la frecuencia
mayor.
Frecuencia
Marca de Frecuencia
LI LS Frecuencia Relativa PM*F
clase relativa
acumulada

5.97 6.18 2 6.075 5% 5%


6.19 6.4 5 6.295 13% 18%
6.41 6.62 7 6.515 18% 35%
6.63 6.84 13 6.735 33% 68%
6.85 7.06 7 6.955 18% 85%
7.07 7.28 6 7.175 15% 100%
Total 40 100%

MEDIA MUESTRAL

MODA
Medidas de dispersión
para datos agrupados
Rango para datos agrupados

Es el mismo procedimiento para datos


en bruto, tomando como dato menor
el limite inferior de la 1ra clase y
como dato mayor el limite superior de
la ultima clase.
Varianza muestral para datos
agrupados.

El procedimiento es muy similar al de


datos no agrupados. Solo que se usa
el punto medio como valor
representativo del intervalo y se
multiplica por su frecuencia
respectiva.
Desviación estandar

La desviacion estandar es igual que


en datos no agrupados.
Frecue
ncia
Frecuen
Frecuen Marca de Relativ (PM- F(PM-
LI LS cia PM*F PM-X
cia clase a X)^2 X)^2
relativa
acumu
lada

5.97 6.18 2 6.075 5% 5%


6.19 6.4 5 6.295 13% 18%
6.41 6.62 7 6.515 18% 35%
6.63 6.84 13 6.735 33% 68%
6.85 7.06 7 6.955 18% 85%
7.07 7.28 6 7.175 15% 100
%
Tota 40 100%
l

Varianza

desviacion est.
Representacion Grafica
Tres herramientas que son de utilidad
para representar graficamente una
distribución de frecuencias son lo
histogramas, los poligonos y las
ojivas o tambien conocidas como
poligono de frecuencias acumuladas.
Histograma

Es una representacion gráfica en


donde las clases se señalan en un eje
horizontal y las frecuencias de clase
en el eje vertical.

Las barras que forman estan


completamente unidas unas a otras a
diferencia de las graficas de barra que
pueden presentarse separadas.
Histograma

Los histogramas pueden ser de


frecuencia real, frecuencia relativa o
frecuencia porcentual. Esta grafica
inicia con el valor numerico del limite
inferior de la primera clase.
Histograma
Histograma
Histograma
Poligono

Consiste en segmentos de recta que


conectan los puntos localizados por la
intereccion de los punto medios de
clase y las frecuencia de clase. Los
puntos medios de cada clase se
marcan en la escala del eje X y las
frecuencias de clase en el eje Y.
Poligono

Se inicia el trazo de la grafica medio


punto atras del limite inferior de la
primera clase y concluye medio punto
adelante del limite superior de la
ultima clase.

Un poligono crea la impresion de que


las frecuencias cambian mas
suvemente. En el histograma los
cambios son abruptos.
Poligono
Poligono
Poligono
Ojiva (poligono de frecuencias
acumuladas

Es una grafica lineal construida a


partir de las frecuencias acumuladas
o relativas acumuladas. Las ojivas
ofrecen un medio gráfico para
interpolar o aproximar el número o
porcentaje de observaciones menores
o iguales que un valor especifico.
Ojiva

Para trazar una distribucion de


frecuencias acumulativas, se ubica el
limite superior de cada clase en una
escala a lo largo del eje X y las
correpondiente frecuencias
acumulativas a lo largo del eje Y. La
primera marca se ubica en el limite
inferior de la primera clase con una
frecuencia cero.
Ojiva
Ojiva
Ojiva
Ejercicio 1