Resumen Estadistica General Cecilia Rangel

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.
com
ESTADISTICA GENERAL
ul
tip
ly
.
co
DEFINICIONES BASICAS: poblacin (universo) coleccin o conjunto completo de observaciones de

inters. Parmetro es la medida descriptiva de una poblacin total de todas las observaciones de
inters. Muestra es una pequea porcin o parte representativa de una poblacin. Es el
subconjunto de la poblacin seleccionado cientficamente. Estadstico es la medida descriptiva de
una muestra. Es a la muestra lo que el parmetro es a la poblacin. Es una estimacin del
parmetro. Variable es la caracterstica de la muestra o poblacin que se est observando. La
variable puede ser cuantitativa (expresadas numricamente) o cualitativa (se mide de manera no
numrica). Las variables pueden ser continuas (puede tomar cualquier valor dentro de un rango
dado. Generalmente resulta de la medicin) o discretas (limitada a ciertos valores, generalmente
nmeros enteros. Resultan de la enumeracin o el conteo. No tiene valores fraccionarios).
on
tu
na
.m
La estadstica descriptiva es el proceso de recolectar, agrupar y presentar datos para describirlos

fcil y rpidamente. La estadstica inferencial usa muestras para inferir o concluir sobre la
poblacin de la que es parte la muestra. El error de muestreo es la diferencia entre el estadstico
de la muestra usada para calcular el parmetro de la poblacin y el valor real pero desconocido del
parmetro. El error de muestreo se causa por el azar en el proceso de muestreo (seleccin de
elementos atpicos que no representan a la poblacin) o por sesgo muestral (tendencia a
seleccionar determinados elementos en vez de otros.
yc
ESCALAS DE MEDIDA: medicin en escala nominal es cuando se usan nombres para establecer
categoras para registrarlas separadamente. No indica orden de preferencia (ej. hombre, mujer).
Medicin en escala ordinal muestra un ordenamiento secuencial de datos segn algn criterio
particular (ej. bueno, mejor). Medicin en escala de intervalo mide variables en forma numrica
y tienen rango u ordenamiento (como las ordinales), pero la diferencia entre valores es
importante, por lo que cobra significacin las operaciones de suma y resta (ej. Escala de
temperatura). El valor de cero se selecciona arbitrariamente, ya que es un punto de referencia
arbitrario. Medicin en escala de razn es un sistema numrico con cero significativo. Las
operaciones de multiplicacin y divisin toman interpretacin racional. La diferencia entre valores
tambin es importante (ej. Costos). Estas escalas incrementan en complejidad.
dm
Objetivo 1 Datos estadsticos cualitativos y cuantitativos
w
w
.a
Todos los trabajos de estadstica comienzan por la recoleccin de datos, que es un procedimiento
tedioso y que revela poco por s sola. Para determinar la significancia, los datos de agrupan y
organizan usando 1) tablas de frecuencia. 2) grficos. 3) tablas de contingencia y diagrama de
tallo y hoja.
METODOS DE AGRUPACION DE DATOS: 1) serie ordenada: enumera observaciones en orden

ascendente o descendente. Tiene utilidad limitada. 2) distribucin o tabla de frecuencias: ordena
los datos divididos en clases, registrando el nmero de observaciones en cada clase. Usa una
variable a la vez. Cada clase tiene un lmite inferior y uno superior. Los valores exactos de estos
lmites son muy importantes. Si los datos son continuos, es necesario permitir valores faccionarios,
cuando sea apropiado. El nmero de clases es arbitrario, entre 5 y 20 clases. Una forma de
aproximar el nmero de clases que se necesitan es a travs de 2c n, donde n es el nmero de
observaciones y c, el nmero de clases (la menor potencia a la cual se eleva 2 para que el
resultado sea igual o mayor que el nmero de observaciones). El punto medio de la clase (M) es el
promedio de los lmites superior e inferior de la clase. El intervalo de clase es el rango de valores
Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com
on
tu
na
.m
ul
tip
ly
.
co
dentro de una clase. Se determina restando superior (o inferior) de una clase del lmite (inferior
(superior) de la siguiente. Los intervalos de clase deben ser iguales para facilitar la interpretacin
estadstica. A veces se usan intervalos abiertos, que no especifican un lmite inferior para la
primera clase o superior, para la ltima. El intervalo de clase tambin se puede calcular usando IC
= (valor ms grande valor ms pequeo) / numero deseado de clases. Una variante es la
frecuencia acumulada. La frecuencia acumulada ms de resta las frecuencias acumulativas de la
frecuencia de una clase para obtener la frecuencia acumulativa de la siguiente clase. La frecuencia
acumulada menor que se construye sumando las frecuencias de cada clase para obtener la de la
siguiente clase. Una distribucin de frecuencia relativa expresa la frecuencia dentro de una clase
como un porcentaje del nmero total de observaciones, dividiendo la frecuencia entre el nmero
de observaciones y multiplicando el resultado por 100. 3) tablas de contingencia: compara 2
variables, poniendo una en la parte superior y la otra, abajo. 4) grficos: a) histograma: coloca las
clases de una distribucin de frecuencia en el eje horizontal y las frecuencias en el eje vertical. b)
diagrama de barras: puede mostrar cantidades o porcentajes para 2 o ms valores sobre el eje
vertical. c) diagrama circular: muestra proporciones (porcentajes) relativas de una variable. d)
grafico de mximos-mnimos y al cierre: muestra el valor ms alto, el ms bajo y el de cierre de
instrumentos financieros. e) diagrama de tallo y hoja: hace que el histograma proporcione una
impresin visual rpida sobre el nmero de observaciones de cada clase, dividiendo cada
observacin en 2 partes (tallo y hoja), separadas por una recta vertical. El tallo y la hoja estn
colocados en series ordenadas. Si un tallo tiene un gran nmero de observaciones en su hoja, se
divide en 2 tallos independientes, en su punto medio. La unidad de hoja expresa donde colocar el
decimal.
En http://www.estadisticaparatodos.es/taller/graficas/tallos_hojas.html
7.32
7.37
7.50
8.02
8.05
8.20
8.24
8.32
8.37
8.51
9.02
9.07
9.24
9.32
9.37
10.02
10.07
10.32
10.37
11.02
w
w
.a
5.03
6.02
6.18
6.37
6.48
6.55
7.02
7.07
7.20
7.25
dm
yc
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultneamente una

distribucin de frecuencias de la variable y su representacin grfica. Para construirlo basta
separar en cada dato el ltimo dgito de la derecha (que constituye la hoja) del bloque de cifras
restantes (que formar el tallo). Esta representacin de los datos es semejante a la de un
histograma pero adems de ser fciles de elaborar, presentan ms informacin que estos.
Ejemplo: Horarios de trenes: Originalmente el horario ocupa una tabla de 10 filas y 9 columnas
ms una columna "viuda" con el tren de las 22:38. Un total de 91 campos con formato hh.mm
cada uno, 455 caracteres.
11.07
11.32
11.37
12.02
12.07
12.32
12.37
13.02
13.07
13.20
13.32
13.37
13.50
14.02
14.07
14.20
14.32
14.37
14.50
15.02
15.07
15.20
15.32
15.37
15.50
16.02
16.07
16.20
16.32
16.37
16.50
17.02
17.07
17.20
17.32
17.37
17.50
18.02
18.07
18.20
18.32
18.37
18.50
19.02
19.07
19.20
19.32
19.37
19.50
20.02
20.07
20.20
20.32
20.37
20.50
21.02
21.07
21.20
21.32
21.37
22.38
En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separacin | y los
minutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce fcilmente de
la longitud de las filas y es, adems, muy fcil ver en qu minutos de cada hora pasan tpicamente
los mismos.
05
06
07
08
|
|
|
|
03
02 18 37 48 55
02 07 20 25 32 37 50
02 05 20 24 32 37 51

07
07
07
07
07
07
07
07
07
07
07
07
07
24
32
32
32
20
20
20
20
20
20
20
20
20
32
37
37
37
32
32
32
32
32
32
32
32
32
37
37
37
37
37
37
37
37
37
37
50
50
50
50
50
50
50
50
02
02
02
02
02
02
02
02
02
02
02
02
02
38
co
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ul
tip
ly
.
09
10
11
12
13
14
15
16
17
18
19
20
21
22
Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede
reducir an ms el tamao del grfico, sin perder informacin y ganando en claridad.
|
|
|
|
|
|
|
|
|
03
02
02
02
02
02
02
02
38
18
07
05
07
07
07
07
37
20
20
24
32
20
20
48
25
24
32
37
32
32
on
tu
na
.m
05
06
07
08
09
10 11 12
13 14 15 16 17 18 19 20
21
22
55
32 37 50
32 37 51
37
37 50
37
Al final tenemos 59 campos de 2 dgitos, 118 caracteres ms los separadores, es decir 4 veces
menos dgitos que con el horario original, menos espacio y ms claridad. Esto nos da idea de que
una disposicin apropiada de los datos puede ser doblemente informativa y que la representacin
grfica puede contribuir enormemente a la percepcin de patrones y a la comprensin de la
naturaleza de los fenmenos.
Objetivo 2 Medidas descriptivas asociadas a un conjunto de datos
yc
MEDIA O MEDIDA DE LA TENDENCIA CENTRAL: ubica e identifica el punto alrededor del cual se
centran los datos.
.a
dm
MEDIA (ARITMETICA): medida de la tendencia central, tambin llamada promedio. La media de

una poblacin es (mu). Si ha N observaciones en el conjunto de datos de la poblacin, la media
es: = (X1 + X2 + .. XN) / N = Xi / N. La media de una muestra es X barra que, con n observaciones
en el conjunto de datos de la muestra se calcula con: X barra = (X1 + X2 + + Xn) / n = Xi / n.
w
w
MEDIANA: media posicional porque queda en la mitad del conjunto de datos despus de que las
observaciones se han colocado en serie ordenada. Si el conjunto de datos tiene un nmero impar
de observaciones, la posicin de la mediana es (n + 1) / 2. Si el conjunto de datos tiene un nmero
par de observaciones, se debe promediar los valores medios.
MODA: (observacin modal) es la observacin que ocurre con ms frecuencia.
MEDIA PONDERADA: se calcula con Xw = XW / W, donde Xw es la media ponderada; X es la

observacin individual y W es el peso o ponderacin asignada a cada observacin. Por lo tanto,
toma en cuenta la importancia relativa de las observaciones.
MEDIA GEOMETRICA: muestra cambios porcentuales en una serie de nmeros positivos.

Proporciona una media precisa de un cambio porcentual promedio en una serie de nmeros. Se
calcula tomando la raz ensima del producto de n nmeros, MG = X1 X2 Xn. Se usa para
calcular la tasa de crecimiento porcentual promedio de algunas series a travs del tiempo. Para tal
fin, primero se calcula el porcentaje de cambio entre una fecha y la inmediatamente anterior.
Luego se calcula la media geomtrica de estos porcentajes, tomando la raz elevada al nmero de
observaciones (fechas). Esta tasa de crecimiento se compara con los datos reales de incremento.
ul
tip
ly
.
co
COMPARACION ENTRE MEDIA, MEDIANA Y MODA: la media es la medida ms comn de tendencia

central, pero se afecta por valores extremos o atpicos y, a diferencia de la mediana, puede ser
sesgada por observaciones muy por encima o por debajo de ella. Por ejemplo, en la muestra 4, 5,
6, 6, 7, 8, tanto la media como la mediana es 6, pero si el valor final fuera 80 en vez de 8, la media
seria 18 mientras que la mediana seguira siendo 6, ya que no se afecta por valores extremos. La
moda tampoco se afecta por valores extremos, pero su uso se hace confuso cuando no hay moda
o los datos son bimodales. La medida usada depende de la naturaleza de los datos o la forma de
usarlos.
on
tu
na
.m
MEDIDAS DE DISPERSION: punto hasta el cual las observaciones individuales se esparcen

alrededor de su punto central (media). Miden la dispersin o la variabilidad de los datos y reflejan
la tendencia de las observaciones individuales a desviarse de dicho punto central.
RANGO O RECORRIDO: la ms simple e intil. Diferencia entre la observacin ms alta y la ms
baja. Es fcil de calcular.
yc
VARIANZA DE UNA POBLACION: promedio de las desviaciones respecto a su media elevadas al

cuadrado. 1) se encuentra la cantidad por la cual cada observacin se desva de la media. 2) se
elevan al cuadrado las desviaciones. 3) se haya la media de las desviaciones al cuadrado. Entonces,
la varianza de una poblacin 2 = (X1 )2 + (X2 )2 + (XN )2 / N = (Xi )2 / N, donde es la
media poblacional. Sin embargo, la varianza es un nmero muy grande respecto a las
observaciones.
dm
DESVIACION ESTANDAR DE UNA POBLACION: se calcula con = 2, es decir, la raz cuadrada de

la varianza. Como se trabaja con una poblacin, la media es y no X barra, y el nmero de
observaciones es N y no n. En finanzas, se usa como medida de riesgo de inversin. Entre mayor
sea la desviacin estndar de las tasas de rendimiento de una inversin, mayor ser su riesgo.
w
w
.a
VARIANZA Y DESVIACION ESTANDAR DE UNA MUESTRA: se calcula con s2 = (Xi X barra)2 / n 1

y s = s2. n 1 es el grado de libertad. Una muestra generalmente esta menos dispersa que la
poblacin de la que se tom; entonces, la desviacin estndar de la muestra tiende a ser menor
que la de la poblacin. Por eso se usa n 1.
MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSION PARA DATOS AGRUPADOS: aproximaciones

que se usan cuando no se cuenta con observaciones individuales.
MEDIA: para calcularla, se supone que las observaciones en cada clase son iguales al punto medio
de la clase y se tiene en cuenta la frecuencia y los puntos medios de cada clase. El clculo es Xg
barra = fM / n = fM / f, donde f es la frecuencia o nmero de observaciones en cada clase, M
es el punto medio y n es el tamao de la muestra, que es igual a las frecuencias sumadas en todas
las clases.

MEDIANA: si se han registrado los datos en una tabla de frecuencia, no pueden colocarse en un
arreglo ordenado para calcular la mediana. Primero se calcula la clase mediana de la distribucin
de frecuencia, que es la clase cuya frecuencia acumulada es mayor o igual a n/2. La mediana se
calcula con = Lmd + [{(n/2) F} /fmd ] C, donde Lmd es el lmite inferior de la clase de la mediana, F es
la frecuencia acumulada de la clase que antecede a la clase de la mediana, fmd es la frecuencia de
la clase de la mediana y C es el intervalo de clase de la clase de la mediana.
ul
tip
ly
.
co
MODA: como es por definicin la observacin que ocurre con mayor frecuencia, se halla en la
clase que tiene la frecuencia ms alta (clase modal). La frmula es: Moda = Lmo + [ D / (Db + Da) ] C,
donde Lmo es el lmite inferior de la clase modal, Da es la diferencia entre la frecuencia de la clase
modal y la clase que antecede, Db es la diferencia entre la frecuencia de la clase modal y la clase
que sigue y C es el intervalo de la clase modal.
VARIANZA Y DESVIACION ESTANDAR: si los datos estn agrupados en una tabla de frecuencia, la
varianza y la desviacin estndar se calculan con: s2 = fM2 nX2 barra/ n 1 y s = s2.
on
tu
na
.m
OTRAS MEDIDAS DE DISPERSION: cada conjunto de datos tiene 3 cuartiles que lo dividen en 4
partes iguales. El primer cuartil es el valor debajo del cual clasifica el 25% de las observaciones y
sobre el cual se ubica el 75% restante. El segundo cuartil es la mitad, por lo que es lo mismo que la
mediana. El tercer cuartil es el opuesto del primero. Los deciles separan un conjunto de datos en
10 subconjuntos iguales y los percentiles en 100 partes. El primer decil es la observacin debajo
de la cual est el 10% de las observaciones, mientras que el 90% restante se encuentra encima de
El primer decil es la observacin debajo de la cual est el 10% de las observaciones, mientras que
el 90% restante se encuentra encima de l. El primer percentil es el valor debajo del cual est el
1% de las observaciones y encima est el 99% restante. El percentil (P) y su ubicacin (L) en un
arreglo ordenado se identifica mediante subndices. La ubicacin se calcula con Lp = (n + 1) (P /
100), donde Lp es la ubicacin del percentil deseado en la serie ordenada, n es el nmero de
observaciones y P es el percentilo deseado.
w
w
.a
dm
yc
El rango o recorrido intercuartilico (interquartile range RIQ) es la diferencia entre el tercer

cuartil y el primer cuartil (P75 P25). La mitad de las observaciones estn dentro de este rango,
consta del 50% de la mitad de las observaciones y corta el 25% inferior y el 25% superior de los
puntos de datos. No se influencia por datos extremos.
USOS FRECUENTES DE LA DESVIACION ESTANDAR: la desviacin estndar es til para describir un

conjunto de datos al medir el grado de dispersin de las observaciones individuales alrededor de
su media. Teorema de Chebyshev: para todo conjunto de datos, por lo menos 1 1/K2 % de las
observaciones estn dentro de K desviaciones estndar de la media, donde K es cualquier nmero
mayor que 1. Regla emprica: una distribucin normal es una con datos continuos (no discretos),
que produce una curva simtrica en forma de campana. La media, mediana y moda son iguales. La
mitad de las observaciones est por encima de la media y la otra mitad est por debajo de esta.
co
on
tu
na
.m
ul
tip
ly
.
La regla emprica dice que su se incluyen todas las observaciones que estn a una desviacin
estndar de la media (una por encima y una por debajo), estas sern el 68,3% de todas las
observaciones, independientemente de cul es la media ni la desviacin estndar. La regla
emprica tambin dice que 95,5% de las observaciones estn dentro de ms o menos 2
desviaciones estndar de la media y 99,7% de las observaciones estn dentro de ms o menos 3
desviaciones de la media.
w
w
.a
dm
yc
Si las observaciones estn altamente dispersas, la curva en forma de campana se aplana y esparce,
sin perder la media. Sesgo: son distribuciones sesgadas, no normales. El pico ser la moda, pero la
media se afecta por observaciones extremas y es halada en la direccin del sesgo, ms que la
mediana. El sesgo se mide a travs del coeficiente de sesgo de Pearson P = [3(X barra mediana)]
/ s. Si P < 0, los datos estn sesgados a la izquierda, si P > 0, el sesgo es hacia la derecha y si P = 0,
los datos estn distribuidos normalmente.
Coeficiente de variacin: cuando se consideran 2 o ms distribuciones que tienen medias

significativamente diferentes, o que estn en unidades distintas, no se puede opinar acerca de la
dispersin usando la desviacin estndar. Entonces se usa el coeficiente de variacin para
determinar el grado de dispersin de un conjunto de datos relativo a su media. Se calcula
dividiendo la desviacin estndar de una distribucin entre su media y multiplicando el resultado
por 100.
Objetivo 3 Probabilidad asociada a un evento dentro de un experimento aleatorio
PROBABILIDAD: posibilidad numrica de que ocurra un evento. La probabilidad de un evento se

mide con valores entre 0 y 1, para menor a mayor probabilidad. La probabilidad de certeza es 1
(evento cierto); la de una imposibilidad es 0 (evento imposible). Entonces, 0 P (Ei) 1, con Ei
siendo algn evento. El proceso que produce un evento es un experimento, que es toda accin
bien definida que conlleva a un resultado nico bien definido. El conjunto de todos los posibles
resultados de un experimento es el espacio muestral SS. La probabilidad de que al menos uno de
los eventos que estn en el espacio muestral ocurra es igual a 1 ( P (Ei) = 1).
ul
tip
ly
.
co
INTRODUCCION A LA PROBABILIDAD: 1) modelo de frecuencia relativa (a posteriori): usa datos

observados empricamente, registra la frecuencia con que ha ocurrido algn evento y estima la
probabilidad de que el evento ocurra nuevamente. La probabilidad se estima con P = nmero de
vences que ha ocurrido el evento en el pasado / nmero total de operaciones. Debe tener un
nmero adecuado de observaciones y contar con datos pasados. 2) modelo subjetivo: establece la
probabilidad de un evento en base a la mejor evidencia disponible. Se usa cuando se desea asignar
probabilidad a un evento que nunca ha ocurrido. 3) modelo clsico (a priori): relacionado a
apuestas y juegos de azar. Se determina con P = nmero de formas en las que puede ocurrir un
evento / nmero total de posibles resultados. Implica la determinacin de la probabilidad de algn
evento a priori.
.a
dm
yc
on
tu
na
.m
UNIONES, INTERSECCIONES Y RELACIONES ENTRE EVENTOS: un conjunto es toda reunin de

objetos. Cada conjunto tiene numerosos elementos y es posible que algunos elementos
pertenezcan a ms de 1 conjunto, por lo que comprenden la interseccin entre dichos conjuntos.
Un diagrama de Venn muestra la relacin entre conjuntos. Para que la interseccin ocurra, los
eventos A y B deben ocurrir, por lo que se llaman eventos no disyuntos (ocurren antes que la
interseccin). La unin de A y B es el conjunto de todos los elementos que estn en A o en B. Se
dice que 2 eventos son mutuamente excluyentes si la ocurrencia de uno prohbe la ocurrencia del
otro.
w
w
Los eventos colectivamente exhaustivos constan de todos los posibles resultados de un

experimentos y constituyen su espacio muestral. Su probabilidad combinada es igual a 1. Eventos
independientes son aquellos en los que la ocurrencia de uno no tiene nada que ver con la
ocurrencia del otro. En un conjunto finito, 2 eventos son independientes si y solo si se realiza el
reemplazo. Eventos complementarios son aquellos en los que si uno no ocurre, el otro debe
ocurrir. Estos eventos son, entonces, colectivamente exhaustivos. El complemento de A es no A
y se escribe con una barra arriba.
TABLAS DE CONTINGENCIA Y TABLAS DE PROBABILIDAD: suponiendo la siguiente tabla hipottica
de contingencia:

Genero Personal Linea Auxiliar Total
Hombres
120 150
30 300
Mujeres
50 140
10 200
Total
170 290
40 500
Linea
150/500=0.30
140/500=0,28
290/500=0,58
Auxiliar
30/500=0.06
10/500=0,02
40/500=0,08
Total
300/500=0.60
200/500=0,40
500/500=1,00
co
Personal
120/500=0,24
50/500=0,10
170/500=0,34
ul
tip
ly
.
Genero
Hombres
Mujeres
Total
La tabla de probabilidad se crea tomando el total de los trabajadores (500):
Los valores en las mrgenes de la tabla se llaman probabilidades marginales (totales). Las
probabilidades conjuntas en las celdas de la estructura principal de la tabla muestran la
probabilidad de la interseccin entre 2 eventos (cifras hombre/mujer que no son totales estn
dentro de la tabla).
PROBABILIDAD CONDICIONAL: probabilidad de que el evento A ocurrir si el evento B ocurri. Se
on
tu
na
.m
denota con P (A B) y se calcula con la interseccin de A y B dividido entre la probabilidad de B.

esto es igual a P(A)P(BA) / P(B).
REGLAS DE PROBABILIDAD: 1) regla de la multiplicacin: se usa para determinar la probabilidad de

la interseccin entre A y B. para tal fin se multiplican sus probabilidades, y esto depende de si A y
B son dependientes o independientes. Los eventos A y B son independientes si P(A) = (A B),
entonces la probabilidad de estos eventos independientes es su interseccin, que es igual a P(A) x
P(B). Si los eventos son dependientes, entonces se debe considerar el primer evento al determinar
la probabilidad del segundo, es decir, la probabilidad del evento B depende de que A haya
ocurrido. Segn el principio de probabilidad condicional, la probabilidad de los 2 eventos
dm
yc
conjuntos A y B es su interseccin, que es igual a P(A) x P(B A). 2) Regla de la adicin: se usa para
determinar la probabilidad de la unin de A o B, es decir, P(A) + P(B) menos la interseccin de A y
B, esto es porque los evento A y B no son mutuamente excluyentes y as se evita el doble conteo.
Si A y B son mutuamente excluyentes, la interseccin de A y B es cero, y la formula se reduce a
P(A) + P(B).
w
w
.a
TECNICAS DE CONTEO: al seleccionar los elementos en los subconjuntos, si el orden de las

selecciones es suficiente para constituir otro subconjunto, se hacen permutaciones. Si 2
subconjuntos son iguales ya que se reordenaron los mismos elementos, entonces hay
combinaciones. Dado un conjunto de n elementos, el nmero de permutaciones cada uno de
tamao r es nPr = n! / (n r)!, donde n! (n factorial) es el producto de todos los nmeros de 1 a n.
el factorial de cero es 1. El nmero de combinaciones de n elementos tomados r a la vez es nCr = n!
/ r! (n r)! Ni las permutaciones ni las combinaciones permiten que se seleccione un elemento
ms de una vez. Para la duplicacin, se usa el mtodo de escogencia mltiple de conteo, nMr = nr.
Si se escoge un elemento de 2 o ms conjuntos, se usa el proceso de multiplicacin, que requiere
que se multiplique el nmero de elementos en cada conjunto.
Objetivo 4 Reglas de probabilidades en eventos estadsticamente dependientes e
independientes

Estudiadas las 2 reglas de probabilidad (multiplicacin y adicin), se estudia el Teorema de Bayes.
Este teorema dice que P(A B) = interseccin A y B / intersecciones de A y su evento condicional
(D) ms B y su evento condicional (D) = P(A) x P(D A) / P(A) x P(D A) + P(B) x P(D B).
En http://www.ugr.es/~jsalinas/bayes.htm
En http://www.vitutor.com/pro/2/a_17.html
ul
tip
ly
.
co
El teorema de Bayes parte de una situacin en la que es posible conocer las probabilidades de que
ocurran una serie de sucesos Ai. A esta se aade un suceso B cuya ocurrencia proporciona cierta
informacin, porque las probabilidades de ocurrencia de B son distintas segn el suceso Ai que
haya ocurrido. Conociendo que ha ocurrido el suceso B, la frmula del teorema de Bayes nos
indica como modifica esta informacin las probabilidades de los sucesos Ai.
dm
yc
on
tu
na
.m
Ej e m p l o : El 2 0 % de l o s e m pl e a d o s d e u n a e m p r e s a s o n i n ge n i e r o s y o tr o 2 0 %
s o n e co n o m i s t a s . El 7 5 % d e l o s i n g e n ie r os o cu p a n u n p u e s to d i r e cti v o y e l
5 0 % d e l o s e co n o m i s t a s t a m b i n , m i e n tra s q u e l o s n o i n g e ni e r o s y l o s n o
e co n o m i s t a s s o l a m e n t e e l 2 0 % o cu p a u n p u e s to d i r e ct i v o . C u l e s l a
p r o b a b i l i d a d d e q u e u n e m p l e a d o d i r e cti v o e l e g i d o a l a z a r s e a i n ge n i e r o ?
Objetivo 5 Valor esperado y varianza de una variable aleatoria, dada su distribucin de

probabilidades
w
w
.a
VARIABLE ALEATORIA: aquella cuyo valor es el resultado de un evento aleatorio. La variable

aleatoria discreta asume solo ciertos valores, generalmente nmeros enteros y resulta
principalmente del conteo. La variable aleatoria continua resulta de la medicin y puede
tomar cualquier valor dentro de un rango dado, incluso fracciones.
DISTRIBUCION DE PROBABILIDAD: despliegue de todos los posibles resultados de un

experimento junto con las probabilidades de cada resultado.
MEDIA Y VARIAZA DE DISTRIBUCIONES DISCRETAS: la media aritmtica de una distribucin de
probabilidad es el valor esperado E(X) y se halla multiplicando cada resultado posible por su
probabilidad y sumando los resultados = E(X) = [ (x)P(xi)], donde xi son los resultados
individuales. La varianza de una distribucin de probabilidad es el promedio de las
desviaciones al cuadrado con respecto de la media 2 = [(xi )2 P(xi)]. Mide la diferencia

entre cada uno de los resultados y su media. Las diferencias se elevan al cuadrado y se
multiplican por sus probabilidades, para luego sumar los resultados. La desviacin estndar es
= 2. La varianza y la desviacin estndar miden la dispersin de los resultados alrededor de
su media. La varianza se expresa en unidades al cuadrado y la desviacin estndar, en las
mismas unidades que la variable aleatoria.
Objetivo 6 Distribuciones discretas en el clculo de probabilidades
ul
tip
ly
.
co
DISTRIBUCION BINOMIAL: distribucin discreta de probabilidad. Sus propiedades son: 1) tiene

2 posibles resultados, xito y fracaso, mutuamente excluyentes. 2) la probabilidad de xito es
constante de un ensayo al siguiente, igual que la probabilidad de fracaso 1 . 3) la
probabilidad de un xito en un ensayo es totalmente independiente de cualquier otro ensayo.
4) el experimento puede repetirse muchas veces. La frmula binomial es P8x) = {n! / [x!(n
x)!]} x(1 )n-x = nCx()x(1-)n-x. Las probabilidades para diferentes valores de , x y n estn
tabuladas en la tabla binomial, que es limitada ya que los valores de llegan solo hasta 0,5.
on
tu
na
.m
MEDIA Y VARIANZA DE UNA DISTRIBUCION BINOMIAL: como hay solo 2 resultados posibles, la
media y varianza son ms fciles de calcular con media = E(X) = = n y varianza = 2 = n(1
).
DISTRIBUCIONES BINOMIALES ACUMULADAS:
De http://sauce.pntic.mec.es/~jpeo0002/Archivos/PDF/T03.pdf
yc
Es posible que nos pidan no solo la probabilidad de que ocurran un cierto nmero de xitos en
concreto, sino que ocurran como mucho k xitos o preguntas similares. Podran pedirnos:
a) Cual es la probabilidad de que aprueben como mucho 2 alumnos?
Si xito = aprobar y fracaso = suspender, p= 0,7 y q = 0,3, entonces nos piden p(X 2). En este
caso, basta pensar en que para que aprueben 2 alumnos como mucho, puede que aprueben 2, 1 o
ninguno, es decir:
p(X 2) = p(X = 0)+p(X = 1)+p(X = 2) =0_ 0001 + 0_0012 + 0_01 = 0_1013
b) Cual es la probabilidad de que aprueben entre 3 y 6 alumnos (inclusive)?
w
w
.a
dm
Del mismo modo:

p(3 X 6) = p(X = 3)+p(X = 4)+p(X = 5)+p(X = 6) = 0_0467 + 0_1361 + 0_2541 + 0_2965 = 0_7334
Hemos de tener en cuenta que para la distribucin binomial, en las tablas solo se admiten valores
hasta n=10 (10 repeticiones del experimento). Para valores de n > 10, inevitablemente hemos de
utilizar la formula. Ejemplo:
Los alumnos de cierta clase se encuentran en una proporcin del 67% que estudian ingls y el
resto francs. Tomamos una muestra de 15 alumnos de la clase, calcular:
a) Probabilidad de que al menos encontremos tres alumnos de ingls.
b) Probabilidad de que los 15 alumnos estudien ingls.
c) Probabilidad de que estudien ingles entre 7 y 10 alumnos.
Si xito = estudiar ingls, p = 0,67 y fracaso = estudiar francs, q = 1-0,67 = 0,33. Manejamos por
tanto una Bin(15;0,67)
a) p(X 3) = p(X = 3)+p(X = 4)+p(X = 5)+p(X = 6)+. . .+ p(X = 15).
Una opcin es calcular estas 13 probabilidades y sumarlas. Como hay que aplicar la frmula para
calcular cada una, la tarea se puede hacer bastante larga. Otra opcin, ms sencilla, es pasar al
complementario. El complementario de encontrar al menos 3 alumnos de ingls es encontrar
como mucho 2 alumnos de ingls, p(X 2). Es decir,
p(X 3) = 1 p(X <3) = 1 p(X 2) = 1 (p(X = 0)+p(X = 1)+p(X = 2))

Y solo tenemos que calcular 3 probabilidades: p(X = 0) 0 , p(X=1) = 0000001, p(X=2) = 0000026.
Por lo cual,
p(X 3) = 1 (0 + 0_000001 + 0_000026) = 1 0_000027 = 0_999973
b) p(X=15) = 00025 (aplica la formula).
c) p(7 X 10) = p(X = 7)+p(X = 8)+p(X = 9)+p(X = 10) = 0_0549 + 0_1114 + 0_1759 + 0_2142 =
0_5564.
ul
tip
ly
.
co
USO DEL COMPUTADOR: Excel calcula las probabilidades binomiales en una hoja de trabajo. Se
coloca el cursor en la celda para respuesta > insertar > funcin > estadsticas (categora de
funciones) > distr.binom (nombre de funcin) > aceptar. En la casilla num-xito se coloca el
nmero de xitos; en la de ensayos, el nmero de ensayos; en la de prob-xito las
probabilidades de xito y en la casilla acumulado se coloca falso > aceptar. La respuesta
aparecer en la casilla de valor, en la esquina superior derecha y en la celda seleccionada en la
hoja de trabajo. Si se ingres verdadero en la casilla de acumulado, la probabilidad acumulada
para los xitos se reportara como tal y como aparece en la tabla correspondiente.
on
tu
na
.m
DISTRIBUCION HIPERGEOMETRICA: se usa si la poblacin es pequea y ocurre muestreo sin

reemplazo, es finita y conocida, y contiene una proporcin relativamente grande de la poblacin,
de manera que la probabilidad de xito sea perceptiblemente alterada de una seleccin a la
siguiente. Esta distribucin es til cuando la probabilidad de un xito no es constante. Se calcula
con P(x) = (rCx N-rCn-x) / NCn, en donde N es el tamao de la poblacin, r es el nmero de xitos de la
poblacin, n es el tamao de la muestra y x es el nmero de xitos de la muestra. En Excel, se
calcula con la funcin distr.hipergeon.
dm
yc
DISTRIBUCION DE POISSON: es una variable aleatoria discreta til para medir la frecuencia relativa
de un evento sobre una unidad de tiempo o espacio. Supone que la probabilidad de ocurrencia del
evento es constante para 2 intervalos cualesquiera de tiempo o espacio y que la ocurrencia del
evento en un intervalo es independiente de la ocurrencia de otro intervalo cualquiera. Se expresa
con P(x) = (xe-) / x!, donde x es el nmero de veces en que ocurre el evento, es el numero
promedio de ocurrencias por unidad de tiempo o espacio y e es la base del logaritmo natural
(2,71828). Los valores de esta frmula estn tabulados. Tambin se puede usar Excel para este
clculo usando la funcin poisson.
Objetivo 7 Clculo de probabilidades usando la tabla de distribucin normal
w
w
.a
DISTRIBUCION NORMAL: continua, no discreta. Se usa para reflejar la distribucin de variables,

tales como estatura, peso, distancia, etc., que son divisibles infinitamente, que resultan de las
mediciones. La forma y posicin de una distribucin normal estn determinadas por su media y
su desviacin estndar . La regla emprica especifica que, sin considerar el valor de la media o la
desviacin estndar, 68,3% de todas las observaciones est a 1 desviacin estndar de la media,
95,5% de todas las observaciones est a 2 desviaciones estndar de la media y 99,7% de todas las
observaciones est a 3 desviaciones estndar de la media.
co
ul
tip
ly
.
Puede existir un nmero infinito de distribuciones normales posibles, cada una con su propia
media y desviacin estndar. Como no se puede analizar un nmero tan grande de probabilidades,
las distribuciones normales se convierten a una distribucin normal estndar a travs de la
frmula de conversin (formula-Z), Z = (X ) / , donde Z es la desviacin normal y X algn valor
especifico de la variable aleatoria. Despus de la conversin, la media es 0 y la desviacin estndar
es 1. La desviacin normal es el nmero de desviaciones estndar a las que una observacin esta
de la media.
on
tu
na
.m
CALCULO DE PROBABILIDADES CON LA DESVIACION NORMAL: estandarizar una distribucin

normal permite determinar la probabilidad de que ocurra cierto evento, hallando el rea que est
debajo de la curva. El rea relacionada con un valor dado de Z esta tabulada. Esta tabla da el rea
bajo la curva desde la media hasta algn valor por encima o por debajo de esta. Entre mayor sea el
valor de Z, menor ser el rea en la cola de la distribucin. La tabla muestra que a medida que Z se
aproxima a 3,99, el rea abarcada es virtualmente el 50% por encima de la media, dejando poco
en la cola (la probabilidad es aproximadamente 0). Como la distribucin normal es continua, existe
un nmero infinito de valores que puede tomar X, por lo que incluir el valor de x no incrementa la
posibilidad de que un evento ocurra, P(X < x) = P(X x).
yc
CALCULO DE UN VALOR x A PARTIR DE UNA PROBABILIDAD CONOCIDA: se conoce el rea y se

busca el valor correspondiente para X. Se consulta la tabla y se usa la frmula para calcular X por
despeje. Z ser negativo si se trabaja con el rea izquierda de la media.
w
w
.a
dm
APROXIMACION NORMAL A LA DISTRIBUCION BINOMIAL: la distribucin binomial involucra una

serie de n ensayos que pueden producir 1 xito o 1 fracaso. Las respuestas se consiguen en la
tabla binomial o con la formula, pero si n es muy grande, se usa la distribucin normal para
aproximar la distribucin binomial, que es precisa si n 5 y n(1 ) 5 y si est prximo a 0,50.
Primero se halla la media y la desviacin estndar de la distribucin normal usando = n y
= n(1 ). Debido a que existe un nmero infinito de valores posibles en una distribucin
normal o cualquier distribucin continua, la probabilidad de que la variable aleatoria sea
exactamente igual a algn valor especifico es cero. Cuando se usa una distribucin continua para
estimar una variable aleatoria discreta, se ajusta con el factor de correccin de continuidad, que
requiere que se trate la probabilidad como un intervalo de 0,5 por encima y por debajo del valor
especifico discreto dado. Luego se usa la frmula de distribucin normal Z para hallar X.
Objetivo 8 Clculo de probabilidades asociadas a las distribuciones uniforme y exponencial
DISTRIBUCION EXPONENCIAL: distribucin contina que mide el paso de tiempo entre ocurrencias.
Si el nmero de ocurrencias tiene distribucin de Poisson, el lapso entre las ocurrencias se
distribuye exponencialmente. La probabilidad de que el lapso sea menor o igual a cierta cantidad x
es P(X x) = 1 e-t, donde t es el lapso de tiempo, e es la base del logaritmo natural (2,71828) y
ul
tip
ly
.
co
es la tasa promedio de ocurrencia. La curva en continuo descenso muestra que con el paso del
tiempo X aumenta y la probabilidad disminuye.
En Excel, se calcula con insertar > funcin > estadsticas > Distr.exp. Se ingresa el valor ajustado de
t en la casilla x, la media en la casilla de lambda y verdadero en la casilla de acum, para que
la respuesta aparezca en la casilla de valor.
on
tu
na
.m
DISTRIBUCION UNIFORME: las probabilidades de todos los resultados son las mismas. La media o
valor esperado de una distribucin uniforme est a mitad de camino entre sus 2 extremos, y se
calcula con E(x) = = (a + b) / 2, donde a y b son los valores ms bajo y alto, respectivamente.
w
w
.a
dm
yc
La varianza se calcula con 2 = (b a)2 / 12. El rea total bajo la curva, como para todas las
distribuciones de probabilidad, debe ser igual a 1 o 100%. Ya que el rea es altura por ancho,
despejando, altura = rea / ancho = 1 / (b a), donde (b a) es el ancho o rango de la distribucin.
La probabilidad de que una observacin caiga entre 2 valores X1 y X2 es P(X1 X X2) = (X2 X1) /
rango.

Resumen Estadistica General Cecilia Rangel

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Resumen Estadistica General Cecilia Rangel

Caricato da

Copyright:

Formati disponibili

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.

DEFINICIONES BASICAS: poblacin (universo) coleccin o conjunto completo de observaciones de

La estadstica descriptiva es el proceso de recolectar, agrupar y presentar datos para describirlos

Objetivo 1 Datos estadsticos cualitativos y cuantitativos

METODOS DE AGRUPACION DE DATOS: 1) serie ordenada: enumera observaciones en orden

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultneamente una

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

MEDIA (ARITMETICA): medida de la tendencia central, tambin llamada promedio. La media de

MEDIA PONDERADA: se calcula con Xw = XW / W, donde Xw es la media ponderada; X es la

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

MEDIA GEOMETRICA: muestra cambios porcentuales en una serie de nmeros positivos.

COMPARACION ENTRE MEDIA, MEDIANA Y MODA: la media es la medida ms comn de tendencia

MEDIDAS DE DISPERSION: punto hasta el cual las observaciones individuales se esparcen

VARIANZA DE UNA POBLACION: promedio de las desviaciones respecto a su media elevadas al

DESVIACION ESTANDAR DE UNA POBLACION: se calcula con = 2, es decir, la raz cuadrada de

VARIANZA Y DESVIACION ESTANDAR DE UNA MUESTRA: se calcula con s2 = (Xi X barra)2 / n 1

MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSION PARA DATOS AGRUPADOS: aproximaciones

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

El rango o recorrido intercuartilico (interquartile range RIQ) es la diferencia entre el tercer

USOS FRECUENTES DE LA DESVIACION ESTANDAR: la desviacin estndar es til para describir un

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Coeficiente de variacin: cuando se consideran 2 o ms distribuciones que tienen medias

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

PROBABILIDAD: posibilidad numrica de que ocurra un evento. La probabilidad de un evento se

INTRODUCCION A LA PROBABILIDAD: 1) modelo de frecuencia relativa (a posteriori): usa datos

UNIONES, INTERSECCIONES Y RELACIONES ENTRE EVENTOS: un conjunto es toda reunin de

Los eventos colectivamente exhaustivos constan de todos los posibles resultados de un

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

La tabla de probabilidad se crea tomando el total de los trabajadores (500):

denota con P (A B) y se calcula con la interseccin de A y B dividido entre la probabilidad de B.

REGLAS DE PROBABILIDAD: 1) regla de la multiplicacin: se usa para determinar la probabilidad de

TECNICAS DE CONTEO: al seleccionar los elementos en los subconjuntos, si el orden de las

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Objetivo 5 Valor esperado y varianza de una variable aleatoria, dada su distribucin de

VARIABLE ALEATORIA: aquella cuyo valor es el resultado de un evento aleatorio. La variable

DISTRIBUCION DE PROBABILIDAD: despliegue de todos los posibles resultados de un

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Objetivo 6 Distribuciones discretas en el clculo de probabilidades

DISTRIBUCION BINOMIAL: distribucin discreta de probabilidad. Sus propiedades son: 1) tiene

Del mismo modo:

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

p(X 3) = 1 p(X <3) = 1 p(X 2) = 1 (p(X = 0)+p(X = 1)+p(X = 2))

DISTRIBUCION HIPERGEOMETRICA: se usa si la poblacin es pequea y ocurre muestreo sin

DISTRIBUCION NORMAL: continua, no discreta. Se usa para reflejar la distribucin de variables,

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

CALCULO DE PROBABILIDADES CON LA DESVIACION NORMAL: estandarizar una distribucin

CALCULO DE UN VALOR x A PARTIR DE UNA PROBABILIDAD CONOCIDA: se conoce el rea y se

APROXIMACION NORMAL A LA DISTRIBUCION BINOMIAL: la distribucin binomial involucra una

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Resumen elaborado por Cecilia Rangel para www.admycontuna.multiply.com

Potrebbero piacerti anche