Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
com
ESTADISTICA GENERAL
ul
tip
ly
.
co
on
tu
na
.m
yc
ESCALAS DE MEDIDA: medicin en escala nominal es cuando se usan nombres para establecer
categoras para registrarlas separadamente. No indica orden de preferencia (ej. hombre, mujer).
Medicin en escala ordinal muestra un ordenamiento secuencial de datos segn algn criterio
particular (ej. bueno, mejor). Medicin en escala de intervalo mide variables en forma numrica
y tienen rango u ordenamiento (como las ordinales), pero la diferencia entre valores es
importante, por lo que cobra significacin las operaciones de suma y resta (ej. Escala de
temperatura). El valor de cero se selecciona arbitrariamente, ya que es un punto de referencia
arbitrario. Medicin en escala de razn es un sistema numrico con cero significativo. Las
operaciones de multiplicacin y divisin toman interpretacin racional. La diferencia entre valores
tambin es importante (ej. Costos). Estas escalas incrementan en complejidad.
dm
w
w
.a
Todos los trabajos de estadstica comienzan por la recoleccin de datos, que es un procedimiento
tedioso y que revela poco por s sola. Para determinar la significancia, los datos de agrupan y
organizan usando 1) tablas de frecuencia. 2) grficos. 3) tablas de contingencia y diagrama de
tallo y hoja.
on
tu
na
.m
ul
tip
ly
.
co
dentro de una clase. Se determina restando superior (o inferior) de una clase del lmite (inferior
(superior) de la siguiente. Los intervalos de clase deben ser iguales para facilitar la interpretacin
estadstica. A veces se usan intervalos abiertos, que no especifican un lmite inferior para la
primera clase o superior, para la ltima. El intervalo de clase tambin se puede calcular usando IC
= (valor ms grande valor ms pequeo) / numero deseado de clases. Una variante es la
frecuencia acumulada. La frecuencia acumulada ms de resta las frecuencias acumulativas de la
frecuencia de una clase para obtener la frecuencia acumulativa de la siguiente clase. La frecuencia
acumulada menor que se construye sumando las frecuencias de cada clase para obtener la de la
siguiente clase. Una distribucin de frecuencia relativa expresa la frecuencia dentro de una clase
como un porcentaje del nmero total de observaciones, dividiendo la frecuencia entre el nmero
de observaciones y multiplicando el resultado por 100. 3) tablas de contingencia: compara 2
variables, poniendo una en la parte superior y la otra, abajo. 4) grficos: a) histograma: coloca las
clases de una distribucin de frecuencia en el eje horizontal y las frecuencias en el eje vertical. b)
diagrama de barras: puede mostrar cantidades o porcentajes para 2 o ms valores sobre el eje
vertical. c) diagrama circular: muestra proporciones (porcentajes) relativas de una variable. d)
grafico de mximos-mnimos y al cierre: muestra el valor ms alto, el ms bajo y el de cierre de
instrumentos financieros. e) diagrama de tallo y hoja: hace que el histograma proporcione una
impresin visual rpida sobre el nmero de observaciones de cada clase, dividiendo cada
observacin en 2 partes (tallo y hoja), separadas por una recta vertical. El tallo y la hoja estn
colocados en series ordenadas. Si un tallo tiene un gran nmero de observaciones en su hoja, se
divide en 2 tallos independientes, en su punto medio. La unidad de hoja expresa donde colocar el
decimal.
En http://www.estadisticaparatodos.es/taller/graficas/tallos_hojas.html
7.32
7.37
7.50
8.02
8.05
8.20
8.24
8.32
8.37
8.51
9.02
9.07
9.24
9.32
9.37
10.02
10.07
10.32
10.37
11.02
w
w
.a
5.03
6.02
6.18
6.37
6.48
6.55
7.02
7.07
7.20
7.25
dm
yc
13.32
13.37
13.50
14.02
14.07
14.20
14.32
14.37
14.50
15.02
15.07
15.20
15.32
15.37
15.50
16.02
16.07
16.20
16.32
16.37
16.50
17.02
17.07
17.20
17.32
17.37
17.50
18.02
18.07
18.20
18.32
18.37
18.50
19.02
19.07
19.20
19.32
19.37
19.50
20.02
20.07
20.20
20.32
20.37
20.50
21.02
21.07
21.20
21.32
21.37
22.38
En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separacin | y los
minutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce fcilmente de
la longitud de las filas y es, adems, muy fcil ver en qu minutos de cada hora pasan tpicamente
los mismos.
05
06
07
08
|
|
|
|
03
02 18 37 48 55
02 07 20 25 32 37 50
02 05 20 24 32 37 51
24
32
32
32
20
20
20
20
20
20
20
20
20
32
37
37
37
32
32
32
32
32
32
32
32
32
37
37
37
37
37
37
37
37
37
37
50
50
50
50
50
50
50
50
02
02
02
02
02
02
02
02
02
02
02
02
02
38
co
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ul
tip
ly
.
09
10
11
12
13
14
15
16
17
18
19
20
21
22
Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede
reducir an ms el tamao del grfico, sin perder informacin y ganando en claridad.
|
|
|
|
|
|
|
|
|
03
02
02
02
02
02
02
02
38
18
07
05
07
07
07
07
37
20
20
24
32
20
20
48
25
24
32
37
32
32
on
tu
na
.m
05
06
07
08
09
10 11 12
13 14 15 16 17 18 19 20
21
22
55
32 37 50
32 37 51
37
37 50
37
Al final tenemos 59 campos de 2 dgitos, 118 caracteres ms los separadores, es decir 4 veces
menos dgitos que con el horario original, menos espacio y ms claridad. Esto nos da idea de que
una disposicin apropiada de los datos puede ser doblemente informativa y que la representacin
grfica puede contribuir enormemente a la percepcin de patrones y a la comprensin de la
naturaleza de los fenmenos.
Objetivo 2 Medidas descriptivas asociadas a un conjunto de datos
yc
MEDIA O MEDIDA DE LA TENDENCIA CENTRAL: ubica e identifica el punto alrededor del cual se
centran los datos.
.a
dm
w
w
MEDIANA: media posicional porque queda en la mitad del conjunto de datos despus de que las
observaciones se han colocado en serie ordenada. Si el conjunto de datos tiene un nmero impar
de observaciones, la posicin de la mediana es (n + 1) / 2. Si el conjunto de datos tiene un nmero
par de observaciones, se debe promediar los valores medios.
MODA: (observacin modal) es la observacin que ocurre con ms frecuencia.
ul
tip
ly
.
co
on
tu
na
.m
yc
dm
w
w
.a
MEDIA: para calcularla, se supone que las observaciones en cada clase son iguales al punto medio
de la clase y se tiene en cuenta la frecuencia y los puntos medios de cada clase. El clculo es Xg
barra = fM / n = fM / f, donde f es la frecuencia o nmero de observaciones en cada clase, M
es el punto medio y n es el tamao de la muestra, que es igual a las frecuencias sumadas en todas
las clases.
ul
tip
ly
.
co
MODA: como es por definicin la observacin que ocurre con mayor frecuencia, se halla en la
clase que tiene la frecuencia ms alta (clase modal). La frmula es: Moda = Lmo + [ D / (Db + Da) ] C,
donde Lmo es el lmite inferior de la clase modal, Da es la diferencia entre la frecuencia de la clase
modal y la clase que antecede, Db es la diferencia entre la frecuencia de la clase modal y la clase
que sigue y C es el intervalo de la clase modal.
VARIANZA Y DESVIACION ESTANDAR: si los datos estn agrupados en una tabla de frecuencia, la
varianza y la desviacin estndar se calculan con: s2 = fM2 nX2 barra/ n 1 y s = s2.
on
tu
na
.m
OTRAS MEDIDAS DE DISPERSION: cada conjunto de datos tiene 3 cuartiles que lo dividen en 4
partes iguales. El primer cuartil es el valor debajo del cual clasifica el 25% de las observaciones y
sobre el cual se ubica el 75% restante. El segundo cuartil es la mitad, por lo que es lo mismo que la
mediana. El tercer cuartil es el opuesto del primero. Los deciles separan un conjunto de datos en
10 subconjuntos iguales y los percentiles en 100 partes. El primer decil es la observacin debajo
de la cual est el 10% de las observaciones, mientras que el 90% restante se encuentra encima de
El primer decil es la observacin debajo de la cual est el 10% de las observaciones, mientras que
el 90% restante se encuentra encima de l. El primer percentil es el valor debajo del cual est el
1% de las observaciones y encima est el 99% restante. El percentil (P) y su ubicacin (L) en un
arreglo ordenado se identifica mediante subndices. La ubicacin se calcula con Lp = (n + 1) (P /
100), donde Lp es la ubicacin del percentil deseado en la serie ordenada, n es el nmero de
observaciones y P es el percentilo deseado.
w
w
.a
dm
yc
co
on
tu
na
.m
ul
tip
ly
.
La regla emprica dice que su se incluyen todas las observaciones que estn a una desviacin
estndar de la media (una por encima y una por debajo), estas sern el 68,3% de todas las
observaciones, independientemente de cul es la media ni la desviacin estndar. La regla
emprica tambin dice que 95,5% de las observaciones estn dentro de ms o menos 2
desviaciones estndar de la media y 99,7% de las observaciones estn dentro de ms o menos 3
desviaciones de la media.
w
w
.a
dm
yc
Si las observaciones estn altamente dispersas, la curva en forma de campana se aplana y esparce,
sin perder la media. Sesgo: son distribuciones sesgadas, no normales. El pico ser la moda, pero la
media se afecta por observaciones extremas y es halada en la direccin del sesgo, ms que la
mediana. El sesgo se mide a travs del coeficiente de sesgo de Pearson P = [3(X barra mediana)]
/ s. Si P < 0, los datos estn sesgados a la izquierda, si P > 0, el sesgo es hacia la derecha y si P = 0,
los datos estn distribuidos normalmente.
ul
tip
ly
.
co
.a
dm
yc
on
tu
na
.m
w
w
Linea
150/500=0.30
140/500=0,28
290/500=0,58
Auxiliar
30/500=0.06
10/500=0,02
40/500=0,08
Total
300/500=0.60
200/500=0,40
500/500=1,00
co
Personal
120/500=0,24
50/500=0,10
170/500=0,34
ul
tip
ly
.
Genero
Hombres
Mujeres
Total
Los valores en las mrgenes de la tabla se llaman probabilidades marginales (totales). Las
probabilidades conjuntas en las celdas de la estructura principal de la tabla muestran la
probabilidad de la interseccin entre 2 eventos (cifras hombre/mujer que no son totales estn
dentro de la tabla).
PROBABILIDAD CONDICIONAL: probabilidad de que el evento A ocurrir si el evento B ocurri. Se
on
tu
na
.m
dm
yc
conjuntos A y B es su interseccin, que es igual a P(A) x P(B A). 2) Regla de la adicin: se usa para
determinar la probabilidad de la unin de A o B, es decir, P(A) + P(B) menos la interseccin de A y
B, esto es porque los evento A y B no son mutuamente excluyentes y as se evita el doble conteo.
Si A y B son mutuamente excluyentes, la interseccin de A y B es cero, y la formula se reduce a
P(A) + P(B).
w
w
.a
En http://www.vitutor.com/pro/2/a_17.html
ul
tip
ly
.
co
El teorema de Bayes parte de una situacin en la que es posible conocer las probabilidades de que
ocurran una serie de sucesos Ai. A esta se aade un suceso B cuya ocurrencia proporciona cierta
informacin, porque las probabilidades de ocurrencia de B son distintas segn el suceso Ai que
haya ocurrido. Conociendo que ha ocurrido el suceso B, la frmula del teorema de Bayes nos
indica como modifica esta informacin las probabilidades de los sucesos Ai.
dm
yc
on
tu
na
.m
Ej e m p l o : El 2 0 % de l o s e m pl e a d o s d e u n a e m p r e s a s o n i n ge n i e r o s y o tr o 2 0 %
s o n e co n o m i s t a s . El 7 5 % d e l o s i n g e n ie r os o cu p a n u n p u e s to d i r e cti v o y e l
5 0 % d e l o s e co n o m i s t a s t a m b i n , m i e n tra s q u e l o s n o i n g e ni e r o s y l o s n o
e co n o m i s t a s s o l a m e n t e e l 2 0 % o cu p a u n p u e s to d i r e ct i v o . C u l e s l a
p r o b a b i l i d a d d e q u e u n e m p l e a d o d i r e cti v o e l e g i d o a l a z a r s e a i n ge n i e r o ?
w
w
.a
ul
tip
ly
.
co
on
tu
na
.m
MEDIA Y VARIANZA DE UNA DISTRIBUCION BINOMIAL: como hay solo 2 resultados posibles, la
media y varianza son ms fciles de calcular con media = E(X) = = n y varianza = 2 = n(1
).
DISTRIBUCIONES BINOMIALES ACUMULADAS:
De http://sauce.pntic.mec.es/~jpeo0002/Archivos/PDF/T03.pdf
yc
Es posible que nos pidan no solo la probabilidad de que ocurran un cierto nmero de xitos en
concreto, sino que ocurran como mucho k xitos o preguntas similares. Podran pedirnos:
a) Cual es la probabilidad de que aprueben como mucho 2 alumnos?
Si xito = aprobar y fracaso = suspender, p= 0,7 y q = 0,3, entonces nos piden p(X 2). En este
caso, basta pensar en que para que aprueben 2 alumnos como mucho, puede que aprueben 2, 1 o
ninguno, es decir:
p(X 2) = p(X = 0)+p(X = 1)+p(X = 2) =0_ 0001 + 0_0012 + 0_01 = 0_1013
b) Cual es la probabilidad de que aprueben entre 3 y 6 alumnos (inclusive)?
w
w
.a
dm
ul
tip
ly
.
co
USO DEL COMPUTADOR: Excel calcula las probabilidades binomiales en una hoja de trabajo. Se
coloca el cursor en la celda para respuesta > insertar > funcin > estadsticas (categora de
funciones) > distr.binom (nombre de funcin) > aceptar. En la casilla num-xito se coloca el
nmero de xitos; en la de ensayos, el nmero de ensayos; en la de prob-xito las
probabilidades de xito y en la casilla acumulado se coloca falso > aceptar. La respuesta
aparecer en la casilla de valor, en la esquina superior derecha y en la celda seleccionada en la
hoja de trabajo. Si se ingres verdadero en la casilla de acumulado, la probabilidad acumulada
para los xitos se reportara como tal y como aparece en la tabla correspondiente.
on
tu
na
.m
dm
yc
DISTRIBUCION DE POISSON: es una variable aleatoria discreta til para medir la frecuencia relativa
de un evento sobre una unidad de tiempo o espacio. Supone que la probabilidad de ocurrencia del
evento es constante para 2 intervalos cualesquiera de tiempo o espacio y que la ocurrencia del
evento en un intervalo es independiente de la ocurrencia de otro intervalo cualquiera. Se expresa
con P(x) = (xe-) / x!, donde x es el nmero de veces en que ocurre el evento, es el numero
promedio de ocurrencias por unidad de tiempo o espacio y e es la base del logaritmo natural
(2,71828). Los valores de esta frmula estn tabulados. Tambin se puede usar Excel para este
clculo usando la funcin poisson.
Objetivo 7 Clculo de probabilidades usando la tabla de distribucin normal
w
w
.a
co
ul
tip
ly
.
Puede existir un nmero infinito de distribuciones normales posibles, cada una con su propia
media y desviacin estndar. Como no se puede analizar un nmero tan grande de probabilidades,
las distribuciones normales se convierten a una distribucin normal estndar a travs de la
frmula de conversin (formula-Z), Z = (X ) / , donde Z es la desviacin normal y X algn valor
especifico de la variable aleatoria. Despus de la conversin, la media es 0 y la desviacin estndar
es 1. La desviacin normal es el nmero de desviaciones estndar a las que una observacin esta
de la media.
on
tu
na
.m
yc
w
w
.a
dm
ul
tip
ly
.
co
es la tasa promedio de ocurrencia. La curva en continuo descenso muestra que con el paso del
tiempo X aumenta y la probabilidad disminuye.
En Excel, se calcula con insertar > funcin > estadsticas > Distr.exp. Se ingresa el valor ajustado de
t en la casilla x, la media en la casilla de lambda y verdadero en la casilla de acum, para que
la respuesta aparezca en la casilla de valor.
on
tu
na
.m
DISTRIBUCION UNIFORME: las probabilidades de todos los resultados son las mismas. La media o
valor esperado de una distribucin uniforme est a mitad de camino entre sus 2 extremos, y se
calcula con E(x) = = (a + b) / 2, donde a y b son los valores ms bajo y alto, respectivamente.
w
w
.a
dm
yc
La varianza se calcula con 2 = (b a)2 / 12. El rea total bajo la curva, como para todas las
distribuciones de probabilidad, debe ser igual a 1 o 100%. Ya que el rea es altura por ancho,
despejando, altura = rea / ancho = 1 / (b a), donde (b a) es el ancho o rango de la distribucin.
La probabilidad de que una observacin caiga entre 2 valores X1 y X2 es P(X1 X X2) = (X2 X1) /
rango.