Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Conceptos Básicos de
Probabilidad y Estadística
INDICE TEMÁTICO
1
Más adelante se explica el alcance técnico preciso del término inferencia en
estadística, por el momento considérese su significado usual: sacar una
consecuencia o deducir algo de otra cosa. (Diccionario RAE).
2
Se dice así de un par de números, en este caso enteros del 1 al 6, cuyo orden
importa, ya que el primer número consigna el resultado de un dado (por ejemplo,
el rojo) y el segundo, el del otro dado. Así (1,5) y (5,1) refieren a distintos
resultados.
3
También se suele referir como “suceso”.
(4, 3), (5, 2) y (6, 1)) es distinta de la que asociaríamos a la ocurrencia
del evento “suma igual a 2” (sólo posible cuando cada dado sale con 1).
P [(C,C)] = 1 = 0,25
4
Es fácil ver que en todos los casos referidos se cumplen las siguientes 3
afirmaciones:
2. El enfoque axiomático
En la moderna teoría de la probabilidad, las 3 afirmaciones mencionadas
más arriba se toman como punto de partida (axiomas) para construir una
teoría abstracta de la probabilidad que permite independizar dicho
concepto de los experimentos reales y trabajar con casos donde la
probabilidad de ocurrencia de cada resultado no sea igual para todos
ellos.
Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2 4),
(2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3),
(4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5 4), (5, 5), (5, 6), (6, 1),
(6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}
Figura 1
4
Dado que el resultado del experimento es azaroso o aleatorio, el valor que toma
la función mencionada también lo es. De allí su nombre. A veces, se la llama
también Función Aleatoria.
De esta manera, en lugar de tener que trabajar con pares ordenados
podemos trabajar con números reales, cada uno de los cuales hace
referencia a un subconjunto de resultados de nuestro experimento.
Por ejemplo, si el experimento fuera tirar una moneda y ver si sale cara o
ceca, se les podrían asignar a dichos resultados (que también son los
eventos de interés en este caso) los números 0 y 1, respectivamente.
Pero también, con la misma legitimidad, se les podrían asignar otros
valores como -1 y 1; o quizás 0 y 10, etc.
P(X) : X → R[0,1]
Para que la función de probabilidad esté bien definida los eventos que
corresponden a los distintos valores de la variable aleatoria deben ser
mutuamente excluyentes (si ocurre alguno no puede ocurrir otro) y
colectivamente exhaustivos (todos los eventos posibles deben estar
contemplados).
Espacio muestral:
Figura 4
Probabilidad Condicional
Supóngase que el primer tiro sale cara. Una vez conocido este dato la
probabilidad de obtener 2 caras depende sólo de la segunda tirada ya
que los resultados posibles se reducen ahora a:
Ω ’ = {(C C), (C S} (espacio muestral relevante una vez conocido que
salió cara en la primera tirada).
Por lo tanto, ahora P(X=2) = P [(C, C)]=1/2.
P(X ∩ Y)
P(X Y) =
P(Y)
P(X = 2 ∩ Y = 1) 1/ 4
P(X = 2 Y = 1) = = = 1/ 2
P(Y = 1) 1/ 2
P(Y = 1 ∩ X = 2) 1/ 4
P(Y = 1 X = 2) = = =1
P(X = 2) 1/ 4
Resulta claro que si se conoce que salieron dos caras, hay certeza
(Probabilidad=1) de que en la primera tirada salió cara.
P(Y = 1 ∩ X = 2) 1/ 4 2
P(Y = 1 X = 2) = = =
P(X = 2) 3/8 3
P(X = 1 ∩ Y = 0) 1/ 4 1
P(X = 1 Y = 0) = = =
P(Y = 0) 1/ 2 2
P(Y = 0 ∩ X = 3) 0
P(Y = 0 X = 3) = = =0
P(X = 3) 1/ 8
n
µ X = E(X) = ∑ X i ⋅ P(X i )
i =1
Esta es una notación abreviada para indicar una suma de n términos, en
la que el subíndice i recorre los valores de los números naturales desde 1
hasta n, según se indica debajo y arriba del símbolo de sumatoria (la
letra griega sigma, mayúscula).
n
µ X = E(X) = ∑ X i ⋅ P(X i ) = X 1 ⋅ P(X 1 ) + X 2 ⋅ P(X 2 ) + ... + X n ⋅ P(X n )
i =1
Que en el caso de nuestro ejemplo de los dos dados arrojados queda:
1 2 1
µ X = E(X) = 2 ⋅ + 3 ⋅ + ... + 12 ⋅ = 7 (puntos)
36 36 36
1 3 3 1
µ X = E(X) = 0 ⋅ + 1⋅ + 2 ⋅ + 3 ⋅ = 1,5 caras
8
8
8
8
Figura 5
n
σ2X = Var(X) = ∑ [X i − E(X i )] 2 ⋅ P(X i )
i =1
En nuestro ejemplo de los dados:
1 2 1
σ2X = Var(X) = (2 − 7)2 ⋅ + (3 − 7) ⋅ + ... + (12 − 7)2 ⋅ =
36 36 36
ˆ
= 5,83 (puntos al cuadrado)
Varianza:
1 3 3 1
σ2X = Var(X) = (0 − 1,5)2 ⋅ + (1 − 1,5) ⋅ + (2 − 1,5) ⋅ + (3 − 1,5)2 ⋅ =
8 8 8 8
´
2
= 0,75 (caras)
Desvío estándar:
n
σ XY = Cov(X,Y) = ∑ [X i − E(X i )] ⋅ [Y i − E(Y i )] ⋅ P(X i ,Y i )
i =1
5
En realidad, como la covarianza mide sólo un tipo de relación entre ambas
variables (la relación lineal), podría existir una relación no captada por la misma
(por ejemplo una relación cuadrática). Por eso, independencia y ausencia de
covarianza no son conceptos equivalentes. El primero implica al segundo, pero la
covarianza nula no implica independencia.
Ejemplo 8: Covarianza del juego de las dos monedas
y las varianzas :
σ XY = Cov(X, Y) =
= (0 − 1) ⋅ (0 − 0,5) ⋅ ( 0,25 ) + (1 − 1) ⋅ (0 − 0,5) ⋅ ( 0,25 ) + (2 − 1) ⋅ (0 − 0,5) ⋅ 0 +
+(0 − 1) ⋅ (1 − 0,5) ⋅ 0 + (1 − 1) ⋅ (1 − 0,5) ⋅ ( 0,25 ) + (2 − 1) ⋅ (1 − 0,5) ⋅ ( 0,25 ) =
= 0,125 + 0 + 0 + 0 + 0 + 0,125 = 0,25 caras 2
El valor positivo de la covarianza nos dice que un desvío positivo
respecto de la media en la variable X se asocia, o que en promedio se da,
con un desvío positivo respecto de la media en la variable Y.
σ2 σ XY 0,5 0,25
Σ XY = X que en nuestro caso sería Σ XY =
σ YX
2
σ Y 0,25 0,25
que es una correlación positiva que puede considerarse alta (más cerca
de uno que de cero). Como la varianza puede considerarse un caso
particular de covarianza (el caso de co variación de una serie consigo
σ XX σ X2
misma), se puede definir ρ X = ρ X X = = =1 y definir una
σ X2 ⋅ σ X2 σ X2
matriz de correlaciones de las variables X e Y como:
ρ ρ XY 1 0,707..
Ρ XY = X que en nuestro caso sería Ρ XY =
ρYX ρ Y 0,707.. 1
Figura 6
Supongamos que luego hacemos un análisis más fino y obtenemos la
misma distribución de probabilidad pero permitiendo 1 cifra decimal.
Ahora, la cantidad de valores que puede tomar la variable aleatoria pasa
de 10 (1 % hasta 10 %) a 100 (0,1 % hasta 10,0 %).
Figura 7
2
1 X −µ
1 −
2 σ
f(X) = e
2π ⋅σ
+∞
µ X = E(X) = ∫ X ⋅ f(X) dX
−∞
El lector no debe preocuparse por la resolución de la integral, sino más
bien por captar que el concepto de la esperanza matemática se mantiene.
Es una medida de centralización de la variable aleatoria X que se
obtiene como una “suma” de los valores de la misma ponderados por su
probabilidad de ocurrencia.
+∞
σ 2X = ∫ (X − µ X ) 2 ⋅ f(X) dX
−∞
Figura 11
El desvío estándar σ , por su parte, es una medida de la dispersión o
variabilidad de la distribución. Cuando el desvío estándar σ es
relativamente chico, la distribución es delgada y alta, mientras que si σ
es relativamente grande, la curva es amplia y chata. En la figura, se
representan dos normales con la misma media y distinta varianza
Figura 12
Esto explica que, como veremos más adelante, el desvío estándar sea
utilizado en los estudios financieros como una medida del riesgo. En el
caso ilustrado en la figura para el mismo retorno medio (8 %), la curva
con σ = 3 presenta mucha mayor incertidumbre sobre el valor que
finalmente se observará.
Figura 13
Para resolver, tomemos en cuenta que 4,5% es, en nuestro caso la media
µ más un desvío σ . Por lo tanto:
Simetría
n
∑ [X i − E(X i )] 3 ⋅ P(X i )
i =1
A(X) =
σ3
Figura 15
Curtosis
n
∑ [X i − E(X i )] 4 ⋅ P(X i )
i =1
K(X) =
σ4
Una distribución con alta curtosis tiende a tener un pico bien distinguible
cerca de la media, declina rápidamente y tiene colas pesadas. Una
distribución con baja curtosis tiende a tener un valor máximo suave cerca
de la media en vez de un pico marcado.
Figura 16
Finalmente, si K < 3 se dice que la distribución es platicúrtica.
Figura 17
Figura 18
Figura 19
Seleccionando View / Descriptive Statistics / Histogram and Stats,
veremos un histograma de los datos y los principales estadísticos
calculados a partir de los mismos.
Figura 20
Figura 21
Ejemplo 12: Caracterización de datos empíricos
Figura 22
2
Distribución Chi – cuadrado ( χ )
Figura 24
Distribución t de Student
Distribución F de Snedecor
Distribución normal
Figura 27
Figura 30