Sei sulla pagina 1di 23

Cmo calcular la varianza

2 mtodos:Calcular la varianza de una muestraCalcular la varianza de una poblacin

La varianza es una medida de qu tan disperso es un conjunto de datos. Si la


varianza es pequea, significa que los valores del conjunto estn bastante
agrupados. Si la varianza es grande, significa que los nmeros estn ms
dispersos. En estadstica, este concepto tiene muchos usos. Por ejemplo, si
comparas las varianzas de dos conjuntos de datos (por ejemplo, resultados de
pacientes femeninos contra resultados de pacientes masculinos) puedes
comprobar si una variable produce un efecto perceptible.[1] La varianza tambin es
muy til para crear modelos estadsticos, ya que una varianza pequea puede ser
un indicio de que ests ajustando demasiado los datos.[2]

Mtodo 1 de 2: Calcular la varianza de una muestra


1.

1
Toma nota de la muestra del conjunto de datos. En la mayora de los casos, los
estadsticos solo tienen acceso a una muestra o a un subconjunto de la poblacin
que van a analizar. Por ejemplo, en vez de analizar la poblacin "costo de todos
los autos de Alemania", un estadstico averiguara el costo de una muestra
aleatoria de unos pocos miles de autos. De este modo podra basarse en esa
muestra para obtener una estimacin aproximada del costo de los autos en
Alemania, aunque es posible que no coincida con el valor exacto.
Ejemplo: analizando la cantidad de panquecitos que se venden
todos los das en una cafetera, tomas una muestra de seis das
aleatorios y obtienes los siguientes resultados: 17, 15, 23, 7, 9,
13. Esta es una muestra, no la poblacin, ya que no tienes los datos
de todos y cada uno de los das en los cuales ha estado abierta la
cafetera.
Si tienes todos los puntos de datos de una poblacin, contina con
el prximo mtodo.

2.
2
Anota la frmula de la varianza de una muestra. La varianza de un conjunto de
datos te indica qu tan dispersos estn los puntos de datos. Mientras ms cerca
de cero est la varianza, ms cercanos estarn entre s los puntos de datos.
Cuando vayas a trabajar con muestras de conjuntos de datos, utiliza la siguiente
frmula para calcular la varianza:[3]

= [( - x)]/(n - 1)
es la varianza. La varianza siempre se mide en unidades elevadas
al cuadrado.
representa un trmino de tu conjunto de datos.
, que significa "sumatoria", te indica que debes calcular los
siguientes trminos para cada valor de y luego sumarlos a todos.
x es la media de la muestra.
n es la cantidad de puntos de datos.
3.

3
Calcula la media de la muestra. El smbolo x o "x barra" se refiere a la media de
la muestra.[4] Calclala como lo calcularas cualquier media: suma todos los puntos
de datos, luego divdela por la cantidad de puntos de datos.

Por ejemplo: primero suma todos los puntos de datos: 17 + 15 + 23


+ 7 + 9 + 13 = 84
A continuacin, divide la respuesta por la cantidad de puntos de
datos, en este caso, seis: 84 6 = 14.
Media de la muestra = x = 14.
Puedes pensar en la media como el "punto central" de los datos. Si
los datos se agrupan cerca de la media, entonces la varianza ser
baja. Si se encuentran esparcidos lejos de la media, la varianza ser
alta.

4.

4
Rstale la media a cada punto de datos. Ahora es momento de calcular - x,
donde es cada nmero del conjunto de datos. Cada respuesta te indicar la
desviacin con respecto de la media o, en lenguaje coloquial, qu tan lejos de la
media est cada nmero.[5].

Ejemplo:
- x = 17 - 14 = 3
- x = 15 - 14 = 1
- x = 23 - 14 = 9
- x = 7 - 14 = -7
- x = 9 - 14 = -5
- x = 13 - 14 = -1
Es fcil revisar tu trabajo, ya que la suma de las respuestas debe ser
igual a cero. Esto se debe justamente a la definicin de la media, ya
que las respuestas negativas (distancia de los nmeros pequeos
respecto de la media) cancelan exactamente las respuestas positivas
(distancia de los nmeros ms grandes respecto de la media).
5.

5
Eleva cada resultado al cuadrado. Tal como se explic ms arriba, la lista actual
de desviaciones ( - x) suman cero. Esto quiere decir que la "desviacin promedio"
siempre ser igual a cero. Por lo tanto, esto no te dice demasiado acerca de qu
tan dispersos estn los datos. Para resolver este problema, debes elevar al
cuadrado cada desviacin. Al hacerlo, todos los nmeros se convertirn en
positivos, por lo tanto, los valores positivos y negativos dejarn de cancelarse y
sumar cero.[6]
Ejemplo:
( - x)
- x)
92 = 81
(-7)2 = 49
(-5)2 = 25
(-1)2 = 1
Ahora tienes el valor ( - x) para cada punto de datos de tu muestra.

6.
6
Calcula la suma de los valores al cuadrado. Ahora es momento de calcular el
numerador total de la frmula [( - x)]. La letra sigma mayscula, , te indica que
debes sumar el valor del siguiente trmino para cada valor de . Ya calculaste (-
x) para cada valor de en la muestra. As que todo lo que tienes que hacer ahora,
es sumar los resultados.

Ejemplo: 9 + 1 + 81 + 49 + 25 + 1 = 166.

7.
7
Divide por , donde es la cantidad de puntos de datos. Hace mucho tiempo, los
estadsticos dividan la varianza de la muestra por . Esto te da el valor promedio
de la desviacin al cuadrado, que coincide perfectamente con la varianza de la
muestra. Pero recuerda que la muestra es solo una estimacin de una poblacin
ms grande. Si tomas otra muestra aleatoria y haces el mismo clculo, obtendrs
un resultado diferente. Por este motivo, al dividir por en vez de por obtendrs una
mejor estimacin de la varianza de una poblacin ms grande y eso es justamente
lo que ests buscando. Esta correccin es tan comn que se ha convertido en la
definicin aceptada de la varianza de una muestra.[7]

Ejemplo: en la muestra hay seis puntos de datos, por lo tanto:


Varianza de la muestra = 33,2
8.

8
Aprende a distinguir varianza de desviacin estndar. Ten en cuenta que, al
haber un exponente en la frmula, la varianza se mide en unidades al cuadrado de
los datos originales. Esto puede hacer que no sea tan sencillo entenderlo en forma
intuitiva. En su lugar, a menudo se usa la desviacin estndar. De todas formas, tu
esfuerzo no fue en vano, ya que la desviacin estndar no es otra cosa que la raz
cuadrada de la varianza. Es por eso que la varianza de una muestra se expresa
como y la desviacin estndar de una muestra como .
Por ejemplo, la desviacin estndar de la muestra anterior es = s =
33,2 = 5,76.
Mtodo 2 de 2: Calcular la varianza de una poblacin

1.

1
Comienza con un conjunto de datos de la poblacin. El trmino "poblacin"
hace referencia al total de datos de las observaciones relevantes. Por ejemplo, si
vas a analizar la edad de los residentes del estado de Texas, tu poblacin debe
incluir la edad de cada uno de los residentes de Texas. Normalmente, para un
conjunto de datos tan grande como ese, crearas una hoja de clculo. Sin
embargo, aqu tienes un conjunto ms pequeo de datos como ejemplo:

Ejemplo: en la habitacin de un acuario hay exactamente 6 peceras.


Las seis peceras contienen la siguiente cantidad de peces:
2.

2
Anota la frmula de la varianza de la poblacin. Debido a que la poblacin
contiene todos los datos que necesitas, esta frmula te dar el valor exacto de la
varianza de la poblacin. Para poder distinguirla de la varianza de una muestra
(que es solo un valor aproximado), los estadsticos usan otras variables: [8]

= (( - ))/n
= varianza de la poblacin. Es la letra sigma minscula, elevada al
cuadrado. La varianza se mide en unidades al cuadrado.
representa un trmino de tu conjunto de datos.
Los trminos dentro de se calcularn para cada valor de , y luego
se sumarn.
es la media de la poblacin.
n es la cantidad de puntos de datos de la poblacin.

3.

3
Encuentra la media de la poblacin. Cuando analizas una poblacin, el smbolo
("mu") representa la media aritmtica. Para encontrar la media, suma todos los
puntos de datos y luego divide el resultado por la cantidad de puntos de datos.

Puedes pensar en la media como el "promedio", pero ten cuidado, ya


que esa palabra tiene muchas definiciones en matemtica.
Ejemplo: media = = = 10,5

4.
4
Rstale la media a cada punto de datos. Los puntos de datos cercanos a la
media tendrn una diferencia ms cercana a cero. Repite la resta para cada punto
de datos y comenzars a tener una nocin aproximada de qu tan dispersos estn
los datos.

Ejemplo:
- = 5 - 10,5 = -5,5
- = 5 - 10,5 = -5,5
- = 8 - 10,5 = -2,5
- = 12 - 10,5 = 1,5
- = 15 - 10,5 = 4,5
- = 18 - 10,5 = 7,5
5.

5
Eleva al cuadrado todas las respuestas. Ahora, algunos de los nmeros del
paso anterior sern negativos mientras que otros sern positivos. Si dibujas tus
datos en una lnea numrica, estas dos categoras representarn los nmeros que
estn a la izquierda de la media y los que estn a la derecha de la media. Estos
valores no son de mucha ayuda para calcular la varianza, ya que los dos grupos
se cancelaran entre s. Eleva al cuadrado cada uno de los nmeros para
transformarlos en valores positivos.

Ejemplo:
( - ) para cada valor de i de 1 a 6:
(-5,5) = 30,25
(-5,5) = 30,25
(-2,5) = 6,25
(1,5) = 2,25
(4,5) = 20,25
(7,5) = 56,25
6.

6
Encuentra la media de tus resultados. Ahora tienes un valor para cada punto de
datos, relacionado (indirectamente) con la dispersin que ese punto de datos tiene
respecto de la media. Calcula la media de estos valores sumndolos y luego
dividiendo la suma por la cantidad de valores.

Ejemplo:
Varianza de la poblacin = 24,25
7.

7
Relaciona este valor nuevamente con la frmula. Si no ests seguro acerca de
cmo coincide este valor con la frmula que aplicaste al principio de este mtodo,
intenta escribir todo el problema a mano:
Despus de encontrar la diferencia entre la media y elevar al
cuadrado, obtendrs el valor ( - ), ( - ), y as sucesivamente hasta
( - ), donde es el ltimo punto de datos del conjunto.
Para encontrar la media de estos valores, debes sumarlos a todos y
dividirlos por : ( ( - ) + ( - ) + ... + ( - ) ) / n
Despus de rescribir el numerador en notacin sigma, obtendrs (( -
))/
n, que es la frmula de la varianza.

Consejos
Debido a que es difcil interpretar la varianza, este valor generalmente se
calcula como punto de partida para el clculo de la desviacin estndar.
La utilizacin de en lugar de en el denominador al analizar muestras, es
una tcnica conocida como correccin de Bessel. La muestra es solo un
valor estimativo de la poblacin completa y la media de la muestra se
encuentra sesgada para ajustar esa estimacin. Esta correccin sirve para
eliminar ese sesgo.[9] Esto tiene que ver con el hecho de que, una vez que
hayas listado los puntos de datos, el n-simo punto final ya tendr una
restriccin, dado que solamente algunos valores resultarn en la media de
la muestra (x) utilizada en la frmula de la varianza.[10]

Potrebbero piacerti anche