Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Bloque 0.- REPASO CONCEPTOS BSICOS DE ESTADSTICA. Generalidades: Iniciaremos el curso, repasando los conceptos y procedimientos estadsticos ya estudiados en E.S.O. y en el primer curso de Bachillerato. Insistiendo sobre todo en el manejo de tablas, y el clculo de medidas estadsticas de centralizacin, dispersin y localizacin. As mismo es importante el uso de herramientas como la calculadora, para realizar clculos estadsticos con relativa facilidad y rapidez. Contenidos: Tema 1 Distribuciones Unidimensionales 1.1 Introduccin: 1.1.1 Conceptos de: Poblacin, muestra, subpoblacin, 1.1.2 Variables estadsticas, clasificacin: 1.2 Tablas Estadsticas: Tipos 1.3 Tcnicas de recuento, 1.4 Distintos tipos de frecuencia 1.5 Medidas estadsticas: 1.5.1 Centralizacin: Moda, Mediana y Media 1.5.2 Dispersin: Desviacin, desviacin media, desviacin tpica, varianza. 1.5.3 Localizacin: Cuartiles, deciles, percentiles 1.5.4 Simetra. 1.5.5 Curtosis. Tema 2: Distribuciones Bidimensionales 2.1 Introduccin a la Dependencia estadstica. 2.2 Variables cuantitativas: 2.2.1 Anlisis de la correlacin. 2.2.2 Rectas de regresin.
Pgina 1
Ahora bien, normalmente en un estudio estadstico, no se puede trabajar con todos los elementos de la poblacin sino que se realiza sobre un subconjunto de la misma. Este subconjunto puede ser una muestra, cuando se toman un determinado nmero de elementos de la poblacin, sin que en principio tengan nada en comn; o una subpoblacin, que es el subconjunto de la poblacin formado por los elementos de la poblacin que comparten una determinada caracterstica, por ejemplo de los alumnos del centro la subpoblacin formada por los alumnos de 3 ESO, o la subpoblacin de los varones. F:\Dados\douturamento\PAMS\Conceptos basicos de estadistica.doc de 14 Pgina 2
No obstante en muchos casos el tratamiento estadstico hace que a variables discretas las trabajemos como si fuesen continuas y viceversa. Los atributos son aquellos caracteres que para su definicin precisan de palabras, es decir, no le podemos asignar un nmero. Por ejemplo Sexo Profesin, Estado Civil, etc. A su vez las podemos clasificar en: Ordenables: Aquellas que sugieren una ordenacin, por ejemplo la graduacin militar, El nivel de estudios, etc. No ordenables: Aquellas que slo admiten una mera ordenacin alfabtica pero no establece orden por su naturaleza, por ejemplo el color de pelo, seco, estado civil, etc.
2 2 2 3 1
1 2 2 1 3
Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:
Pgina 3
Bloque 0 Repaso Conceptos Bsicos de Estadstica: Distribuciones Unidimensionales Personas Activas 1 2 3 4 Total Nmero de Familias 16 20 9 5 50
Tablas tipo III: Cuando el tamao de la muestra y el recorrido de la variable son grandes, por lo que ser necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos: 450 5 1152 180 250 200 300 675 175 500 80 375 25 2680 1500 205 605 985 785 185 1595 2300 5000 1200 100 125 315 425 560 1100
Evidentemente, la variable estadstica tiene un recorrido muy grande, 4998 pesetas, por lo que s queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir cuntos intervalos queremos?. Normalmente se suele trabajar con no ms de 10 o 12 intervalos. Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de amplitud 500 Debemos tener en cuenta las siguientes consideraciones: Tomar pocos intervalos implica que la prdida de informacin sea mayor. Los intervalos sern siempre Cerrados por la izquierda y Abiertos por la Derecha [ Li-1 , Li ) Procuraremos que en la decisin de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en ms de un 5% del total de observaciones. Con estas recomendaciones tendremos la siguiente tabla: [ Li-1 , Li ) [ 0,500) [ 500, 1000) [ 1000,1500) [ 1500, 2000) [ 2000, 2500) [ 2500, 3000) [ 3000, 3500) [ 3500, 4000) [ 4000, 4500) [ 4500, 5000) [ 5000,5500) Frecuencia 16 6 3 2 1 1 0 0 0 0 1
Aunque el mtodo ms utilizado o conocido sea el primero, quizs el ms cmodo de utilizar es el 2 en la mayora de los casos. F:\Dados\douturamento\PAMS\Conceptos basicos de estadistica.doc de 14 Pgina 4
n N
Porcentaje: La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar siempre en trminos de tantos por ciento o porcentajes, por lo que esta medida resulta de multiplicar la frecuencia relativa por 100. La denotaremos por pi.
p= f
i
100 %
Frecuencia Absoluta Acunulada: Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadstica ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el clculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el nmero de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por Ni. Frecuencia Relativa Acunulada: Al igual que en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividido por el tamao de la muestra, y la denotaremos por Fi
N F=N
i
Porcentaje Acumulado: Anlogamente se define el Porcentaje Acumulado y lo vamos a denotar por Pi como la frecuencia relativa acumulada por 100.
P = F 100 %
i i
Veamos esto con un ejemplo: Tomamos para ello los datos relativos a las personas activas. Personas Activas Nmero Familias Xi ni 1 16 2 20 3 9 4 5 Total 50
Ni 16 36 45 50
Pgina 5
x
i
x = xi
i=1
f = = x n N
n i
i=1
Propiedades: Si multiplicamos o dividimos todas las observaciones por un mismo nmero, la media queda multiplicada o dividida por dicho numero. Si le sumamos a todas las observaciones un mismo nmero, la media aumentar en dicha cantidad. Adems de la media aritmtica existen otros conceptos de media, como son la media geomtrica y la media armnica. Media geomtrica: La media geomtrica de N observaciones es la raz de ndice N del producto de todas las observaciones. La representaremos por G.
G=N
x n x n . .... x n
1 2
Solo se puede calcular si no hay observaciones negativas. Es una medida estadstica poco o nada usual. F:\Dados\douturamento\PAMS\Conceptos basicos de estadistica.doc de 14
Pgina 6
Bloque 0 Repaso Conceptos Bsicos de Estadstica: Distribuciones Unidimensionales Media armnica: La media armnica de N observaciones es la inversa de la media de las inversas de las observaciones y la denotaremos por H
H=
i=1
x n
i
1 1
Mediana:
La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra. Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua. Clculo de la mediana en el caso discreto: Tendremos en cuenta el tamao de la muestra. Si N es Impar, hay un trmino central, el trmino
N 2
N +1 2
N +1 2
9 + 12 = 10,5 2
Clculo de la mediana en el caso continuo: Si la variable es continua, la tabla vendr en intervalos, por lo que se calcula de la siguiente forma: Nos vamos a apoyar en un grfico de un histograma de frecuencias acumuladas. LA MEDIANA SER Me =
SEMEJANTES
i 1
+x
N
De donde la mediana vale: Me =
Li1 +
2 N N N
i
i . 1
i 1
Vemoslo por medio de un ejemplo. Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma: Li-1 Li ni Ni Como el tamao de la muestra es N=50, buscamos el intervalo en el que 45 55 6 6 la Frecuencia acumulada es mayor que 50/2=25, que en este caso es el 55 65 10 16 3 y aplicamos la frmula anterior. Luego la Mediana ser 65 75 85 75 85 95 19 35 11 46 4 50
50 16 2 10 = 69.74 Me= 65 + 35 16
Pgina 7
Moda:
La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite, es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo. Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o polimodal segn el caso. Por lo tanto el clculo de la moda en distribuciones discretas o cualitativas no precisa de una explicacin mayor; sin embargo, debemos detenernos un poco en el clculo de la moda para distribuciones cuantitativas continuas. Para ello veamos como se obtiene de modo grfico y posteriormente llegaremos a su determinacin analtica Para ello vamos a utilizar el siguiente sistema de referencia: Como Origen el Punto Li-1 Como eje horizontal la recta
horizontal que contiene al punto Li-1 y como eje vertical la recta AB. Segn este sistema de referencia las coordenadas de los puntos ABCD son las siguientes: A(0,ni-1), B(0,ni), C(ay, ni) y D(ay, ni+1) . Queremos calcula el valor de x, que es la abscisa del punto P interseccin de las rectas AC y BD. Recta AC Recta BD
x a
y
=
=
i
y n n n
i
i 1 i
i 1 i 1
x a
y
i i+1 i
=
i
y n n n
i i+1
i i+1 i
x .( n n a
i
+ ni1
x .( n n a
i
+ ni
n n x = ( n )( n ) a n n
i i+1 i 1
Mo = L
i 1
n n ( n n )( n n ) a
i i+1 i i i+1 i 1
Otros autores dan una expresin aproximada para la moda que viene dada por la siguiente expresin:
Mo = L
i 1
ni+1 + ni1
i+1
ai
Veamos su clculo mediante un ejemplo, para ello usaremos los datos del apartado anterior . Li-1 Li ni Ni 19 10 Mo = 65 + 10 = 70,29 45 55 6 6 (19 10 ) + (19 11) 55 65 10 16 Utilizando la frmula aproximada 65 75 19 35 11 75 85 11 46 Mo = 65 + 10 = 70,24 10 + 11 85 95 4 50
Pgina 8
Hemos estudiado varias medidas de centralizacin, por lo que podemos hablar de desviacin con respecto a cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media.
Desviacin: Es la diferencia que se observa entre el valor de la variable y la media aritmtica. La denotaremos por di . No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviacin, por lo que precisaremos una medida que resuma dicha informacin. La primera solucin puede ser calcular la media de todas las desviaciones, es decir, si consideramos como muestra la de todas las desviaciones y calculamos su media. Pero esta solucin es mala pues como veremos siempre va a ser 0.
D=
i=1
d n = (x x ) n = x n n = N N N N x x x
n i i i i n n i i i i=1 i=1 i=1
=0
Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se contrarrestan con las negativas. Para resolver este problema, tenemos dos caminos: Tomar el valor absoluto de las desviaciones. Desviacin media Elevar al cuadrado las desviaciones. Varianza. Desviacin media: Es la media de los valores absolutos de las desviaciones, y la denotaremos por dm.
dm =
i=1
d n = x x n N N
n i i i i=1
d n = ( xi x) n S = = N N
2 2 x 2 x n 2 i n i i=1 i=1
2 x
o tambin por
2 x
Sx = x
2
x n =
n i i=1
( x i x ) = x 2x x + x
2 2 i i
n 2 i i i=1
De
n =x n x n x n donde se obtiene: ( x i x ) 2 x N x 2 = N 2 x 2 + x 2 N N
n i=1 i=1 i=1
Luego queda probado. Este estadstico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendr en cm2. Desviacin tpica: Es la raz cuadrada de la varianza, se denota por Sx o x.
S =
x
= x
d n
n i i=1
x n
n i i=1
Este estadstico se mide en la misma unidad que la variable por lo que se puede interpretar mejor. F:\Dados\douturamento\PAMS\Conceptos basicos de estadistica.doc de 14
Pgina 9
Bloque 0 Repaso Conceptos Bsicos de Estadstica: Distribuciones Unidimensionales Otros dos estadsticos importantes son la cuasivarianza y la cuasidesviacin tpica, que como veremos cuando estudiemos el tema de estimacin estadstica, son los estimadores de la varianza y desviacin tpica poblacionales respectivamente. Cuasivarianza: Es una medida de dispersin, cuya nica diferencia con la varianza es que dividimos por N-1, la representaremos por
2 N 1
2 N 1
2 N 1
= N 1
2
d n = = N 1
n n i i i=1 i=1
( xi x) n
2
N 1
x n =
n i i=1
N 1
2 N N 2 x = Sx N 1 N 1
N 1
= N 1 =
N N 1 x
Todas estas medidas de dispersin vienen influidas por la unidad en la que se mide la variable, esto implica que si cambiamos de unidad de medida, los valores de estos estadsticos se vean a su vez modificados. Adems, no permite comparar por ejemplo, en un grupo de alumnos si los pesos o las alturas presentan mas dispersin. Pues no es posible comparar unidades de distinto tipo. Precisamos por lo tanto, una medida escalar, es decir, que no lleve asociado ninguna unidad de medida. Coeficiente de Variacin: Es un estadstico de dispersin que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitir decir entre dos muestras, cual es la que presenta mayor dispersin. La denotaremos por C.V.
C.V . =
100 %
L L n N
i 1 i i
n x
i
d n d n d
i i i
i
2 i
n x
i
2 i
45 55 65 75 85
55 65 75 85 95 N=
6 10 19 11 4 50
6 16 35 46 50
50 60 70 80 90
300 -19,4 600 -9,4 1330 0,6 880 10,6 360 20,6 3470
116,4 2258,16 94 883,6 11,4 6,84 116,6 1235,96 82,4 1697,44 420,8 6082
x = 3470 = 69.4 50 Dm= 420.8 = 8.416 50 2 x = 6082 = 12164 = 246900 69.42 = 12164 . . 50 50 . . x = 12164 = 11029 2 N 1 = 50 12164 = 124122 . . 49 . . N 1 = 124122 = 11141 . 11029 100 = 15.892 % C.V.= 69.4
Pgina
Cuartiles
Medida de localizacin que divide la poblacin o muestra en cuatro partes iguales. Q1= Valor de la variable que deja a la izquierda el 25% de la distribucin. Q2= Valor de la variable que deja a la izquierda el 50% de la distribucin = mediana. Q3= Valor de la variable que deja a la izquierda el 75% de la distribucin. . Al igual que ocurre con el clculo de la mediana, el clculo de estos estadsticos, depende del tipo de variable. Caso I: Variable cuantitativa discreta: En este caso tendremos que observar el tamao de la muestra: N Veamos la tabla adjunta: N PAR N/2 PAR n1 n2 N/2 IMPAR N1 N IMPAR (N-1)/2 PAR (N-1)/2 IMPAR n1 n2 n1
N 4
N +1 4
n1
Q=x
1
+ xn2 2
N +1 2 2 Q1 = x n1
N +1 2 + n1 2
N 1 4
N 1 +1 4 + xn2 2
N +1 4
1
Q=x
1
n1
Q=x
n1
N + 2 n1
N + 2 n2
n1
N +1 + 1 2 n
N+1 + 2 2 n
N +1 + n1 2
Q=x
3
+ xn2 2
Q =x
3
n1
Q=x
3
n1
+ xn2 2
Q =x
3
n1
Caso II: Variable cuantitativa continua: En este caso el clculo es ms simple:, sea la distribucin que sigue: [Li-2 -- Li-1) [Li-1 -- Li) ni-1 ni Ny-1 Ny
N Q1 = Li 1 + 4 i 1 a i N i N i 1
3N N Q3 = Li 1 + 4 i 1 a i N i N i 1
Deciles Medida de localizacin que divide la poblacin o muestra en 10 partes iguales No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver slo para las variables continuas. dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el k10 % de la distribucin. [Li-2 -- Li-1) [Li-1 -- Li) ni-1 ny Ny-1 Ny Intervalo donde se encuentra el Decil correspondiente:
Pgina
d k = Li1 +
Percentiles:
kN
10 N i1 N i N i1 ai
k = 1 .. 9
Medida de localizacin que divide la poblacin o muestra en 100 partes iguales No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver slo para las variables continuas. pk = Percentil k-simo es aquel valor de la variable que deja a su izquierda el k % de la distribucin. [Li-2 -- Li-1) [Li-1 -- Li) ni-1 ni Ny-1 Ny Intervalo donde se encuentra el percentil corespondiente:
p =L
k
+ i 1
kN
100 N i 1 N i N i1 ai
k=1 .. 99
Como se puede observar la forma de calcular estas medidas es muy similar a la del clculo de la mediana. Veamos el clculo de algunas de estas medidas en el ejemplo que estamos estudiando. Vamos a calcular Q1,Q, d7, y p45 Li-1 Li ni Ni 45 55 6 6 55 65 10 16 65 75 19 35 75 85 11 46 85 95 4 50 Clculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25% de N=50, corresponde al 2 intervalo.(50/4=12.5)
50 6 . Q1 = 55 + 164 6 10 = 615
Anlogamente calculemos Q3, Buscamos ahora en la misma columna el correspondiente al 75 %de N que en este caso es el 4 intervalo (3.50/4=37.5)
3.50 35 4 Q3 = 75 + 46 35 10 = 77.27
Veamos ahora el decil 3. (corresponde al 30 % 3 50 / 10 = 15) sera el 2 intervalo.
d 3 = 55 +
3.50
10 6 10 = 64 16 6 100 16 10 = 68.421 35 16
p45 = 65 +
-
45.50
Una vez estudiadas las medidas de localizacin surgen dos nuevas medidas de dispersin, que son: Recorrido intercuartlico: Semirecorrido intercuartlico:
R = Q Q Q Q SR = 2 R = d d R = c c
Q 3 1
99
Pgina
Para medir la asimetra se puede realizar atendiendo bsicamente a dos criterios: - Comparando la Media y la Moda. - Comparando los valores de la variable con la media. Comparando la Media y la Moda: Si la diferencia
x M
es positiva, diremos que hay asimetra positiva o a la derecha, en el caso de que sea
negativa diremos que hay asimetra negativa o a la izquierda. No obstante, esta medida es poco operativa al no ser una medida relativa, ya que esta influida por la unidad en que se mida la variable, por lo que se define el coeficiente de Asimetra como:
As =
x Mo
Esta medida es muy fcil de calcular, pero menos precisa que el coeficiente de asimetra de Pearson. El coeficiente de asimetra de Pearson se basa en la comparacin con la media de todos los valores de la variable, as que es una medida que se basar en las diferencias
media de esas desviaciones sera nulas, si las elevamos al cuadrado, seran siempre positivas por lo que tampoco serviran, por lo tanto precisamos elevar esas diferencias al cubo. Para evitar el problema de la unidad, y hacer que sea una medida escalar y por lo tanto relativa, dividimos por el cubo de su desviacin tpica. Con lo que resulta la siguiente exopresin:
As =
i=1
( xi x) n
3
N
3 x
Pgina
Bloque 0 Repaso Conceptos Bsicos de Estadstica: Distribuciones Unidimensionales Como podemos observar, el coeficiente de curtosis nos mide el grado de apuntamiento de la distribucin. Este coeficiente lo vamos a denotar por K y se calcula segn la siguiente expresin:
K=
( xi x) n
4 n i=1
i i
N
4 x
Veamos por ltimo el clculo de estos dos ltimos coeficientes en el ejemplo que estamos estudiando.
L L n N
i 1
n x
i
n d
i
3 i
n d
i
4 i
45 55 65 75 85
55 65 75 85 95 N=
6 10 19 11 4 50
6 16 35 46 50
50 60 70 80 90
300 -19,4 -43808,304 849881,098 600 -9,4 -8305,84 78074,896 1330 0,6 4,104 2,4624 880 10,6 13101,176 138872,466 360 20,6 34967,264 720325,638 3470 -4041,6 1787156,56
. = 11029 69.4 70.24 = -0,892 As= 11029 . Coeficiente de Asimetra de 40416 . 50 = -0,06025162 Pearson As= 3 11029 . 1787156.566 50 3 = -0,58431795 K= 4 11029 .
x
Pgina