Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
VARIABLES
Definicin
Se podra conceptuar como algo susceptible de ser
medido o contado. Tiene cada una su correspondiente unidad de informacin,
que es aquella por la cual se identifica y la representa. Ej: para la poblacin de
un pas su unidad ser: persona; de las longitudes ser alguna perteneciente al
sistema mtrico; de igual manera con pesos; volmenes, capacidad, superficie,
etc.; otras concentran muchas variables: razas de ganado (Holando Argentino,
Shorton, Hereford, etc) sern cabezas de ganado; etc.; cosechas (Trigo, maz,
cebada, etc.) sern las bolsas, o quintales o hectreas, etc. Los datos son las
cantidades, las observaciones se hacen respecto de cada unidad.
Clasificacin:
Continua: mediciones
Cuantitativa
Discreta: conteos
Variable
Dicotmica: dos variables
ej: sexo
Cualitativa
(atributos)
Policotmica: mas de dos
variables ej: estado civil, razas
de ganado
Medidas centrales
Medidas de dispersin
Media
Mediana
Modo o Moda
Rango
Desvo estndar
S = DS
Varianza
V = S = Var.
Se puede escribir
X1
X2
X3
X4
X5
X1 + X 2 + X 3 + X 4 + X 5
Se representar como
Xi
Y se leer como la sumatoria de todos los X variando i desde uno hasta 5 (en
este caso).
En forma general se escribe como
xi
N: la cantidad de datos
Series Simples
Se considerarn para el caso que nos ocupa, series finitas.
(estn acotadas). Es decir, que tienen una cantidad de nmeros limitada
(pocos) y que sea posible realizar operaciones no engorrosas utilizando
calculadoras.
Estn dadas entonces, por una cantidad finita de datos
estn estos ordenados o no.
MEDIDA DE TENDENCIA CENTRAL O DE CENTRALIZACIN
Siempre se debe acompaar la medida de tendencia central utilizada con una
medida de dispersin. Una medida central no explica por s misma mas que un
punto central (masa). Acompaada de una medida de dispersin explica
adems, cuanto se apartan los datos del centro. Si se concentran cerca o lejos
de l.
Media Aritmtica
es un simple promedio
xi
15
=3
5
Positiva
Simtrica
Negativa
Asimtrica
(Normal o de Gauss)
J forme
anti J forme
en U
Mediana
Es el parmetro central de posicin que divide a la serie en dos partes
exactamente iguales. Se la puede definir como la medida del valor central o la
semisuma de los dos valores centrales de la serie.
Los pasos a seguir son los siguientes y en este orden:
a) Ordenar la serie del valor menor al mayor o la inversa. Es imprescindible
realizarlo.
b) Posicin de la mediana Dicha posicin se obtiene por:
N+1
2
Es la ubicacin en la serie ordenada. El puesto. En este momento no se
determina el valor, solo el lugar que ocupa en la serie.
Ir a la serie ordenada y visualizar el puesto
Si es una cantidad de nmeros impar, el valor estar exactamente en el centro.
Habr igual cantidad de nmeros a la izquierda que a la derecha.
Si la cantidad de nmeros es par, el valor de la mediana ser la semisuma de
los dos valores centrales
c) obtener el valor de la mediana.
Ej:
Retomemos a modo de ejemplo la serie dada anteriormente para la media
2
orden
posicin
N+1 =
2
5+1 =
2
6/2 = 3
3
X=2
Propiedades
a) el valor de la mediana no se ve afectada por la
existencia de algunos valores o muy pequeos o muy
altos(aberrantes o espurios). No es el caso de la
media aritmtica que s es sensible a la existencia de
ellos y modifican su valor, perturbando su posicin
central. Es decir, la media se ve afectada y la
mediana no.
b) Por lo tanto, en algunos casos se proceder a elegir
la mediana como medida de tendencia central con la
desventaja de que tendremos que previamente
ordenar los datos.
c) O si elegimos la media, deberemos excluirlos de su
clculo, con la observacin al pie de que datos fueron
incluidos.
Ej: si a la serie anterior le agregaremos un nmero muy alto = 170
La serie quedara
170
Para la mediana:
La posicin ser 3,5. Como es una serie par, el valor se obtendr por la
semisuma de los dos valores centrales que en este caso son los
correspondientes al tercer y cuarto puesto dentro de la serie ordenada.
El valor de la mediana ser por lo tanto
X = 2.5
Para la media:
Como se explic anteriormente ser el cociente de la sumatoria de los valores
componentes de la serie con la cantidad de datos que la componen.
185/6 = 30.83
X = 30.83
Modo o Moda
En las series simples es por visualizacin. Es el nmero o nmeros que se
repite la mayor cantidad de veces.
Sea la serie presentada anteriormente:
1
el modo ser
X=2
Recapitulando hasta el momento sobre la serie dada hemos obtenido los tres
parmetros centrales:
X = 3
X = 2
X = 2
Como se puede observar, no obstante ser una pequea serie, la mediana y el
modo coinciden, no es el caso de la media en la cual se aprecia
un corrimiento hacia un mayor valor.
Podemos encontrar varias clases de modo segn sea la cantidad de
repeticiones:
Platocrtica
Mesocrtica
(Gauss)
MEDIDAS DE DISPERSIN
Leptocrtica
Rango
O recorrido; en una serie tanto simple como en los datos agrupados est dado
por la diferencia existente entre el mayor valor y el menor.
Es una medida grosera de dispersin y habitualmente no se lo utiliza. No es
demasiado explicativo.
Sea la serie simple: 1
Ser
71 =6
Varianza
Se obtiene realizando el cociente de la sumatoria de los desvos cuadrticos de
cada uno de los valores con respecto a la media y la cantidad de valores que
poseemos.
Sea la serie simple anterior
1
X = 3
entonces:
(1-3) + (2-3) + (2-3) + (3-3) + (7-3)
5
4 + 1 + 1 + 16
5
Varianza = S = Var
22
5
V = 4.4
Desvo Estndar:
ajustado a un decimal
2.098
S = 2.1
X
X
X
-3
-2
-1
S = 68.27%
2 S = 95.45%
3 S = 99.73%
Datos Agrupados
Hasta el momento se han desarrollado y obtenido los
parmetros centrales y de dispersin en series simples. No es habitual que se
tengan tan pocos datos como los que antecedieron, por lo tanto entraremos en
la operatoria cuando, de manera mas real, poseemos mayor cantidad de datos.
Introduccin: La operacin mediante la cual se inicia el trabajo estadstico es
el relevamiento o captacin de datos. Es el contacto con la realidad de lo que
queremos conocer que es susceptible de ser medido o contado.
Es la correlativa experimentacin que proporciona el material necesario para
poder realizar posteriormente el anlisis estadstico. Es importante efectuar el
relevamiento lo mas cuidadosamente posible, en ello reside el cimiento de todo
resultado exitoso. Cualquier error, imprecisin u omisin (los hay en todo
momento: en la confeccin del formulario, en la deficiente instruccin de los
encuestadores, en el conteo, en el agrupamiento, etc.) proveniente de la
captacin y/o manejo de los datos influir en los resultados finales.
Por todo ello es necesario que la poblacin est
inequvocamente definida en espacio y tiempo. As surge la necesidad de fijar
con precisin el territorio y la fecha de realizacin del trabajo estadstico. Esta
ltima es particularmente importante en el caso de trabajo censal, de manera
que todos los datos sean referidos a esa fecha (el censo de poblacin se
realiza en un da determinado en todo el territorio nacional) o en un perodo
(Censo Econmico y Censo Agropecuario) de manera que todos sean referidos
a esos tiempos y territorio, ya que el carcter dinmico de muchos atributos
que los censos contienen hace necesaria esa referencia.
Organizacin de la masa de datos
Una vez obtenido los datos necesarios y realizadas las
observaciones de todas las unidades contenidos en ellas, estamos en
presencia de una gran masa de datos en bruto, los cuales rara vez son
significativos sin organizacin ni tabulacin. Se comenzar presentando un
procedimiento sencillo para mejorar una informacin no organizada.
Tenemos una gran cantidad de datos desorganizados
deberemos conformarlos de manera tal que podamos obtener los resultados
visualizados para cumplir el objetivo.
Para lograr el orden conveniente los agrupamos en clases
con el intervalo adecuado, las cuales por convencin no son menos de 5 ni
ms de 20 (salvo mejor opcin).
La manera de proceder, en general:
-
orden.
observar la magnitud de los valores. Es til obtener en este momento el
rango o recorrido.
Comenzar con un agrupamiento en clases tentativo. Para lo cual se habr
determinado el intervalo de clase y sus lmites. Uniforme para todas las
clases o no. El agrupamiento correcto ser aquel que al trazar el
Histograma o Polgono de Frecuencias se concrete una forma campanular y
no posea clases vacas (cero).
11
30
13
42
29
21
8
21
36
30
23
18
25
25
15
25
35
12 a 18
18
17
15
13
19 a 25
25
25
25
21
23
21
26 a 32
30
30
30
29
26
33 a 39
36
35
40 a 46
42
Li
2
Se lo puede indicar con el smbolo X, o simplemente en adelante x i
Por lo tanto, la distribucin de frecuencias es en realidad, una tabla resumen en
la cual se condensan o agrupan los datos originales para facilitar el anlisis de
los datos.
La construccin ser, retomando el ejemplo dado:
Clases
5 11
12 18
19 25
26 32
33 - 39
40 46
Frecuen
cias (fi )
2
4
6
5
2
1
N=
20
Donde:
N = cantidad de datos totales.
fi = cantidad de datos de cada clase
En la construccin de esta tabla se observ que:
1. Debimos seleccionar el nmero de clases apropiado.
2. Obtener un intervalo de clase o ancho o amplitud para cada clase.
3. Establecimos los lmites de clase evitando superposiciones (es decir, que
un dato pueda ser contado en mas de una clase).
1.- Nmero de Clases: dependen en forma primordial del nmero de
observaciones, es decir, cuanto mayor es el nmero de datos tanto mayor
podra llegar a ser el nmero de clases (mas de 5 pero menos de 20 25). Si
no hay suficientes clases habr demasiada concentracin de datos y si son
muchas existiran posiblemente clases vacas y/o datos desperdigados. En
ambos casos extremos se obtiene poca informacin.
2.- Intervalo o Amplitud o Tamao de Clase: al desarrollar la tabla de
distribucin de frecuencias, es deseable (pero no imprescindible) que todas las
clases tengan el mismo tamao. Para determinar el ancho de las clases, el
recorrido o rango puede ser til (el nmero mayor menos el menor),
dividindolo por el nmero de clases que proponemos.
A medida que consideramos un menor nmero de clases, el ancho del intervalo
se hace ms grande y viceversa.
3.- Establecimiento de los lmites de clase: es necesario establecerlos con
claridad, a fin de que las observaciones se puedan contar en el agrupamiento
correcto evitando superposiciones.
En una clase cualquiera se distinguen dos lmites: el lmite inferior y el
lmite superior. Entre el lmite inferior de una clase y el lmite superior de la
clase que la antecede existen infinitos nmeros.
Cuando contamos datos enteros este concepto no es significativo y el
nico cuidado que se debe tener es que esos dos lmites mencionados no
posean el mismo nmero.
Pero si nuestras magnitudes son mediciones, los datos provenientes de
ellas sern decimales (campo numrico real). En este caso el concepto de
8fi
5-
15
12
19
26
33
40
47
clases
Polgono de Frecuencias:
Al igual que en el histograma, al trazar el polgono el
fenmeno de inters se representa a lo largo del eje horizontal y las
frecuencias en el vertical. Se forma al hacer que la marca de clase o punto
medio de cada clase represente los datos de esa clase y luego se conectan
entre si de forma lineal.
Es lineal en su construccin pero es una superficie.
Se puede usar para comparar dos o tres distribuciones de frecuencias siempre
que la estructura de ellos sea semejante.
No se construye un polgono de frecuencias a partir y sobre el histograma de
una nica distribucin de frecuencias.
De igual forma que la anterior ejemplifica
8fi
5-
15
12
19
26
33
40
47
clases
Media Aritmtica
fi xi
Xi : marcas de clase
fi : frecuencias de clase
N : cantidad de datos
fi
Xi
f i xi
5 11
12 18
19 25
26 32
33 39
40 - 46
2
4
6
5
2
1
20
8
15
22
29
36
43
16
60
132
145
72
43
468
X = 468/20 = 23.4
X = 23.4
Mediana
N/2 - fax
Li +
c
fx
Donde:
mediana.
fx = frecuencia de la clase a que contiene a la mediana
c = intervalo de clase que contiene a la mediana
Siendo nuestra distribucin de frecuencias ejemplo con sus frecuencias
acumuladas,
Clases
fa
5 11
12 18
19 25
12
26 32
17
33 39
19
40 46
20
20
3.
4.
5.
6.
Reemplazo en la frmula:
20/2
X =
19
X = 23,67
7
6
20 -
Clases
fi
fa
menos
que
fa
mas
que
5 11
12 18
19 25
26 32
33 39
40 46
2
4
6
5
2
1
20
2
6
12
17
18
20
20
18
14
8
3
1
fa
10 -
12
19
26
33
40
47
clases
Modo
X =
1
Li +
fi
5 11
12 18
19 25
26 32
33 39
40 - 46
2
4
6
5
2
1
20
2
X = 19 +
7
2 + 1
X = 23,67
6 -
2
N
R
fi
4 -
2 -
12
19
26
33
clases
X - X = 3(X - X)
Rango:
De igual forma que para las series simples es la diferencia entre el
mayor valor y el menor de los datos. En datos agrupados se ha visto que se
puede utilizar para la bsqueda de la cantidad de clases para confeccionar una
distribucin de frecuencias considerando segn tamao del intervalo.
Varianza
fi (xi - x)
Var = S = V
Donde:
fi = frecuencias
Xi = punto medio o marca de clase.
x = media aritmtica de la distribucin.
N = cantidad de datos o sumatoria de las frecuencias.
fi
xi
xi - x
(xi - x)
fi(xi - x)
5 11
12 18
2
4
8
15
-15.4
-8.4
237.16
70.56
474.32
282.24
19 25
26 32
33 39
40 - 46
6
5
2
1
20
22
29
36
43
-1.4
5.6
12.6
19.6
1.96
131.36
158.76
384.16
11.76
156.8
317.52
384.16
1626.8
x - (x)
fi
xi
(xi)
fi (xi)
5 11
12 18
19 25
26 32
33 39
40 - 46
2
4
6
5
2
1
20
8
15
22
29
36
43
64
225
484
841
1296
1849
128
900
2904
4205
2592
1849
12578
V = 81.34
entre x 2S
iii. 3.- el 99,73%
entre x 3S
c) c) Suponiendo dos series de datos de N 1 y N2 nmeros (o dos
distribuciones de frecuencias con frecuencias totales N 1 y N2 ) cuyas
variaciones vienen dadas por S 1 y S2 , respectivamente, y que tienen
la misma media. Entonces, la varianza combinada para ambas series (o
ambas distribuciones de frecuencia) est dada por:
N1 S1
S
+ N2 S2
=
N1 + N2
V = 81.34 S = 9.02
D5
P50
y
P25 y P75
se corresponden con el Q1 y Q3
qN/4
Deciles:
dN/10
Cuartiles
Percentiles: pN/100
Deciles
qN/4 - faq
Li +
dN/10 - fad
c
Li +
fq
fd
Percentiles
pN/100 - fap
Li +
c
fp
Q3
- Q1
2
Donde
Q3
El rango intercuartlico Q3
- Q1 se emplea a veces, pero el rango
semiintercuartlico es ms utilizado como medida de dispersin.
Rango entre Percentiles 10-90
Viene definido por
Rango percentil 10-90
P90 - P10
S
x
Sesgo y Curtosis
Sesgo
Es el grado de asimetra, o falta de simetra, de una distribucin. Si la curva de
frecuencias (polgono de frecuencias suavizado) de una distribucin tiene una
cola mas larga a la derecha del mximo central que a la izquierda, se dice de
la distribucin que est sesgada a la derecha o que tiene sesgo positivo. Si es
al contrario, se dice que est sesgada a la izquierda o que tiene sesgo
negativo.
En distribuciones sesgadas, la media tiende a situarse con respecto al modo al
mismo lado que la cola mas larga. As, una medida de la asimetra viene dada
por la diferencia (media modo). Esta medida puede adimensionarse,
dividindola por una medida de dispersin, tal como el desvo:
media - modo
X - X
Sesgo =
=
desvo
3(X - X)
Sesgo =
=
Desvo
+ Q1
=
Q3
- Q1
P90
- 2P50
P10
=
P90 - P10
- Q1 ).
6 -
1
fi
Q
N
R
4 -
2 -
12
Li x U s
19
26
33
clases centrales
1. Tomemos las tres clases centrales las cuales poseen las mayores
frecuencias del histograma de nuestro ejemplo
2. Trazamos MN y RQ, se cortan en P.
3. La perpendicular al eje x determina la posicin del x dentro del grfico.
4. Se fijan el Li y Us como lmites inferior y superior de la clase modal.
5.
1 y 2 son las diferencias con las clases anterior y posterior a la
modal.
6. Se han determinado dos tringulos semejantes MPR y QPN.
7. Trazo la altura:
8.
EP
MR
PF
QN
x - Li
Us - x
9. 2 (x - Li ) =
10. 2 x - 2 Li = 1 Us - 1 x
11.
EP = x - Li
PF = Us - x
2 x + 1 x = 1 Us + 2 Li
12. (2 + 1 ) x = 1 Us + 2 Li
despejando x
1 Us + 2 Li
13.
x =
( 2 + 1 )
14.
como Us = Li + c
entonces:
1 (Li + c) + 2 Li
x =
(2 + 1 )
1 Li + 1 c + 2 Li
x =
x =
2 + 1
Li (1 + 2 ) + 1 c
x =
2 + 1
Li (1 + 2 )
x =
1 c
+
2 + 1
2 + 1
1
x =
Li
2 + 1
Queda demostrada la frmula utilizada a partir del histograma.