Sei sulla pagina 1di 30

1

INTRODUCCIN Y ESTADSTICA DESCRIPTIVA


Guillermo Correa Londoo

1. DEFINICIONES

1.1 MTODOS ESTADSTICOS

Conjunto de tcnicas que facilitan las labores de colectar, resumir, resaltar, comparar y,
en general, analizar la informacin contenida en una muestra, de manera que sea posible
generalizar adecuadamente los hallazgos a la poblacin de origen.

1.2 VARIABLE

Es una caracterstica de una unidad muestral (un individuo, un animal, una caja de petri,
etc.), y que, tal y como su nombre lo indica, vara o cambia de una unidad a otra. Si todos
los individuos observados son homogneos para una caracterstica dada, esta no es una
variable, sino una constante. En general, las variables son cada una de las caractersticas
observadas, medidas o registradas sobre las unidades.

1.3 VARIABLES CUALITATIVAS Y CUANTITATIVAS
Esta es la clasificacin ms general de las variables. Las variables cualitativas, tambin
llamadas atributos o categoras, no pueden medirse numricamente. Las variables
cuantitativas s se miden numricamente.


VARIABLES CUALITATIVAS VARIABLES CUANTITATIVAS
Color
Raza
Sexo
Sustrato
Uso del suelo
Grado de afectacin
Peso
Dimetro
Longitud
Nmero de esporas
Temperatura
Mortalidad

2






































1.4 ESCALAS DE MEDICIN

Son sistemas o convenciones usados para registrar la informacin contenida en una
unidad muestral. Las escalas de medicin constituyen una forma ms detallada (que
cuantitativas-cualitativas) de clasificar las variables, acorde con la cantidad de informacin
contenida en ellas.

Otra forma de clasificar las variables es en discretas y continuas. Una variable
es discreta si entre dos valores contiguos no existe ningn otro valor posible.
Esto implica que haya saltos entre los valores que toma la variable. En
contraste, para las variables continuas siempre es posible obtener infinitos
valores entre cualquier par de valores, sin importar lo cercanos que se
encuentren entre s.

Podra pensarse que las variables discretas siempre corresponden a conteos y
que no involucran cifras decimales, pero esto no siempre es as. Considrese
el precio marcado por un taxmetro: 2100, 2175, 2250.... O considrese la
relacin de respuestas correctas respecto al total de preguntas formuladas en
un examen de 5 puntos: 1 / 5, 2 / 5, 3 / 5.... Las variables de ambos ejemplos
son discretas.

Debido a las unidades en que algunas variables son expresadas, estas pueden
parecer discretas. Por ejemplo, el tiempo expresado en segundos o el peso
expresado en gramos. No obstante, estas variables son continuas. Ntese
que sin importar que se cuente con un instrumento lo suficientemente
preciso, entre 4 g y 5 g hay infinitos pesos.

Tanto las variables continuas como las discretas son
cuantitativas!

3
1.4.1 Escala Nominal. Es la escala de medicin ms dbil (la que contiene menos
informacin), los valores de la variable simplemente indican diferentes categoras (a
menudo se le llama tambin escala categrica), sin que exista un orden entre ellas.
Ejemplo: Color, sexo, especie, raza, nombre, procedencia. El valor asociado con cada uno
de los niveles de la variable no es ms que una etiqueta de identificacin, sin otro valor de
comparacin con otros niveles de la escala que el de igualdad o diferencia. Aunque es
posible usar etiquetas numricas para identificar cada una de las categoras de la escala
(1: rojo; 2: azul; 3: amarillo; ....), su nica funcin ser la de sealar la membresa de un
individuo a una categora determinada. Incluso en tales casos, los nmeros utilizados
para identificar a cada categora no conllevan ninguna informacin numrica y bien
podran intercambiarse entre categoras. Un caso particular de variables nominales es el
de aquellas con solo dos categoras exhaustivas y mutuamente excluyentes, esto es, las
variables binarias o dicotmicas.

Al generar representaciones grficas de variables nominales (diagramas de barras, por
ejemplo), no existe una posicin u orden predeterminado para cada categora, siendo
posible ubicar las categoras indistintamente en cualquier posicin, sin que se altere la
informacin contenida en la representacin.

1.4.2 Escala Ordinal. Las variables medidas en esta escala contienen ms informacin
que las variables nominales. Existe un orden natural entre las diferentes categoras de la
escala, de tal forma que es posible establecer cul es la primera, la segunda, etc., con
relacin a una caracterstica particular. Por ejemplo, estrato socioeconmico, estado
sanitario de un cultivo (sano, levemente afectado, medianamente afectado, fuertemente
afectado), velocidad de crecimiento de un microorganismo (lento, normal, rpido). El valor
asociado con cada uno de los niveles de esta escala representa un rango (1: lento; 2:
normal; 3: rpido), lo que permite establecer comparaciones de orden entre los diferentes
niveles (mayor que, menor que). Sin embargo, no es posible afirmar que la distancia o
diferencia entre todos los pares de categoras adyacentes sea la misma.

1.4.3 Escala Numrica. El valor asociado con cada nivel de esta escala indica la cantidad
o intensidad de la caracterstica medida. La distancia entre cualquier par de niveles
adyacentes de una variable medida en esta escala es la misma. Esta propiedad permite
establecer comparaciones entre cualquier par de intervalos en la escala. Si adems, la

4
escala posee un valor de referencia cero, correspondiente a la ausencia de la
caracterstica medida, tambin ser posible establecer relaciones de razn. Esta es la
escala de medicin ms fuerte (la que contiene mayor cantidad de informacin). En
general, existen mayores posibilidades de anlisis cuando se tienen variables numricas
que cuando se tienen variables medidas en cualquiera de las otras dos escalas.




























Para fines de elegir un mtodo estadstico adecuado basta con reconocer las
escalas presentadas, sin que se requiera una separacin ulterior de la escala
numrica.

La definicin de escala numrica que aqu se presenta recoge tanto a la
escala de intervalo como a la escala de razn.

La diferencia entre estas dos escalas est dada por la existencia de un punto
cero verdadero que determine la ausencia de la caracterstica medida. En
caso de que exista tal punto cero de referencia (escala de razn), es posible
establecer cualquier tipo de comparacin entre niveles de dicha escala,
incluso, comparaciones de razn (10 es el doble de 5).

La ausencia de un punto cero verdadero en las escalas de intervalo impide
realizar comparaciones de razn. El ejemplo ms tpico de las escalas de
intervalo es el de las escalas usualmente utilizadas para medir temperatura.
Cero grados centgrados es un valor relativamente arbitrario de la escala,
que no representa ausencia de calor. Al usar otra escala, por ejemplo
Farenheit, se usa otro valor cero de referencia, que tampoco representa
ausencia de calor. Esto implica que los ceros arbitrarios de diferentes
escalas no coincidan impidiendo afirmar, por ejemplo que 10 grados es el
doble de 5 grados. Obsrvese que al pasar de grados centgrados a
Farenheit, tal afirmacin deja de ser vlida (50 F es el doble de 41 F?). La
nicas comparaciones vlidas, al usar una escala de intervalos son las
comparaciones por intervalos: la distancia entre 5 y 6 grados es la misma
que entre 12 y 13 grados.

5
Es posible compaginar los dos sistemas de clasificacin de variables. Tanto las variables
medidas en escala nominal como las ordinales son cualitativas, mientras que solo las
variables numricas son cuantitativas.





1.5 POBLACIN

Es un conjunto de individuos o elementos que tienen una o ms caractersticas comunes.
Las caractersticas comunes no son slo fsicas, pueden ser espaciales o temporales.
Ejemplos: estudiantes matriculados en el periodo acadmico 03-2010 (caracterstica
temporal) ; estudiantes que asisten a clase en el ncleo de minas (caracterstica espacial).












Aunque la estadstica matemtica define una poblacin como el conjunto
de todos los valores que puede tomar una variable (una poblacin de
pesos, una poblacin de longitudes, etc.), desde el punto de vista del
investigador resulta ms prctico definir a la poblacin como el conjunto
de individuos poseedores de la caracterstica en cuestin.

6
1.6 MUESTRA

Es cualquier subconjunto de elementos seleccionado de una poblacin. Lo ideal es que
sea un subconjunto representativo de toda la poblacin, o sea que refleje las
caractersticas esenciales de la misma, de manera que a partir del anlisis de la muestra
puedan realizarse generalizaciones sobre la poblacin.

1.7 PARMETRO

Los parmetros son constantes usualmente desconocidas que caracterizan una
poblacin. Se requerira tener acceso a toda la poblacin para calcular su valor exacto.
Los parmetros suelen representarse por medio de letras griegas.

1.8 ESTADSTICOS

Son medidas de resumen, calculadas con base en informacin muestral. Se usan como
estimadores de los parmetros poblacionales. Se representa por medio de letras latinas.

1.9 ESTADSTICA DESCRIPTIVA

Es la rama de la estadstica que se dedica a la presentacin, organizacin y resumen de
los datos, usando tablas, grficos y medidas numricas de resumen que representan y
resaltan las caractersticas esenciales de la muestra (y deseablemente de la poblacin).

1.10 ESTADSTICA INFERENCIAL

Es la parte de la estadstica que provee las herramientas para generalizar los resultados
observados en una muestra a un mayor nmero de individuos (la poblacin). Mediante la
inferencia estadstica es posible sacar conclusiones acerca de una poblacin, a partir de
la informacin suministrada por una muestra extrada de tal poblacin. La inferencia
estadstica hace uso de herramientas como la estimacin y las pruebas de hiptesis.




7

2. ESTADSTICA DESCRIPTIVA

Como se mencion anteriormente, la estadstica descriptiva se basa en el uso de tres
herramientas bsicas: medidas de resumen, tablas y grficos.

2.1 MEDIDAS DE RESUMEN

Las medidas de resumen, como su nombre lo dice, sirven para resumir la informacin
contenida en un grupo de datos y se dividen en: medidas de tendencia central, medidas
de dispersin, medidas de forma y medidas de posicin.


2.1.1 Medidas de Tendencia Central. La tendencia es una medida que identifica el punto
central del conjunto de datos. Dicho punto constituye un referente o representante del
conjunto de datos. Muchos mtodos se basan en el clculo de las desviaciones de los
datos, con relacin a dicho referente de centralidad.

Existen diferentes criterios para elegir dicho referente de centralidad.

2.1.1.1 Media. Es la medida de tendencia central de mayor uso, tanto en estadstica
descriptiva como en estadstica inferencial. Se define como el promedio aritmtico de
todos los datos.

Dependiendo de si se trabaja con una muestra (lo usual al realizar inferencia estadstica)
o con la poblacin (en el caso de los censos), se define la media muestral (estadstico) o
la media poblacional (parmetro).

n
X
n
i
i x
=
=
1
___
Esta es la media muestral (estadstico).


N
N
i
i x
=
=
1
Esta es la media poblacional (parmetro).

8

La principal debilidad de la media como medida de tendencia central es su falta de
robustez a la presencia de valores extremos.




















2.1.1.2 Mediana: Es el valor central de un conjunto ordenado de datos. En tal sentido, el
nmero de datos de la muestra que est por debajo de la mediana es exactamente igual
al nmero de datos de la muestra que son mayores que la mediana. As, por ejemplo,
para el conjunto {2, 4, 5, 6, 8}, la mediana es 5.



Calcula la media para el siguiente conjunto de datos: {3, 5, 6, 8, 9}
Ahora, calcula la media para el siguiente conjunto de datos: {3, 5, 6, 8, 20}
Compara los dos valores obtenidos y saca tus conclusiones.


Se dice que un mtodo es robusto a una condicin cuando esta no afecta
el resultado esperado del mtodo.

Se espera que la media refleje la tendencia central de un conjunto de
datos. No obstante, en presencia de valores extremos, dicha tendencia
central no queda bien reflejada. Por tanto, la media no es robusta a la
presencia de valores extremos.

9
La principal ventaja de la mediana en relacin con la media es su robustez ante la
presencia de valores extremos.









En caso de que la muestra (o la poblacin) contenga un nmero par de valores, la
mediana se obtiene como el promedio de los dos valores centrales.

















Calcula la mediana para el siguiente conjunto de datos: {3, 5, 6, 8, 9}
Ahora, calcula la mediana para el siguiente conjunto de datos: {3, 5, 6, 8, 20}
Compara los dos valores obtenidos y saca tus conclusiones.


Estadstico de Orden: Se define el i-simo estadstico de orden como el valor que
toma la observacin i-sima en el conjunto de datos ordenado ascendentemente, as:
X
(1)
es el estadstico de orden 1 y corresponde al mnimo.
X
(2)
es el estadstico de orden 2 y corresponde al segundo menor valor.

X
(n)
es el estadstico de orden n y corresponde al mximo.

Mediana=
( )
1
2
n
x
+
, si n es impar
Mediana=
( ) ( )
1
2 2
2
n n x x +
+
, si n es par.

10
2.1.1.3 Moda. El significado estadstico de la palabra moda es similar al que le damos en
nuestra sociedad. Qu es moda? Lo que ms se usa, lo que ms se ve, lo que aparece
con mayor frecuencia. As, la moda es el valor que ms se repite en el conjunto de datos.

En el conjunto de datos {2, 5, 5, 5, 6, 7, 8} la moda es 5.

La moda es una medida netamente descriptiva. Un conjunto de datos puede tener una
moda (distribucin unimodal), tener varias modas (bimodal para el caso de 2 modas;
multimodal, para ms de una moda, en general) o no tener ninguna moda. En caso de
que la moda exista, siempre corresponder con alguno o algunos de los valores
observados en el conjunto de datos.









2.1.1.4 Media ponderada. Es una media modificada, donde a cada uno de los valores se
le asigna un peso o ponderacin especfica, de manera que algunos valores pesen ms
que otros en el promedio.

1
1
*
n
i i
i
w
n
i
i
X
w x
w
=
=
=



Considrese el clculo del promedio acadmico de un semestre en el que un estudiante
tena matriculadas asignaturas que le exigan diferente dedicacin. Consecuentemente
con la diferente exigencia de cada asignatura, las asignaturas de mayor dedicacin


Calcula la moda en {3, 5, 6, 3, 4, 3, 5, 8, 5}

Calcula la moda en {2, 4, 6, 8, 9, 3, 5}

11
(mayor nmero de crditos) deben llevar una mayor ponderacin que las asignaturas de
menor exigencia (menor nmero de crditos).

Asignatura Crditos Nota
Asignatura a 5 3.0
Asignatura b 3 3.5
Asignatura c 2 4.2
Asignatura d 3 3.6

Verifique que el promedio ponderado en este caso es 3.4. Observe que a pesar de que el
estudiante obtuvo una buena nota en la asignatura c, dicha asignatura tiene muy poco
peso en relacin con la asignatura a (menos de la mitad). Esto explica por qu el
promedio ponderado est ms cerca de la nota obtenida en la asignatura a que de la nota
obtenida en la asignatura c.

Ntese que cuando se promedian valores a los cuales se les han asignado diferentes
porcentajes, el promedio calculado es justamente un promedio ponderado.

Considrense las siguientes evaluaciones de una asignatura:

Evaluacin Porcentaje Nota
Parcial 1 25 % 3.2
Parcial 2 35 % 3.5
Parcial 3 40 % 4.1


( )( ) ( ) ( ) ( )( )
1
1
*
0.25 3.2 0.35 3.5 0.40 4.1
0.80 1.225 1.64
3.665
0.25 0.35 0.40 1
n
i i
i
w
n
i
i
X
w x
w
=
=
+ +
+ +
= = = =
+ +



12

2.1.1.5 Recorrido Medio. Aunque esta medida de tendencia central es netamente
descriptiva, vale la pena mencionarla por ser la medida que normalmente se utiliza al
calcular la temperatura media de un da cualquiera. Es el valor que est en medio del
mnimo y el mximo. Se obtiene promediando tales valores extremos.


2.1.2 Medidas de Dispersin. Las medidas de dispersin indican qu tan cerca o qu
tan lejos estn los datos de la medida de tendencia central, en otras palabras, indican que
tan homogneos o heterogneos son los datos.

Considrense los siguientes conjuntos de datos:




Obsrvese que ambos conjuntos de datos estn centrados en 6, pero el primer conjunto
de datos est ms concentrado sobre el valor central que el segundo conjunto. Esto pone
en evidencia que las medidas de tendencia central no son suficientes para caracterizar un
conjunto de datos. Hacen falta medidas para calificar el grado de dispersin de los datos.
Estas son justamente las medidas de dispersin.

2.1.2.1 Varianza. Es la ms popular de las medidas de dispersin. Yace en la base de
todos los mtodos de estadstica inferencial. Se obtiene como el promedio (para el caso
poblacional) o el cuasi promedio (para el caso muestral) de las distancias cuadrticas
entre cada valor y la media.

13



( )
2
2 1
1
n
i
i
x x
S
n
=

=

Esta es la varianza muestral (estadstico).




( )
2
2 1
N
i
i
x
N

=

=

Esta es la varianza poblacional (parmetro).


En el mbito investigativo, usualmente no se accede a toda la poblacin, sino nicamente
a una muestra de la misma, con base en la cual se desea hacer inferencia estadstica.

Para el clculo de la varianza muestral usualmente se utiliza una frmula operacional,
derivada de la frmula conceptual, la cual tiene la ventaja de no acumular errores de
redondeo.














Las varianzas solo son comparables entre conjuntos de datos que tengan las mismas
unidades. A mayor varianza, mayor ser la dispersin del conjunto de datos. Ms all de
esto, no es posible interpretar la varianza, puesto que se expresa en las mismas unidades
de la variable, pero elevadas al cuadrado.



Realiza el desarrollo necesario para mostrar que:

( )
2
2 1
1
n
i
i
x x
S
n
=

=

=
2
2
1
1
1
n
n i
i
i
i
n
n
x
x
=
=
| |
|
\



14
2.1.2.2 Desviacin estndar. Es la raz cuadrada positiva de la varianza. Se expresa en
las mismas unidades de la variable, por lo cual es ms utilizada que la varianza para fines
descriptivos.

2
S S = Desviacin estndar muestral (estadstico).
2
= Desviacin estndar poblacional (parmetro).

Obsrvese que la desviacin estndar no ofrece ninguna informacin adicional a la
contenida en la varianza, en cuanto a la variacin del conjunto de datos, no siendo ms
que una transformacin de esta.


















2.1.2.3 Coeficiente de Variacin. Es una medida de dispersin relativa, que se expresa
como el porcentaje de la desviacin estndar con relacin a la media. Permite comparar
la dispersin de conjuntos de datos con diferentes centros, e incluso, por ser una medida
Considrense los siguientes conjuntos de datos:

A B
Media 10 t/ha 4 t/ha
Desviacin Estndar 2.5 t/ha 2 t/ha

Cul de los dos conjuntos de datos es ms variable?

Podra pensarse que el conjunto A tiene mayor dispersin que el conjunto B. No
obstante, debe tenerse en cuenta que las medidas de dispersin miden qu tan
concentrados o dispersos se encuentran los datos con relacin a un punto central.
Luego, para comparar la dispersin de dos conjuntos de datos con diferente centro,
ser necesario usar una medida relativa de la dispersin con relacin a sus
correspondientes centros.

15
adimensional (no tiene unidades de medida), permite comparar la variabilidad de
conjuntos de datos con diferentes unidades.

*100
S
CV
X
=

2.1.2.4 Desviacin Mediana. Es una medida de dispersin donde la medida de
tendencia central de referencia es la Mediana. Se calcula as:

Desviacin Mediana =
n
Me
n
i
i x
=

1



Esta medida resulta adecuada cuando se haya usado la mediana como medida de
tendencia central. No tendra mucho sentido justificar el uso de la mediana como medida
de posicin y luego reportar cmo es la dispersin de los datos con respecto a la media
(varianza).

2.1.2.5 Recorrido. Esta medida de dispersin se calcula como la diferencia entre los dos
valores extremos del conjunto de datos, indicando la distancia que hay entre el menor y el
mayor valor.

Recorrido= (Mximo Mnimo) (X
(n)
X
(1)
)

Por estar basada nicamente en dos valores, es una medida que contiene muy poca
informacin con relacin a otras medidas de dispersin. Sin embargo, desde el punto de
vista descriptivo, proporciona una visin que no da ninguna otra medida.

2.1.3 Medidas de Forma. Aun cuando las medidas de tendencia central y las medidas
de dispersin reflejan importantes aspectos de los datos, estas no cubren el panorama
completo en lo concerniente a su distribucin. Considrense los siguientes conjuntos de
datos.



16







Ambos conjuntos de datos estn centrados en el mismo punto ( 9.475 X = ; tringulo
rojo) y tienen la misma varianza (
2
4.26807 S = ). Resulta evidente, sin embargo, que
ambos conjuntos de datos difieren en su patrn de concentracin alrededor de la
media.

2.1.3.1 Coeficiente de Asimetra (a). Mide el grado de sesgo o asimetra en la
dispersin de los datos con respecto a la media.

( ) ( )
3
__
1
3
1 2
n
i
i
n
a
n n
x x
S
=
(
| |
(
|
(
\ (
=
(
(


(
(




Pueden tipificarse las siguientes situaciones:


17
Distribucin Simtrica: a = 0:



Cuando hay simetra perfecta, la media, la mediana y la moda toman el mismo valor.

Sesgo o asimetra a la derecha: a > 0:



Cuando hay sesgo a la derecha, la moda < la mediana < la media.


Asimetra o sesgo a la izquierda: a < 0:



Cuando hay sesgo a la izquierda, la media < la mediana < la moda.




18
















Considrense ahora los siguientes conjuntos de datos:

A 0.5 4 6 6.5 7 7.5 8 10 13.5
B 1.5 3.5 4 6 7 8 10 10.5 12.5

Compruebe que:


X
S
a
A 7 3.6228 0
B 7 3.6228 0

Son iguales, entonces, estos conjuntos de datos? Aparentemente s. Al menos en
cuanto a su tendencia central, su dispersin y su asimetra. Obsrvense, sin embargo, los
siguientes diagramas de dispersin:


Considera los dos conjuntos de datos presentados anteriormente:

A 5 6.3 6.9 7.4 9.2 10 12.9 18.1
B 0.85 6.05 8.95 9.75 11.55 12.05 12.65 13.95

Comprueba que los dos conjuntos de datos tienen la misma media y la
misma varianza.

Comprueba adems que: a
A
= 1.3089 y a
B
= 1.3089.

Cmo se interpretan estos resultados?


19








Resulta evidente que los dos conjuntos de datos difieren en cuanto a la concentracin de
datos en sectores particulares. Luego, una medida de tendencia central junto con una
medida de dispersin y la medida de asimetra, tampoco son suficientes para describir de
manera completa un conjunto de datos, hace falta una medida adicional.

2.1.3.2 Coeficiente de Curtosis (k). Evala como es la concentracin de los datos
alrededor de la media. Se dice que es una medida de apuntamiento o puntiagudez de
la distribucin (indica qu tan puntiaguda es)

( )
( ) ( ) ( )
( )
( )( )
4
__
2
1
4
1 3 1
1 2 3 2 3
n
i
i
n n n
k
n n n n n
x x
S
=
(
| |
(
|
(
( +
\ (
= (
(
(

(


(
(



Esta es una medida relativa que toma como referente la distribucin normal, la cual se
define como mesocrtica. Si un conjunto de datos tiene una mayor concentracin de
datos alrededor de la media que la distribucin normal, se dice que es leptocrtica y su
forma es ms puntiaguda que la de la distribucin normal. Si la distribucin de datos
alrededor de la media es menor a la existente en una distribucin normal, se dice que la
distribucin es platicrtica y su forma es ms achatada que la de la distribucin normal.


20


Distribucin Mesocrtica: k = 0.



Distribucin Leptocrtica: k > 0



Distribucin Platicrtica: k < 0













Para los dos conjuntos de datos anteriores, comprueba que:

k
A
: 1.235; k
B
: 1.004

Cmo se interpretan estos resultados?


21
2.1.4 Medidas de Posicin. Son medidas que permiten estimar en qu punto de la
distribucin de los datos se encuentra un determinado valor.

2.1.4.1 Cuantiles. Son la expresin ms general de las medidas de posicin y
comprenden a todas las otras. El valor que tome el cuantil X es el valor que deja por
debajo de s al X % de los datos. Para el clculo de los cuantiles se recurre a los
estadsticos de orden.

1) Se calcula el valor n*X, siendo n el nmero de datos y X el cuantil deseado.

Si (nX/100) no es entero:

Cuantil X = X
( [| nX/100 |] + 1 )
, donde [| |] es la funcin menor entero contenido
en (redondear por debajo).

Si (nX/100) es entero:
Cuantil X = {X
(nX/100) +
X
[(nX/100) + 1]
}/ 2

Importante:

Cuantil 0 = X
(1)
= El valor Mnimo
Cuantil 100 = X
(n)
= El valor Mximo

2.1.4.2 Cuartiles. Son valores que dividen el conjunto de datos en cuatro partes.

Q1: Primer cuartil: Es el valor por debajo del cual se encuentra el 25% de
los datos.

Q2: Segundo cuartil: Es el valor por debajo del cual se encuentra el 50% de
los datos.

Q3: Tercer cuartil: Es el valor por debajo del cual se encuentra el 75% de
los datos.


22

2.1.4.3 Deciles. Son valores que dividen el conjunto de datos en diez partes.

D
1
: Decil uno: Es el valor por debajo del cual est el 10% de los datos.
D
2
: Decil dos: Es el valor por debajo del cual est el 20% de los datos.

2.1.4.4 Percentiles. Son los valores que dividen la informacin en centsimas, o sea
en 100 partes.

P
1
: Percentil uno: Es el valor por debajo del cual est el 1% de los datos.
P
2
: Percentil dos: Es el valor por debajo del cual est el 2% de los datos.













2.2 TABLAS.

2.2.1 Tablas de Frecuencias. Son arreglos tabulares que resumen, de manera
estructurada, la informacin de una variable, permitiendo visualizar su distribucin.

Considrese la siguiente informacin sobre la altura (cm) de un grupo de nios en edad
escolar:



Obtn las equivalencias entre las diferentes medidas de posicin. Por
ejemplo, Mediana = Q
2
= D
5
= P
50


Calcula todas las anteriores medidas de resumen a dos conjuntos de
datos cualesquiera y compara los resultados obtenidos.


23
Estudiante Estatura Estudiante Estatura Estudiante Estatura
Estudiante 1 1.25 Estudiante 11 1.23 Estudiante 21 1.21
Estudiante 2 1.28 Estudiante 12 1.26 Estudiante 22 1.29
Estudiante 3 1.27 Estudiante 13 1.30 Estudiante 23 1.26
Estudiante 4 1.21 Estudiante 14 1.21 Estudiante 24 1.22
Estudiante 5 1.22 Estudiante 15 1.28 Estudiante 25 1.28
Estudiante 6 1.29 Estudiante 16 1.30 Estudiante 26 1.27
Estudiante 7 1.30 Estudiante 17 1.22 Estudiante 27 1.26
Estudiante 8 1.24 Estudiante 18 1.25 Estudiante 28 1.23
Estudiante 9 1.27 Estudiante 19 1.20 Estudiante 29 1.22
Estudiante 10 1.29 Estudiante 20 1.28 Estudiante 30 1.21


Una forma bsica de resumen consistira en tabular cada uno de los valores, indicando
sus correspondientes frecuencias de repeticin, como se muestra a continuacin:


Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
1.20 1 1 3.3% 3.3%
1.21 4 5 13.3% 16.6%
1.22 4 9 13.3% 30.0%
1.23 2 11 6.6% 36.6%
1.24 1 12 3.3% 40.0%
1.25 2 14 6.6% 46.6%
1.26 3 17 10.0% 56.6%
1.27 3 20 10.0% 66.6%
1.28 4 24 13.3% 80.0%
1.29 3 27 10.0% 90.0%
1.30 3 30 10.0% 100.0%


La anterior tabla, eventualmente podra ayudar a visualizar patrones si la variable toma
unos pocos valores y estos se repiten frecuentemente. Si los valores que toma la variable
son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene
agruparlos por intervalos, ya que de otra manera se obtendra una tabla de frecuencia
muy extensa, de muy poco valor para fines de sntesis.


24
2.2.1.1 Distribuciones de frecuencia agrupada. Supngase que se mide la estatura
(cm) de los habitantes de una unidad residencial, incluyendo nios y adultos, y que se
obtienen los siguientes resultados:

Habitante Estatura Habitante Estatura Habitante Estatura
Habitante 1 1.15 Habitante 11 1.53 Habitante 21 1.21
Habitante 2 1.48 Habitante 12 1.16 Habitante 22 1.59
Habitante 3 1.57 Habitante 13 1.60 Habitante 23 1.86
Habitante 4 1.71 Habitante 14 1.81 Habitante 24 1.52
Habitante 5 1.92 Habitante 15 1.98 Habitante 25 1.48
Habitante 6 1.39 Habitante 16 1.20 Habitante 26 1.37
Habitante 7 1.40 Habitante 17 1.42 Habitante 27 1.16
Habitante 8 1.64 Habitante 18 1.45 Habitante 28 1.73
Habitante 9 1.77 Habitante 19 1.20 Habitante 29 1.62
Habitante 10 1.49 Habitante 20 1.98 Habitante 30 1.01


Ntese que si se presentara esta informacin en una tabla de frecuencia bsica, como la
que se utiliz para el grupo de escolares, se obtendra una tabla con 30 lneas (una para
cada valor). Cada valor tendra asociada una frecuencia de 1. El aporte de informacin de
esta tabla sera, desde luego, muy escaso.

Si se utiliza una tabla en la que los datos estn agrupados por intervalos, la informacin
quedar ms resumida. Como sucede con todo resumen, se pierde algo de informacin,
pero la informacin es ms manejable e ilustrativa. Considrese la siguiente Tabla de
distribucin de Frecuencias para la variable estatura de los estudiantes.

Estatura Frecuencias absolutas Frecuencias relativas
(cm) Simple Acumulada Simple Acumulada
1.01 - 1.10 1 1 3.3% 3.3%
1.11 - 1.20 3 4 10.0% 13.3%
1.21 - 1.30 3 7 10.0% 23.3%
1.31 - 1.40 2 9 6.6% 30.0%
1.41 - 1.50 6 15 20.0% 50.0%
1.51 - 1.60 4 19 13.3% 63.3%
1.61 - 1.70 3 22 10.0% 73.3%
1.71 - 1.80 3 25 10.0% 83.3%
1.81 - 1.90 2 27 6.6% 90.0%
1.91 - 2.00 3 30 10.0% 100.0%

25
El nmero de intervalos en los que se agrupa la informacin es una decisin que debe
tomar el analista. Mientras ms intervalos se utilicen menos informacin se pierde, pero la
tabla puede resultar menos informativa.

Una de las propuestas ms populares para elegir el nmero de intervalos es la de
Sturges, segn la cual se calcula el nmero de intervalos a partir de la siguiente
expresin:

) log( * 32 . 3 1 n K + =
.

En general, se recomienda usar ms de 4 intervalos y menos de 20.

GRFICOS.

Los grficos son el principal instrumento de anlisis exploratorio. Su anlisis permite
revelar las principales caractersticas de un conjunto de datos.

Diagrama de dispersin. Se construyen graficando cada valor como un punto (se habla
de puntos en trminos genricos, pero puede usarse cualquier smbolo) referenciado a un
eje.

El diagrama de dispersin ms sencillo es el correspondiente a una sola variable. En este,
todos los puntos estn sobre una lnea.



Cuando se contrastan dos variables mediante un grfico de dispersin, es posible
detectar patrones de variacin conjunta mediante simple inspeccin.



26


























Aunque las herramientas computacionales actuales permiten construir diagramas de
dispersin para tres variables, como una nube de puntos en un espacio tridimensional,
tales diagramas son de difcil interpretacin y siguen prefirindose los diagramas de
dispersin bidimensionales. Incluso cuando se tiene ms de tres variables, y se quiere
realizar un anlisis exploratorio de las relaciones entre las mismas, muchas tcnicas
multivariantes resumen la informacin ms relevante en planos bidimensionales.


Se tiene la siguiente informacin acerca de nmero de nemtodos
en una muestra de suelo y el contenido de materia orgnica en la
misma muestra:

Nemtodos Materia
Orgnica
Nemtodos Materia
Orgnica
7 4.2 6.7 4
12 9.8 11 11
15 12.5 13 12.5
23 15.7 24 15.9
4 5.8 4 6.8

Construye el diagrama de dispersin entre las dos variables.

Se detecta alguna relacin entre estas variables?

27
Histograma de Frecuencias. Es la representacin grfica de la tabla de frecuencias de
una variable numrica. Se utiliza la abcisa (eje horizontal) para ubicar los diferentes
intervalos que conforman el rango de la variable. En este caso, el eje de la abcisa est
escalado y los intervalos son adyacentes, sin que exista ningn espacio entre ellos. En la
ordenada (eje vertical) se representa la frecuencia (absoluta o relativa) de cada intervalo.




Polgono de Frecuencias. Es una representacin asociada con el histograma de
frecuencias. En esta representacin la informacin de cada intervalo se representa
mediante un punto, el cual se localiza en la marca de clase o punto medio del intervalo
(abcisa) y en la correspondiente frecuencia (ordenada). Seguidamente se unen todos los
puntos mediante una lnea continua.

Una forma lmite del polgono de frecuencias, cuando el tamao de muestra es muy
grande, permite estimar la funcin de distribucin de frecuencias terica de la variable.






28
Diagrama de Barras. Se usa para representar grficamente la tabla de frecuencias de
una variable nominal. Para cada categora se usa una barra (que puede ser vertical u
horizontal), cuya altura representa la frecuencia de la correspondiente categora.

Ecosistema Porcentaje
Pastoreo 12
Forestal 45
Agrcola 18
Urbano 22
Otro 3



















Usando la herramienta informtica de tu predileccin, construye un
diagrama de barras para una variable categrica y un histograma de
frecuencias para una variable numrica.

Qu diferencias existen?

Es posible cambiar el orden de las barras?

29
Diagrama de sectores. Se utiliza igualmente para representar la tabla de frecuencias de
una variable nominal. En este tipo de diagramas el crculo representa la totalidad de la
muestra. A cada categora se le asigna un sector, cuya rea es proporcional a su
frecuencia.




Diagrama de caja y bigotes (Box-and-Whisker Plot).

Este diagrama resume algunos puntos esenciales de la distribucin.




30
La caja se extiende desde el cuartil inferior hasta e cuartil superior, cubriendo, por tanto, la mitad
central de la muestra. La lnea central dentro de la caja marca la localizacin de la mediana. En
ocasiones se seala tambin la posicin de la media (una cruz roja, en este caso). Si la distribucin
es simtrica, la media y la mediana coinciden. La media usualmente estar a la derecha de la
mediana en distribuciones con asimetra a la derecha, y estar a la izquierda de la mediana en
distribuciones con asimetra a la izquierda.

Los bigotes se extienden hasta los menores y mayores valores adyacentes, esto es, aquellos que
no se alejen de la caja ms de 1.5 veces el recorrido intercuartil. Los valores que estn entre 1.5 y
3.0 recorridos intercuartiles se denominan valores extremos y se representan mediante puntos. Los
valores que estn ms all de 3.0 recorridos intercuartiles se denominan valores muy extremos y
se distinguen en la representacin mediante algn otro smbolo (por ejemplo, puntos de otro color).
Estos grficos permiten evaluar de manera rpida la simetra o asimetra de un conjunto de datos.








A menudo se usan grficos mltiples para comparar un conjunto de variables.

Potrebbero piacerti anche