Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Considrese el clculo del promedio acadmico de un semestre en el que un estudiante
tena matriculadas asignaturas que le exigan diferente dedicacin. Consecuentemente
con la diferente exigencia de cada asignatura, las asignaturas de mayor dedicacin
Calcula la moda en {3, 5, 6, 3, 4, 3, 5, 8, 5}
Calcula la moda en {2, 4, 6, 8, 9, 3, 5}
11
(mayor nmero de crditos) deben llevar una mayor ponderacin que las asignaturas de
menor exigencia (menor nmero de crditos).
Asignatura Crditos Nota
Asignatura a 5 3.0
Asignatura b 3 3.5
Asignatura c 2 4.2
Asignatura d 3 3.6
Verifique que el promedio ponderado en este caso es 3.4. Observe que a pesar de que el
estudiante obtuvo una buena nota en la asignatura c, dicha asignatura tiene muy poco
peso en relacin con la asignatura a (menos de la mitad). Esto explica por qu el
promedio ponderado est ms cerca de la nota obtenida en la asignatura a que de la nota
obtenida en la asignatura c.
Ntese que cuando se promedian valores a los cuales se les han asignado diferentes
porcentajes, el promedio calculado es justamente un promedio ponderado.
Considrense las siguientes evaluaciones de una asignatura:
Evaluacin Porcentaje Nota
Parcial 1 25 % 3.2
Parcial 2 35 % 3.5
Parcial 3 40 % 4.1
( )( ) ( ) ( ) ( )( )
1
1
*
0.25 3.2 0.35 3.5 0.40 4.1
0.80 1.225 1.64
3.665
0.25 0.35 0.40 1
n
i i
i
w
n
i
i
X
w x
w
=
=
+ +
+ +
= = = =
+ +
12
2.1.1.5 Recorrido Medio. Aunque esta medida de tendencia central es netamente
descriptiva, vale la pena mencionarla por ser la medida que normalmente se utiliza al
calcular la temperatura media de un da cualquiera. Es el valor que est en medio del
mnimo y el mximo. Se obtiene promediando tales valores extremos.
2.1.2 Medidas de Dispersin. Las medidas de dispersin indican qu tan cerca o qu
tan lejos estn los datos de la medida de tendencia central, en otras palabras, indican que
tan homogneos o heterogneos son los datos.
Considrense los siguientes conjuntos de datos:
Obsrvese que ambos conjuntos de datos estn centrados en 6, pero el primer conjunto
de datos est ms concentrado sobre el valor central que el segundo conjunto. Esto pone
en evidencia que las medidas de tendencia central no son suficientes para caracterizar un
conjunto de datos. Hacen falta medidas para calificar el grado de dispersin de los datos.
Estas son justamente las medidas de dispersin.
2.1.2.1 Varianza. Es la ms popular de las medidas de dispersin. Yace en la base de
todos los mtodos de estadstica inferencial. Se obtiene como el promedio (para el caso
poblacional) o el cuasi promedio (para el caso muestral) de las distancias cuadrticas
entre cada valor y la media.
13
( )
2
2 1
1
n
i
i
x x
S
n
=
=
=
=
Esta es la varianza poblacional (parmetro).
En el mbito investigativo, usualmente no se accede a toda la poblacin, sino nicamente
a una muestra de la misma, con base en la cual se desea hacer inferencia estadstica.
Para el clculo de la varianza muestral usualmente se utiliza una frmula operacional,
derivada de la frmula conceptual, la cual tiene la ventaja de no acumular errores de
redondeo.
Las varianzas solo son comparables entre conjuntos de datos que tengan las mismas
unidades. A mayor varianza, mayor ser la dispersin del conjunto de datos. Ms all de
esto, no es posible interpretar la varianza, puesto que se expresa en las mismas unidades
de la variable, pero elevadas al cuadrado.
Realiza el desarrollo necesario para mostrar que:
( )
2
2 1
1
n
i
i
x x
S
n
=
=
=
2
2
1
1
1
n
n i
i
i
i
n
n
x
x
=
=
| |
|
\
14
2.1.2.2 Desviacin estndar. Es la raz cuadrada positiva de la varianza. Se expresa en
las mismas unidades de la variable, por lo cual es ms utilizada que la varianza para fines
descriptivos.
2
S S = Desviacin estndar muestral (estadstico).
2
= Desviacin estndar poblacional (parmetro).
Obsrvese que la desviacin estndar no ofrece ninguna informacin adicional a la
contenida en la varianza, en cuanto a la variacin del conjunto de datos, no siendo ms
que una transformacin de esta.
2.1.2.3 Coeficiente de Variacin. Es una medida de dispersin relativa, que se expresa
como el porcentaje de la desviacin estndar con relacin a la media. Permite comparar
la dispersin de conjuntos de datos con diferentes centros, e incluso, por ser una medida
Considrense los siguientes conjuntos de datos:
A B
Media 10 t/ha 4 t/ha
Desviacin Estndar 2.5 t/ha 2 t/ha
Cul de los dos conjuntos de datos es ms variable?
Podra pensarse que el conjunto A tiene mayor dispersin que el conjunto B. No
obstante, debe tenerse en cuenta que las medidas de dispersin miden qu tan
concentrados o dispersos se encuentran los datos con relacin a un punto central.
Luego, para comparar la dispersin de dos conjuntos de datos con diferente centro,
ser necesario usar una medida relativa de la dispersin con relacin a sus
correspondientes centros.
15
adimensional (no tiene unidades de medida), permite comparar la variabilidad de
conjuntos de datos con diferentes unidades.
*100
S
CV
X
=
2.1.2.4 Desviacin Mediana. Es una medida de dispersin donde la medida de
tendencia central de referencia es la Mediana. Se calcula as:
Desviacin Mediana =
n
Me
n
i
i x
=
1
Esta medida resulta adecuada cuando se haya usado la mediana como medida de
tendencia central. No tendra mucho sentido justificar el uso de la mediana como medida
de posicin y luego reportar cmo es la dispersin de los datos con respecto a la media
(varianza).
2.1.2.5 Recorrido. Esta medida de dispersin se calcula como la diferencia entre los dos
valores extremos del conjunto de datos, indicando la distancia que hay entre el menor y el
mayor valor.
Recorrido= (Mximo Mnimo) (X
(n)
X
(1)
)
Por estar basada nicamente en dos valores, es una medida que contiene muy poca
informacin con relacin a otras medidas de dispersin. Sin embargo, desde el punto de
vista descriptivo, proporciona una visin que no da ninguna otra medida.
2.1.3 Medidas de Forma. Aun cuando las medidas de tendencia central y las medidas
de dispersin reflejan importantes aspectos de los datos, estas no cubren el panorama
completo en lo concerniente a su distribucin. Considrense los siguientes conjuntos de
datos.
16
Ambos conjuntos de datos estn centrados en el mismo punto ( 9.475 X = ; tringulo
rojo) y tienen la misma varianza (
2
4.26807 S = ). Resulta evidente, sin embargo, que
ambos conjuntos de datos difieren en su patrn de concentracin alrededor de la
media.
2.1.3.1 Coeficiente de Asimetra (a). Mide el grado de sesgo o asimetra en la
dispersin de los datos con respecto a la media.
( ) ( )
3
__
1
3
1 2
n
i
i
n
a
n n
x x
S
=
(
| |
(
|
(
\ (
=
(
(
(
(
Pueden tipificarse las siguientes situaciones:
17
Distribucin Simtrica: a = 0:
Cuando hay simetra perfecta, la media, la mediana y la moda toman el mismo valor.
Sesgo o asimetra a la derecha: a > 0:
Cuando hay sesgo a la derecha, la moda < la mediana < la media.
Asimetra o sesgo a la izquierda: a < 0:
Cuando hay sesgo a la izquierda, la media < la mediana < la moda.
18
Considrense ahora los siguientes conjuntos de datos:
A 0.5 4 6 6.5 7 7.5 8 10 13.5
B 1.5 3.5 4 6 7 8 10 10.5 12.5
Compruebe que:
X
S
a
A 7 3.6228 0
B 7 3.6228 0
Son iguales, entonces, estos conjuntos de datos? Aparentemente s. Al menos en
cuanto a su tendencia central, su dispersin y su asimetra. Obsrvense, sin embargo, los
siguientes diagramas de dispersin:
Considera los dos conjuntos de datos presentados anteriormente:
A 5 6.3 6.9 7.4 9.2 10 12.9 18.1
B 0.85 6.05 8.95 9.75 11.55 12.05 12.65 13.95
Comprueba que los dos conjuntos de datos tienen la misma media y la
misma varianza.
Comprueba adems que: a
A
= 1.3089 y a
B
= 1.3089.
Cmo se interpretan estos resultados?
19
Resulta evidente que los dos conjuntos de datos difieren en cuanto a la concentracin de
datos en sectores particulares. Luego, una medida de tendencia central junto con una
medida de dispersin y la medida de asimetra, tampoco son suficientes para describir de
manera completa un conjunto de datos, hace falta una medida adicional.
2.1.3.2 Coeficiente de Curtosis (k). Evala como es la concentracin de los datos
alrededor de la media. Se dice que es una medida de apuntamiento o puntiagudez de
la distribucin (indica qu tan puntiaguda es)
( )
( ) ( ) ( )
( )
( )( )
4
__
2
1
4
1 3 1
1 2 3 2 3
n
i
i
n n n
k
n n n n n
x x
S
=
(
| |
(
|
(
( +
\ (
= (
(
(
(
(
(
Esta es una medida relativa que toma como referente la distribucin normal, la cual se
define como mesocrtica. Si un conjunto de datos tiene una mayor concentracin de
datos alrededor de la media que la distribucin normal, se dice que es leptocrtica y su
forma es ms puntiaguda que la de la distribucin normal. Si la distribucin de datos
alrededor de la media es menor a la existente en una distribucin normal, se dice que la
distribucin es platicrtica y su forma es ms achatada que la de la distribucin normal.
20
Distribucin Mesocrtica: k = 0.
Distribucin Leptocrtica: k > 0
Distribucin Platicrtica: k < 0
Para los dos conjuntos de datos anteriores, comprueba que:
k
A
: 1.235; k
B
: 1.004
Cmo se interpretan estos resultados?
21
2.1.4 Medidas de Posicin. Son medidas que permiten estimar en qu punto de la
distribucin de los datos se encuentra un determinado valor.
2.1.4.1 Cuantiles. Son la expresin ms general de las medidas de posicin y
comprenden a todas las otras. El valor que tome el cuantil X es el valor que deja por
debajo de s al X % de los datos. Para el clculo de los cuantiles se recurre a los
estadsticos de orden.
1) Se calcula el valor n*X, siendo n el nmero de datos y X el cuantil deseado.
Si (nX/100) no es entero:
Cuantil X = X
( [| nX/100 |] + 1 )
, donde [| |] es la funcin menor entero contenido
en (redondear por debajo).
Si (nX/100) es entero:
Cuantil X = {X
(nX/100) +
X
[(nX/100) + 1]
}/ 2
Importante:
Cuantil 0 = X
(1)
= El valor Mnimo
Cuantil 100 = X
(n)
= El valor Mximo
2.1.4.2 Cuartiles. Son valores que dividen el conjunto de datos en cuatro partes.
Q1: Primer cuartil: Es el valor por debajo del cual se encuentra el 25% de
los datos.
Q2: Segundo cuartil: Es el valor por debajo del cual se encuentra el 50% de
los datos.
Q3: Tercer cuartil: Es el valor por debajo del cual se encuentra el 75% de
los datos.
22
2.1.4.3 Deciles. Son valores que dividen el conjunto de datos en diez partes.
D
1
: Decil uno: Es el valor por debajo del cual est el 10% de los datos.
D
2
: Decil dos: Es el valor por debajo del cual est el 20% de los datos.
2.1.4.4 Percentiles. Son los valores que dividen la informacin en centsimas, o sea
en 100 partes.
P
1
: Percentil uno: Es el valor por debajo del cual est el 1% de los datos.
P
2
: Percentil dos: Es el valor por debajo del cual est el 2% de los datos.
2.2 TABLAS.
2.2.1 Tablas de Frecuencias. Son arreglos tabulares que resumen, de manera
estructurada, la informacin de una variable, permitiendo visualizar su distribucin.
Considrese la siguiente informacin sobre la altura (cm) de un grupo de nios en edad
escolar:
Obtn las equivalencias entre las diferentes medidas de posicin. Por
ejemplo, Mediana = Q
2
= D
5
= P
50
Calcula todas las anteriores medidas de resumen a dos conjuntos de
datos cualesquiera y compara los resultados obtenidos.
23
Estudiante Estatura Estudiante Estatura Estudiante Estatura
Estudiante 1 1.25 Estudiante 11 1.23 Estudiante 21 1.21
Estudiante 2 1.28 Estudiante 12 1.26 Estudiante 22 1.29
Estudiante 3 1.27 Estudiante 13 1.30 Estudiante 23 1.26
Estudiante 4 1.21 Estudiante 14 1.21 Estudiante 24 1.22
Estudiante 5 1.22 Estudiante 15 1.28 Estudiante 25 1.28
Estudiante 6 1.29 Estudiante 16 1.30 Estudiante 26 1.27
Estudiante 7 1.30 Estudiante 17 1.22 Estudiante 27 1.26
Estudiante 8 1.24 Estudiante 18 1.25 Estudiante 28 1.23
Estudiante 9 1.27 Estudiante 19 1.20 Estudiante 29 1.22
Estudiante 10 1.29 Estudiante 20 1.28 Estudiante 30 1.21
Una forma bsica de resumen consistira en tabular cada uno de los valores, indicando
sus correspondientes frecuencias de repeticin, como se muestra a continuacin:
Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
1.20 1 1 3.3% 3.3%
1.21 4 5 13.3% 16.6%
1.22 4 9 13.3% 30.0%
1.23 2 11 6.6% 36.6%
1.24 1 12 3.3% 40.0%
1.25 2 14 6.6% 46.6%
1.26 3 17 10.0% 56.6%
1.27 3 20 10.0% 66.6%
1.28 4 24 13.3% 80.0%
1.29 3 27 10.0% 90.0%
1.30 3 30 10.0% 100.0%
La anterior tabla, eventualmente podra ayudar a visualizar patrones si la variable toma
unos pocos valores y estos se repiten frecuentemente. Si los valores que toma la variable
son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene
agruparlos por intervalos, ya que de otra manera se obtendra una tabla de frecuencia
muy extensa, de muy poco valor para fines de sntesis.
24
2.2.1.1 Distribuciones de frecuencia agrupada. Supngase que se mide la estatura
(cm) de los habitantes de una unidad residencial, incluyendo nios y adultos, y que se
obtienen los siguientes resultados:
Habitante Estatura Habitante Estatura Habitante Estatura
Habitante 1 1.15 Habitante 11 1.53 Habitante 21 1.21
Habitante 2 1.48 Habitante 12 1.16 Habitante 22 1.59
Habitante 3 1.57 Habitante 13 1.60 Habitante 23 1.86
Habitante 4 1.71 Habitante 14 1.81 Habitante 24 1.52
Habitante 5 1.92 Habitante 15 1.98 Habitante 25 1.48
Habitante 6 1.39 Habitante 16 1.20 Habitante 26 1.37
Habitante 7 1.40 Habitante 17 1.42 Habitante 27 1.16
Habitante 8 1.64 Habitante 18 1.45 Habitante 28 1.73
Habitante 9 1.77 Habitante 19 1.20 Habitante 29 1.62
Habitante 10 1.49 Habitante 20 1.98 Habitante 30 1.01
Ntese que si se presentara esta informacin en una tabla de frecuencia bsica, como la
que se utiliz para el grupo de escolares, se obtendra una tabla con 30 lneas (una para
cada valor). Cada valor tendra asociada una frecuencia de 1. El aporte de informacin de
esta tabla sera, desde luego, muy escaso.
Si se utiliza una tabla en la que los datos estn agrupados por intervalos, la informacin
quedar ms resumida. Como sucede con todo resumen, se pierde algo de informacin,
pero la informacin es ms manejable e ilustrativa. Considrese la siguiente Tabla de
distribucin de Frecuencias para la variable estatura de los estudiantes.
Estatura Frecuencias absolutas Frecuencias relativas
(cm) Simple Acumulada Simple Acumulada
1.01 - 1.10 1 1 3.3% 3.3%
1.11 - 1.20 3 4 10.0% 13.3%
1.21 - 1.30 3 7 10.0% 23.3%
1.31 - 1.40 2 9 6.6% 30.0%
1.41 - 1.50 6 15 20.0% 50.0%
1.51 - 1.60 4 19 13.3% 63.3%
1.61 - 1.70 3 22 10.0% 73.3%
1.71 - 1.80 3 25 10.0% 83.3%
1.81 - 1.90 2 27 6.6% 90.0%
1.91 - 2.00 3 30 10.0% 100.0%
25
El nmero de intervalos en los que se agrupa la informacin es una decisin que debe
tomar el analista. Mientras ms intervalos se utilicen menos informacin se pierde, pero la
tabla puede resultar menos informativa.
Una de las propuestas ms populares para elegir el nmero de intervalos es la de
Sturges, segn la cual se calcula el nmero de intervalos a partir de la siguiente
expresin:
) log( * 32 . 3 1 n K + =
.
En general, se recomienda usar ms de 4 intervalos y menos de 20.
GRFICOS.
Los grficos son el principal instrumento de anlisis exploratorio. Su anlisis permite
revelar las principales caractersticas de un conjunto de datos.
Diagrama de dispersin. Se construyen graficando cada valor como un punto (se habla
de puntos en trminos genricos, pero puede usarse cualquier smbolo) referenciado a un
eje.
El diagrama de dispersin ms sencillo es el correspondiente a una sola variable. En este,
todos los puntos estn sobre una lnea.
Cuando se contrastan dos variables mediante un grfico de dispersin, es posible
detectar patrones de variacin conjunta mediante simple inspeccin.
26
Aunque las herramientas computacionales actuales permiten construir diagramas de
dispersin para tres variables, como una nube de puntos en un espacio tridimensional,
tales diagramas son de difcil interpretacin y siguen prefirindose los diagramas de
dispersin bidimensionales. Incluso cuando se tiene ms de tres variables, y se quiere
realizar un anlisis exploratorio de las relaciones entre las mismas, muchas tcnicas
multivariantes resumen la informacin ms relevante en planos bidimensionales.
Se tiene la siguiente informacin acerca de nmero de nemtodos
en una muestra de suelo y el contenido de materia orgnica en la
misma muestra:
Nemtodos Materia
Orgnica
Nemtodos Materia
Orgnica
7 4.2 6.7 4
12 9.8 11 11
15 12.5 13 12.5
23 15.7 24 15.9
4 5.8 4 6.8
Construye el diagrama de dispersin entre las dos variables.
Se detecta alguna relacin entre estas variables?
27
Histograma de Frecuencias. Es la representacin grfica de la tabla de frecuencias de
una variable numrica. Se utiliza la abcisa (eje horizontal) para ubicar los diferentes
intervalos que conforman el rango de la variable. En este caso, el eje de la abcisa est
escalado y los intervalos son adyacentes, sin que exista ningn espacio entre ellos. En la
ordenada (eje vertical) se representa la frecuencia (absoluta o relativa) de cada intervalo.
Polgono de Frecuencias. Es una representacin asociada con el histograma de
frecuencias. En esta representacin la informacin de cada intervalo se representa
mediante un punto, el cual se localiza en la marca de clase o punto medio del intervalo
(abcisa) y en la correspondiente frecuencia (ordenada). Seguidamente se unen todos los
puntos mediante una lnea continua.
Una forma lmite del polgono de frecuencias, cuando el tamao de muestra es muy
grande, permite estimar la funcin de distribucin de frecuencias terica de la variable.
28
Diagrama de Barras. Se usa para representar grficamente la tabla de frecuencias de
una variable nominal. Para cada categora se usa una barra (que puede ser vertical u
horizontal), cuya altura representa la frecuencia de la correspondiente categora.
Ecosistema Porcentaje
Pastoreo 12
Forestal 45
Agrcola 18
Urbano 22
Otro 3
Usando la herramienta informtica de tu predileccin, construye un
diagrama de barras para una variable categrica y un histograma de
frecuencias para una variable numrica.
Qu diferencias existen?
Es posible cambiar el orden de las barras?
29
Diagrama de sectores. Se utiliza igualmente para representar la tabla de frecuencias de
una variable nominal. En este tipo de diagramas el crculo representa la totalidad de la
muestra. A cada categora se le asigna un sector, cuya rea es proporcional a su
frecuencia.
Diagrama de caja y bigotes (Box-and-Whisker Plot).
Este diagrama resume algunos puntos esenciales de la distribucin.
30
La caja se extiende desde el cuartil inferior hasta e cuartil superior, cubriendo, por tanto, la mitad
central de la muestra. La lnea central dentro de la caja marca la localizacin de la mediana. En
ocasiones se seala tambin la posicin de la media (una cruz roja, en este caso). Si la distribucin
es simtrica, la media y la mediana coinciden. La media usualmente estar a la derecha de la
mediana en distribuciones con asimetra a la derecha, y estar a la izquierda de la mediana en
distribuciones con asimetra a la izquierda.
Los bigotes se extienden hasta los menores y mayores valores adyacentes, esto es, aquellos que
no se alejen de la caja ms de 1.5 veces el recorrido intercuartil. Los valores que estn entre 1.5 y
3.0 recorridos intercuartiles se denominan valores extremos y se representan mediante puntos. Los
valores que estn ms all de 3.0 recorridos intercuartiles se denominan valores muy extremos y
se distinguen en la representacin mediante algn otro smbolo (por ejemplo, puntos de otro color).
Estos grficos permiten evaluar de manera rpida la simetra o asimetra de un conjunto de datos.
A menudo se usan grficos mltiples para comparar un conjunto de variables.