UNIDAD II Estadistics

UNIDAD II
MEDIDAS DE TENDENCIA CENTRAL
Las medidas de posición son valores representativos de un conjunto de observaciones. El cálculo

difiere de acuerdo al tipo de variable con que se trabaja (con datos sin agrupar o agrupados)
(distribución simple – intervalos de clases).
LA MEDIA ARITMÉTICA
PARA VARIABLE CUANTITATIVA DISCRETA
Para datos sin agrupar:
La media aritmética o simplemente media, o promedio, es el más conocido y quizás el más usado
de los parámetros de posición por las ventajas que ofrece en algunos aspectos. Se denota con x,
(léase “x barra”) y para un conjunto n de valores de la variable x 1; x2; x3…; xn se define por:
Es decir, la media aritmética simple es la sumatoria de los valores de la variable xi, (variando i
desde 1 hasta n), dividido por el total “n” de observaciones.
Para datos agrupados:
Si los valores de la x1; x2; x3; …xk se repiten diferente número de veces, o sea tienen frecuencias
diferentes, (simbolizadas por fi), podemos agruparlos en una tabla simple de distribución de
frecuencias (variable cuantitativa discreta). Es necesario tener en cuenta el diferente peso que los
datos tienen en la distribución y en éste caso deberá aplicarse el concepto de media aritmética
ponderada.
Donde n es la frecuencia total (o sea el número total de casos, que en la tabla de distribución de
frecuencias está dado por la sumatoria de las fi).
PARA VARIABLE CUANTITATIVA CONTINUA:
En el caso de datos numéricos continuos agrupados en intervalos de clase, el cálculo de la media

aritmética es similar al caso anterior, es decir:
xi se calcula como el promedio entre los extremos de cada intervalo, Xi representa el punto medio
o marca de clase, de cada intervalo de clase.
CARACTERÍSTICAS DE LA MEDIA ARITMÉTICA:
Como dijimos anteriormente es un valor comprendido entre el mínimo y el máximo valor de la

variable en estudio. Posee la misma unidad de medida que la variable considerada. En su cálculo
intervienen todos los valores de la variable estudiada. Esto se presenta como una ventaja ya que
permite el tratamiento algebraico de la misma. Otra ventaja es que resulta de fácil cálculo e
interpretación. No se la puede calcular cuando los datos están agrupados en una tabla de
distribución de frecuencias con intervalos abiertos (porque de los mismos no se puede obtener el
punto medio). Obviamente esto es una desventaja. Se ve afectada o arrastrada por los valores
extremos (valores atípicos o no homogéneo), lo que la hace poco significativa cuando éstos
existen, y por lo tanto el promedio no es representativo. Por lo tanto, no se aconseja su cálculo en
éstos casos.
PROPIEDADES DE LA MEDIA ARITMETICA

Propiedad 4: “La suma de los desvíos de cada valor de la variable con respecto a la media
aritmética es siempre igual a cero”. En símbolos:
En general, entendemos por desvío, a la diferencia entre los valores de la variable y un valor fijo
cualquiera. Cuando ese valor fijo es la media aritmética tendremos desvíos con respecto a ella.
Propiedad 5: “La suma de los cuadrados de los desvíos con respecto a la media aritmética, da un
mínimo”.
Es decir que cuando los desvíos son con respecto a la media, la suma de los cuadrados nos da un
valor que será siempre menor que el valor que se obtiene cuando los desvíos y sus cuadrados se
calculan respecto de cualquier otra constante distinta a la media.
MODO O MODA
Es el valor de la variable que se repite la mayor cantidad de veces, o sea, al que le corresponde la
máxima frecuencia.
Para datos sin agrupar
Si tenemos datos sin agrupar, bastará con identificar cuál es el valor de la variable que más se
repite. Podremos tener series, con un modo, con más de un modo, o sea bimodales, o que no
tengan modo, llamadas amodales.
Para datos agrupados
VARIABLE CUANTITATIVA DISCRETA
En el caso de pocos datos provenientes de una variable discreta, una vez agrupados es posible
determinar inmediatamente el valor modal. Bastará con identificar al valor de la variable al que le
corresponde la mayor frecuencia.
PARA VARIABLE CUANTITATIVA CONTINUA
En una tabla con intervalos de clase el modo se puede obtener gráfica y analíticamente.
Determinación analítica:
Se calcula la moda a través de la siguiente fórmula
DETERMINACIÓN GRÁFICA:
a) Se confecciona el histograma con la barra de mayor frecuencia y las
adyacentes.
b) Se trazan dos diagonales en el interior de la barra del intervalo modal, partiendo de los vértices
de la barra hasta los vértices de las adyacentes.
c) Se traza luego una línea perpendicular desde la intersección de las dos diagonales hasta el eje
de las x, (escala horizontal). El punto donde se cortan será el valor de la variable al que le
corresponde la máxima frecuencia, o sea el modo.
Para variables cualitativas: Si la variable de estudio es de éste tipo, la única medida de tendencia
central que se puede calcular es el modo o moda.
MEDIANA
La mediana de un conjunto de observaciones es un valor es un valor de la variable que divide a

este conjunto (ordenado de menor a mayor), en dos subconjuntos que contienen la misma
cantidad de datos. También podemos definir a la mediana como aquel valor de la variable que
cumple con la condición de superar a no más de la mitad de las observaciones y ser superado por
no más de la mitad de las observaciones.
Para datos sin agrupar
Para encontrar la mediana de un conjunto de datos no agrupados conviene ordenarlos de menor a

mayor.
Si la cantidad de datos es impar: La observación central será aquella que ocupe el lugar
Si la cantidad de datos es par: La mediana se calcula convencionalmente como el punto medio
(valor promedio) entre los valores que ocupan el lugar: N/2 Y (N/2) +1
Para datos agrupados
CON VARIABLE DISCRETA:
El procedimiento de cálculo resulta de practicar el análisis anterior para serie simple, pero
teniendo en cuenta las ponderaciones que ahora aparecen. Las reglas para el cálculo de la
mediana son las siguientes:
1) Se calcula las frecuencias acumuladas correspondientes a cada valor de la variable.
2) Se calcula el orden de localización de la mediana efectuando el cociente n/2
3) Dentro de la columna correspondiente a las frecuencias acumuladas se busca la menor

frecuencia que supere a n/2
4) El valor de la variable que corresponde a dicha frecuencia acumulada es la mediana.
DETERMINACIÓN GRÁFICA:
a) Se confecciona el histograma con las frecuencias acumuladas.
b) Se traza la ojiva.
c) Con el valor n/2 lo ubico sobre el eje de las ordenadas, y trazo una recta paralela al eje x hasta
que corte a la ojiva.
d) Se traza luego una línea perpendicular desde la intersección con la ojiva hasta el eje de las x,
(escala horizontal). El punto donde se cortan será el valor de la variable al que le corresponde la
mediana.
CUARTILES
En la mediana buscábamos el valor de la variable que separa en dos partes iguales a la

distribución. Si nosotros pedimos en cambio, el valor de la variable que supere a no más de ¼ del
total de las observaciones y que sea superado por no más de ¾ del total de las observaciones,
tendremos el primer cuartil ( Q1).
DECILES:
Permiten estudiar a la distribución en tramos de 10%. Si tomamos el total de observaciones y lo

dividimos por 10, nos ubicaremos en el lugar correspondiente al primer decil, simbolizado por: D1
PERCENTILES:
Permiten el estudio, aún más detallado de la distribución, ya que el análisis se hace por tramos del
1%.
“Se mira el Fi”

LOS CINCO NÚMEROS RESUMEN Y EL GRÁFICO DE CAJA Y BRAZOS
El mínimo, el cuartil inferior, la mediana, el cuartil superior y el máximo son cinco números. Dan
una idea de cómo está distribuido un conjunto de datos. Se los llama los cinco números resumen y
se los representa por: Mínimo C1 M C3 Máximo El 50% de los datos se encuentran entre el cuartil
inferior y el superior.
Los cinco números resumen de los pesos de los alumnos de 4to. año son: Mínimo C1 M C3
Máximo
37 51 58 67 85
El 50% de los alumnos tiene un peso entre 51 y 67 kg.
Los cinco números resumen se representan gráficamente en un Gráfico de caja

UNIDAD III
MEDIDAS DE DISPERSIÓN
En ésta sección hablaremos de la segunda característica en orden de importancia, que describe un

conjunto de datos: la dispersión. La dispersión es la cantidad de variación, desperdigamiento o
diseminación de los datos. Dos o más conjuntos de datos pueden diferir tanto en tendencia central
como en dispersión. Para poder determinar si los datos del primer grupo son más parecidos entre
sí que los del segundo, deberíamos tomar un punto de referencia y medir las diferencias entre
cada valor observado y el punto de referencia establecido.
Como ya sabemos, cuando el punto-respuesta corresponde al valor observado de una variable y el

punto de referencia a una medida de posición, tomamos la diferencia como sinónimo de
desviación.
RANGO O RECORRIDO DE UNA VARIABLE
Se denomina rango de un conjunto de observaciones a la diferencia entre el mayor y el menor

valor de la variable.
R = XMax - Xmin
Es la más sencilla, pero también suele ser la más imperfecta de las medidas. Es completamente
dependiente de los dos valores extremos que toma la variable.
No obstante, si se desea obtener el rango para datos agrupados, las formas de
hacerlo es: R = Ls de la clase más alta - Li de la clase más baja
DESVIACIÓN MEDIA
Se la define como la sumatoria del valor absoluto de las desviaciones de los valores de la variable,
con respecto a la media aritmética. No se usa con mucha frecuencia, porque al usar valores
absolutos no es fácil de manipular algebraicamente.
datos sin agrupar
datos agrupados
La desviación media mide el promedio de las diferencias entre los valores observados respecto a la
media del grupo, sin tener en cuenta el signo de la desviación. A diferencia del rango, la desviación
media toma en cuenta todas las observaciones en una distribución.
DESVIACIÓN MEDIANA
En la fórmula anterior se reemplaza a la media aritmética por la mediana, obteniendo la siguiente:

o si los datos están agrupados:
Las desviaciones son definidas ahora, como diferencias entre las observaciones y la mediana.
VARIANZA Y DESVÍO ESTÁNDAR
Dos medidas de dispersión que tienen en cuenta cómo se distribuyen todas las observaciones de
los datos, son la varianza y su raíz cuadrada, la desviación estándar.
La varianza es la suma de las desviaciones con respecto a la media aritmética elevadas al cuadrado
dividida por el número de observaciones.
DESVÍO ESTÁNDAR
EL desvío estándar es una medida de dispersión basada en la media y utiliza todos los datos.
Durante muchos años la media y el desvío estándar fueron, y tal vez sigan siendo, las medidas
resumen más utilizadas. El desvío estándar de los datos de toda una población (desvío estándar
poblacional) se denota con la letra griega (sigma minúscula). Pero la mayoría de las veces los
parámetros poblacionales son desconocidos. ¿Qué se hace? Se calcula un estimador (s, desvío
estándar muestral) utilizando una muestra.
El desvío estándar se calcula promediando la diferencia entre cada dato y la media, elevadas al
cuadrado. Como este resultado tiene las unidades al cuadrado, luego se saca la raíz cuadrada.
Para datos sin agrupar:
Para datos agrupados:
Un valor de éste parámetro más alto que otro, para una misma variable, indica mayor dispersión y
viceversa.
FORMA ALTERNATIVA PARA CÁLCULO DE LA VARIANZA
A continuación, se presenta una fórmula alternativa para la varianza de una distribución

probabilística discreta. Tiene la ventaja de evitar la mayoría de las restas
COEFICIENTE DE VARIACIÓN
La desviación estándar tiene todavía el problema que no permite comparaciones de la dispersión

de dos o más distribuciones, especialmente cuando las variables de estas distribuciones tienen
distintas unidades de medida. Por ejemplo, para la variable “x” expresada en $ que representa los
salarios de un grupo de obreros, podemos tener un σ que es igual a $260 y para una variable “w”
expresada en kilogramos, (kg), que representa la producción de carne de un determinado
establecimiento ganadero, su σ es igual a 2.500 Kg. La comparación directa de ambos desvíos no
es posible y no podríamos afirmar que los salarios tienen menor dispersión que la producción de
carne porque posee un menor S. Para posibilitar la comparación, se define el Coeficiente de
Variación que es el cociente entre:
El coeficiente de variación expresa la desviación estándar como un porcentaje de la media

aritmética. Se debe hacer notar aquí que a medida que el coeficiente de variación disminuye, se
observa una mayor homogeneidad de los datos o, lo que es lo mismo, los datos están más
concentrados alrededor del promedio.
Propiedades Siempre se verifica que:
 Puesto que tanto la desviación estándar como la media se miden en las unidades
originales, el CV es una medida independiente de las unidades de medición.
 Debido a la propiedad anterior el CV es la cantidad más adecuada para comparar la
variabilidad de dos conjuntos de datos.
Además el coeficiente de variación es útil también al comparar dos o más conjuntos de datos,
(distribuciones), que se miden en las mismas unidades de medida pero difieren a un grado tal que
las comparaciones directas de las respectivas desviaciones estándar no es muy útil.

UNIDAD II Estadistics

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

UNIDAD II Estadistics

Caricato da

Copyright:

Formati disponibili

UNIDAD II

MEDIDAS DE TENDENCIA CENTRAL

Las medidas de posición son valores representativos de un conjunto de observaciones. El cálculo

PARA VARIABLE CUANTITATIVA DISCRETA

Para datos sin agrupar:

Para datos agrupados:

PARA VARIABLE CUANTITATIVA CONTINUA:

En el caso de datos numéricos continuos agrupados en intervalos de clase, el cálculo de la media

Como dijimos anteriormente es un valor comprendido entre el mínimo y el máximo valor de la

PROPIEDADES DE LA MEDIA ARITMETICA

Para datos sin agrupar

Para datos agrupados

VARIABLE CUANTITATIVA DISCRETA

Se calcula la moda a través de la siguiente fórmula

a) Se confecciona el histograma con la barra de mayor frecuencia y las

La mediana de un conjunto de observaciones es un valor es un valor de la variable que divide a

Para datos sin agrupar

Para encontrar la mediana de un conjunto de datos no agrupados conviene ordenarlos de menor a

Para datos agrupados

CON VARIABLE DISCRETA:

1) Se calcula las frecuencias acumuladas correspondientes a cada valor de la variable.

2) Se calcula el orden de localización de la mediana efectuando el cociente n/2

3) Dentro de la columna correspondiente a las frecuencias acumuladas se busca la menor

4) El valor de la variable que corresponde a dicha frecuencia acumulada es la mediana.

En la mediana buscábamos el valor de la variable que separa en dos partes iguales a la

Permiten estudiar a la distribución en tramos de 10%. Si tomamos el total de observaciones y lo

“Se mira el Fi”

El 50% de los alumnos tiene un peso entre 51 y 67 kg.

Los cinco números resumen se representan gráficamente en un Gráfico de caja

En ésta sección hablaremos de la segunda característica en orden de importancia, que describe un

Como ya sabemos, cuando el punto-respuesta corresponde al valor observado de una variable y el

RANGO O RECORRIDO DE UNA VARIABLE

Se denomina rango de un conjunto de observaciones a la diferencia entre el mayor y el menor

No obstante, si se desea obtener el rango para datos agrupados, las formas de

hacerlo es: R = Ls de la clase más alta - Li de la clase más baja

datos sin agrupar

En la fórmula anterior se reemplaza a la media aritmética por la mediana, obteniendo la siguiente:

VARIANZA Y DESVÍO ESTÁNDAR

Para datos sin agrupar:

Para datos agrupados:

FORMA ALTERNATIVA PARA CÁLCULO DE LA VARIANZA

A continuación, se presenta una fórmula alternativa para la varianza de una distribución

La desviación estándar tiene todavía el problema que no permite comparaciones de la dispersión

El coeficiente de variación expresa la desviación estándar como un porcentaje de la media

Propiedades Siempre se verifica que:

Potrebbero piacerti anche