Sei sulla pagina 1di 11

ESTADÍSTICA

Estadística: rama de las matemáticas que se ocupa de reunir, organizar y


analizar datos numéricos y que ayuda a resolver problemas como el diseño de
experimentos y la toma de decisiones.

Términos Elementales

Población: Consiste en la totalidad de las observaciones en las cuales se está


interesado.
Muestra: Es un subconjunto de una población.
Estadístico: Es un resumen que se calcula para describir una sola muestra de
la población, y por lo tanto, una estimación de los parámetros
Parámetro: es un resumen que se calcula para describir una característica de
toda una población.
Características de las Variables: Al conjunto de los distintos valores
numéricos que adopta un carácter cuantitativo se llama variable estadística.

ESTADÍSTICA DESCRIPTIVA

Puede definirse como aquellos métodos que incluyen la recolección,


presentación y caracterización de un conjunto de datos con el fin de describir
apropiadamente las diversas características de ese conjunto de datos.

ESTADÍSTICA INFERENCIAL

Puede definirse como aquellos métodos que hacen posible la estimación de


una característica de una población o la toma de una decisión referente a una
población, basándose sólo en los resultados de la muestra.

La captación, la crítica, la organización y la presentación de información


estadística.

Tabla de distribución de frecuencias:

Se conoce como distribución de frecuencia ó tablas de frecuencia a toda


ordenación de datos obtenida en un fenómeno de un experimento estadístico
en clases.
Una tabla de distribución de frecuencia puede expresarse:
a) En cifras absolutas (frecuencias absolutas)
b) En cifras relativas (frecuencias relativas)

La frecuencia relativa expresa la proporción en que un determinado valor de la


variable participa en el conjunto; la frecuencia relativa la podemos expresar en
forma de proporción f / n, o bien en forma de porcentaje (f / n ) x 100.
f = frecuencia.
n = número total de observaciones.
A continuación se señalaran las principales características que son parte de las
tablas de frecuencia o de los datos agrupados:

Clase o categoría: Es el par de valores ordenados separados por un guión y


que también se conoce como intervalo de clase.
Límites de clase: Los números extremos de una clase o categoría se les
conoce como límites de clase y son el límite inferior y el límite superior.
Límites reales de la clase: Los límites reales de la clase se obtienen sumando
al límite superior de la clase, el límite inferior de la clase contigua superior y
dividiendo entre 2.
Tamaño o amplitud de clase: Es la diferencia entre los límites de las clases
que lo conforman.
Marca de clase: Es el punto medio de una clase o categoría y se obtiene
sumando los límites superior e inferior de la clase y dividiendo entre 2.

Reglas generales para la formación de una tabla de distribución de


frecuencia
a) Obtener el rango: (diferencia entre el mayor y el menor de los datos de
la ordenación)
b) Determinar el número de clases deseado. (Una opción es obtener la
raíz cuadrada del número total de observaciones)
c) Determinar la anchura o amplitud de clase. Rango ÷ número de
clases
d) Determinar el número de observaciones que caen dentro de cada
clase. Lo mejor para esto es utilizar una hoja de conteo.

GRAFICACIÓN DE DATOS ESTADÍSTICOS

HISTOGRAMA

A menudo se dice que “una imagen vale mas que mil palabras”. De hecho los
estadísticos han empleado las técnicas gráficas han empleado las técnicas
gráficas para describir de manera más vívida series de datos. En particular, los
histogramas se usan para describir datos numéricos que han sido agrupados
en distribuciones de frecuencia.
Un histograma, consiste en una serie de rectángulos cuyo ancho es
proporcional al alcance de los datos, que se encuentran dentro de una clase y
cuya altura es proporcional al número de elementos que caen dentro de la
clase.

2.- MEDIDAS DE TENDENCIA CENTRAL (MEDIA, MODA Y MEDIANA)


(Objetivo: El estudiante desarrollará habilidades para el correcto manejo de
información a efecto de calcular los promedios, identificando situaciones
particulares en donde habrá que elegir el promedio adecuado, de acuerdo con
diversas situaciones.)

Aún cuando se extraiga una colección de datos de una fuente común, no es


probable que las observaciones individuales tengan el mismo valor. Es
impráctico mantener en la mente todos los valores que pueden estar presentes
en una serie de datos. Lo que se necesita es algún valor único que se pueda
considerar típico de la serie de datos en su conjunto. La necesidad de dicho
valor único por lo general se satisface con una de las medidas de tendencia
central

LA MEDIA ARITMÉTICA.

La medida de tendencia central más familiar es la media aritmética.


Conocida en forma popular como el promedio, en ocasiones es llamada
promedio aritmético, o simplemente la media. Se encuentra sumando todos los
valores de una serie de datos y dividiendo el total entre el número de valores
que se sumaron.

Muestra:
∑x
i =1
i
x=
n
N

Población:
∑x i
µ= i =1

N
Las propiedades de la media aritmética incluyen las siguientes:
1. Para una serie de datos, hay una, y sólo una, media aritmética.
2. Su significado se entiende con facilidad.
3. En vista de que todo valor entra en su cálculo, es afectada por la magnitud
de cada valor. Debido a esta propiedad, la media aritmética puede no ser la
mejor medida de tendencia central cuando están presentes uno o dos
valores extremos en una serie de datos.
4. La media, a diferencia de algunas medidas descriptivas cuyos valores
pueden ser determinados por inspección, es una medida calculada y por
consiguiente puede ser manipulada en forma algebraica. Esta propiedad la
hace una medida útil en especial para propósitos de inferencia estadística.

LA MEDIANA.

La mediana es el valor por encima del cual cae la mitad de los valores y por

debajo del cual cae la otra mitad. Si el número de puntos es non, la mediana

es el valor del punto medio de una serie ordenada, cuando los puntos están

ordenados en orden ascendente (o descendente) de magnitud. Si el número

de puntos es par, ninguno de los puntos tiene un número igual de valores


por encima y por debajo de él. En este caso, la mediana es igual a la media,

o promedio, de los dos valores intermedios.

~
x = x n+1
Serie impar:
2

xn + xn
+1
Serie par: ~
x= 2 2

2
Las propiedades de la mediana incluyen las siguientes:
1. La mediana siempre existe en una serie de datos numéricos. Para una serie
dada de datos, sólo hay una mediana.
2. La mediana no es afectada a menudo por valores extremos, mientras que la
media sí. Debido a esta propiedad, la mediana con frecuencia es la medida
de tendencia central de elección para una serie de datos que está sesgada.
3. La mediana puede ser usada para caracterizar datos cualitativos. Por
ejemplo, un producto podría ser comercializado en tres categorías de
calidad: buena, mejor y óptima, donde la calidad del producto que cae en la
categoría “mejor” es considerada “promedio”.
4. La mediana es fácil de calcular a menos que esté implicado un número
grande de valores.
5. La mediana para una serie de datos puede ser localizada aún cuando los
datos estén incompletos, a condición de que se conozcan el número y
localización general de todas las mediciones cercanas al centro de la serie
respecto a la magnitud de las mediciones cercanas al centro de la serie de
datos se encuentre disponible.

LA MODA.

La moda para datos discretos no agrupados es el valor que ocurre con más

frecuencia. Si todos los valores en una serie de datos son diferentes, no hay

moda.

En las distribuciones simétricas, la media y la mediana tienen valor idéntico.

En las distribuciones asimétricas, estos valores no son iguales. Si la media

es mayor que la mediana, la distribución está sesgada hacia la derecha. Si la


media es menor que la mediana, la distribución está sesgada hacia la

izquierda.

Las medidas poblacionales de tendencia central a menudo son llamadas


parámetros de localización, en vista de que “localizan” la posición de una
distribución de frecuencia de la población en el eje horizontal.

3.- MEDIDAS DE DISPERSIÓN (VARIANZA, DESVIACIÓN ESTÁNDAR Y


COEFICIENTE DE VARIACIÓN)
(Objetivo: El estudiante comprenderá el significado de las diferentes medidas
de dispersión. Identificará las medidas más usuales y su conveniencia en
problemas concretos.)

Una vez que se ha calculado la media de una serie de datos, se desea


saber el grado en que los valores difieren de esta media. Se usa el término
dispersión para describir el grado en que una serie de valores varía respecto a
su media. Otros términos que transmiten este mismo concepto son variación,
difusión y propagación. Cuando los valores en una muestra o población están
todos cerca de la media, exhiben menos dispersión que cuando algunos de los
valores son mucho más grandes y/o mucho más pequeños que la media.
Cuatro medidas descriptivas usadas para expresar la cantidad de dispersión
presente en una serie de datos son el rango, la desviación media, la varianza y
la desviación estándar

LA VARIANZA.

La varianza, como la desviación promedio, usa todas las desviaciones de


los valores de su media.

Muestra:
∑ (x i − x) 2
s2 = i =1

n −1
N

Población:
∑ (x i − µ )2
σ2 = i =1
N

La varianza también es una clase de promedio. Es el promedio de los


cuadrados de las desviaciones de los valores individuales de su media. La
varianza muestral tiene dos funciones en el análisis estadístico. Primera, es
usada como una medida de la dispersión presente en la muestra. Segunda, es
usada para estimar la varianza de la población de la que se extrajo la muestra.
LA DESVIACIÓN ESTÁNDAR.

La varianza es expresada en unidades cuadradas. Si los datos son


medidos en metros, la varianza se expresa en metros cuadrados. En el análisis
estadístico, a menudo se desea tener una medida de dispersión que esté
expresada en las mismas unidades que las observaciones originales. Se
obtiene dicha medida, llamada desviación estándar, extrayendo la raíz
cuadrada positiva de la varianza.

Muestra: ∑ (x i − x) 2
s= i =1

n −1

Población: ∑ (x i − µ )2
σ= i =1

COEFICIENTE DE VARIACIÓN.

En ocasiones surge la necesidad de comparar la variabilidad presente en


dos series de datos. Esto por lo general puede hacerse de manera satisfactoria
comparando las dos varianzas o desviaciones estándar si los datos satisfacen
dos condiciones, a saber:
1. se empleó la misma unidad de medición en ambas series de datos y
2. las medias de las dos series de datos son aproximadamente iguales.
Si no se cumple cualquiera de estas dos condiciones, se necesita una
medida relativa de dispersión para usarla en la comparación de la variabilidad
de las dos series de datos. Dicha medida relativa de dispersión es el
coeficiente de variación.

El coeficiente de variación (CV) muestral es igual a la razón de la


desviación estándar con la media. Es decir,
s
CV =
x
El coeficiente de variación con frecuencia se multiplica por 100 y se
expresa como porcentaje. Nótese que el coeficiente de variación es
independiente de la unidad de medición. En vista de que tanto la media como
la desviación estándar están expresadas en las mismas unidades de medición,
estas unidades se cancelan en el cálculo de la razón.

MEDIDAS DESCRIPTIVAS A PARTIR DE DATOS AGRUPADOS


En ocasiones se necesitan calcular las diversas medidas descriptivas a
partir de datos que han sido agrupados en intervalos de clase y presentados
como una distribución de frecuencia. Si los datos consisten en una gran
cantidad de valores, y si los cálculos se tienen que hacer en forma manual o
con una calculadora, se puede ahorrar una gran cantidad de trabajo agrupando
los datos antes de calcular las medidas descriptivas.

Cuando se calculan medidas descriptivas a partir de datos agrupados, se


deben hacer ciertas suposiciones respecto a los datos. Como una
consecuencia de hacer estas suposiciones, los valores de las medidas
descriptivas calculados de esta manera se deben considerar como
aproximaciones a los valores verdaderos.

LA MEDIA.

Cuando se calcula la media a partir de datos agrupados, se hace la


suposición de que cada observación que cae dentro de un intervalo de clase
determinado es igual al valor del punto medio de ese intervalo. El punto medio
de un intervalo de clase es llamado marca de clase. Se obtiene la marca de
clase sumando los límites de clase respectivos y dividiéndolos entre 2.

La experiencia ha demostrado que la suposición por lo general es


satisfactoria. Como lo son las suposiciones hechas acerca de las otras medidas
descriptivas calculadas a partir de datos agrupados.

En vista de que cada observación toma el valor de la marca de clase del


intervalo en el que cae, se calcula la media multiplicando cada marca de clase
por su frecuencia correspondiente. Luego se suman los productos resultantes y
se divide el total entre el número de observaciones. Se puede expresar el
procedimiento para datos de muestra por:
k

∑x f i i
x= i =1
n
donde: k = El número de intervalos de clase.
xi = La marca de clase del i-ésimo intervalo de clase.
fi = la frecuencia del i-ésimo intervalo de clase.

LA MEDIANA.

La mediana para una distribución de frecuencia es el valor, o punto, sobre


el eje horizontal del histograma de la distribución en el que una línea
perpendicular divide el área del histograma en dos partes iguales.
n
− Fm−1
~
x = Lm + 2 ⋅c
fm

donde: Lm = Límite inferior de la clase mediana.


n = Número de datos.
Fm-1 = Frecuencia acumulada de la clase que antecede a la clase
mediana.
fm = Frecuencia de la clase mediana.
c = Longitud del intervalo de la clase mediana.

LA MODA.

Cuando se trata de datos agrupados para hallar la moda debemos


determinar antes que todo la clase modal en la cual se halla ésta. Dicha clase
corresponde a aquella que presente mayor frecuencia (absoluta). Una vez
localizada la clase modal, procedemos por interpolación para determinarla.
Esta interpolación nos conduce a la siguiente fórmula para la media:

d1
xˆ = Lm + ⋅c
d1 + d 2

donde: Lm = Límite inferior de la clase modal (la clase de mayor


frecuencia).
d1 = Diferencia entre la frecuencia de la clase modal y la de la
clase que la antecede.
d2 = Diferencia entre la frecuencia de la clase modal y la de la
clase que le sigue.
c = Longitud del intervalo de la clase modal.

MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS.

Se hace la misma suposición respecto a los valores asumidos por las


observaciones cuando se calculan las medidas de dispersión a partir de datos
agrupados

VARIANZA: Muestra: ∑ f (x i i − x) 2
s2 = i =1
n −1
Población:
k

∑ f (x i i − µ )2
σ2 = i =1
N
DESVIACIÓN ESTÁNDAR: Muestra:
k

∑ f (x i i − x) 2
s= i =1
n −1
Población:
k

∑ f (x i i − µ )2
σ= i =1
N
Ejercicios propuestos:

1.- Calcule la media, moda, mediana, desviación estándar y coeficiente de


variación para la siguiente muestra

5,6,3,6,11,7,9,10,2,4,10,6,2,1,5
Datos sin procesar referentes a colegiaturas (en cientos de dólares) para residentes fuera del estado en 60 colegios y
universidades de Texas.

72 49 107 104 64 48 47 46 60 54
48 47 83 38 48 83 64 66 45 80
36 24 85 88 77 49 86 120 49 70
110 49 39 49 44 49 49 80 36 74
79 49 58 39 116 103 34 39 50 39
80 35 49 58 41 39 35 48 59 36

Coloque cada elemento en la clase correspondiente en la tabla de distribución de frecuencias. Basándose en la tabla, calcule:
media, moda, mediana, desviación estándar, y coeficiente de variación. Elabore además un histograma para la tabla.

clase Conteo Frecuencia


20-39
40-59
60-79
80-99
100-119
120-139

Potrebbero piacerti anche