Sei sulla pagina 1di 11

1.

_ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva, proviene del vocablo latín status, esto se refiere a todas
las actividades que se desarrollan en diferentes instituciones y organizaciones del
estado, especialmente con las que se encuentran vinculadas con la descripción de
la situación económica y política de un país. El conjunto de métodos para la
recolección y análisis de los datos del estado impulsaron el desarrollo de la
estadística.
Los primeros en dar sus aportes a la enseñanza de esta ciencia fueron el alemán
H. Coring (1606-1681), el belga A. Quetelet (1796-1874) y el alemán K. F. Gauss
(1777- 1855).
Un ejemplo de lo ya antes mencionado es conocer el número exacto de individuos
en edad escolar y la proyección de su crecimiento son factores importantes para
pretender definir las políticas de inversión en el sector educativo. Para ciencias
como la Sociología y la Psicología, la estadística es una herramienta que les
permite estudiar los comportamientos de las poblaciones.
La estadística tiene dos grandes partes: la estadística descriptiva la cual se
encarga de recolectar, organizar y representar datos mediante tablas y diagramas
que describen las características de una población o de una parte de ella, y la
estadística inferencial con la que predice el comportamiento de una población, a
partir de la información que se conoce de una parte de ella.
Algunos términos de uso frecuente en cualquier experimento estadístico son:
población, muestra, variable y dato.
La población estadística es el conjunto de individuos, objetos o valores cuyas
propiedades serán estudiadas estadísticamente.
La muestra es un subconjunto o parte de la población; la muestra debe estar
compuesta por aquellos elementos de la población que sean más representativos.
Las técnicas de selección de muestras son estudiadas por una rama de la
estadística llamada muestreo. Generalmente, en las investigaciones no es posible
trabajar con toda la población, bien sea por ser numerosa, como el caso de los
habitantes de una ciudad o por costos, por tal razón, el investigador es el
encargado de seleccionar los elementos que conformarán la muestra.
Después de establecer la población o muestra es indispensable determinar las
variables o características que se estudiarán. El análisis de cada variable arroja
los datos o valores asociados a la muestra o población. El valor numérico que
resume todos los datos de una población se denomina parámetro.
Consideremos el experimento estadístico de determinar las horas que se le dedica
a la lectura en una población de estudiantes de diferentes planteles educativos de
la ciudad de Tuxtla Gutiérrez, la variable asociada es el número de horas
dedicadas a la lectura diariamente; los datos son los resultados que se obtendrán
de la encuesta realizada a los miembros de la muestra, y el parámetro depende de
la medida que se quiera representar al conjunto de datos, la cual podría ser el
promedio aritmético, la media, la moda o la mediana.
En la estadística hay dos clases de variables: cuantitativas y cualitativas. Una
variable cuantitativa establece los atributos de un elemento, es decir, informa
acerca de las características que se distinguen de un elemento de otro y los
ubican en clases independientes y separadas mediante números, en este caso el
número de horas diarias de lectura es la variable cuantitativa. Dentro de la variable
cualitativa se clasifica o describe un elemento de la población, en el caso
presente, esta variable es el tipo de libros que prefieren leer los habitantes de la
muestra.

MEDIDAS DE TENDENCIA CENTRAL O DE POSICIÓN


Para cada grupo de datos existen números que son valores representativos de la
población, como son la moda, la mediana y el rango. Las medidas de tendencia
central o de posición de un conjunto de datos buscar dar al investigador alguna
medida cuantitativa del centro de los datos de una población o muestra.

La moda
El valor o característica que más se repite en una población o muestra se llama
moda de la población o de la muestra, y corresponde al dato con la mayor
frecuencia absoluta.
En las tablas 1 y 2 se observa que las frecuencias mayores son 15, que
corresponden al valor cuantitativo “una hora”, y 16, que corresponde a la variable
cualitativa “lectura científica”. Asó la moda en el primer caso es “una hora” y en
segundo es “libro científico”. Si dos datos distintos tienen la misma frecuencia
máxima, se dice que el conjunto de datos es bimodal; puede existir incluso
conjuntos de datos multimodales.
La mediana
La mediana de un conjunto de datos es aquel dato central que divide los datos de
la muestra o la población en partes iguales. El propósito de esta medida es
identificar la tendencia central de la muestra sin que se vea afectada por los
valores extremos.
Para calcular la mediana es necesario ordenar los datos de menor a mayor. Si el
número de datos es impar, la mediana es el dato central; y si el número de datos
es par, la mediana es la mitad de la adición de los dos datos centrales.

La media aritmética o promedio


La media aritmética o promedio de un conjunto de datos es el cociente que resulta
entre la adición de los datos y el número total de datos; es el valor de la
característica en estudio que tendría todos los elementos de la población si ellos
no se diferenciaran. La media aritmética o media se le conoce como media
muestral. Esta medida se encuentra afectada por los valores extremos, efecto que
no ocurre con la mediana.
Un ejemplo común, si las edades de 10 niños son: 6, 7, 8, 9, 8, 6, 10, 6, 9, 7; el
promedio de las edades de los niños es:

6+7+8+9+8++6+10+6+9+7
Mediana=_______________________________
10
Mediana =7,6años
La mediana se obtiene al ordenar de las edades y promediar los datos del centro:
6, 6, 6, 7, 7, 8, 8, 9, 9, 10
7+8
Mediana=-___________________
2
El rango
La diferencia entre el mayor valor y el menor valor de la característica en estudio
se llama rango. Considérese el siguiente grupo de datos:
12, 13, 12, 11, 13, 14, 15, 15, 15, 11. Organizando los datos de menor a mayor,
tenemos:
11, 11, 12, 12, 13, 13, 14, 15, 15, 15. La
moda de este grupo de datos es 15, ya
que es el valor con la mayor frecuencia
absoluta. La media o promedio es 13,1.
Como son 10 datos, la mediana
corresponde al promedio aritmético de los
datos que ocupan los lugares 5 y 6, es
decir, la mediana es de (13+13)/2=13. El rango es de 15-11=4.

1.1_MEDIDAS DE TENCION CENTRAL PARA DATOS


AGRUPADOS
En ocasiones es especial agrupar los datos correspondientes a una variable, en
intervalos o clases.
Considérese la tabla 3 de frecuencias de datos agrupados
En cada intervalo o clase escogemos una marca de clase correspondiente al
punto medio del intervalo. La frecuencia absoluta es el numero de datos que
corresponden a cada intervalo, y la frecuencia acumulada se escribe como .

La moda
La clase con mayor
frecuencia absoluta se
denomina clase modal. El en
ejemplo la clase modal es el
intervalo [4-6]. La moda de
los datos se encuentra en
este intervalo. El valor exacto
de la moda se puede calcular
como el valor
correspondiente al punto de
intersección de los
segmentos de la figura continua.
La mediana
A partir de un polígono de frecuencias
absolutas o relativas, es posible
encontrar la mediana. Para el caso de
frecuencias absolutas, se calcula el valor
correspondiente al dato 25. Para las
frecuencias relativas, se puede hallar
mediante el valor correspondiente al
50%. En la figura se muestra el valor
correspondiente a la mediana de este
grupo de datos.

La media aritmética o promedio


Para un conjunto de datos agrupados, la media aritmética o promedio se calcula
mediante la expresión:

1.2_MEDIDAS DE DISPERSION O VARIABILIDAD


Las medidas de tendencia central proporcionan información valiosa adecuada
para los datos de la muestra; sin embargo, para distintas muestras de la misma
población, estas medidas no son suficientes para su estudio
Por ejemplo, dos muestras distintas pueden tener la misma media o promedio; por
tanto, es necesario estudiar la variabilidad o dispersión de los datos.
Analicemos a dos estudiantes cuyas notas son las siguientes:
El promedio de notas de Carolina y Jairo es de 4,0. Sin embargo, se puede
apreciar que las notas de Carolina están entre
3,5 y 4,3, mientras que las notas de Jairo están
entre 2,5 y 5,0; por tanto el rango de variación
de las notas de Jairo es mayor.
Rango de variación
El rango de variación es una medida que determina la dispersión de los datos de
una distribución de frecuencias y corresponde a la diferencia entre el mayor de los
valores de los datos y el menor. Si se trata de la distribución agrupada de una
variable continua, entonces el rango de variación se puede hallar mediante la
expresión:

El rango de variación de las notas de Carolina es de 0,8, mientras que el rango de


variación de las notas de Jairo es de 2,5.

Desviación media absoluta


La desviación media absoluta promedio, respecto a la media aritmética, es una
medida de dispersión de un conjunto de datos, que se define como el promedio de
las distancias de los datos a la media aritmética; también se le denomina
desviación media, sin olvidar que no se toman desviaciones, sino distancias. Para
el caso de las notas de Carolina y Jairo la desviación absoluta se presenta a
continuación:

La desviación media o desviación absoluta promedio respecto de la media


aritmética de los datos de una distribución agrupada de frecuencias, es el
promedio de las distancias de los datos de la distribución. Es una medida de
dispersión que mide cuanto se alejan los datos de su media y sirve para comparar
la desviación de dos distribuciones de frecuencias. Las medidas más importantes
de variabilidad son la varianza y la desviación estándar.
Varianza
La varianza muestral es la suma de los cuadrados de las desviaciones divididas
entre . Si es una muestra de observaciones y
es la media, la varianza muestral se calcula mediante la expresión:
Desviación estándar
La desviación estándar muestral es la raíz cuadrada de la varianza.
Coeficiente de variación. El coeficiente de variación, CV, se calcula con la

expresión
La varianza y la desviación estándar de las notas de Carolina y Jairo se muestran
en las siguientes tablas:
El coeficiente de variación en los dos casos es:
Medidas de localización
Los cuartiles, al igual que los deciles y los percentiles, son medidas de
localización, similares a la mediana, que subdividen un conjunto de mediciones
(datos) de acuerdo con la proporción de frecuencias observadas. La mediana
divide el conjunto de datos de dos subconjuntos de igual número de datos; los
cuartiles dividen el conjunto en cuatro subconjuntos de igual número de datos, los
deciles dividen el conjunto en diez subconjuntos de datos de igual número de
datos. Cuando un conjunto de datos se divide en cien partes iguales, los puntos de
división se llaman percentiles. El k-ésimo percentil, es un valor tal que al menos
el k% de las observaciones están en el valor o por debajo de él, y al menos (1-k)
% de las observaciones están en el valor o por encima.
Para los siguientes 20 datos ordenados de menor a mayor: 20, 22, 25, 30, 32, 44,
62, 72, 81, 91, 116, 129, 139, 145, 151, 205, 252, 285, 310, 320, el primer cuartil o
percentil 25 es igual al promedio de las observaciones 32 y 44

El segundo cuartil, percentil 50 o mediana, es igual a:


DIAGRAMA DE TALLO Y HOJAS

Fue creado por el estadístico norteamericano John Tukey. Este tipo de diagramas
busca proporcionar una impresión visual de la distribución de un conjunto de
datos. Organiza los datos en dígitos primarios o tallos, que son los dígitos de
mayor valor posicional, y dígitos secundarios u hojas que corresponden al resto de
los dígitos que se encuentran en cada dato. Se emplea cuando el número de
observaciones es moderadamente grande. Para su construcción se escriben los
datos en una columna en la parte izquierda y, a la
derecha separadas por una línea vertical las
correspondientes hojas de cada tallo.
Los datos de la siguiente tabla representan 25
observaciones del rendimiento de un proceso.
Puesto que los datos están desde el 61 y 95, los
tallos corresponden a los dígitos de las decenas 6,
7, 8 y 9; y las hojas, por ejemplo, para el numero 6,
son los dígitos de las unidades de cada uno de los
datos que empiezan con 6.
6… 1 3 4 5 6

El diagrama de tallos y hojas para los datos se


muestra en la figura continua.

HISTOGRAMAS
Un histograma es una grafica de barras que
representa la distribución de frecuencias de
una variable cuantitativa.
1.3_DISTRIBUCION DE FRECUENCIAS
La distribución de frecuencias ofrece un resumen más compacto de los datos que
el diagrama de tallo y hojas. Para construir una distribución de frecuencias,
primero se divide el rango de los datos en intervalos, los cuales se conocen como
intervalos de clases o celdas. Si es posible las clases deben tener el mismo ancho
con la finalidad de mejorar la información visual en la distribución de frecuencias.
Para la selección del numero de clases debe emplearse cierto criterio de modo
que pueda desarrollarse un diagrama razonable. El numero de clases depende del
numero de observaciones y de la dispersión de los datos. En general, una
distribución de frecuencias que emplea muy pocas o demasiadas clases no
contienen mucha información. Hemos visto que, en muchos casos, resulta
satisfactorio usar entre 5 y 20 clases, y que el numero de clases debe aumentar
en función de n.

POLÍGONO DE FRECUENCIAS
El polígono de frecuencias se construye
uniendo con segmentos de recta los puntos
representados por una pareja ordenada, en la
que el primer elemento es un dato de la variable
y como segundo elemento su correspondiente
Frecuencia

OJIVAS
Si aplicamos una técnica similar a una distribución acumulativa, obtenemos lo que
se conoce como una ojiva. Sin embargo, en una ojiva, las frecuencias
acumulativas se trazan en las fronteras de clase en lugar de hacerlo en las marcas
de clase.

DIAGRAMAS DE CAJA
El diagrama de caja es una representación visual que describe al mismo tiempo
varias características importantes de un conjunto de datos, tales como el centro, la
dispersión, la desviación de la simetría y la identificación de observaciones que se
alejan de manera poco usual del resto de los datos. Este tipo de valores se le
conoce como “valores atípicos”.
El diagrama de caja presenta los tres cuartiles, y los valores mínimo y máximo de
los datos sobre un rectángulo, alineado horizontal o verticalmente. El rectángulo
delimita el rango intercuartílico con la arista izquierda o inferior; ubicada en el
primer cuartil, , y la arista derecha o superior en el tercer cuartil, . Se dibuja una
línea a través del rectángulo en la posición que corresponde al segundo cuartil;
que es igual al 50% o la mediana, . De cualquiera de las aristas del rectángulo
se extiende una línea o bigote, que va hacia los valores extremos. Estas son
observaciones que se observan entre el cero y 1.5 veces el rango intercuartílico a
partir de las aristas del rectángulo.
Las observaciones que están entre 1.5 y 3 veces el rango intercuartílico a partir de
las aristas del rectángulo reciben el nombre de valores atípicos.
Las observaciones que están más allá de 3 veces el rango intercuartílico a partir
de las aristas del rectángulo se conocen como valores atípicos extremos. En
ocasiones se emplean diferentes símbolos, como círculos vacios o llenos, para
identificar los dos tipos de valores atípicos. A veces, los diagramas de caja reciben
el nombre de diagramas de caja o bigotes.