Sei sulla pagina 1di 9

ESTADÍSTICA

La estadística es comúnmente considerada como una colección de hechos numéricos expresados


en términos de una relación sumisa, y que han sido recopilado a partir de otros datos numéricos.

Kendall y Buckland (citados por Gini V. Glas / Julian C. Stanley, 1980) definen la estadística como
un valor resumido, calculado, como base en una muestra de observaciones que generalmente,
aunque no por necesidad, se considera como una estimación de parámetro de
determinada población; es decir, una función de valores de muestra.

"La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos de masa
o colectivo, cuya mediación requiere una masa de observaciones de otros fenómenos más simples
llamados individuales o particulares". (Gini, 1953.

Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones
razonables basadas en tal análisis.

"La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos
sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los
fenómenos". (Yale y Kendal, 1954).

Cualquiera sea el punto de vista, lo fundamental es la importancia científica que tiene la estadística,
debido al gran campo de aplicación que posee.

La estadística es una rama de las matemáticas que se ocupa de la obtención, orden y análisis de
un conjunto de datos con el fin de obtener explicaciones y predicciones sobre fenómenos
observados.

La estadística consiste en métodos, procedimientos y fórmulas que permiten recolectar información


para luego analizarla y extraer de ella conclusiones relevantes. Se puede decir que es la Ciencia de
los Datos y que su principal objetivo es mejorar la comprensión de los hechos a partir de la
información disponible.

El origen de la palabra estadística se suele atribuir al economista Gottfried Achenwall (prusiano,


1719-1772) que entendía la estadística como “ciencia de las cosas que pertenecen al Estado”.

En la edad media siglo VIII, el emperador Carlomagno ordena realizar estudios sobre las propiedades
y riquezas de la Iglesia. Trás la conquista de Inglaterra en el siglo XI, el rey Guillermo I realiza un
censo completo de su población.

A partir del concilio de Trento, la iglesia comienza a realizar anotaciones sobre nacimientos
bautismos y defunciones y hasta el siglo XVILos registros de nacimientos y defunciones comienzan
a realizarse en casi todos los estados de la época en el siglo XVI, se erige com o el principal
organizador y custodio de esta gran base de datos de la que se han servido posteriormente las
ciencias sociales para la elaboración de múltiples investigaciones.
RECOLECCION DE DATOS
Esto quiere decir que la recolección de datos es la actividad que consiste en la recopilación
de información dentro de un cierto contexto. Tras reunir estas informaciones, llegará el momento
del procesamiento de datos, que consiste en trabajar con lo recolectado para convertirlo en
conocimiento útil.

Dentro de la recolección de datos se pueden apelar a diversas técnicas: las encuestas,


la observación, la toma de muestras y las entrevistas, entre otras, permiten realizar la tarea. De
acuerdo al tipo de datos, la persona utilizará distintos instrumentos (grabadora de audio, cámara de
fotos, etc.).

En el caso de la entrevista es fundamental que la persona que la va a llevar a cabo, de manera previa,
proceda a prepararla. Y es que sólo así podrá elegir las preguntas (abiertas o cerradas) que va a
realizar así como fijar el tiempo que va a invertir, el lugar donde la va a desarrollar e incluso las
“herramientas” que puede utilizar para poder sacar la mayor cantidad posible de información.

Además de lo expuesto no podemos pasar por alto que se puede proceder a la recolección de datos
mediante dos tipos diferentes de entrevistas:

-Las estructuradas. Estas tienen las ventajas de que son fáciles de administrar, ofrecen una gran
sencillez en cuanto a lo que es su evaluación, que lleva un tiempo limitado su realización y que
permiten conseguir unos resultados mucho más objetivos.

-Las no estructuras. Estas otras, por su parte, a favor tienen que la persona que las lleva a cabo
posee más libertad para realizar las preguntas así como que cuenta con la posibilidad de poder
explotar otras cuestiones que surjan de manera espontánea durante el encuentro.

De la misma manera, otro de los recursos que se pueden emplear para acometer la recolección de
datos es el cuestionario, que puede ser cerrado o abierto. La diferencia entre ambos es que el
primero permite que la persona que vaya a contestar al mismo sólo pueda dar unas respuestas muy
concretas, mientras que en el otro los resultados puedan ser mucho más variados y amplios.

Supongamos que un periodista está realizando una investigación sobre un funcionario


gubernamental que habría participado de un acto de corrupción. Para realizar su trabajo
periodístico, inicia la recolección de datos entrevistando a otros funcionarios, políticos opositores,
policías y autoridades judiciales. Además accede a documentos que le permiten probar el hecho.
Una vez que recolecta todos los datos, los procesa y los presenta con forma de artículo en un diario.

Los científicos también desarrollan la recolección de datos. Un antropólogo puede visitar un pueblo
indígena para observar sus costumbres, conversar con los pobladores y tomar fotografías. Los datos
recopilados luego pueden ser volcados en una investigación académica.

La recolección de datos es muy importante ya que permite sustentar el conocimiento que se


generará luego. De todas formas, la recolección por sí sola no garantiza la calidad del saber
producido.
VARIABLE
La variable estadística se refiere a una característica o cualidad de un individuo que está propenso
a adquirir diferentes valores. Estos valores se caracterizan por poder medirse.
Por ejemplo, el color de pelo de una persona, las notas de un examen, sexo, estatura de una
persona, etc.
Tipos de variables estadística
Los tipos de variable estadística se dividen de acuerdo a las características que la definan, entre ellas
podemos encontrar los siguientes tipos.

Clasificación y tipos de variables estadísticas


Variable cualitativa
Las variables cualitativas son aquellas características o cualidades que no pueden ser calculadas con
números, sino que lo hacen con palabras.
Este tipo de variable, a su vez se divide en las siguientes:
 Cualitativa nominal: Aquellas variables que no siguen ningún orden en específico. Por
ejemplo: Colores (Negro, Naranja, Amarillo).
 Cualitativa ordinal: Aquellas que siguen un orden o jerarquía. Por ejemplo: Nivel
socioeconómico (Alto, medio, bajo).
 Cualitativa binaria: En este caso, las variables son solamente dos. Por ejemplo: Si o No,
Hombre o Mujer.
Variable cuantitativa
Las variables cuantitativas son aquellas características o cualidades que sí pueden expresarse y
medirse a través de números.
Este tipo de variable a su vez se divide en:
 Cuantitativa discreta: Aquella variable que usa valores enteros y no finitos. Por ejemplo: La
cantidad de familiares que tiene una persona (2, 3, 4 ó más)
 Cuantitativa continua: Aquella variable que utiliza valores finitos y objetivos. Suele
caracterizarse por utilizar valores decimales. Por ejemplo: El peso de una persona (64.3 Kg,
72.3 Kg, etc) .
DISTRIBUCION DE FRECUENCIA
En estadística, se le llama distribución de frecuencias a la agrupación de datos en categorías
mutuamente excluyentes que indican el número de observaciones en cada categoría.1 Esto
proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las
observaciones clasificadas de modo que se pueda ver el número existente en cada clase.
Tipos de frecuencias
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado valor estadístico. Se
representa por fila. Se suele representar con "n_i"
Frecuencia relativa
La frecuencia relativa es igual al números de veces que se repite un evento o sea la frecuencia
multiplicado por el 100% y divida entre el total de la frecuencia.
Ejemplo:
Frecuencia* % = % Total de frecuencia 15* 100% = 1,500 = 60%
Es el total de la frecuencia relativa de el 100% o 99% dependiendo de los decimales que uses, si no
te da tu ejerció tiene algún error.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o
iguales al valor considerado.
La frecuencia acumulada es la frecuencia estadística F(XXr) con que el valor de una variable aleatoria
(X) es menor que o igual a un valor de referencia (Xr).
La frecuencia acumulada relativa se deja escribir como Fc(X≤Xr), o en breve(Xr), y se calcula de
Fc (Hr) = HXr / N
donde MXr es el número de datos X con un valor menor que o igual a Xr, y N es número total de los
datos. En breve se escribe:
Fc = M / N
Cuando Xr=Xmin, donde Xmin es el valor mínimo observado, se ve que Fc=1/N, porque M=1. Por
otro lado, cuando Xr=Xmax, donde Xmax es el valor máximo observado, se ve que Fc=1, porque
M=N.
En porcentaje la ecuación es:
Fc(%) = 100 M / N
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado
valor y el número total de datos. Se puede expresar en tantos por ciento. Ejemplo:
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 44
Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables
toman un número grande de valores o la variable es continua. Se agrupan los valores en intervalos
que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia
correspondiente. Límites de la clase. Cada clase está delimitada por el límite inferior de la clase y el
límite superior de la clase.
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase. La marca de
clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el
cálculo de algunos parámetros. En caso de que el primer intervalo sea de la forma (-∞,k], o bien
[k,+∞) donde k es un número cualquiera, en el caso de (-∞,k], para calcular la marca de clase se
tomará la amplitud del intervalo adyacente a el (ai+1), y la marca de clase será ((k-ai+1) +k)/2.
INTERVALOS DE CLASE

Un intervalo de números reales es el conjunto de números que se encuentran entre dos de dados;
estos dos números pueden estar o no en dicho conjunto. Debe tenerse en cuenta que se trata de
números reales y, por lo tanto, por ejemplo, el intervalo cerrado [-5,5] contiene todos los números
reales entre el -5 y el 5, ambos incluidos. Así, estos números pertenecen a dicho intervalo:
−2√,−1,0,12,2√,1.8643,3,4.223⌢,5−2,−1,0,12,2,1.8643,3,4.223⌢,5
Los intervalos pueden ser cerrados o abiertos, según si incluyen (cerrados) o no (abiertos) sus
extremos. Así,
 un intervalo abierto no incluye sus extremos; por ejemplo, (−2,3)-2,3 es un intervalo
abierto, ya que -2 y 3 no pertenecen a este intervalo.
 un intervalo cerrado incluye sus extremos; por ejemplo, [−2,3]-2,3 es un intervalo cerrado,
y -2 y 3 pertenecen a este intervalo.
 un intervalo abierto por un extremo no lo incluye, mientras que un intervalo cerrado por un
extremo lo incluye. Por ejemplo, [−2,3)[-2,3) es un intervalo abierto por la derecha, y
cerrado por la izquierda, ya que 3 no pertenece al intervalo, mientras que -2 sí que
pertenece.
Gráficamente, se pueden representar así estos intervalos (básicamente, poniendo un punto en
el/los extremo/s en los que el intervalo sea cerrado):
Algunos intervalos no están limitados por un extremo; en este caso, en el extremo correspondiente
se pone −∞-∞ o +∞+∞(menos infinito o más infinito), indicando que por ese extremo el intervalo
no tiene límite. Para el infinito, además, siempre se usa un paréntesis (ya que evidentemenete, el
infinito no pertenece al intervalo). Por ejemplo,
 (−∞,4](-∞,4] es el intervalo de todos los números menores que 4, éste incluido.
 (3,∞)3∞ es el intervalo que contiene todos los números a partir del 3, sin incluirlo.

FRECUENCIA RELATIVA ACUMULADA

La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un


determinado valor y el número total de datos.

Se representa por Ni.

Se puede expresar en tantos por ciento.

Ejemplo

Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34,
33, 33, 29, 29.

xi fi Fi Ni
27 1 1 0.032
28 2 3 0.097
29 6 9 0.290
30 7 16 0.0516
31 8 24 0.774
32 3 27 0.871
33 3 30 0.968
34 1 31 1
31

GRAFICA
Una gráfica o representación gráfica es un tipo de representación de datos,
generalmente numéricos, mediante recursos visuales (líneas, vectores, superficies o símbolos),
para que se manifieste visualmente la relación matemática o correlación estadística que guardan
entre sí. También es el nombre de un conjunto de puntos que se plasman en coordenadas
cartesianas y sirven para analizar el comportamiento de un proceso o un conjunto de elementos o
signos que permiten la interpretación de un fenómeno. La representación gráfica permite
establecer valores que no se han obtenido experimentalmente sino mediante
la interpolación (lectura entre puntos) y la extrapolación (valores fuera del intervalo experimental).

Gráficas en estadística

 La estadística gráfica es la descripción e interpretación de datos e inferencias sobre estas.


Forma parte de los programas estadísticos usados con los ordenadores. Autores
como Edward R. Tufte desarrollaron nuevas soluciones de análisis gráficos. Existen
diferentes tipos de gráficas:

 Gráfico lineal: los valores se dividen en dos ejes cartesianos perpendiculares entre sí. Las
gráficas lineales se recomiendan para representar series en el tiempo, y es donde se
muestran valores máximos y mínimos; también se utilizan para varias muestras en un
diagrama.

 Gráfico de barras: se usa cuando se pretende resaltar la representación de porcentajes de


datos que componen un total. Una gráfica de barras contiene barras verticales que
representan valores numéricos, generalmente usando una hoja de cálculo. Las gráficas de
barras son una manera de representar frecuencias; las frecuencias están asociadas con
categorías. Una gráfica de barras se presenta de dos maneras: horizontal o vertical. El
objetivo es poner una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica
de barras sirve para comparar y tener una representación gráfica de la diferencia de
frecuencias o de intensidad de la característica numérica de interés.

 Histograma: se emplea para ilustrar muestras agrupadas en intervalos. Está formado por
rectángulos unidos a otros, cuyos vértices de la base coinciden con los límites de los
intervalos y el centro de cada intervalo es la marca de clase que representamos en el eje de
las abscisas. La altura de cada rectángulo es proporcional a la frecuencia del intervalo
respectivo.

 Gráfico circular: permite ver la distribución interna de los datos que representan un hecho,
en forma de porcentajes sobre un total.

 Pictograma: Son imágenes que sirven para representar el comportamiento o la distribución


de los datos cuantitativos de una población, utilizando símbolos de tamaño proporcional al
dato representado. Una posibilidad es que el gráfico sea analógico por ejemplo, la
representación de los resultados de las elecciones con colores sobre un hemiciclo.

MEDIDAS DE TENDENCIA CENTRAL


Promedio o media. La medida de tendencia central más conocida y utilizada es la media aritmética
o promedio aritmético. Se representa por la letra griega µ cuando se trata del promedio del universo
o población y por Ȳ (léase Y barra) cuando se trata del promedio de la muestra. Es importante
destacar que µ es una cantidad fija mientras que el promedio de la muestra es variable puesto que
diferentes muestras extraídas de la misma población tienden a tener diferentes medias. La media
se expresa en la misma unidad que los datos originales: centímetros, horas, gramos, etc.

Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el estadígrafo será:

Estos cálculos se pueden simbolizar:

Donde Y1 es el valor de la variable en la primera observación, Y2 es el valor de la segunda


observación y así sucesivamente. En general, con “n” observaciones, Yi representa el valor de la i-
ésima observación. En este caso el promedio está dado por

De aquí se desprende la fórmula definitiva del promedio:

Desviaciones: Se define como la desviación de un dato a la diferencia entre el valor del dato y la
media:

Ejemplo de desviaciones:

Una propiedad interesante de la media aritmética es que la suma de las desviaciones es cero.

Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor de la variable que ocupa la
posición central, cuando los datos se disponen en orden de magnitud. Es decir, el 50% de las
observaciones tiene valores iguales o inferiores a la mediana y el otro 50% tiene valores iguales o
superiores a la mediana.

Si el número de observaciones es par, la mediana corresponde al promedio de los dos valores


centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11)/2=10.

Moda
La moda de una distribución se define como el valor de la variable que más se repite. En un polígono
de frecuencia la moda corresponde al valor de la variable que está bajo el punto más alto del gráfico.
Una muestra puede tener más de una moda.

PERCENTILES
Los percentiles son valores de la variable que dividen la distribución en 100 partes iguales. De este
modo si el percentil 80 (P80) es igual a 35 años de edad, significa que el 80% de los casos tiene edad
igual o inferior a 35 años.

Su procedimiento de cálculo es relativamente simple en datos agrupados sin intervalos.

Retomemos el ejemplo de la variable número de partos:

El percentil j (Pj) corresponde al valor de la variable (Yi ) cuya frecuencia acumulada supera
inmediatamente al “j” % de los casos (jxn/100).

El percentil 80, en los datos de la tabla, será el valor de la variable cuyo Ni sea inmediatamente
superior a 33,6 ((80x42) /100).

El primer Ni que supera a 33,6 es 39. Por lo tanto al percentil 80 le corresponde el valor 4. Se dice
entonces que el percentil 80 es 4 partos (P80=4). Este resultado significa que un 80% de las madres
estudiadas han tenido 4 partos o menos.

Si los datos están agrupados en una tabla con intervalos, el procedimiento es levemente más
complejo ya que se hace necesaria la aplicación de una fórmula.

Se aplica a los datos del intervalo cuya frecuencia acumulada ( Ni ) sea inmediatamente superior al
“j” % de los casos (jxn/100).

En la siguiente tabla se muestra la distribución de 40 familias según su ingreso mensual en miles de


pesos. Nótese que para calcular el centro de clase se usaron los límites reales de cada intervalo.

DECILES
En estadística descriptiva, un decil es cualquiera de los nueve valores que dividen a un grupo de
datos ordenados en diez partes iguales, de manera que cada parte representa 1/10 de la muestra o
población. Un decil es una de las posibles formas de un cuantil; otras incluyen el cuartil y
el percentil.

Cálculo de los deciles

Los deciles se calculan como si fueran 10-cuartiles, o sea de manera que:

 El primer decil separe el juego de datos entre el 10% de los valores inferiores, y el resto de
los datos.

 Y el noveno decil separe los datos entre el 90% de los valores inferiores y el 10% de los
valores superiores.
El término decil también se usa para designar cada uno de los diez grupos de valores (de la población
o de una muestra) y también, a los diez intervalos que contienen el mismo número de datos: el decil
n-simo, es el intervalo entre el decil-número (n-1) y el decil-número n (desde n=1 hasta n=10).

Potrebbero piacerti anche