Sei sulla pagina 1di 13

Estadstica moderna Por qu estudiarla?

Ciencia inductiva que permite inferir caractersticas cualitativas y cuantitativas de


un conjunto mediante los datos contenidos en un subconjunto del mismo.
El objetivo fundamental de la estadstica es analizar datos y transformarlos en
informacin til para tomar decisiones.

Partes en que se divide la estadstica moderna para su


estudio
La estadstica inferencial o inductiva sirve para explorar los resultados obtenidos
en el anlisis de los datos y a partir de ello predecir acerca de la poblacin, con un
margen de confianza conocido.
La estadstica descriptiva o deductiva se construye a partir de los datos y la
inferencia sobre la poblacin no se puede realizar, al menos con confianza
determinada, la representacin del a informacin obtenida de los datos se
representa mediante el uso de unos cuantos parmetros y algunas graficas
planteadas de tal forma que den importancia los mismos datos.
Podemos encontrar dos tipos de estudios estadsticos que se emprenden:

Los estudios enumerativos

Involucran la toma de decisiones respecto a una poblacin y/o sus caractersticas.

Los estudios analticos

involucran realizar alguna actividad sobre un proceso para mejorar el desempeo


en el futuro. La atencin de un estudio analtico est puesta sobre la prediccin del
comportamiento futuro de un proceso y sobre la comprensin y perfeccionamiento
de ese proceso. En un estudio analtico no existe un universo identificable, como
sucede en un estudio enumerativo y en consecuencia tampoco hay un marco.

El mtodo cientfico en la Estadstica


El mtodo cientfico es un conjunto de principios y procedimientos para la
bsqueda sistemtica del conocimiento.
El mtodo cientfico est compuesto por los siguientes pasos:

Formula una teora (problema).

Recoger datos para probar la teora.

Analizar los datos.

Interpretar los resultados y tomar una decisin.

Mtodos para la obtencin de datos, principio "BEBS"


(GIGO en ingls) (basura entra, basura sale)
GIGO: Entra Basura, sale basura. No importa el mtodo utilizado para obtener los
datos, si un estudio ha de ser til, si el desempeo debe controlarse
apropiadamente o si el proceso de la toma de decisiones debe ampliarse, los
datos recabados deben ser vlidos: es decir, las respuestas correctas deben
valorarse de manera que se obtengan mediciones significativas.

Cmo recolectar datos?

Investigacin en registros administrativos: INEC. Banco Central, Cmaras


de la Produccin, Universidades, etc. para obtener ndices de empleo,
ndice de precios, datos de salud, datos de eficiencia, etc.

Obtencin de datos mediante encuestas de investigacin Ej: Estudios de


mercado, Estudios de preferencia electoral, etc.

Realizacin de experimentos estadsticos.

Tipos de datos estadsticos


Los resultados que se obtienen pueden ser:

Datos cualitativos: corresponde a respuestas categricas. Ej: El estado civil


de una persona.

Datos cuantitativos: corresponden a respuestas numricas. Ej: la edad de


los nios.

Los datos cuantitativos pueden ser:

Discretos: Se obtienen mediante conteos.

Continuos: Se obtienen mediante mediciones.

Propiedades que describen una serie numrica de datos


Los datos obtenidos se los puede representar de diferentes formas:

Tabularmente

Grficamente

Mediante nmeros

S la muestra contiene pocos datos, se los puede representar directamente, pero


si el nmero de datos es grande conviene agruparlos para simplificar su anlisis.

Medidas de Tendencia Central para cantidades pequeas


de datos: media aritmtica, media ponderada, mediana, moda.
So nmeros que definen cual es el valor alrededor del que se concentran los datos
u observaciones.

Media aritmtica: es el promedio. Se calcula sumando todas las


observaciones y luego dividiendo el total entre el nmero de elementos
involucrados. La media acta como punto de equilibrio de tal forma que las
observaciones menores compensan a las observaciones que son mayores.
Se ve afectada en gran medida por valores extremos.

Media ponderada: es una medida de tendencia central, que es apropiada

cuando en un conjunto de datos cada uno de ellos tiene una importancia


relativa (o peso) respecto de los dems datos. Se obtiene multiplicando
cada uno de los datos por su ponderacin (peso) para luego sumarlos,
obteniendo as una suma ponderada; despus se divide esta entre la suma
de los pesos, dando como resultado la media ponderada.

Mediana: es el valor medio de una secuencia ordenada de datos. Si no hay


empates, la mitad de las observaciones sern menores y la otra mitad
sern mayores. La mediana no se ve afectada por valores extremos. Para
calcular la mediana, primero se deben poner los datos en orden. Despus
usamos la frmula del punto de posicionamiento.

Moda: es el valor de una serie de datos que aparece con ms frecuencia.


La moda no se ve afectada por la ocurrencia de cualquier valor extremo.

Comparacin entre la media, mediana y moda (Ventajas y


desventajas)

Media

Ventajas: Buena distribucin de los datos obtenidos.

Desventajas: Se altera con datos muy grandes

Mediana

Ventajas: Se utiliza cuando no se puede usar la media

Desventajas: Necesita variables cardinales

Moda

Ventajas: No necesita variables especificas

Desventajas: No se tienen datos concretos

Medidas de dispersin para cantidades pequeas de


datos: rango, varianza, desviacin estndar, coeficiente de variacin.
Rango: En estadstica descriptiva se denomina rango estadstico (R) o recorrido
estadstico, a la diferencia entre el valor mximo y el valor mnimo; por ello, comparte
unidades con los datos. Permite obtener una idea de la dispersin de los datos, cuanto
mayor es el rango, ms dispersos estn los datos de un conjunto.
Por ejemplo, para una serie de datos de carcter cuantitativo, como lo es la estatura medida
en centmetros, tendramos:
es posible ordenar los datos como sigue:
donde la notacin x(i) indica que se trata del elemento i-simo de la serie de datos.
De este modo, el rango sera la diferencia entre el valor mximo (k) y el mnimo; o,
lo que es lo mismo:
En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30

Varianza: sta medida se basa en la cuantificacin de las distancias de


los datos con respecto al valor de la media.

Por ejemplo: en los casos en que la variable mide una distancia en kilmetros, su
varianza se expresa en kilmetros al cuadrado.

Desviacin estndar: es la raz cuadrada positiva de la varianza. La


desviacin estndar muestral o desviacin tpica o error muestral, est
expresada en las mismas unidades de medicin que los datos de la
muestra.

Coeficiente de variacin. Es un nmero que se usa para cara


comparar la variabilidad de los datos de diferentes grupos.

El manejo de grandes cantidades de datos.


Sin respuesta

Medidas de tendencia central para datos agrupados:


construccin de una distribucin de frecuencias real
Es una agrupacin de datos en categoras mutuamente excluyentes que indican el
nmero de observaciones en cada categora. Esto proporciona un valor aadido a
la agrupacin de datos. La distribucin de frecuencias presenta las observaciones
clasificadas de modo que se pueda ver el nmero existente en cada clase.

Media aritmtica
Conjunto finito de nmeros es el valor caracterstico de una serie de datos
cuantitativos, objeto de estudio que parte del principio de la esperanza matemtica
o valor esperado, se obtiene a partir de la suma de todos sus valores dividida
entre el nmero de sumandos. Cuando el conjunto es una muestra aleatoria recibe
el nombre de media muestral siendo uno de los principales estadsticos
mustrales.

Mediana
La mediana es el valor que ocupa el lugar central entre todos los valores del
conjunto de datos, cuando estos estn ordenados en forma creciente o
decreciente.

Moda
La moda de un conjunto de datos es el dato que ms veces se repite, es decir,
aquel que tiene mayor frecuencia absoluta. Se denota por Mo. En caso de existir
dos valores de la variable que tengan la mayor frecuencia absoluta, habra dos
modas. Si no se repite ningn valor, no existe moda.

Medidas de posicin: cuantiles, cuartiles, deciles, percentiles.

Cuartiles: Son nmeros que dividen al grupo de datos en grupos de


aproximadamente el 25% de los datos.

Primer cuartil (Q1)

A la izquierda de Q1 estn incluidos 25% de los datos (aproximadamente)


A la derecha de Q1 estn el 75% de los datos (aproximadamente)
-

Segundo Cuartil(Q2)

Igual que la mediana divide al grupo de datos en dos partes, cada una con el 50%
de los datos (aproximadamente)
-

Tercer Cuartil(Q3)

A la izquierda de Q3 estn incluidos 75% de los datos (aproximadamente)


A la derecha de Q3 estn el 25% de los datos (aproximadamente)

Deciles: Son nmeros que dividen al grupo de datos en grupos de


aproximadamente 10% de los datos.

Primer Decil (D1)

A la izquierda de D1 estn incluidos 10% de los datos


A la derecha de D1 estn el 90% de los datos
-

Segundo Decil (D2)

A la izquierda de D2 estn incluidos 20% de los datos (aproximadamente)


A la derecha de D2 estn el 80% de los datos (aproximadamente)

Percentiles: Son nmeros que dividen al grupo de datos en grupos de


aproximadamente 1% de los datos

Primer percentil (P1)

A la izquierda de P1 estn incluidos 1% de los datos (aproximadamente)

A la derecha de P2 estn el 99% de los datos (aproximadamente)


-

Segundo Percentil (P2)

A la izquierda de P1 estn incluidos 2% de los datos (aproximadamente)


A la derecha de P2 estn el 98% de los datos (aproximadamente)

Medidas de Dispersin para datos agrupados: rango


intercuartlico, varianza y desviacin estndar, coeficiente de
variacin

Rango intercuartlico: es una estimacin estadstica de la dispersin


de una distribucin de datos. Consiste en la diferencia entre el tercer y el
primer cuartil. Mediante esta medida se eliminan los valores
extremadamente alejados. El rango intercuartlico es altamente
recomendable cuando la medida de tendencia central utilizada es la
mediana (ya que este estadstico es insensible a posibles irregularidades en
los extremos).

Frmula del Rango intercuartlico: IQR = Q3 - Q1


Con el IQR podremos elaborar los diagramas de caja, que es un instrumento muy
visual para evaluar la dispersin de una distribucin.

Varianza: Medida de desviacin promedio con respecto a la media


aritmtica.

Desviacin estndar. Es la raz cuadrada positiva de la varianza. La


desviacin estndar muestral o desviacin tpica o error muestral, est
expresada en las mismas unidades de medicin que los datos de la
muestra.

Coeficiente de variacin. Es un nmero que se usa para cara


comparar la variabilidad de los datos de diferentes grupos.

Los histogramas, el polgono de frecuencia y la curva de


% acumulado u ojiva
Histograma: Un histograma es un conjunto de rectngulos, cada uno de los
cuales representa un intervalo de agrupacin. Sus bases son iguales al intervalo
de clase empleada en la distribucin de frecuencias y las alturas son
proporcionales a la frecuencia absoluta ni o relativa fi de la clase

El histograma es apropiado para datos continuos, medidos con una misma escala
y se lo emplea cuando un diagrama de tallo y hojas es tedioso de construir.
Igualmente puede ayudar a detectar observaciones atpicas y cualquier brecha
entre los datos
Especialmente se utiliza para analizar la dispersin que presentan unos datos
Histograma 1
Corresponde a la forma de campana habitual que representa la variabilidad debida
a causas aleatorias. A su lado podemos apreciar una curva de frecuencias
simtricas o en forma de campana, se caracteriza porque las observaciones
equidistantes del mximo central tienen la misma frecuencia. En este caso
corresponde con la curva de la normal o Gaussiana.
Histograma 2
Con dos mximos diferenciados, responde a una distribucin denominada bimodal
y se presenta cuando estn mezclados datos de distinto origen centrados en
valores distintos. De igual manera la curva de frecuencia bimodal tiene dos
mximos, ya que representan a la misma coleccin de datos.
Histograma 3
Se denomina, por su forma, sesgado a la derecha, y responde a la variabilidad
que presenta ciertas variables que no siguen una ley normal, como los tiempos de
vida. En las curvas de frecuencias poco asimtricas, o segadas, la cola de la curva
a un lado del mximo central es ms larga que al otro lado. Si la cola mayor est a
la derecha, la curva se dice asimtrica a la derecha o de asimtrica positiva.
Histograma 4
Parece faltarle una parte y por ello se le llama censurado o sesgado (en este caso,
a la izquierda). No representa una variabilidad natural y por tanto hay que
sospechar que se han eliminado algunos valores. Igual ocurre con las curvas de
frecuencias poco asimtricas o sesgadas a la izquierda o de asimetra negativa.
Histogramas 5 y 6,
En los cuales aparecen datos que no siguen el patrn de comportamiento general
(anomalas, errores, etc.). Su variabilidad puede atribuirse a alguna causa
asignable que deber ser identificada y eliminada.

Polgono de frecuencia: Un polgono de frecuencia es un grfico que se


obtiene uniendo con segmentos de recta los puntos que tienen proporcionalmente
como abscisa a la marca de clase y como ordenada la frecuencia respectiva.
Se cierra en ambos extremos en las marcas adyacentes con frecuencia cero.
Caractersticas de los polgonos de frecuencias
No muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cuantitativos.
El punto con mayor altura representa la mayor frecuencia.
El rea bajo la curva representa el 100% de los datos. El polgono de frecuencia
est diseado para mantener la misma rea de las columnas.
Analicemos una porcin del grfico para probar esta afirmacin:
Observe que cada lnea corta una porcin de la columna, pero a su vez, agrega
una porcin adicional. Ambas porciones son iguales (triangulo rectngulos
iguales), manteniendo el rea global en el grfico.

Ojiva: La ojiva es un polgono de frecuencias acumuladas, es decir, en las


abscisas se colocan los lmites superiores de cada intervalo de clase y en las
ordenadas se coloca la frecuencia acumulada (absoluta o relativa) de la clase.
La ojiva es til para:
Calcular el nmero o el porcentaje de observaciones que corresponden a un
intervalo determinado de la variable
Calcula los percentiles de la distribucin de los datos
Caractersticas de las ojivas:
Muestran frecuencias acumuladas.

Se prefiere para el tratamiento de datos cuantitativos.


El punto de inicio equivale a una frecuencia de 0.
El punto final equivale al 100% de los datos.
Interpretando la informacin en las ojivas
Dada su ventaja de representar frecuencias acumuladas, las ojivas se convierten
en una herramienta vital para el anlisis estadstico.

Importancia de la forma de los datos


simtrica, asimtrica o sesgada (Medidas de tendencia central)
Sirven para evaluar la tendencia futura de un fenmeno determinado. En efecto,
luego de un anlisis concienzudo, los datos estadsticos pueden revelar en alguna
medida que esperar a futuro en algn rea de la actividad humana. Es por ello que
la forma de recopilacin de dichos datos es fundamental, buscando en todo
momento

que

sean

representativos

de

un

universo

ms

grande.

Asimetra: Es una medida de forma de una distribucin que permite


identificar y describir la manera como los datos tiende a reunirse de acuerdo
con la frecuencia con que se hallen dentro de la distribucin. Permite
identificar las caractersticas de la distribucin de datos sin necesidad de
generar el grfico.

Simtrica: Se

da cuando en una distribucin se distribuyen


aproximadamente la misma cantidad de los datos a ambos lados de la
media aritmtica. No tiene alargamiento o sesgo. Se representa por una
curva normal en forma de campana llamada campana de Gauss o tambin
conocida como de Laplace.

Uso de polgonos para comparar grupos de datos

Barras: Este grafico sirve para comparar datos entre diferentes


segmentos (sectores, empresas, periodos de tiempo...).

Lneas: ayudan a ver la evolucin de los datos. Por lo general se usan


para mostrar un mismo tipo de dato y su evolucin (valor de la accin y el
tiempo, nmero de ventas y precio).

Pastel: Aqu podemos ver la contribucin de cada parte a un total. Este


grafico se puede utilizar de forma creativa comparando el tamao de los
pasteles entre si y el contenido de los mismos.

Medidas de forma: Curtosis y asimetra


Curtosis o apuntamiento
La curtosis mide el grado de agudeza o achatamiento de una distribucin con
relacin a la distribucin normal, es decir, mide cun puntiaguda es una
distribucin.

Tipos de curtosis
La curtosis determina el grado de concentracin que presentan los valores en la
regin central de la distribucin. As puede ser:

Leptocrtica: Existe una gran concentracin.

Mesocrtica: Existe una concentracin normal.

Platicrtica: Existe una baja concentracin.

Grafica para datos cualitativos o categricos: grafica de


barras y grafica de pastel.
Grafica de barras
Es una forma de representar grficamente un conjunto de datos o valores, y est
conformado por barras rectangulares de longitudes proporcionales a los valores
representados. Los grficos de barras son usados para comparar dos o ms
valores. Las barras pueden orientarse verticalmente u horizontalmente.

Grafica de pastel
Un grfico circular o grfica circular, tambin llamado "grfico de pastel", "grfico
de tarta", "grfico de torta" o "grfica de 360 grados", es un recurso estadstico que
se utiliza para representar porcentajes y proporciones. El nmero de elementos
comparados dentro de una grfica circular suele ser de ms de cuatro.

Potrebbero piacerti anche