Sei sulla pagina 1di 61

¿Qué es la estadística?

“El contenido de la estadística moderna incluye la


recopilación, presentación y caracterización de la
información con el fin de auxiliar tanto en el análisis de
datos como en el proceso de toma de decisiones”

Berenson y Levine, Estadística Básica en administración. (1992)


Algunos usos de la
estadística…
Si nos ocupa el análisis de uno o varios conjuntos de datos de la misma
variable, contamos con métodos gráficos y numéricos que reúne la
Estadística descriptiva.

Si debemos tomar decisiones bajo condiciones de incertidumbre, a través de


estimaciones o pruebas de hipótesis, contamos con la Estadística
inferencial.

Si nos ocupa el análisis de dos conjuntos de variables denominadas


explicativas y explicadas, nos serán de utilidad los métodos de regresión.
De qué se ocupa la estadística Descriptiva?

• La estadística descriptiva se ocupa de la organización,


presentación y análisis de la información.

• ¿Cuál es la información que organiza, de dónde surge, cómo se obtiene,


cómo se la presenta y cómo se la analiza?

• ¿Qué medidas calculamos? ¿Para qué? ¿Qué significado tienen?


¿Alcanza con aplicar una fórmula o un programa estadístico? ¿Las
elegimos adecuadamente en cada caso? ¿Nos ayudan a resumir la
información? ¿Son medidas que representan los datos? ¿Son confiables?

Todas estas preguntas serán respondidas al trabajar con


Proyectos
Algunas definiciones

 Población: es el conjunto sobre el que se centra el objetivo de un


análisis o investigación estadística. Esta compuesta por unidades
elementales con características comunes observables.
 Una unidad elemental es cada objeto o sujeto que observamos de
la población.
 Una muestra es un subconjunto «representativo» de unidades
elementales tomadas de la población.
 Aquella característica que se observa o se mide sobre las unidades
elementales, se denomina variable.
Variables: Cualitativas y Cuantitativas.

 Las variables cualitativas son aquellas que permiten


la expresión de una característica, una categoría, un
atributo o una cualidad de los elementos de estudio.

 Las variables cuantitativas son aquellas cuyos datos


son de tipo numérico.
Clasificación de las Variables
Cualitativa Cuantitativa

Nominal Discreta

Ordinal Continua
• Hay ocasiones en que las medidas cuantitativas continuas son
transformadas en ordinales mediante la utilización de uno o varios
puntos de corte.

Ejemplo: La variable peso es codificada en varias categorías y se


utiliza en términos como: Bajo-peso, Peso-normal, Sobrepeso,
Obesidad.
¿Cómo organizar los datos?

Series Simples

Series de Frecuencias

Intervalos de Clases
Gráficos
• La organización de los datos obtenidos en una investigación
mediante tablas de frecuencias no es suficiente para analizar el
comportamiento de la variable. Para una comprensión más efectiva
del comportamiento de la variable, se hace útil el empleo de
gráficas, dado que éstas permiten describir rápidamente las
características del grupo.

• Para representar el comportamiento de una variable se pueden usar


varios tipos de gráficas, entre ellas están los histogramas,
polígonos, ojivas, diagramas de barras y circulares.
¿Cómo organizar los datos?

Variables Variables Variables


Cualitativas Cuantitativas Cuantitativas
Discretas Continuas

• Barras Simples • Histograma


• Barras • Bastones • Polígono de
Proporcionales Frecuencias Simples
• Barras • Polígono de
Agrupadas Frecuencias
• Diagramas
Acumuladas
Sectoriales
Estadísticos
En todo análisis y/o interpretación de datos es necesario disponer de
«valores» numéricos para extraer y resumir las
principales características de los mismos.

Existen diversas medidas descriptivas que representan las propiedades


de tendencia central, dispersión y forma.
Estadísticos
 Centralización
 Indican valores con respecto a los que los datos parecen agruparse.
 Media, mediana y moda
 Posición
 Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
 Cuartiles, deciles, percentiles
 Dispersión
 Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización.
 Rango, Varianza, Desviación típica, Coeficiente de Variación.
 Forma
 Asimetría
Estadísticos
Centralización
Medidas de Centralización
En la mayoría de los casos, el conjunto de datos obtenidos, ya sea
de una muestra o de una población, tienden a reunirse alrededor de
un valor central. De esta manera, es posible obtener un valor
típico o representativo de todo el conjunto de datos, el cual se
denomina medida de tendencia central.
Las medidas de tendencia central más representativas son:
 Media aritmética,
 Mediana,
 Moda.
Medidas de
Centralización.
Media Aritmética
 La media aritmética es la medida más común de centralización de un grupo de
datos.

Serie Simple:
Si las observaciones de una muestra de tamaño n son x1,x2, …, xn entonces la
media muestral se define como:

donde :
n
X : media aritmética de la muestra
xi n: total de datos de la muestra


X  i1
n
xi : dato de la variable
 x : suma de todos los valores de la muestra
i
i
Medidas de
Centralización.
Media Aritmética

Cálculo de la Media Aritmética para datos dados por una Serie Simple:

Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.

n
24 19 26 19 22 21 19 24 20 23
xi 22 21 22 23 20 20 18 24 20 18


X  i1
n
22 18 20 21 20 20 21 20 21 27

Las edades de los alumnos del 1er cuatrimestre de 2018, dadas


en esta serie simple, tienen un promedio de 21,166
años.
Medidas de
Centralización.
Media Aritmética
Cuando se agrupan los datos en una Tabla de Frecuencias, sin construir intervalos,
se calcula la media aritmética mediante la siguiente formula:

donde :
k
X : media aritmética de la muestra


i i
xf n: total de datos de la muestra
X  i1
n
xi : dato de la variable
fi : frecuencia absoluta para cada valor de la variable
Medidas de
Centralización.
Media Aritmética
Cálculo de la Media Aritmética para datos agrupados en una Tabla de
Frecuencias:

Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.
Edad fi
18 3
k
19 3


i i 20 8
x f
21 5
X  i1 n  21,166 22 4
23 2
Las edades de los alumnos del 1er cuatrimestre de 2018, dadas 24 3
en una tabla de frecuencias, tienen un promedio de 21,166
años. 26 1
27 1
Medidas de
Centralización.
Media Aritmética
Cuando se agrupan los datos en Intervalos de clases, se calcula la media
aritmética mediante la siguiente formula:

donde :
k

 mi
fi
X : media aritmética de la muestra
n: total de datos de la muestra
xm : marca de clase de i - ésimo
xX  i1
n i

intervalo
fi : frecuencia absoluta para cada valor de la variable
Medidas de
Centralización.
Media Aritmética
Cálculo de la Media Aritmética para datos agrupados en Intervalos de
Clases:

Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.
Intervalos x mi fi
de Edad

k [18 – 20) 19 6

x mi f i
[20 –22) 21 13
[22 – 24) 23 6
X i1
n  21,80
[24 – 26) 25 3
[26 – 28) 27 2
n = 30

Las edades de los alumnos del 1er cuatrimestre de 2018,


agrupadas en intervalos de clase, tienen un promedio de
21,8 años.
Medidas de
Centralización.
Mediana
La mediana es el valor de variable donde la muestra se divide en dos partes iguales,
es decir, es aquel valor que deja el 50% de las observaciones por debajo de él y el
otro 50% por encima de él.

Serie Simple:
Si las observaciones de una muestra de tamaño n son x1,x2, …, xn entonces la
media muestral se define como:

si n es impar
xn1/2
Me   x n/2  x n/2 1
   si n es par
 2
Medidas de
Centralización.
Mediana
Cálculo de la Mediana para datos dados por una Serie Simple:

Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.

24 19 26 19 22 21 19 24 20 23
22 21 22 23 20 20 18 24 20 18
22 18 20 21 20 20 21 20 21 27

18,18,18,19,19,19,20,20,20,20,20,20,20,20,21,21,21,21,21,22,22,22,22,23,23,24,24,24,26,2
7
La ventaja de la
mediana es que los
valores extremos no Me =21
tienen influencia sobre
ella.
Medidas de
Centralización.
Mediana
Cálculo de la Mediana para datos agrupados en una Tabla de Frecuencias:

La mediana es aquel valor de la variable cuya Frecuencia Absoluta Acumulada (Fa) es


inmediatamente mayor a la mitad de las observaciones.

El cálculo de la mediana para datos agrupados en un atabla de frecuencias se realiza


mediante el siguiente procedimiento:

1. Hallar n/2.

2. Ubicar el valor observado cuya frecuencia absoluta acumulada contiene a n/2.


Medidas de
Centralización.
Mediana
Cálculo de la Mediana para datos agrupados en una Tabla de Frecuencias:
Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de
2018 que cursan estadística básica.

Edad fi Fa
18 3 3
19 3 6
20 8 14 n 30
Me 21 5 19   15
22 4 23 2 2
23 2 25
24 3 28
26 1 29
27 1 30
Medidas de
Centralización.
Mediana
Cálculo de la Mediana para datos agrupados en Intervalos de Clase:

El cálculo de la mediana para datos agrupados en un atabla de frecuencias se realiza


mediante el siguiente procedimiento:

1. Hallar n/2.

2. Ubicar el valor observado cuya frecuencia absoluta acumulada contiene a n/2.

3. Calcular la mediana mediante la fórmula:


donde:
Linf = Límite inferior del primer intervalo cuya Fa es mayor a n/2.
n
 Faa Faa = Frecuencia acumulada del intervalo anterior al primer
Me  Linf  2 a intervalo cuya Fa es mayor a n/2.
fi fi = Frecuencia absoluta del primer intervalo cuya Fa es mayor a n/2.
a = Amplitud de los intervalos
Medidas de
Centralización.
Mediana
Cálculo de la Mediana para datos agrupados en Intervalos de
Clase:

30
Intervalos fi Fa 6
de Edad Me  20  2 * 2  21,3846
[18 – 20) 6 6 13
[20 –22) 13 19 frecuencia absoluta acumulada inmediatamente mayor a
la mitad de las observaciones
[22 – 24) 6 25
[24 – 26) 3 28 donde:
[26 – 28) 2 30 Linf = Límite inferior del primer intervalo cuya Fa es mayor
a n/2.
n = 30
Faa = Frecuencia acumulada del intervalo anterior al
primer intervalo cuya Fa es mayor a n/2.
n  F aa
2 fi = Frecuencia absoluta del primer intervalo cuya Fa es
Me  Linf  a mayor a n/2.
fi a = Amplitud de los intervalos
Medidas de
Centralización.
Moda
Se denomina moda de un conjunto de datos al valor que más se presenta, es decir,
el atributo o el valor de mayor frecuencia. La moda se representa por Mo y puede
ser aplicada a las variables cualitativas y cuantitativas discretas o continuas.

Serie Simple:

Ejemplo 1: 1, 3, 3, 3, 3, 4, 5, 6, 6, 6, 8 , 9, 10
La moda es 3.

Ejemplo 2: 1, 3, 3, 3, 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 8 , 9, 10
Las modas son 3 y 6.

Ejemplo 3: 1, 2, 3, 4, 7, 8, 9, 19
En este caso, no hay moda.
Medidas de
Centralización.
Moda
Se denomina moda de un conjunto de datos al valor que más se presenta, es decir,
el atributo o el valor de mayor frecuencia. La moda se representa por Mo y puede
ser aplicada a las variables cualitativas y cuantitativas discretas o continuas.

Cálculo de la Media Aritmética para datos agrupados en una Tabla de Frecuencias:


Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de
2018 que cursan estadística básica.
Edad fi
18 3
19 3
Mo =20 20 8
años 21 5
22 4
23 2
24 3
Medidas de
Centralización.
Moda
Cálculo de la Mediana para datos agrupados en Intervalos de
Clase:

donde:
d1
Mo  Linf  a Linf = Límite inferior del intervalo que

d1  2
tiene mayor frecuencia
absoluta (intervalo modal).
d d1 = Diferencia entre las frecuencias
absolutas del intervalo modal y
el intervalo pre-modal.
d2 = Diferencia entre las frecuencias
absolutas del intervalo modal y
el intervalo post-modal.
a = Amplitud de los intervalos
Medidas de
Centralización.
Moda
Cálculo de la Mediana para datos agrupados en Intervalos de Clase:
donde:
Intervalos fi
Linf = Límite inferior del intervalo que
de Edad
tiene mayor frecuencia
[18 – 20) 6 absoluta (intervalo modal).

[20 –22) 13 d1 = Diferencia entre las frecuencias


absolutas del intervalo modal y
[22 – 24) 6
el intervalo pre-modal.
[24 – 26) 3
d2 = Diferencia entre las frecuencias
[26 – 28) 2
absolutas del intervalo modal y
el intervalo post-modal.
d1 a = Amplitud de los
Mo  Linf  a intervalos
d1  2 Mo  20
7
2
 7  21
d 7
Medidas de
Centralización.
Representación Gráfica de la Moda

D2
D1

Li Mo
a
Medidas de Posición
Medidas de
Posición.
Cuartiles
Los cuartiles (Qk) son valores que fraccionan la distribución de los datos en
cuatro partes iguales. Existen tres cuartiles y cada una de las partes representa
un 25% de los datos.

75% 25%
25% 75%

25% 25% 25% 25%


Cuartil 1 Mediana Cuartil 3
Mínimo Máximo
Q1 Cuartil Q3
2
Q2
Medidas de
Posición.
Cuartiles
Los cuartiles (Qk) son valores que fraccionan la distribución de los datos en
cuatro partes iguales. Existen tres cuartiles y cada una de las partes representa
un 25% de los datos.

Serie Simple: Si las observaciones de una muestra de tamaño n son x1,x2, …, xn entonces la
media muestral se define como:

si n es impar
xn1 j /4

Q   xnj /4  x
j
 nj /41 si n es par
 2
Medidas de
Posición.
Cuartiles
Cálculo de los Cuartiles para datos dados por una Serie Simple:

Ejemplo correspondiente a las edades de los alumnos del primer cuatrimestre de 2018
que cursan estadística básica.

24 19 26 19 22 21 19 24 20 23
22 21 22 23 20 20 18 24 20 18
22 18 20 21 20 20 21 20 21 27

18,18,18,19,19,19,20,20,20,20,20,20,20,20,21,21,21,21,21,22,22,22,22,23,23,24,24,24,26,27

q1=20 q2=21 q3=22


Medidas de
Posición.
Cuartiles
Cálculo de los Cuartiles para datos agrupados en Serie de
Frecuencias:
Edad fi Fa
n 30
18 3 3 j. j.
19 3 6 4 4
20 8 n 30
q1 = 20 años 14   7,5
21 5 19 4 4
22 4 23 n 30
q3 = 22 años 3.  3.  22,5
23 2 4 4
25
24 3 28
26 1 29
27 1 30
Medidas de
Posición.
Cuartiles
Cálculo de los Cuartiles para datos agrupados en Intervalos de
Clase:
Intervalos fi Fa
de Edad j  4n  Faa
Q j  Linf  a
fi
[18 – 20) 6 6 n 30
1   7,5
[20 –22) 13 19 4 4
30
[22 – 24) 6 25 n 30 6
3  3  q1  20  4 2
[24 – 26) 3 28 22,5 20, 2307
[26 – 28) 2 30 4 4 13
30
3. 19
n = 30 q3  22 4 2
23,166
Linf = Límite inferior del primer intervalo cuya Fa es mayor a j.n/4 6
Faa = Frecuencia acumulada del intervalo anterior al primer intervalo cuya Fa es mayor a j.n/4.
fi = Frecuencia absoluta del primer intervalo cuya Fa es mayor a j.n/4
a = Amplitud de los intervalos.
Medidas de
Centralización.
Deciles
Cuando se divide un conjunto ordenado de datos en diez partes iguales, los
puntos de división se conocen como deciles.

20% 80%
Mínimo Decil 2 Máximo

D2
Medidas de
Centralización.
Percentile
sCuando se divide un conjunto ordenado de datos en cien partes iguales, los
puntos de división se conocen como percentiles.

18% 82%
Mínimo Percentil 18 Máximo

P18
Mediana y Cuartiles representados en el polígono de frecuencias
acumuladas

100,0
0

90,0
0

80,0
0

70,0
Porcentajes

60,0
0

50,0
0

40,0
0

30,0
Q3
0,0 Q1 P40
0
0 41 47 53 59 65 71 77

20,0 Putuacione
0 s

10,0
Medidas de Dispersión
Medidas de Dispersión
Además de las medidas de tendencia central que posibilitan la representación del
conjunto de datos por medio de un valor, es necesario conocer la variabilidad o la
dispersión que los datos pueden tener en relación a una medida de tendencia central.
Medidas de Dispersión
Rango

Varianza
Absolutas
Desviación
Estándar

Medidas de Rango
Intercuartílico
Dispersión

Coeficiente de
Relativas Variación
Medidas de Dispersión.

Rango
El rango se define como la diferencia entre la observación más grande y la más
pequeña :

r  x max  x min
Rango Intercuartílico (RIC)

R I C  Q3 
Q1
Los valores extremos influyan en el conjunto de
datos.
Medidas de
Dispersión.
Varianza
Para el conjunto de datos x1, x 2, ….,x n de una población de tamaño N. Las diferencias de cada
dato y la media, determinan los desvíos o desviaciones. Dado que la suma de estas
desviaciones es cero, se utiliza como medida de variabilidad el promedio de los cuadrados
de tales desvíos.

  (x  (xi   i .
N m n
(xi  2
i  x ) fi
2 2
(x  x )2
i
 
2 i1
x) x) f
 2
 i1
N s 2  i1 n s2  i1 n
N
(1) (2) 1
(3) 1 (4)

Varianza muestral
Varianza Poblacional
siendo n el tamaño de la
siendo N el tamaño de la población.
muestra.
Para datos sin agrupar (1) y agrupados Para datos sin agrupar (3)
(2) y agrupados (4)
Si los datos se agrupan por intervalos, usamos xmi en lugar de
xi
Medidas de
Dispersión.
Desvío estandar muestral

n
Para datos sin
S  1 ( xi  X ) 2

n 1
i 1
agrupar

n
1 Para datos
S  
n  1 i1
( x i  X )2 fi agrupados por
frecuencias

k
1
S  
n  1 i 1
( x mi  X ) 2
fi Para datos
agrupados por
Intervalos
Medidas de
Dispersión.
Coeficiente de variación
El coeficiente de variación (CV) es una medida que relaciona la desviación
estándar con la media aritmética para determinar qué tan homogénea o
dispersa es la información.
S
CV 
X
• Mide el grado de variabilidad en una muestra o población.
• Está desprovisto de unidades. Permite comparar la variabilidad entre distintas
variables y poblaciones.
• El valor expresado en términos porcentuales, se llama coeficiente de
porcentual.
variación
S
CV %  100%
X
Consideraremos poca variabilidad, si el CV% es a lo sumo del 30
%
Medidas de
Dispersión.
Coeficiente de variación: Comparación entre distintas variables y
poblaciones.

Ejemplo: Si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media
es de 69,6 kg. y su desviación estándar (s) = 10,44 y la presión arterial de los
mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su
desviación estándar de 21,3. La pregunta sería: ¿qué distribución es más
dispersa, el peso o la presión arterial? Si comparamos las desviaciones estándar
observamos que la desviación estándar de la presión arterial es mucho mayor;
sin embargo, no podemos comparar dos variables que tienen escalas de medidas
diferentes, por lo que calculamos los coeficientes de variación:

10, 44
CV de la variable peso  69,  15%
6
21,30
CV de la variable presión  166  12,8%
Análisis de la Forma
Análisis del grado de Curtosis

Coeficiente
de curtosis

K>0 K=0
K<0
Con esta medida se cuantifica la mayor o menor cantidad de datos
que se agrupan en torno a los valores centrales
Análisis de la simetría

Coeficiente
de asimetría

As <0 As =0 As >0
Distribuciones Simétricas

Insesgada

Moda=Mediana=Media

X  Me  Mo
La distribución de los datos es
simétrica
Distribuciones Asimétricas

Sesgo Positivo (a la derecha)

Media
Moda Mediana

Si Mo  Me  X : Asimétrica Positiva
Si la distribución es asimétrica
En nuestro estudio, positiva, la media no
M o = 20 < Me = 21 <X = representa al conjunto de
La distribución 21,166
es asimétrica datos.
positiva.
Distribuciones Asimétricas

Sesgo Negativo (a la
izquierda)

Medi Mediana
a Moda

Si X  Me  Mo : Asimétrica Negativa
Si la distribución es asimétrica negativa,
la media no representa al conjunto de
datos.
Gráfico de caja y bigotes (Box-Plot)
Este gráfico permite visualizar rápidamente la simetría y la variabilidad de los datos. El
largo de la caja, es q3-q1 (rango intercuartílico), que comprende el 5 0 % central de los
datos.
Gráfico de caja y bigotes (Box-Plot)
Interpretación.
Datos asimétricos

Cuando los datos son asimétricos, la mayoría de los datos se ubican en la parte
superior o inferior de la gráfica.
Gráfico de caja y bigotes (Box-Plot)
Interpretación.
Valores atípicos

Los valores atípicos, que son valores de datos que están muy alejados de otros
valores de datos, pueden afectar fuertemente sus resultados. Frecuentemente, es más
fácil identificar los valores atípicos en una gráfica de caja..
Gráfico de caja y bigotes (Box-Plot)
Interpretación.
Evaluar y comparar los grupos

Permiten evaluar y comparar el centro y la dispersión de distintos


grupos.

La mediana de los grupos son similares, pero


algunos de los grupos presentan mayor
variabilidad.
Observaciones finales

 Comenzar por el estudio de la variabilidad de los datos, puede

ahorrar pasos en el análisis.

 Si el C V es mayor que 30 % , ninguna medida resume los datos.

 Si existe poca variación en los datos, debemos analizar la forma.

En ese caso, si los datos son simétricos, la media representa los

mismos. Si son asimétricos, la medida que los representa es la

mediana.

Potrebbero piacerti anche