Sei sulla pagina 1di 48

03/05/2018

ESTADÍSTICA DESCRIPTIVA

JUSTIFICACIÓN DE LA ASIGNATURA EN
EL PLAN DE ESTUDIOS
La estadística es una herramienta fundamental
en la formación profesional de Ciencias
Administrativas, Publicidad y mercadeo, Gestión
Comercial y Financiera etc; los contenidos de
esta asignatura contribuyen al desarrollo de una
actitud crítica, metódica e investigativa,
mediante la aplicación de conocimientos y
herramientas estadísticas que contribuyan a la
toma de decisiones confiables en estudios
investigativos de corte cuantitativo y cualitativo.

1
03/05/2018

LOS PROPÓSITOS
• Adquirir un conocimiento preciso de las bases necesarias
de la Estadística Descriptiva y de las probabilidades para su
aplicación en la vida profesional, como herramienta
determinante en la toma de decisiones.
• El curso de Estadística I pretende desarrollar en los
estudiantes las competencias propias del área, para poder
realizar un análisis estadístico básico como la media, la
varianza y la desviación estándar a partir de un conjunto de
datos dado, al igual podrá describir probabilísticamente
una distribución de datos, identificando el tipo de variable
(discreta o continua).
• Adquirir las destrezas para la formulación de problemas
que requieren la administración de datos.
• Aplicar con sentido los paquetes computacionales para
abordar un problema en el ambiente de la Estadística
(EXCEL)

LA ESTADÍSTICA

La estadística, en general, es la ciencia que


trata de la recopilación, organización,
presentación, análisis e interpretación de
datos numéricos con el fin de realizar una
toma de decisión más efectiva.

2
03/05/2018

HISTORIA DE LA ESTADÍSTICA
Historia.

DIVISIÓN DE LA ESTADÍSTICA

• Estadística • Estadística
Descriptiva Inferencial

3
03/05/2018

ESTADÍSTICA DESCRIPTIVA:

• Consiste en la presentación de datos en


forma de tablas y gráficas. Esta comprende
cualquier actividad relacionada con los datos
y está diseñada para resumir o describir los
mismos sin factores pertinentes adicionales;
esto es, sin intentar inferir nada que vaya
más allá de los datos.

ESTADÍSTICA INFERENCIAL:
• Se deriva de muestras, de observaciones
hechas sólo acerca de una parte de un
conjunto numeroso de elementos y esto
implica que su análisis requiere de
generalizaciones que van más allá de los
datos. La Estadística Inferencial investiga
o analiza una población partiendo de una
muestra tomada.

4
03/05/2018

MÉTODO ESTADÍSTICO
• El conjunto de los métodos que se utilizan para medir las
características de la información, para resumir los valores
individuales, y para analizar los datos a fin de extraerles el
máximo de información, es lo que se llama métodos
estadísticos. Los métodos de análisis para la información
cuantitativa se pueden dividir en los siguientes siete pasos:
1. Definición del problema.
2. Recopilación de la información existente.
3. Obtención de información original.
4. Clasificación.
5. Presentación.
6. Análisis.
7. Toma de decisiones.

APLICACIÓN DE LA ESTADÍSTICA
• La estadística prácticamente se puede
utilizar en todas las actividades del ser
humano, donde se presenta con mayor
incidencia es en: Economía, Agricultura,
Informática, Prevención de Riesgos,
Control de Medio Ambiente, Química
Analítica, Medicina, Ingeniería,
Psicología, etc.

5
03/05/2018

DEFINICIONES BÁSICAS
• LA POBLACIÓN: es el conjunto de todos los elementos
sobre los que se quiere realizar un estudio estadístico.
• LA MUESTRA: es una parte representativa de la población
que se elige para hacer el estudio estadístico.
• VARIABLE: Característica de la población que se analiza en
el estudio estadístico. Hay dos tipos de variables
estadísticas:
 Cuantitativas, (variables) son los que se pueden
expresar con números (estatura de todas la personas
de la U.) se pueden describir por medio números.
 Cualitativas, (atributos) son los que no se pueden
expresar con números (el estado civil, el sexo, la raza,
etc.) se pueden describir por medio de palabras.

VARIABLES CUANTITATIVAS
• Datos Discretos: Son aquellos que surgen por el
procedimiento de conteo. Es decir, los datos
discretos toman valores enteros (ej., el número
de hijos por familia; el número de automóviles
que pasan por una avenida en una hora, etc.).

• Datos Continuos: Son aquellos que surgen


cuando se mide alguna característica. Es decir,
toman al menos teóricamente cualquier valor
dentro de un intervalo (ej., el peso, la estatura, la
tensión arterial de las personas, etc.)

6
03/05/2018

EJERCICIOS
1. Clasifique, como cualitativos o cuantitativos
(discretos o continuos), los siguientes caracteres
estadísticos estudiados en los coches de cierta
marca:
a) Modelo de coche
b) Color de su carrocería
c) Potencia de su motor
d) Consumo medio en 100 km
e) Número de piezas

EJERCICIOS
2. Clasifique, como cualitativos o cuantitativos
(discretos o continuos), los siguientes
caracteres estadísticos estudiados en una
fábrica de tornillos:
a) La producción diaria de tornillos.
b) Las longitudes de los tornillos.
c) El color de los tornillos.
d) Las anchuras de los tornillos.

7
03/05/2018

¿QUÉ ES UN DATO?
• Dato es una representación simbólica (numérica,
alfabética, etc.), un atributo o una característica
de una entidad. El dato no tiene valor semántico
(sentido) en sí mismo, pero si recibe un
tratamiento (procesamiento) apropiado, se
puede utilizar en la realización de cálculos o toma
de decisiones. Es de empleo muy común
prácticamente en cualquier disciplina científica.
• Un Conjunto de datos es una colección de datos
normalmente tabulada. Por cada elemento (o
individuo) se indican varias características.

FORMAS DE RESUMIR LOS DATOS


• Tablas
Tablas de frecuencias (distribución de
frecuencias)
Frecuencias relativas (porcentaje del total)
• Gráficos
Histogramas
Polígonos de Frecuencias
Diagrama de Puntos
Diagrama de Cajas (Box plots) etc.

8
03/05/2018

DISTRIBUCIÓN DE FRECUENCIAS
• Es un método para clasificar, organizar y
resumir datos.
SÍMBOLOS:
𝑁 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑋𝑖 = 𝐼𝑑𝑒𝑛𝑡𝑖𝑓𝑖𝑐𝑎 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 𝑖
𝑛𝑖 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎. 𝐸𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑟𝑒𝑝𝑖𝑡𝑒 𝑐𝑎𝑑𝑎 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒.

𝑁𝑖 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑎𝑐𝑜𝑚𝑢𝑙𝑎𝑑𝑎.


ℎ𝑖 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎. 𝑉𝑎𝑙𝑜𝑟 𝑝𝑜𝑟𝑐𝑒𝑛𝑡𝑢𝑎𝑙.

𝐻𝑖 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑎𝑐𝑜𝑚𝑢𝑙𝑎𝑑𝑎𝑑.

𝑌𝑖 = 𝐿𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑞𝑢𝑒 𝑡𝑜𝑚𝑎 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒.

TABLAS DE FRECUENCIAS
• Variables discretas:
Ejemplo: En un estudio con un grupo de 2.000 personas
que habían sido tratadas psicológicamente por problemas
de ansiedad, se desea preguntar a las mismas, cuántas
veces habían sufrido un ataque de ansiedad desde que
terminó el tratamiento recibido. Pero no se quiere
realizar una investigación exhaustiva, por lo cual se
selecciono una muestra de 20 personas. El resultado de
esta encuesta, se anota a continuación:

X1= 2 X6= 4 X11= 4 X16= 0


X2= 2 X7= 0 X12= 0 X17= 2
X3= 1 X8= 1 X13= 0 X18= 3
X4= 2 X9= 0 X14= 4 X19= 0
X5= 1 X10= 0 X15= 4 X20= 3

9
03/05/2018

• La siguiente es una muestra que representa un


estudio hecho en la ciudad de Bogotá, este se
realizó con fin de conocer la principal causa de
muerte en esta ciudad. ¿Cuál sería la principal
causa de muerte? ¿Con qué porcentaje?; ¿Cuál
sería la menor causa de muerte? ¿Con qué
porcentaje?; ¿Qué quiere decir N2? ¿Qué quiere
decir H3? 1 5 3 1 2 4 1 3 1 5
2 1 1 5 3 1 2 1 4 1
4 1 3 1 5 1 2 1 1 2
5 1 1 5 1 5 3 1 2 1
2 3 1 1 2 1 5 1 5 1
1 2 5 1 1 2 3 4 1 1
1 1 2 1 1 2 1 1 2 3
3 3 1 5 2 3 5 1 3 4
1 1 2 4 5 4 1 5 1 5
5 1 1 5 1 1 5 1 1 5

LOS GRÁFICOS ESTADÍSTICOS MÁS


UTILIZADOS SON:
• DIAGRAMA DE BARRAS, consiste en dibujar una
barra sobre cada uno de los datos con una altura
proporcional a la frecuencia absoluta o relativa. Si
en un diagrama de barras unimos los extremos
superiores de cada una obtenemos una línea
poligonal que se llama polígono de frecuencias
• EL DIAGRAMA DE SECTORES, es un círculo
dividido en sectores circulares de amplitudes
proporcionales a las frecuencias absolutas o
relativas

10
03/05/2018

EJEMPLOS DE GRÁFICOS VARIABLES


DISCRETAS:

TABLAS DE FRECUENCIAS
• Variables continuas:
Tomamos como ejemplo una muestra de 20
alumnos a fin de conocer su peso en kilos:
1 67,9 6 56,4 11 50,2 16 47,4
2 61,6 7 75,3 12 80,2 17 78,7
3 64,4 8 65,8 13 68,5 18 43,5
4 62,6 9 72,3 14 61,1 19 59,0
5 47,2 10 58,3 15 68,8 20 99,5

11
03/05/2018

PASOS PARA ELABORAR TABLA DE


FRECUENCIAS EN DATOS CONTINUOS
• Determinar el valor máximo y mínimo.
• Calcular el rango: R =Xmax - Xmin
• Introducir dos nuevos símbolos:
M = número de intervalos
C = amplitud del intervalo.

LA REGLA DE STURGES
Consiste en obtener una primera aproximación de
cuántas clases debe tener la serie de clases y
frecuencias mediante la raíz cuadrada del número
de elementos. Ejemplo: se tienen 72 salarios de una
empresa, la raíz cuadrada de 72 es 8.49, la
sugerencia inicial será utilizar 9 clases para construir
las demás clases según el número de datos. Los
salarios máximo y mínimo 179.2 y 74.65, lo que da
una diferencia (rango) de 104.55. Y como la regla de
Sturges indica 9 clases, cada una debe medir
aproximadamente 104.55/9 = 11.61 que
redondeado a 12 si es una variable de tipo discreta.

12
03/05/2018

Ejercicio
• En un barrio de Bogotá, en el año 2012, se entrevistó a
un cierto número de mujeres casadas nacidas entre los
años 1935 y 1944 y se les preguntó a qué edad
contrajeron matrimonio. A continuación se muestran
los datos correspondientes a 50 de estas mujeres:
Realizar tablas de frecuencias, con 6 intervalos.

15 17 25 15 16 11 15 13 12 10
15 14 16 14 17 13 14 20 29 19
16 18 10 18 12 11 20 34 13 22
19 14 17 16 16 15 12 24 25 9
21 15 13 23 24 10 10 16 14 18

FORMAS DE RESUMIR LOS DATOS


CONTINUOS
• Gráficos
Histogramas. Está formado por rectángulos cuyas
bases miden la amplitud de las clases y cuyas
alturas son proporcionales a las frecuencias
absolutas (o relativas, si es el caso).

13
03/05/2018

Polígonos de Frecuencias. Si en un histograma


unimos los extremos superiores de cada una
obtenemos una línea poligonal que se llama
polígono de frecuencias

MEDIDAS DE TENDENCIA
CENTRAL
• Media (aritmética, ponderada, geométrica,
armónica)

• Mediana

• Moda

• Cuartiles, deciles, percentiles

14
03/05/2018

MEDIA ARITMÉTICA
• Datos originales: El índice de tendencia central
más utilizado es la media. Se define como la
suma de los valores observados, dividida por
el número de ellas. Se representa con la X, en
mayúsculas , con una barra horizontal encima.
Datos originales:

Calcula la media de los siguientes datos

14 25 14 8 22 14 14 14 13 21 15

MEDIA ARITMÉTICA
• Datos agrupados:

• Hallar la media de los ejercicios:


 En un estudio con un grupo de 2.000 personas…..
 Tomamos como ejemplo una muestra de 20…….
 En cierto barrio de Bogotá, en el año 2012, se
entrevistó….

15
03/05/2018

MEDIA ARITMÉTICA PONDERADA

• Es una media aritmética que se emplea en distribuciones


de tipo unitario, en las que se introducen unos coeficientes
de ponderación, denominados ω , que son valores
i

positivos, que representan el número de veces que un valor


de la variable es más importante que otro.

• Ejemplo: un alumno de estadística I, obtuvo las siguientes


notas durante los tres cortes: 1º corte 2.3; 2º corte 3.1; y
3º corte 2.9; ¿cuál será la nota definitiva del este alumno?

LA MEDIANA
• La mediana de un conjunto de datos es un
valor tal, que cuando escribimos todos los
datos ordenados de menor a mayor ocupa el
lugar central de la lista ordenada. Si el número
de datos es impar, la mediana es el dato
central; si el número de datos es par, la
mediana es la media de los dos datos
centrales.

16
03/05/2018

EJEMPLOS DATOS ORIGINALES


X1= 14
X2= 15
X3= 12
X4= 5
Número impar de observaciones. X5= 9
X6= 6
X7= 11

X1= 27
X2= 38
X3= 23
Número par de observaciones. X4= 28
X5= 36
X6= 39
X7= 35
X8= 26

PASOS A SEGUIR EN EL CÁLCULO DE LA


MEDIANA DATOS AGRUPADOS
1) Obtener las frecuencias absolutas acumuladas.
2) Buscar la mitad de las observaciones, por medio
de n/2.
3) Localizar el resultado anterior n/2 en las
columnas de las frecuencias absolutas
acumuladas. Si no aparece, se toma el valor
inmediatamente anterior y se simboliza con Nj-1
y al inmediatamente superior por Nj.
4) Casos.

17
03/05/2018

CASOS DATOS AGRUPADOS

CASO A
• Variables discretas
Ó

CASO B

CASO A

Ó
• Variables continuas
CASO B

EJERCICIOS
• Variables discretas, caso a:
Yj nj Nj
0 2 2
1 3 5
2 6 11
3 5 16
4 4 20

• Variables discretas, caso b:


Yj nj Nj
0 2 2
1 3 5
2 5 10
3 6 16
4 4 20

18
03/05/2018

EJERCICIOS
• Variables continuas, caso a:
Y´j-1 Y´j ni Ni
2,1 6 2 2
6,1 10 3 5
10,1 14 5 10
14,1 18 6 16
18,1 22 4 20

• Variables continuas, caso b:


Y´j-1 Y´j ni Ni
2,1 6 2 2
6,1 10 3 5
10,1 14 6 11
14,1 18 5 16
18,1 22 4 20

LA MODA
• La moda es el valor de la variable que más
veces se repite, y en consecuencia, en una
distribución de frecuencias, es el valor de la
variable que viene afectada por la máxima
frecuencia de la distribución.

19
03/05/2018

EJERCICIOS
• Datos originales:

Calcula la moda los


siguientes datos:

14 25 14 8 22 14 14 14 13 21 15

EJERCICIOS
• Datos agrupados:
Variables discretas
Yj nj
0 2
1 3
2 6
3 5
4 4

20
03/05/2018

Variables continuas

Y´j-1 Y´j ni Yi
𝑑1
𝑀𝑂 = Ý𝑗−1 + 𝐶 2,1 6 2 4,05
𝑑1 + 𝑑2
6,1 10 3 8,05
10,1 14 5 12,05
14,1 18 6 16,05
18,1 22 4 20,05

Ý𝑗−1 =limite inferior de la clase modal (la clase que contiene la moda)

d1 = la diferencia entre la frecuencia de la clase modal y la frecuencia


de la clase anterior

d2 = la diferencia entre la frecuencia de la clase modal y la frecuencia


de la clase siguiente

MEDIDAS DE POSICIÓN
• Las medidas de posición dividen un conjunto
ordenado de datos en grupos con la misma
cantidad de individuos.

• Esto cuando se requiere obtener un promedio


de una parte de ella, se puede dividir la
distribución en cuatro, diez o en cien partes.
Hablamos entonces del primer caso de
cuartiles, el segundo de deciles y percentiles.

21
03/05/2018

PERCENTIL

Son 99 valores que dividen en cien porciones


iguales el conjunto de datos ordenados.
Ejemplo, el percentil de orden 15 deja por
debajo al 15% de las observaciones, y por
encima queda el 85%.
𝐾
• Datos originales: 𝑃 = 𝑛+1
P = Posición
100

PERCENTIL
Datos originales, con los siguientes datos: 16, 10, 4,
8, 12, 10, 8, 20, 4, 13, 12, 22, 16, 26, 20. Hallar:
 Primero y tercer cuartil
 Cuarto y sexto decíl
 El 30 y 90 percentil

Respuestas:
Q1=8; Q3=20
D4=10,8; D6=14,8
P30=9,6; P90=23,6

22
03/05/2018

PERCENTIL
• En la tabla siguiente se muestran los números de
acciones negociadas de cierta empresa (en
miles), en 50 días de operaciones. Determinar los
valores de los cuartiles, decíl 2, decíl 6, percentil
82 y 32.

PASOS A SEGUIR EN EL CÁLCULO DEL


PERCENTIL K EN DATOS AGRUPADOS
1) Obtener las frecuencias absolutas acumuladas.
2) Buscar el valor K de las observaciones, por
medio de K*n/100.
3) Localizar el resultado anterior K*n/100 en las
columnas de las frecuencias absolutas
acumuladas. Si no aparece, se toma el valor
inmediatamente anterior y se simboliza con Nj-1
y al inmediatamente superior por Nj.
4) Formula.

23
03/05/2018

PERCENTIL
Tabla de frecuencia variable discreta.
Formulas:
𝐾∗𝑛 𝑌𝑗 + 𝑌𝑗−1
𝑁𝑗−1 = ; 𝑃𝑘 =
100 2

𝐾∗𝑛
𝑁𝑗−1 < ; 𝑃𝑘 = 𝑌𝑗
100

PERCENTIL
Yi ni
47 1
52 2
Calcular: Q1; 57 1
P40; Q2; Q3; 58
60
2
1
P60; P30; P90 65 1
66 2
71 2
72 1
73 1
96 1

24
03/05/2018

PERCENTIL
Cuando los datos están agrupados en una tabla
de frecuencias, y son datos continuos, se
calculan mediante la fórmula:

EJEMPLO DATOS AGRUPADOS CON


VARIABLES CONTINUOS.
• Con los siguientes datos, hallar el primer
cuartil, tercer cuartil, sexto decíl, el noveno
decíl, el percentil 80 y el percentil número 50.

Y´j-1 Y´j ni Ni
3,1 8,1 14 14
8,1 13,1 15 29
13,1 18,1 8 37
18,1 23,1 6 43
23,1 28,1 7 50
28,1 33,1 10 60

25
03/05/2018

DIAGRAMAS DE CAJA Y BIGOTES


• A partir del valor de la mediana y los cuartiles se
pueden representar las distribuciones
estadísticas mediante los llamados “diagramas
de caja y bigotes”. Una vez ordenados los datos,
se calculan los valores mínimo y máximo, los
cuartiles y la mediana. mín=1300; Q1=1675 ;
Me=1900; Q3=2150; máx=2500
Datos
atípicos
𝑋𝑀𝐼𝑁 = 𝑄1 − 1.5 𝑄3 − 𝑄1

𝑋𝑀𝐴𝑋 = 𝑄3 + 1.5 𝑄3 − 𝑄1

EJERCICIO
• Analiza el siguiente diagrama de caja y bigotes
y calcula, a partir de él, los valores máximo y
mínimo, la mediana y los cuartiles.

26
03/05/2018

Resultados del primer corte 2017-3


ESTADÍSTICA INFERENCIAL
ESTADÍSTICA Y PROBABILIDAD ESTADÍSTICA Y PROBABILIDAD GRUPO=015-23
Grupo: 015-25 Grupo: 015-21
4,50 4,50 4,50

4,00 4,00
4,00

3,50
3,50 3,50

3,00
3,00 3,00
2,50

2,50 2,50
2,00

2,00 2,00
1,50

1,00 1,50 1,50

27
03/05/2018

EJERCICIO
• Analiza el siguiente diagrama de caja y bigotes.
Muestra los minutos que tarda en hacer efecto
un medicamento en una población. Interpreta la
información que presenta y responde a las
preguntas.

preguntas
 ¿A qué porcentaje de la población había hecho
efecto al cabo de 30 minutos?.
 ¿Al cabo de cuántos minutos había hecho efecto al
50 % de la población?.
 ¿Cuántos minutos tardó en hacer efecto al 100% de
la población?
 ¿A qué porcentaje había hecho efecto a los 55
minutos?.
 ¿Cuánto tardó en hacer efecto a las tres cuartas
partes de la población?

28
03/05/2018

EJERCICIO
• Con los siguientes datos graficar el diagrama
de caja y bigotes.

Y´j-1 Y´j ni Ni
3,1 8,1 14 14
8,1 13,1 15 29
13,1 18,1 8 37
18,1 23,1 6 43
23,1 28,1 7 50
28,1 33,1 10 60

EJERCICIO
En la siguiente tabla se presentan los días con índice de
contaminación en la ciudad de Bogotá. Graficar el
diagrama de caja para cada año.
2010 2011 2012
248 221 248
208 171 184
113 131 104
128 101 79
106 95 69
118 89 67
60 33 35
79 63 32
55 56 30
47 54 30
88 55 26
47 69 21
58 59 20
82 48 11

29
03/05/2018

EJEMPLO
Los siguientes datos son puntuaciones obtenidas por
50 estudiantes en una prueba psicológica; agrupar los
datos en 5 intervalos. Hallar media aritmética,
mediana, moda y el diagrama de caja y bigotes.

26 49 37 21 49 16 12 39 38 49
16 17 15 36 35 45 36 17 12 34
26 38 12 17 35 22 31 28 22 48
30 26 16 45 34 29 42 10 12 42
23 35 49 22 45 47 49 19 35 20

DIAGRAMA DE TALLO Y HOJA


Es un diagrama de gran utilidad para representar un
conjunto de datos cuantitativos, este tipo de
representación presenta similitudes con el histograma en
cuanto que proporciona información del recorrido de la
distribución de datos en estudio, muestra la ubicación de
la mayor concentración de mediciones y revela la
presencia o ausencia de simetría.
Cabe señalar que el diagrama de tallo y hojas tiene
ventajas sobre el histograma, porque conserva la
información que puede arrojar las mediciones
individuales, situación que se pierde en los intervalos del
histograma, otra ventaja, es que ésta representación
elimina el paso de los datos originales a clases.

30
03/05/2018

DIAGRAMA DE TALLO Y HOJA


Supongamos que durante el presente mes, se
mide el tiempo en minutos que tardan un grupo
de estudiantes para llegar a clase.
Datos de Tiempo (minutos): 12, 13, 13, 14, 14,
15, 15, 20, 21, 22, 22, 22, 25, 27, 28, 29, 31, 31,
33, 34, 36, 38, 39, 40, 41, 41, 42, 44, 45, 50, 51
52.
Construir el diagrama de tallo y hojas; hallar la
moda, la mediana, los cuartiles Q1 y Q3.

DIAGRAMA DE TALLO Y HOJA

Tallo Hojas ni
1 2 3 3 4 4 5 5 7
2 0 1 2 2 2 5 7 8 9 9
3 1 1 3 4 6 8 9 7
4 0 1 1 2 4 5 6
5 0 1 2 3
n= 32

31
03/05/2018

MEDIDAS DE DISPERSIÓN
• Las medidas de dispersión tratan de medir el grado de
dispersión que tiene una variable estadística en torno a
una medida de posición o tendencia central,
indicándonos lo representativa que es la medida de
posición. A mayor dispersión menor representatividad
de la medida de posición y viceversa.

 Variancia (Poblacional, Muestral)


 Desviación Estándar (típica)
 Coeficiente de variación

VARIANZA (POBLACIONAL, MUESTRAL)


• La varianza mide la mayor o menor dispersión
de los valores de la variable respecto a la
media aritmética. Cuanto mayor sea la
varianza mayor dispersión existirá y por tanto
menor representatividad tendrá la media
aritmética.

32
03/05/2018

EJEMPLOS
• Una aseguradora vende 5 pólizas de seguros, sus
valores fueron 110, 145, 125, 95 y 150 dólares, hallar
la media, la varianza y la desviación estándar.
• Hallar la varianza y la desviación estándar de la variable
ansiedad, que siente una persona cuando se encuentra
mucha gente alrededor de ella, de una muestra de 7
personas. 9; 3; 10; 5; 9; 4; 9
• Calcular la varianza y la desviación estándar para la
variable “Tiempo empleado en completar un
laberinto” por una muestra de 20 ratas:
Tiempo (seg) ni
9 3
10 8
11 6
12 2
13 1

DESVIACIÓN ESTÁNDAR
• Desviación estándar: también llamada desviación típica, es
una medida de dispersión usada en estadística que nos dice
cuánto tienden a alejarse los valores puntuales del
promedio en una distribución. Específicamente, la
desviación estándar es "el promedio de la distancia de cada
punto respecto del promedio". Se suele representar por
una S o con la letra sigma, según se calcule en una muestra
o en la población.
• Una desviación estándar grande indica que los puntos están
lejos de la media, y una desviación pequeña indica que los
datos están agrupados cerca de la media.

 POBLACIONAL
 MUESTRAL

33
03/05/2018

COEFICIENTE DE VARIACIÓN

• Se utiliza para comparar la variabilidad de dos series de datos.

• Tenemos datos sobre el gasto anual en nuevas tecnologías en los


colegios públicos de 2 ciudades ¿En cuál de las 2 ciudades presenta
más homogeneidad esta variable?

 Ciudad A
X = 240.000
Sx = 3.300
 Ciudad B
X = 150.000
Sx = 2.900

MEDIDAS DE ASIMETRÍA
• En una distribución simétrica se cumple que: X=Me=Mo. Ver figura
(c).
• Si en una distribución existen muy pocos valores altos respecto a los
demás, entonces la media aritmética se verá influenciada por éstos y
la asimetría es a la derecha o asimetría positiva o distribución con
sesgo positivo. En éstas condiciones: X>Me>Mo. Ver figura (a)
• Si en una distribución existen muy pocos valores bajos respecto a los
demás, entonces, la media aritmética se verá influenciada por éstos
y la asimetría será a la izquierda o asimetría negativa o distribución
con sesgo negativo. En estas condiciones: X< Me < Mo. Ver figura (b)

34
03/05/2018

COEFICIENTE DE KARL PEARSON


Si una distribución es simétrica, entonces: 𝑋 = 𝑀𝑒 = 𝑀𝑜 . Entre
mas diferencia halla entre la 𝑋 y la 𝑀𝑜 , mas asimétrica es la
diferencia. El coeficiente de Karl Pearson que simbolizamos como
SK, mide ésta diferencia en unidades de desviación estándar así:

𝑋 − 𝑀𝑜 3 𝑋 − 𝑀𝑒
𝑆𝐾 = 𝑜 𝑆𝐾 =
𝑆 𝑆

 Primer coeficiente de sesgo de Pearson y segundo coeficiente


de sesgo de Pearson.

COEFICIENTE DE KARL PEARSON

• Si la media es mayor que la moda, entonces,


SK es positivo. Es decir, el sesgo es positivo.
• Si la media es menor que la moda, entonces,
SK es negativo. Es decir, el sesgo es negativo.
• Si la media es igual a la moda, SK = 0 y la
distribución es simétrica.

35
03/05/2018

EJEMPLO
• El tiempo utilizado para atender entrevistas de
unos aspirantes a empleo en una empresa, se
clasifican de acuerdo a la siguiente tabla.
NÚMERO DE
TIEMPO NECESARIO ENTREVISTAS
(ni)
1 12 20 6
2 21 29 9
3 30 38 14
4 39 47 72
5 48 56 95
n= 196

a) Calcular la media aritmética, la mediana, la moda


y el histogramas.
b) Identificar el tipo de asimetría y curtosis.

MEDIDAS DE CURTOSIS O
APUNTAMIENTO
• Curtosis o Apuntamiento es utilizado para mostrar el grado
apuntamiento o de concentración de los datos.
• En la medida en que los diferentes tramos de la variable
presenten frecuencias muy similares en todo su recorrido.
Esta situación contribuye a que la dispersión sea alta. Una
distribución con éstas características, se denomina
PLATICÚRTICA O ACHATADA.

36
03/05/2018

MEDIDAS DE CURTOSIS O
APUNTAMIENTO
• Por el contrario, si existe una cantidad muy
significativa de datos que se encuentran
concentrados en algún tramo de la variable,
entonces decimos que la distribución es
altamente concentrada o que tiene alta
curtosis. Una distribución de éstas
características se denomina LEPTOCÚRTICA
O APUNTADA.

MEDIDAS DE CURTOSIS O
APUNTAMIENTO
• Si la concentración es intermedia entre las dos
situaciones anteriores, se dice que la distribución es
MESOCÚRTICA o MODERADA CONCENTRACIÓN DE LOS
DATOS. Una distribución con esta característica es
propia de la distribución normal. Una manera de medir
el grado de curtosis, es mediante el coeficiente de
curtosis A4.

37
03/05/2018

COEFICIENTE DE CURTOSIS A4
Éste coeficiente, resulta del cociente existente entre el momento de
orden cuatro respecto a la media y la desviación estándar elevada a la
cuarta.

La mayoría de los autores consideran que:


a) Si A4 - 3 = 0, la distribución es mesocúrtica o moderada
concentración de los datos. Tal es el caso de la distribución
normal.
b) Si A4 - 3 > 0, la distribución es apuntada o leptocúrtica o alta
concentración de los datos.
c) Si A4 - 3 < 0, la distribución es achatada o platicúrtica o baja
concentración de los datos.

REGRESIÓN LINEAL Y CORRELACIÓN


• La regresión y la correlación aunque son dos conceptos
diferentes guardan una intima relación:
 La regresión es una expresión cuantitativa de la
naturaleza de la relación entre las variables que se
expresa mediante una ecuación matemática, que se
puede utilizar para estimar o predecir los valores
futuros que puede tener una variable cuando se
conocen o suponen los valores de la otra variable.
 La correlación determina la fuerza de la relación entre
las variables.

38
03/05/2018

• El análisis de regresión y correlación se constituye en


una de las principales herramientas a la hora de llevar a
cabo cualquier investigación y/o estudio en las
mayorías de las disciplinas científicas; de allí que sea
muy utilizado en las investigaciones medicas,
ingenieriles, administrativas, sociales, económicas,
psicológicas etc, ya que su medio se pueden establecer
ecuaciones predictivas, la naturaleza de la relación y su
grado o fuerza de unión.
• Aunque existe una gran variedad de ecuaciones de
regresión para diferentes curvas de ajuste por mínimos
cuadrados, entre las cuales tenemos las lineales
simples y múltiples, las cuadráticas, las polinómicas, las
exponenciales , las logarítmicas, las logísticas, etc.

• La finalidad de una ecuación de regresión es estimar


los valores de una variable basándose en los valores
conocidos de la otra.
• Otra forma de utilizar las ecuaciones de regresión es
explicar los valores de una variable en función de la
otra, es decir, una relación de causa y efecto.
• por ejemplo:
 Un economista puede intentar explicar los cambios en
la demanda de vivienda, en términos de las altas tasas
de interés.
 Los adictos creen que el encarecimiento de la cocaína
es consecuencia de los altos niveles de fumigación.
 El profesor cree que el bajo rendimiento académico es
consecuencia de la poca dedicación de los estudiantes.

39
03/05/2018

REGRESION LINEAL
• La regresión lineal simple es el método mediante
el cual se intenta hallar la ecuación de una línea
recta que describa la relación entre las dos
variables. En un Análisis de Regresión simple
existe siempre una variable respuesta o
dependiente (Y) y una variable explicativa o
independiente (X). El propósito es obtener una
función sencilla de la variable explicativa, que sea
capaz de describir lo más ajustadamente posible
la variación de la variable dependiente.

• Como los valores observados de la variable


dependiente difieren generalmente de los que
predice la función, ésta posee un error. La función
más eficaz es aquella que describe la variable
dependiente con el menor error posible o, dicho
en otras palabras, con la menor diferencia entre
los valores observados y calculados. La diferencia
entre los valores observados y calculados (el
error de la función) se denomina variación
residual o residuos.

40
03/05/2018

• Para estimar los parámetros de la función se


utiliza el ajuste por mínimos cuadrados. Es decir,
se trata de encontrar la función en la cual la suma
de los cuadrados de las diferencias entre los
valores observados y esperados sea menor. Sin
embargo, con este tipo de estrategia es necesario
que los residuos o errores estén distribuidos
normalmente y que varíen de modo similar a lo
largo de todo el rango de valores de la variable
dependiente.

• Cuando la variable dependiente es cuantitativa y


la relación entre ambas variables sigue una línea
recta, la función es del tipo Y = A + BX, en donde
A es el intercepto o valor del punto de corte de la
línea de regresión con el eje de la variable
dependiente y B es la pendiente o coeficiente de
regresión.
• La finalidad de una ecuación de regresión es
estimar los valores de una variable basándose en
los valores conocidos de la otra.

41
03/05/2018

DIAGRAMA DE DISPERSIÓN
• Es la representación en un plano cartesiano de las
parejas de puntos de los datos de las variables
independiente y dependiente. De su observación
podemos estimar que o cual es mejor tipo de
ajuste que se puede hacer manualmente de estos
puntos en lo que llamamos ajuste de curvas por
el método de ajuste por mínimos cuadrados. En
el diagrama de dispersión se acostumbra colocar
en eje horizontal la variable independiente y en el
vertical la variable dependiente.

Ejemplo

42
03/05/2018

LA RECTA REGRESION DE MINIMOS


CUADRADOS
• La recta de ajuste de mínimos cuadrados o de
regresión que aproxima a un conjunto de
parejas ordenadas (X1,Y1),(X2,Y2),.....(Xn,Yn)
tiene la siguiente ecuación:

ECUACIONES

43
03/05/2018

EJEMPLO
COEFICIENTE CAPACIDAD
INTELECTUAL LECTORA
80 25
70 20
60 15
90 30
100 35
40 5
50 10

COEFICIENTE DE DETERMINACIÓN
• El coeficiente de determinación es el termino
que mide el poder explicativo del modelo de
regresión, es decir, la parte de la variación de
Y explicada por la variación de X. Se designa
como r2. El valor de este coeficiente varía
entre 0 y 1, ya que es imposible explicar mas
del 100%.; a mayor valor de r2 mayor poder
explicativo tendrá nuestro modelo .

44
03/05/2018

COEFICIENTE DE CORRELACIÓN
• La correlación mide la fuerza o grado de unión
entre las variables dependiente y la
independiente y para su medición utilizamos el
coeficiente de Pearson, comúnmente llamado
coeficiente de correlación. Este coeficiente de
correlación y el coeficiente de determinación
sirven para determinar la bondad de ajuste, es
decir, si el modelo encontrado es adecuado para
el análisis de regresión lineal. El coeficiente de
correlación es igual a la raíz cuadrada del
coeficiente de determinación y se designa con la
letra r, revela qué porcentaje del cambio en Y se
explica por un cambio en X.

FORMULA

45
03/05/2018

• El valor del coeficiente de correlación fluctúa entre –1


y +1 y siempre tiene el mismo signo del coeficiente de
regresión (B), es decir, la inclinación o pendiente de la
recta de regresión. Si r > 0, la pendiente será positiva y
ascendente pero si r< 0, la pendiente ser negativa y
descendente. El valor absoluto de r mide la fuerza de la
relación entre las variables mientras que el signo nos
dice si están relacionadas en forma directa o inversa.
Cuando r =+1 se dice que hay una correlación positiva
perfecta y si r = -1, la correlación es negativa y perfecta.
Si r = 0, se dice que no hay correlación, es decir, no hay
ninguna relación entre las variables. Cabe decir que
hay mucha discrepancia para decir cuales son
intervalos que determinan si una correlación es buena,
lo que es aceptado que en la medida que nos
acercamos a –1 o a +1 la correlación es buena y a
medida que nos acercamos a cero la correlación tiende
a ser mala.

El grado de correlación lo podemos clasificar en los


siguientes intervalos:

Correlación perfecta: cuando r=1 o r=-1


Correlación excelente: (0,9<r<1) o (-1<r<-0,9)
Correlación aceptable: (0,8<r<0,9) o (-0,9<r<-0,8)
Correlación regular: (0,6<r<0,8) o (-0,8<r<-0,6)
Correlación mínima: (0,3<r<0,6) o (-0,6<r<-0,3)
No hay correlación: (-0,3<r<0,3)

46
03/05/2018

EJERCICIO
• El gerente técnico del Acueducto de una ciudad,
desea establecer la relación entre el consumo
mensual domiciliario de agua y el tamaño de las
familias. Se recogió una muestra aleatoria con los
datos que se muestran en la tabla. Para los datos
de esta tabla desarrolle las siguientes tareas:
a) Dibuje un diagrama de dispersión
b)Determine manualmente la ecuación de
regresión, el coeficiente de determinación y el
coeficiente de correlación

Consumo de agua potable por grupo familiar


Tamaño de la familia Galones de agua utilizados
3 700
7 1200
9 1700
4 800
10 1700
6 1000
9 1800
3 640
3 700
2 500
2 500
2 550
4 650
5 900
5 850
6 1100
6 1200
2 550
3 450
3 640
6 1200
6 1350
7 1320
8 1750

47
03/05/2018

• ¿Merece la pena estudiar? Para contestar esta


pregunta un estudiante curioso de una clase de
estadística preguntó a otros 10 estudiantes
cuantas horas dedicaron al estudio para el último
examen y la nota que obtuvieron. Los datos se
muestran en la tabla.
a) Calcule la ecuación de regresión y el coeficiente
de correlación ¿ Cual es la conclusión ?
b) ¿Si usted estudia 30 horas para el examen ¿Cuál
seria la calificación que obtendrías en virtud del
modelo ?

Calificación Horas (T)


75 30
85 40
35 15
95 45
90 40
30 10
75 25
85 35
50 15
60 20

48

Potrebbero piacerti anche