Sei sulla pagina 1di 17

INTRODUCCION

Se sabe que el curso de estadística descriptiva se encuentra orientado hacia el


aprendizaje basado en problemas (ABP), la cual tiene como propuesta la siguiente
problemática para el estudio de la primera unidad: ““¿Cuáles son los factores que
influyen en la accidentalidad de vehículos y en el grado de muertes asociadas a
los accidentes de tránsito en colombia?”. En la cual el presente trabajo evidencia
lo aprendido durante dicha unidad, básicamente lo que se hace es aplicar los
conocimientos adquiridos, sobre Población, muestra, tipo de muestreo, variables,
unidad de investigación, ubicación espacio temporal, Instrumentos para recolectar
la información, caracterización de variables cualitativas y cuantitativas, tablas y
gráficos estadísticos. Todo esto es con el fin de que el estudiante adquiera
destreza y desarrolle competencias sobre posibles casos reales que se nos pueda
presentar en nuestra vida profesional.

MARCO REFERENCIAL
En la Estadística vemos como se ha convertido en un método para ordenar,
agrupar, describir y analizar los diferentes datos, sea de cualquier rama. No sólo
consiste en recoger datos, sino que con ellos buscar y dar posibles soluciones y
tomar decisiones acertadas y oportunas, Es así que, con el desarrollo de esta
actividad, vemos la aplicación de los temas presentes en la unidad 1 del curso de
estadística descriptiva.
OBJETIVO GENERAL

Aplicar los diferentes conceptos de estadística descriptiva de la unidad uno, dando


respuesta al problema planteado según la estrategia de aprendizaje basado en
problemas (ABP).

Objetivos Específicos

 Identificar los conceptos de población, muestra y técnicas de muestreo para


aplicarlo al problema planteado.
 Realizar la tabulación de datos que permita obtener la tabla de frecuencias.
 Obtener las medidas de tendencia central.
 Presentar la información adecuadamente mediante los diferentes gráficos
estadísticos.
Caracterizar la variable cualitativa presentando: tabla de frecuencias,
diagrama de barras o circular, moda, tabla de contingencias y conclusiones.
Variable: Dia

DIA
Frecuencia Frecuencia
Frecuencia Frecuencia
Datos Absoluta porcentual
Absoluta Relativa
Acumulada (%)
lunes 7 7 0,1400 14,00
martes 4 11 0,0800 8,00
miércoles 8 19 0,1600 16,00
jueves 6 25 0,1200 12,00
viernes 5 30 0,1000 10,00
sábado 10 40 0,2000 20,00
domingo 10 50 0,2000 20,00
TOTAL 50   1,0000 100,00

Rural o Urbana
Frecuencia Frecuencia
Frecuencia Frecuencia
Datos Absoluta porcentual
Absoluta Relativa
Acumulada (%)
RURAL 25 25 0,5000 50,00
URBANA 25 50 0,5000 50,00
TOTAL 50   1,0000 100,00

Cuenta de Rural o Urbana Etiquetas de columna


URBAN Total
Etiquetas de fila RURAL A general
domingo 2% 18% 20%
lunes 14% 0% 14%
martes 2% 6% 8%
miercoles 12% 4% 16%
jueves 0% 12% 12%
viernes 10% 0% 10%
sabado 10% 10% 20%
Total general 50% 50% 100%

Representar la información por medio de diferentes diagramas estadísticos,


según corresponda: (diagrama de barras, diagramas circulares, etc).
DIA
12

10

0
lunes martes miercoles jueves viernes sabado domingo

Rural o Urbana

RURAL URBANA

Hallar la moda de la variable cualitativa asocia con la situación objeto de


estudio.
La variable día tiene dos modas, es decir es bimodal, y sus modas son el día
sábado y domingo, para el caso de la variable rural o Urbana no tiene moda.
d) Mencionar dos conclusiones a partir del gráfico
 A partir del grafico se evidenciar que el día sábado es el que más se repite,
junto con el día domingo, esto nos deja entre ver que el fin de semana son
los días con mayor problemática.
 Se puede evidenciar también que el dato que menos se repite es el día
martes.
 De la variable Rural o Urbana podemos concluir que es indiferente el lugar
de ocurrencia, ya que ocurren en igual medida para ambos casos.

Realizar una tabla de contingencias o de doble entrada, con dos variables


cualitativas.
Cuenta de Rural o Urbana Etiquetas de columna
URBAN Total
Etiquetas de fila RURAL A general
domingo 2% 18% 20%
lunes 14% 0% 14%
martes 2% 6% 8%
miercoles 12% 4% 16%
jueves 0% 12% 12%
viernes 10% 0% 10%
sabado 10% 10% 20%
Total general 50% 50% 100%

Para la variable discreta elegida, se deberán calcular las medidas


univariantes de tendencia central: Media, Mediana, Moda. Todos los
cuartiles. Así mismo deberán calcular las medidas univariantes de
dispersión: Rango, Varianza, Desviación típica y Coeficiente de variación
SOLUCION

Frecuencia
Frecuencia
Frecuencia relativa
Categoría Frecuencia acumulada
relativa (%) acumulada
Ascendente
ascendente (%)
0 8 16 8 16
1 7 14 15 30
2 14 28 29 58
3 5 10 34 68
4 8 16 42 84
5 1 2 43 86
6 2 4 45 90
8 3 6 48 96
9 1 2 49 98
11 0 0 49 98
15 1 2 50 100

Tipo de medida Resultado Posición Comentario


Media 3    
Mediana 2 25 Entero
Moda 2    

Q1 1 12,5 no Entero

Q2 2 25 Entero

Q3 4 37,5 no Entero
1
Q4 5 50 Entero
Rango=R=15−0=15
VARIANZA

s2=
∑ f∗x 2 −x́ 2= 831 −32=7,62
n 50
DESVIACIÓN TÍPICA

∑ f∗x 2 −x́ 2
s=
√ n
s=2.76
COEFICIENTE DE VARIACIÓN
s
CV = ×100 %

2.76
CV = × 100 %=92.01 %
3
Interpretar los resultados obtenidos y asociarlos con el problema objeto de
estudio.
Cuando el coeficiente de variación es muy alto se dice que la media aritmética no
es lo suficientemente representativa en la distribución. Este es nuestro caso, la
media no es lo suficientemente representativa debido a que esta es muy sensible a
los valores extremos del conjunto de datos.
El cuartil 1 representa el 25% de los datos que para este caso es 1
El cuartil 2 representa el 50% de los datos que para este caso es 2 además, este
coincide con la mediana.
El cuartil 3 representa el 75% de los datos que para este caso es 4
Para la variable continúa elegida, se deberán calcular las medidas univariantes de tendencia central: Media, Mediana, Moda.
Todos los cuartiles Así mismo deberán calcular las medidas univariantes de dispersión: Rango, Varianza, Desviación típica y
Coeficiente de variación.
VARIABLE CONTINUA: Pesos

n 50
Min 2555896,5000
Max 95517213,500
Rango 92961317,0
K= N°
Intervalos 8,644021646
A 10754405,855

Frecuencia Frecuencia
Frecuencia
Límite Límite relativa
x Frecuencia acumulada f*x
inferior superior relativa acumulada
ascendente
(%) ascendente (%)
13310302,35
2555896,500 7933099,428 22 44,00 22 44,00
5 174528187,4
24064708,21 18687505,28
13310302,355 5 10,00 27 54,00
1 3 93437526,42
34819114,06 29441911,13
24064708,211 6 12,00 33 66,00
6 9 176651466,8
45573519,92 40196316,99
34819114,066 1 2,00 34 68,00
2 4 40196316,99
56327925,77 50950722,85
45573519,922 2 4,00 36 72,00
7 0 101901445,7
67082331,63 61705128,70
56327925,777 3 6,00 39 78,00
3 5 185115386,1
77836737,48 72459534,56
67082331,633 2 4,00 41 82,00
8 0 144919069,1
88591143,34 83213940,41
77836737,488 5 10,00 46 92,00
4 6 416069702,1
99345549,19 93968346,27
88591143,344 4 8,00 50 100,00
9 1 375873385,1
Media aritmética
Formula usada
n

∑ f i Xi
x́= i=1n
∑ fi
i=1

Resultados

Media 34173849,72

Mediana
Formula usada

n es el tamaño de la muestra o la suma de todas las frecuencias.


Fk-1 es la frecuencia absoluta acumulada de la clase anterior de la clase de la mediana.
fk es la frecuencia absoluta de la clase de la mediana.
Ak es la amplitud de la clase de la mediana.
Lk es el límite real inferior de la clase de la mediana.
Resultados

n/2 25
n 50
Fk-1 22
fk 5
Ak 10754405,8554
Lk 13310302,36
Mediana 19762945,87

Moda
Formula usada
f k−1
Mo= A +L
f k −1 + f k+1 k k
Resultados

Fk-1 0
fk+1 5
Ak 10754405,8554
Lk 2555896,50
Moda 2555896,50

CUARTILES
Formula usada
n
k −F k−1
4
Qk = ∗A k + Lk
fk

n: es el tamaño de la muestra o la suma de todas las frecuencias


F k−1: es la frecuencia absoluta acumulada de la clase anterior de la clase del cuartil.

f k : es la frecuencia absoluta de la clase del cuartil.

Ak : es la amplitud de la clase del cuartil.

Lk : es el límite real inferior de la clase del cuartil.

k : número del Cuartil.

Primer cuartil
Resultados

cuartil 1
n 50
Posición 12,5
Fk-1 0
fk 22
Ak 10754405,855
Lk 2555896,50
Q1 8666354,372

Segundo cuartil

cuartil 2
n 50
Posición 25
Fk-1 22
fk 5
Ak 10754405,855
Lk 13310302,35545
Q2 19762945,869

Tercer cuartil

cuartil 3
n 50
Posición 37,5
Fk-1 36
fk 3
Ak 10754405,855
Lk 56327925,78
Q3 61705128,705

Cuarto cuartil

cuartil 4
n 50
posicion 50
Fk-1 46
fk 4
Ak 10754405,855
Lk 88591143,34
Q4 99345549,1990

Interpretación de resultados
El cuartil 1 representa el 25% de los datos que para este caso es 6867706,571

El cuartil 2 representa el 50% de los datos que para este caso es 14224683,301
además, este coincide con la mediana.

El cuartil 3 representa el 75% de los datos que para este caso es 43437053,796
MEDIDAS UNIVARIANTES DE DISPERSION.

Varianza 8,21062E+14
Desviación 28654173,72
Coeficiente de
variación 101,4036326

De acuerdo con los cálculos obtenidos la media no es representativa, ya que el


coeficiente de variación es muy alto.

a. Identificar dos variables cuantitativas de la situación estudiada que


puedan estar relacionadas.
Usuario de moto como variable independiente
VELOCIDAD APROX ( km) como variable dependiente
b. Realizar el diagrama de dispersión de dichas variables y determinar el tipo
de asociación entre las variables.

VELOCIDAD APROX ( km)


140

120

100
f(x) = 0.04 x + 95.35
80 R² = 0
Axis Title

60

40

20

0
0 50 100 150 200 250
Axis Title

El tipo de asociación es positiva, es decir a más usuarios de moto mayor velocidad


c. Encuentre el modelo matemático que permite predecir el efecto de una
variable sobre la otra. ¿Es confiable?
Para realizar este procedimiento se hizo con la ayuda de Excel, ya que la cantidad
de datos es bastante considerable y se obtuvieron los siguientes resultados:

∑x ∑y ∑ xy ∑ x2 ∑ y2 Ymedia= ý
442,00 477921,0
4783,0 43680 43544,00 0 95,66

n b a Se S y2 R2
50 0,0353 95,348 20,580073 407,5844 0,039
5

Conforme a lo anterior podemos obtener el siguiente modelo matemático:


Por tanto

Y^ =a+bx=95,348+ 0,0353 x
R2=0,039
r =0,197851774
Lo cual nos permite concluir que el modelo de regresión lineal ajustado no tiene un
alto grado de confiabilidad. Se recomienda no utilizar el modelo de regresión
estimado

d. Determine el grado de relación de las dos variables.


El R2 afirma además que el modelo explica el 3.9% de la información. Y el valor de
r confirma además el grado de relación entre las variables: La variable Usuario de
moto está directamente relacionada (en un 19,78%) con la VELOCIDAD APROX
( km). Es decir, no hay correlación ya que r es demasiado pequeño.

e. Relacionar la información obtenida con el problema.


El coeficiente de correlación nos indica que el modelo de las variables no tiene
relación y que por tanto no se puede predecir de manera confiable algún dato.
Correlación multiple
cuantitativa dependiente: VELOCIDAD APROX ( km) (y)
varias variables cuantitativas independientes:
 Usuario de moto (X1)
 PROMEDIO DE EDAD (X2)

Realizar el diagrama de dispersión de dichas variables.

Calcular la recta de regresión y el coeficiente de correlación para probar


estadísticamente su relación.
Conforme a lo anterior podemos obtener el siguiente modelo matemático:

Y^ =a+b1 x 1+ b2 x 2

Donde:
b 1 , b2: Pendientes asociadas de la recta
a: Intercepto de la variable Y
x 1 x 2: Valores de la variable independiente
Y^ : Valores de la variable dependiente
n: Tamaño de la muestra

∑ x1 ∑ x2 ∑y ∑ x1 y
442 397 4783 43680
∑ x2 y ∑ x 21 ∑ x 22 ∑ x1 x2
38139 43544 3551 4895
∑ y2 ymedia= ý n R2
477921 95,66 50 0,00421195

∑ y=na+b 1 ∑ x 1 +b2 ∑ x 2
∑ x 1 y=a ∑ x 1 +b1 ∑ x 21+ b2 ∑ x 1 x2
∑ x 2 y=a ∑ x 2 +b1 ∑ x 1 x 2+ b2 ∑ x22
Por tanto
Coeficiente
s
Intercepción 92,8849271
Usuario de moto (X1) 0,02399406
Usuario T.Pasajeros (X2) 0,32279162

Por lo que la de regresión nos queda:


Y^ =92,8849271+ 0,02399406 x 1−0,32279162 x 2
2
R =0,004211947
r =0,064899516
Lo cual nos permite concluir que el modelo de regresión lineal ajustado tiene un
bajo grado de confiabilidad.

Relacionar la información obtenida con el problema.


Con los resultados obtenidos en esta parte se puede concluir que las variables
VELOCIDAD APROX ( km), Usuario de bicicleta (X1) y PROMEDIO DE
EDAD (X2) no se encuentran relacionadas linealmente.

PROPUESTA INDIVIDUAL
La cultura que se tiene y que en la actualidad la fuerza pública está combatiendo
fuertemente es la del conducir en estado de embriaguez, esta afirmación la
acredita la tabla de frecuencias de la variable: día, la moda representa un 20% de
los datos en la categoría sábado y domingo, día que normalmente una gran
cantidad de población toman ese día como día de celebración y fiestas.
Otra información relevante que se obtuvo del análisis estadístico es que en la tabla
de frecuencias de la variable: peatones el cuartil 3 que representa 75% de la
información muestra que en los accidentes hay 4 peatones involucrados, lo cual,
se puede ver que es una cifra demasiado alta.
Una vez visto los resultados, la solución que se podría implementar para mejorar
la movilidad vial y bajar esos porcentajes estimados es lo siguiente:
 La persona que quiera ser conductor deberá asistir a una escuela de
aprendizaje, de un periodo estimado a tres meses, esto con el fin de que se
le enseñe las buenas prácticas de conducción, de que se culturice que
conducir es una responsabilidad que conlleva a tener la vida propia y de
otros sobre el volante.
 Realizar campañas que involucren la educación del peatón, donde se tome
conciencia que no se debe cruzar la calle sin revisar que no venga un
vehículo y el no uso de dispositivos mientras se está transitando por la
carretera.

CONCLUSIONES

Se logró profundizar sobre el comportamiento de las variables, que tan lejos están
dispersas, Se vio en los temas anteriores la tendencia que tiene un conjunto de
datos dado a agruparse hacia el centro, pero también se descubrió que los datos
extremos podían estar bastante alejados de esa tendencia central. Conocer esto
implica que se puede estudiar el comportamiento de las variables ya sean
discretas o continuas cuan podía estar sus datos del centro, esto permitió ampliar
el campo de las aplicaciones de la estadística, que es muy usada en el campo
profesional.
Con el presente trabajo se logró evidenciar el proceso para saber que tanto se
encuentran relacionadas dos o más variables linealmente, con la base datos dada
lastimosamente no se pudo encontrar linealidad en las correlaciones, lo que
indicaría que se debe aplicar otro tipo de método para encontrar relaciones entre
las variables.

REFERENCIAS
Ortegón Pava, M. (2010). Estadística Descriptiva. Ver. 2. Ibagué: Universidad
Nacional Abierta y a Distancia.

Potrebbero piacerti anche