Sei sulla pagina 1di 16

PROYECTO 2: Estadística Aplicada A La Ingeniería

(Estimar la estatura promedio de los estudiantes masculinos de la UIS,


contrastando con el promedio a nivel nacional)

Presentado por:
Elkin Fabian Carreño Coronel
2170258

Presentado a:
Tulia Esther Rivera Flórez

UNIVERSIDAD INDUSTRIAL DE SANTANDER


BUCARAMANGA, SANTANDER
2019
ACTIVIDAD 1
Si nos referimos en términos generales, el estudio de la probabilidad sobre variables aleatorias
se hace de gran importancia en muchas situaciones del diario vivir, por ejemplo para nuestra
pregunta de análisis acerca de la estatura de los estudiantes hombres de la UIS, podría ser de
gran utilidad para una industria de calzado que tiene como objetivo expandir su mercado al
campus universitario, es así como se hace importante conocer las características, en este caso, la
estatura (aunque el análisis se podría extrapolar a distintos ámbitos más) para saber con gran
probabilidad de éxito la cantidad de zapatos que se fabricarán de cada tallaje, debido a que
como se ha demostrado en distintos estudios estadísticos, existe una relación entre la estatura y
la medida el pie.
Es así como en este proyecto se busca realizar el análisis probabilístico de la variable aleatoria
estatura de los hombres de la UIS, para una muestra de 100 estudiantes cuyos datos fueron
obtenidos mediante una encuesta realizada virtualmente que se compartió en los diferentes
grupos creados por y para la Universidad.
Definimos inicialmente como nuestra variable aleatoria (X) a la estatura de los hombres de la
Universidad Industrial de Santander (UIS).
Una vez se define la variable aleatoria se propone a resolver uno de los problemas propuestos
para el proyecto, hallar la distribución de probabilidad que mejor se ajusta a los datos obtenidos
mediante la encuesta.
1.1) Como primer paso se realiza la validación del supuesto de normalidad, esto debido a
que, si no se cumple este supuesto, las pruebas de estadística no son válidas, y el
análisis estaría mal, por lo tanto, este debe ser el primer paso en todo análisis
estadístico.
En este punto es importante aclarar que hay 3 métodos para validar el supuesto de normalidad.
1) Pruebas gráficas: Histograma, Boxplot y Q-Q Plot (Gráfico de probabilidad normal)
2) Uso de las medidas de forma y de apuntamiento: Coeficientes de Asimetría y
Coeficientes de Curtosis.
3) Pruebas de Bondad de Ajuste.
En este proyecto se validará el supuesto de normalidad utilizando dos métodos, utilizando el
gráfico de probabilidad normal (Q-Q plot) que básicamente lo que hace es comparar los
cuantiles de la distribución de la muestra observada con los cuantiles de la distribución normal
estándar y realizando un análisis de las medidas de forma y apuntamiento.
Aclarando que en caso de que no se presente normalidad se procederá a realizar la respectiva
corrección para ajustar los datos a una normalidad.
A continuación, se presentan los dos análisis realizados para validar el supuesto de normalidad.

Método 1:
Para realizar el Q-Q plot se calcula inicialmente la probabilidad acumulada (Probabilidad de que
el éxito esté en la zona roja de la gráfica 1), para esto hay diferentes fórmulas propuestas, para
nuestro análisis se utilizará la siguiente ecuación propuesta en el dropbox de la clase, aclarando
que sin importar la ecuación utilizada los resultados de probabilidad obtenidos son muy
similares:
1
𝑖−2
𝑃𝑖 =
𝑛
Donde Pi es el nivel de probabilidad, i es el contador de los datos, y n es el tamaño de la
muestra que se está analizando.

Gráfica 1. Q-Q Plot Normal

Una vez calculado Pi para cada i, se utiliza la función DISTR.NORM.ESTAND.INV( ), que


permite calcular el valor del cuantil teórico de una distribución normal es decir, el valor en el eje
x del gráfico 1 para cada Pi, a continuación se muestra una pequeña parte de la tabulación
realizada con los datos:

Inverso de la
Persona Altura Nivel de Probabilidad
Distribución Normal
1 1,62 0,005 -2,575829304
2 1,62 0,015 -2,170090378
3 1,63 0,025 -1,959963985
. . . .
. . . .
. . . .
98 1,8 0,975 1,959963985
99 1,81 0,985 2,170090378
100 1,81 0,995 2,575829304

Tabla 1. Análisis Q-Q Plot

Luego de esto se procedió a realizar el Q-Q Plot con la ayuda de Excel, con un gráfico de
dispersión que tenía en el eje x el cuantil teórico de una distribución normal (Inverso de la
Distribución Normal), y en el eje y, los datos obtenidos mediante la encuesta realizada para la
altura de los estudiantes hombres de la UIS (Altura), obteniéndose la siguiente gráfica (Altura
Vs. Inverso de la Distribución Normal):

Q-Q Plot
1.9

1.85

1.8

1.75

1.7

1.65

1.6

1.55
-3 -2 -1 0 1 2 3

Gráfica 2. Q-Q Plot Datos


Una vez obtenido el Q-Q Plot para los datos de altura de los estudiantes hombres de la UIS, se
observa que los datos cumplen con el supuesto de normalidad, esto se observa en la Gráfica 2.
Método 2:
Para validar la normalidad por este método se calculan inicialmente las medidas de forma y de
apuntamiento:

Promedio 1,7177
Moda 1,69
Mediana 1,725
Maximo 1,81
Minimo 1,62
Rango 0,19
Desviación 0,048635
Varianza 0,0023654
N° Datos 100
Intervalos 10
Paso h 0,019
Curtosis -0,939314
Asimetria -0,045336

Tabla 2. Medidas de forma y apuntamiento


Cabe aclarar que los valores como intervalo y paso h, son valores que se usaron para realizar un
histograma de los datos, pero ese análisis no se presenta en este proyecto, debido a que se busca
no hacerlo muy extenso.
Una vez calculados los valores de los coeficientes de Curtosis y de Asimetría, se procede a
analizar estos parámetros con el fin de corroborar la conclusión obtenida del Q-Q Plot. El
coeficiente de Curtosis se calcula mediante la siguiente ecuación:

En la fórmula se resta 3 porque es la curtosis de una distribución Normal. Entonces la curtosis


valdrá 0 para la Normal, tomándose a ésta como referencia, por lo tanto, para una distribución
normal curtosis tiene un valor cercano a 0, para la variable aleatoria de análisis se observa que
da un de aproximadamente -0.9, esto indica que se encontraron algunos valores alejados de la
media, resultado que en una distribución normal no es frecuente, luego se observará otro modelo
de distribución para analizar su comportamiento.
Para el coeficiente de asimetría el análisis es similar, dado que para una distribución normal este
valor es de 0 ya que este es un indicador que permite establecer el grado de simetría (o
asimetría) que presenta una distribución de probabilidad de una variable aleatoria sin tener que
hacer su representación gráfica, para la VA de análisis se obtuvo un valor muy cercano a 0, por
lo tanto, se puede concluir con total certeza que la distribución de probabilidad es simétrica.
1.2) Inicialmente se presenta el gráfico de la distribución normal de los datos, observando
que este modelo se ajusta bien a un gran porcentaje del gráfico, aunque se buscará
obtener un modelo que se ajuste exactamente a los datos.

Gráfica 3. Distribución Normal

Prueba de bondad de ajuste de Kolmogorov-Smirnov (KS)

Se establecen H0 y H1:
Ho: Los datos analizados siguen una distribución Normal.
H1: Los datos analizados no siguen una distribución Normal.
Y se pasa a aplicar el estadístico de contraste, cuya explicación se omite para no hacer
extender el proyecto:

Utilizando como criterio que:

Donde Dα se calcula de la siguiente manera:

Donde α es el nivel de significancia del contraste, que para este proyecto será de 5%.
Como resultado final, D y Dα se calculan con las siguientes ecuaciones:
En donde para el caso de Dα, Cα y k(n) se obtienen de tablas que dependen de cada
distribución.
Para el caso de la distribución normal, se obtienen los siguientes resultados, donde D se obtuvo
con la ayuda de distributionFitter del programa Matlab :

𝐷𝛼 = 0.0888
𝐷 = 0.11
Como D es mayor que Dα se rechaza H0 y se concluye que los datos no siguen una distribución
normal.

A continuación, se presenta la propuesta de adaptar otro modelo de distribución a la muestra de


datos.
Como primera opción, luego de una minuciosa investigación se presenta la distribución
Weibull.

Gráfica 4. Distribución de Weibull


En esta distribución de Weibull se observa un mejor ajuste para los datos dado que se observa
que la distribución tiene valores más altos, en el intervalo (1,74;1,76) y esta distribución de
Weibull representa este comportamiento, lo único a resaltar de esta distribución es que en los
valores atípicos más altos tiende a tener un valor de 0, comportamiento que no ocurre con
nuestros datos.

Gráfica 5. Distribución Weibull y Distribución Normal


En la gráfica 5 se observa una comparación directa entre las distribuciones normal y de Weibull,
observando que ambos modelos se ajustan bien, pero cada una con algunos inconvenientes
sobre el verdadero comportamiento de los datos.
Para esta distribución se realiza Prueba de bondad de ajuste de Kolmogorov-Smirnov (KS) al
igual que para la distribución normal:
Ho: Los datos analizados siguen una distribución de Weibull.
H1: Los datos analizados no siguen una distribución de Weibull.
Y realizando el procedimiento explicado en la distribución normal, se obtienen como resultados:

𝐷𝛼 = 0.0874
𝐷 = 0.085
Como D es menor que Dα no se rechaza H0 y se concluye que los datos siguen una distribución
de Weibull.
Por último, se busca otra distribución que se ajuste a la verdadera distribución de los datos.
Se plantea como segundo modelo la distribución Gamma obteniéndose la siguiente forma:

Gráfica 6. Distribución Gamma


En esta distribución se observa un comportamiento muy similar al encontrado con la
distribución normal, esto se puede observar en la siguiente gráfica:

Gráfica 7. Distribución Gamma y Distribución Normal


En la gráfica 7 se observa que ambas distribuciones presentan un comportamiento prácticamente
igual, y esto se observa al hacer la prueba de bondad de ajuste de Kolmogorov-Smirnov (KS) al
igual que para la distribución normal:
Ho: Los datos analizados siguen una distribución de Weibull.
H1: Los datos analizados no siguen una distribución de Weibull.
Y realizando el procedimiento explicado en la distribución normal, se obtienen como resultados:
𝐷𝛼 = 0.0889
𝐷 = 0.113
Como D es mayor que Dα se rechaza H0 y se concluye que los datos no siguen una distribución
Gamma.
En el momento de realizar los cálculos se observa también el gran parecido entre la distribución
normal y la distribución gamma para estos datos.

1.3) El modelo que mejor se ajusta a los datos es la distribución de Weibull. La distribución
de Weibull es una distribución de probabilidad continua. aplicada por primera vez para
describir la distribución de los tamaños de determinadas partículas. Esta distribución se
caracteriza por tener los parámetros lambda y k, donde lambda es un parámetro de
escala y k es un parámetro de forma (lo que proporciona una gran flexibilidad a este
modelo), a continuación se muestra como varia la curva de la distribución según se
cambian estos dos parámetros:

Gráfica 8. Distribución de Weibull según parámetros


ACTIVIDAD 2
Métodos de Muestreo (Probabilístico y NO Probabilístico)
El muestreo es la actividad por la cual se toman ciertas muestras de una población de elementos
de los cuales vamos a tomar ciertos ccriterios de decisión, el muestreo es importante porque a
través de el podemos hacer análisis de situaciones de una empresa o de algún campo de la
sociedad, o aplicaciones más específicas como en el caso de la ingeniería civil, que permiten la
obtención de valores exxperimentales del módulo de elasticidad de los materiales, valor que es
muy importante cuando se realiza el análisis estructural a una edificación. Una muestra debe ser
representativa si va a ser usada para estimar las características de la población.
Al momento de realiazr un muestreo se debe tener en cuenta el módelo de muestreo qque se
pretende realizar, probabilístico y no probabilístico. El muestreo probabilístico utiliza formas de
selección aleatoria y el requisito más importante para utilizar este modelo es que todos en la
población tengan la misma oportunidad de ser seleccionados, característica equiprobable, en
contraste con este modelo se presenta el modelo no probabilistico, el cual es una técnica de
muestreo donde las muestras se recogen en un proceso que no brinda a todos los individuos de
la población iguales oportunidades de ser seleccionados, característica no equiprobable. A
diferencia del muestreo probabilístico, la muestra no probabilística no es un producto de un
proceso de selección aleatoria. Los sujetos en una muestra no probabilística generalmente son
seleccionados en función de su accesibilidad o a criterio personal e intencional del investigador.
Una gran desventaja del muestreo no probabilistico es que los resultaados obtenidos no
permiten realizar una generalización de toda la población debido a que no se toman pruebas de
una porción desconocida de la población, sino de una parte con las características óptimas para
el muestreo, caso contrario a lo que ocurre con el muestreo probabilistico que permite realizar
una estimación de la oblación a partir de la muestra seleccionada.
Tanto el método de muestreo probabilístico como el no probabilístico presentan diferentes tipos
de muestreo, cuya clasificación se omite en busca de que la revisión bibliográfoca no se haga
tan extensa, pero se hace énfasis en las situaciones donde se puede aplicar cada uno de los
modelos que fueron mencionadas anteriormente.
Como se ha expresado anteriormente ambos modelos tienen su apliación en torno a las
necesidades del investigador y características de la población. En el caso del muestreo
probabilístico es conveniente que sea usado en situaciones en las que se tiene quue reducir el
sesgo en el muestreo, cuando el tamaño de la población es grande y diversa, además, las
situaciones en las que se busca crear una muestra precisa que sea representativa de toda la
población. Para el caso del muestreo no probabilístico puede ser utilizado cuando se quiere
mostrar que hay un determiando rasgo en una población, es útil cuadno la población es casi
ilimitada, cuadno no se busca realizar generaalizaciones respecto a toda la población, además,
en casos en los que se está realizando un estudio inical para posteriormente realizar el análisis
con un muestreo probabilístico.
Anteriormente se habló acerca de las ventajas de cada uno de los dos modelos, pero entonces
surge la pregunta contraria, cuales son las desventajas de cada uno de estos metodos. En el caso
del muestreo probabilístico tiene como desventajas que es un metodo costoso, la
representatividad no es segura y calculalo o interpretar los resultados es díficil. Para el caso del
muestreo no probabilístico las desventajas se resumen a una muestra no representativa, no
permite generalizar, es subjetivo y consume mucho tiempo.
Por último se plantean aplicaciones de estos muestreos para la ingeniería civil:
Muestreo Probabilístico: Este muestreo se utiliza para el calculo del modulo de Young o
módulo de elasticidad, para esto se utilizan muchas muestras del material de estudio (acero,
concreto, etc…) y se someten a una solicitación de carga (esfuerzos) y mediante las
deformaciones que se registran en el material se calcula el módulo de Young (E), este es el
modelo utilizado en miles de pruebas, llegando a valores estandares que utilizamos hoy en día
en las diferentes aplicaciones de este módulo de Young, debido a que los experimentos
realizados para las muestras del material son una muestra representativa de la población de cada
material.
Muestreo No Probabilístico: Este muestreo se utliza para casos específicos como en el análisis
que se realizó para el primer proyecto, en el cual se buscaba obtener la satisfacción de las
personas que habitan una vivienda, la demanda del tipo de vivienda y las características de esta
en la zona metropolitana de Bucaramanga, para el cual se utilizaron bases datos de proyectos de
vivienda en la zona metropolitana de Bucaramanga, en este caso las variables no eran
equiprobables y dependían unas de otras, por ejemplo que tuviese piscina o no, dependía de la
zona y del estrato de la vivienda, este tipo de análisis es importante, para la planificación, en la
creación de futuros proyectos en los que se pueda satisfacer las necesidades y pretenciones de
las personas en futuros planes de vivienda.
ACTIVIDAD 3
Para la tercera actividad se busca hallar un intervalo de confianza para la estatura promedio de
los estudiantes masculinos de la UIS con el 95% de nivel de confianza, para esto utilizamos la
siguiente ecuación que define el intervalo de confianza:

Calculamos los datos de la expresión obteniéndose:

Nivel de Confianza (%) 95


Media (m) 1,7177
Desviación (s) 0,048635

Para el calculo de 𝑡𝐺.𝐿=𝑛−1;𝛼 utilizando la función de excel INV.T.2C que depende los grados
2
de libertad, que son el número de datos menos uno, y de la probabilidad que es igual a uno
menos el intervalo de confianza, y se obtuvo:

𝑡_(𝐺.𝐿=𝑛−1;𝛼/2) 1,98421695

Una vez calculado este valor, se haya el error estándar que es la expresión seguida del más o
menos, donde s es la desviación estándar muestral y n el número de datos, onteniendose el
siguiente error:

E(m) 0,00965024
E(cm) 0,965024
Y una vez se obtiene el valor del error, se calcula el intervalo de confianza que va desde la
media muestral menos el error, hasta la media muestral más el error, obteniéndose los siguientes
límites.

Límite Superior (m) 1,72735024


Límite Inferior (m) 1,70804976

𝐼. 𝐶 = (1.708; 1.727)
Donde I.C es el intervalo de confianza de la estatura promedio de los estudiantes masculinos de
la UIS para un nivel de confianza del 95%.
Ahora se desea contrastar este valor con el promedio nacional.
Para este análisis se toman como punto de partida los resultados para la altura de un hombre
promedio en Colombia, sacado de un informe presentado por el periódico el tiempo ”Dentro de
los principales hallazgos se encontró que la talla promedio del hombre colombiano adulto es de
172 cm, y se encuentra en un nivel de normalidad entre los 159 y 186 cm”.
Ahora se postula como pregunta, ¿es menor el promedio de los estudiantes masculinos de la
UIS, al compararse con el promedio masculino nacional?
Para esto se utilizará el recurso de prueba de hipótesis, siguiendo los pasos que se presentan a
continuación:
Paso 1:
Se definen Ho y Ha.
Ho = 1.72 (m)
Ha < 1.72 (m)

Paso 2:
Calculamos el estadístico de prueba:
Calculamos los valores críticos, esto depende del valor de significancia, utilizando la siguiente
ecuación:

Obteniéndose el siguiente valor para t:

t -0,47291041

Paso 3:
Se determina la región de rechazo, esto dependiendo del nivel de significancia (α), que para este
problema es de 5%, esta área α se ubica en la cola izquierda de la distribución t, así:
Se obtiene que la región de rechazo está en el valor crítico -1,66039, esto se obtuvo con la ayuda
de Excel utilizando la función INV.T.
Paso 4:
A partir de la posición del estadístico de prueba, respecto a la región de rechazo se observa que
el estadístico de prueba no cae en la región de rechazo, por lo tanto se concluye que a un nivel
de significancia del 5%, no se rechaza H0, es decir, no hay evidencia suficiente para asumir que
la estatura promedio de los estudiantes masculinos de la UIS se encuentra por debajo del
promedio de la estatura masculina a nivel nacional.
Bibliografía
https://www.uv.es/ceaces/base/modelos%20de%20probabilidad/MODEPR1.htm
https://ljk.imag.fr/membres/Bernard.Ycart/emel/cours/sd/node9.html
https://www.youtube.com/watch?v=rrTweT5AUOw
https://www.dropbox.com/home/ESTADISTICA%20aplicada%20a%20la%20Ingenier%C3%A
Da/Elementos%20de%20Probabilidad/Elementos%20de%20probabilidad-
Parte%20II/VA%20Continuas?preview=Clase+3+C%C3%B3mo+probar+el+supuesto+normali
dad.doc
https://www.universoformulas.com/estadistica/descriptiva/curtosis/
https://www.eltiempo.com/archivo/documento/CMS-13128617

Potrebbero piacerti anche