Sei sulla pagina 1di 7

ESTADSTICA TCNICA SUPERIOR 71.

35

TRABAJO PRACTICO N1

IDENTIFICACIN Y AJUSTE DE MODELOS

ALUMNOS:

CEBREIRO, NICOLS SALVEMINI, FEDERICO GUSTAVO

2 CUATRIMESTRE 2011

Enunciado

1. El archivo de datos MOVAC. 2. Una descripcin del anlisis realizado que contenga la siguiente informacin. Este informe deber ser incluido en le foro en formato de texto (NO como documento adjunto). 2.1 Descripcin de la fuente de datos y su fuente. Si es internet incluir el link. 2.2 Verificacin de los supuestos. 2.3 Definicin de candidatos A Priori y justificacin. 2.4 Descripcin del anlisis de los modelos candidatos. 2.5 Descripcin del anlisis de validacin. 2.6 Modelo elegido finalmente y justificacin. 3. Cualquier otra informacin que se crea conveniente.

Introduccin: En el siguiente trabajo prctico intentaremos analizar utilizando el programa Movac y con anlisis de esos datos cual es la distribucin ms apropiada para el peso de los jugadores de rugby del actual mundial y decidir mediante anlisis cual es el ms se ajusta a los datos recolectados. Fuente: Los datos en su totalidad fueron obtenidos desde la pgina oficial del mundial de rugby (http://www.rugbyworldcup.com/) yendo a la pgina de cada equipo y haciendo en el link de algn jugador (al azar) obtener el peso. Validacin de los supuestos: 1. Independencia de las observaciones: los datos fueron tomados de equipos al azar y de posiciones al azar por lo que cada observacin es independiente de las dems. Si bien hay tendencias a un peso mayor o menor segn la posicin donde juegue o el pas de origen, al elegir jugadores de distintas posiciones y distintos pases puedo asegurar la independencia.

2. Estabilidad de las probabilidades asociadas a los distintos posibles valores de las variables: los datos corresponden al inicio del mundial de rugby y no se esperan cambios considerables a lo largo del mundial por lo que puedo asegurar que no es una serie temporal.

Candidatos a Priori: Por tratarse de pesos de jugadores, la primera variable a considerar y quiz la mejor es la variable Normal porque en general los pesos responden a esta variable. Otras variables que a priori puede resultar candidatas son las distribuciones con asimetra positiva como ser la distribucin Lognormal o la de Weibull porque se puede esperar que haya ms jugadores con peso medio bajo y los jugadores con pesos mayores a la media cada vez sean menos a medida que nos alejamos de los pesos comunes

Anlisis de los modelos candidatos: Una vez definidos los candidatos a priori, cargaremos los datos recolectados individualmente en el programa Movac para realizar un anlisis detallado de los modelos posibles. El resultado fue el siguiente cuadro de distribuciones:

Figura 1 Seleccionando cada distribucin aparece un cuadro con los valores de los parmetros estimados, los momentos funcionales y los valores para la prueba de Kologoromov-Smirnov.

En el cuadro de la figura 1 se dan todas las distribuciones posibles ordenadas por el logaritmo de la verosimilitud (se da logaritmo porque la verosimilitud es un nmero mucho menor a 1 y las diferencias seran mucho ms difcil de analizar que con el logaritmo). Si bien el primer salto de importancia se da en la exponencial (de -299,17 a -422,78) solo consideraremos los primeros 5 casos, Normal, Gamma, Weibull, LogNormal y Gamma Invertida porque el salto entre estos es menor a uno mientras que el siguiente salto (de Gamma Invertida a Gumble mnimo) es mayor al doble de los saltos anteriores. El siguiente mtodo de validacin de modelos es R* y como se puede observar los 5 primeros modelos tienen un R* mayor a 0,98 condicin necesaria para validar un modelo. Analizando la figura 2 notamos que tanto para Gamma como para Gamma Invertida la estimacin del parmetro alfa se obtienen distintos valores para las distintas estimaciones, por lo tanto por el criterio de incoherencia, donde se considera dudosa la validacin del modelo si la estimacin de los parmetros segn distintos mtodos difiere; la diferencia en el parmetro alfa conduce a descartar la familia Gamma y Gamma Invertida.

Anlisis de validacin: Descartados Gamma y Gamma Invertida por el criterio de incoherencia debemos validar ahora los modelos Normal, Lognormal y Weibull. El primer mtodo de validacin es el anlisis del grfico de ajuste lineal de fractiles. Del Movac obtenemos los siguientes grficos:

Normal

Weibull

Lognormal

En los tres grficos se observa el mismo fenmeno: en los extremos se empieza a alejar los puntos de la recta. Esto pasa generalmente porque los puntos extremos no ajustan al modelo pero no quiere decir que el modelo sea invlido. De los grficos se puede concluir que los tres modelos siguen siendo vlidos. El segundo anlisis de validacin es mtodo de los momentos funcionales. De la figura uno podemos observar que en las primeras dos columnas estn las pruebas de asimetra y curtosis. Para la prueba de asimetra, tomando un valor de significacin del 5% la Normal y la LogNormal tiene un nivel de significacin aceptable, mientras que el modelo de Weibull resulta lgico descartarlo por no tener un nivel de significacin a posteriori adoptado (*<=0,05). Con respecto a la curtosis, analizando el valor en la Figura 1 podemos observar que tanto la Normal como la LogNormal tienen un nivel de significacin a posteriori mayor al adoptado. Por ltimo, se realiza un ensayo de hiptesis sobre la forma de la distribucin, cuyos parmetros se estiman a partir de la muestra. El MOVAC utiliza la prueba de Kolmogorov-Smirnov para el caso de observaciones individuales, dicha prueba es muy potente y no requiere la agrupacin en clases. De la salida de Movac (figura 2), para el test de Kolmogorov-Smirnov, resulta que tanto la Normal como la LogNormal son rechazadas, dado que el nivel de significacin a posteriori de ambos es 3,7% y es menor que el nivel de significacin adoptado (*<=0,05). En este ensayo,

cuando la cantidad de datos es muy grande, el test pierde significancia y concluye en resultados errneos, por lo que no se puede rechazar la ninguno de las 2 familias. Modelo elegido: Por cumplir con todos los mtodos de validacin y tener los mejores valores tanto en LVer como en R* se concluye que la distribucin que mejor ajusta los datos cargados es la Normal con media 103,24 kg. ydesvo estndar de 12,484 Kg. Esta distribucin fue elegida con un LVer de -295,25; un R* de 99,03%; un p(A3) de 80,97% y un p(A4) de 12,69%.

Potrebbero piacerti anche