Sei sulla pagina 1di 10

Reporte

Ante la necesidad de poder estimar la calificación de un alumno en la materia de lenguaje, pero para
poder responder a este tema se tomó en consideración todas las variables del DataSet pero resulta que
al contar todas los variables resultaron más de 100 lo que implica que habían algunas que no aportarían
en gran medida al momento de estimar la nota, además de que los datos obtenidos provenían de una
encuesta por lo cual no tenía muchas variables continuas y se encontró más variables categorías para las
cuales se realizó “feature engineering” creando variables dummies para las antes mencionadas.

Ante la problemática de poseer un gran número de variables se plantea como solución realizar “feature
selection” y adicionalmente revisar en la literatura que variables se usan comúnmente para estimar la
calificación de un alumno.

Para “feature selection” se toma en consideración “forward-backward model selection”, en los cuales se
redujo a 90 variables lo cual aún presenta un problema al momento de modelar. Adicionalmente se hizo
uso de “Lasso Regression” junto a “StepAIC” y considerando la correlación entre las variables
independientes con la dependiente; para así realizar una comparación de presencia de variables en cada
una de las técnicas antes mencionadas logrando reducir el número de variables a 81 para poder
modelar.
Pero se realizó una predicción de la nota de lenguaje de un alumno mediante el uso de todas las
variables exceptuando algunas que según la literatura no deberían tener mucha relevancia al momento
de modelar, para lo cual se hizo uso de las siguientes herramientas: “Lasso Regression”, “Ridge
Regression”, “Elastic Net”. Para cada una de las herramientas se usó como metodología de la estimación
del error mediante “Cross Validation” y escogiendo el hiperparámetro óptimo considerando el criterio
de parsimonia al mayor valor del hiperparámetro con el que el test-error no se aleje más de 1
desviación estándar del mínimo test-error posible. A continuación se muestra un gráfico comparativo de
las principales métricas de cada metodología:
 El Rsquared de cada uno de los modelos no sobrepasa el 17%.
 El RMSE de cada uno de los modelos no sobrepasa el valor de 0,1.
 De los 3 tipos de modelos analizados “Elastic Net” es el mejor para cada una de las métricas
calculadas, pero la diferencia de las métricas para cada uno de los modelos es mínima.

Una vez analizado que la no aplicación de “Feature selection” provoca un Rsquared bajo al momento de
predecir, se opta por realizarlo pero además de toman en consideración otras metodologías para poder
estimar la calificación de lenguaje como: “OLS”, "Subset Selection (k-Cross-Validation)", "Ridge
Regression", "Lasso Regression", "PCR (Principal Component Regression)", "LmStepAIC", además de
escoger el hiperparámetro óptimo considerando el criterio de parsimonia. A continuación se muestra un
gráfico comparativo de las principales métricas de cada metodología:
 Hay una reducción del nivel de RMSE para todos los modelos al hacer “feature selection”.
 El RMSE de todos los modelos no sobrepasa el valor de 0,009.
 El mejor modelo una vez aplicado “feature selection” es OLS junto con LmStepAIC.
 La diferencia de las RMSE entre cada uno de los modelos es mínima.
Red neuronal

Al observar que el nivel de Accuracy mediante los distintos tipos de regresión no aumentaba
significativamente se procedió a incorporar nuevos features tales como:

 Número de personas con título de grado


 Gasto en ACT
 Gasto en I+ D
 Índice de Gini
 Índice de desarrollo humano

Correlación de nuevas features con Output

Además se realizó clasificación de grupos de la nota de lenguaje, para la clasificación de la etiqueta de la


nota se toma en consideración la separación por cuartiles. Si la nota de un alumno se encontraba menos
de 1er cuartil se lo consideraba de la “clase 3” o baja, si en cambio la nota se encontraba entre el 1er y 3er
cuartil se lo llamaba “clase 2” o media, y si su nota sobrepasaba el 3er cuartil era un alumno “clase 1” o
excelente.

Para la clasificación se consideró la aplicación de SVM y ANN teniendo en consideración que para SVM
se debía tomar el mejor hiper parámetro(costo ,gamma) para poder realizar el modelo de clasificación. A
continuación se muestra los resultados obtenidos:

SVM
 Error de entrenamiento: 50.92 %, Accuracy: 49.08%
 Error de test: 49.68 %, Accuracy: 50.32%

ANN

 Con 1 capa oculta (2 neuronas), Error de entrenamiento: 43.92%, Accuracy: 56.08%


 Con 1 capa oculta (2 neuronas), Error de prueba: 57.27%, Accuracy: 42.73%

Potrebbero piacerti anche