08mem PDF

Minera de Datos en la Educacin
lvaro Jimnez Galindo

Hugo lvarez Garca
Universidad Carlos III de Madrid
Avda. De la Universidad, 30
28911, Legans (Madrid-Espaa)
100055019@alumnos.uc3m.es
100064465@alumnos.uc3m.es
Abstract la clase o de la escuela entera. Otros temas como el tiempo, secuen-

cia o incluso el contexto juegan papeles importantes en el estudio
En este documento se describe el uso de la minera de datos aplica- de datos educacionales.
da a entornos educativos y su uso pedaggico.
Categories and Subject Descriptors 1 [Inteligencia Artificial]: 2. VENTAJAS RESPECTO A LOS

Minera de Datos.; 2 [Educacin]: Entornos de aprendizaje, Pe- PARADIGMAS TRADICIONALES DE
dagoga.
INVESTIGACIN EDUCACIONAL
General Terms Teora, aspectos educativos, relaciones, inferen-
cia de informacin, mejora de programas educativos. La minera de datos educacionales ofrece numerosas ventajas com-
parndola con los paradigmas ms tradicionales de investigacin
relativa a la educacin, como experimentos de laboratorio, estudios
General Terms Minera de Datos, Educacin, Pedagoga, Con- sociolgicos o investigacin de diseo. En particular, la creacin
juntos de datos, Mtodos de procesado, Modelos de inferencia. de repositorios pblicos de datos educacionales ha creado una base
que hace posible la minera de datos educacionales. En particu-
lar, los datos de estos repositorios son totalmente vlidos (ya que
1. INTRODUCCIN son datos reales sobre el rendimiento y aprendizaje de estudiantes
reales, en ambientes educacionales, tomados en tareas de apren-
La minera de datos, tambin conocida como Descubrimiento de dizaje), y cada vez ms fcilmente accesibles para comenzar una
Conocimiento en Bases de datos (sus siglas en ingls son KDD investigacin. Estos puntos permiten a los investigadores ahorrar
Knowledge Discovery in Databases), es el campo que nos per- mucho tiempo en tareas como la bsqueda de individuos (tales co-
mite descubrir informacin nueva y potencialmente til de grandes mo escuelas, profesores y alumnos), organizacin de los estudios y
cantidades de datos. Se ha empleado en numerosos campos, inclu- recopilacin de datos, ya que estos se encuentran directamente ac-
yendo desde los ya conocidos casos de cesta de la compra hasta cesibles. Aunque el uso de datos previamente recogidos limita los
la bioinformtica o investigaciones contra el terrorismo. Reciente- anlisis a las cuestiones que conciernen a estos datos, una investiga-
mente, se ha incrementado el inters en utilizar la minera de datos cin previa puede resultar extremadamente til para analizar cues-
en el estudio educacional, centrndose en el desarrollo de mtodos tiones poco relacionadas con los datos tomados, como por ejemplo
de descubrimiento que utilicen los datos de plataformas educacio- atributos de los estudiantes tales como comportamiento estratgi-
nales y en el uso de esos mtodos para comprender mejor a los estu- co o motivacin. La disponibilidad de estos datos ha supuesto un
diantes y el entorno en el que aprenden. Los mtodos empleados en gran avance. Una vez definido un modelo de inters educativo so-
la minera de datos en la educacin suelen diferir de los mtodos bre los datos, puede probarse con nuevos conjuntos de datos. La
ms generalistas, explotando explcitamente los mltiples niveles transferencia de estos modelos puede no ser trivial, pero el proceso
de jerarqua presentes en los datos. Mtodos psicomtricos suelen de desarrollo y validacin de un modelo para un nuevo contexto es
ser integrados con mtodos de aprendizaje mquina y textos de mi- mucho ms rpido. Gracias a esta faceta, muchos anlisis se han
nera de datos para lograr los objetivos. Por ejemplo, obteniendo podido repetir sobre distintos sistemas o contextos de aprendizaje.
datos sobre cmo los estudiantes eligen utilizar el software educa- Adems, la existencia de miles de alumnos que usan herramientas
cional, puede ser realmente til considerar datos a distintos niveles de aprendizaje similares, aunque sea en distintos contextos, aporta
sobre las pulsaciones de teclas, nivel de respuestas, del alumno, de una posibilidad nueva de estudiar la influencia de factores contex-
tuales en profesores y alumnos. Histricamente, ha sido muy difcil
estudiar cmo las diferencias entre grupos de profesores o clases
Permission to make digital or hard copies of all or part of this work for personal or influencian en aspectos especficos del aprendizaje. Este tipo de
classroom use is granted without fee provided that copies are not made or distributed anlisis resulta mucho ms fcil con la minera de datos. De mane-
for profit or commercial advantage and that copies bear this notice and the full citation
on the first page. To copy otherwise, to republish, to post on servers or to redistribute
ra similar, el impacto de diferencias individuales ha sido difcil de
to lists, requires prior specific permission and/or a fee. estudiar estadsticamente con mtodos tradicionales. La minera de
datos aplicada al ambiente educativo posee el potencial de extender
Copyright 2010 ACM lvaro Jimnez Galindo y Hugo lvarez Garca un conjunto de herramientas mucho ms amplio para el anlisis de
Inteligencia en Redes de Comunicacin. . . $10.00 cuestiones importantes sobre diferencias individuales.
3. PRINCIPALES ENFOQUES Destilado de Los datos son Identificacin
datos destilados para humana de
permitir a un patrones en el
Hay una gran variedad de mtodos empleados habitualmente en humano aprendizaje de los
el mbito de la educacin en la minera de datos. Estos mtodos identificar o alumnos,
estn comprendidos en las siguientes categoras: prediccin, agru- clasificar comportamiento
pamiento, minera de relaciones, inferencia a travs de modelos, y rpidamente colaboracin;
destilacin de datos para la interpretacin por parte de un ser hu- propiedades de Etiquetado de
mano. Las tres primeras categoras son universales para distintos los datos datos para su uso
tipos de minera de datos (aunque en algunos casos con distintos en desarrollos
nombres). Las categoras cuarta y quinta consiguen una particular posteriores de
importancia dentro de la minera de datos educacionales. modelos
predictivos
Cuadro 1. Principales enfoques de la minera de datos educacio-

3.1. Prediccin
nales
Categora del Objetivo del mtodo Aplicaciones Clave En prediccin, el objetivo es desarrollar un modelo que pueda in-
mtodo ferir una variable a partir de alguna combinacin de otras varia-
Prediccin Desarrollo de un Deteccin de bles incluidas en los datos. La prediccin requiere etiquetas para la
modelo que pueda comportamiento del variable de salida para un conjunto de datos limitado, donde una
inferir una variable a estudiante (engaos etiqueta suponga una informacin fiable sobre el valor de la varia-
partir de la al sistema, ble de salida en casos especficos. De todas maneras, en algunos
combinacin de los distracciones, casos es importante considerar el grado en el que estas etiquetas
datos disponibles slipping); puedan ser aproximadas o inciertas. La prediccin tiene dos usos
Desarrollo de clave comprendidos en la minera de datos educacionales. En algu-
modelos de nos casos, mtodos de prediccin pueden ser usados para estudiar
dominio; Prediccin qu caractersticas de un modelo son importantes para una predic-
y entendimiento de cin, dando informacin sobre la construccin subyacente. Este es
los resultados un enfoque comn en programas de investigacin que tratan de pre-
acadmicos de un decir resultados educacionales sin predecir anteriormente factores
estudiante intermedios. En un segundo tipo de uso, los mtodos de prediccin
son utilizados para predecir cul ser el valor de salida en contex-
Agrupamiento Encontrar conjuntos Descubrimiento de tos donde no es deseable obtener una etiqueta para esa construccin
de datos que se nuevos patrones de (por ejemplo, en ocasiones en las que no haya datos etiquetados).
agrupen comportamiento de
naturalmente, estudiantes; Como ejemplo, considrese una investigacin que estudie la rela-
separando el Investigacin de cin entre aprendizaje y engao al sistema (en ingls, este trmino
conjunto completo similitudes y se refiere como game the system, definindose como el xito en
en una serie de diferencias entre una tarea educativa tomando ventaja de la propiedades o regulari-
categoras escuelas dades del sistema usado para realizar dicha tarea, en vez de pensar
y aprender a partir del material dado). Si un investigador tiene co-
Minera de Descubrimiento de Descubrimiento de mo objetivo estudiar esta construccin a travs del uso de una he-
relaciones relaciones entre asociaciones rramienta de software durante un ao completo en varias escuelas,
variables curriculares en puede no ser manejable el evaluar directamente, sin usar mtodos
secuencias de de minera de datos, si un alumno est jugando con el sistema en
cursos; cualquier punto y en cualquier momento. Baker et al desarrollaron
Descubrimiento de un modelo de prediccin usando datos recopilados automticamen-
estrategias te de interacciones entre estudiantes y el software como variables
pedaggicas que de prediccin, y despus validando la precisin del modelo al ser
guen en un proceso generalizado a ms estudiantes y contextos. Entonces fueron capa-
ms efectivo de ces de estudiar sus avances en el conjunto completo de datos.
aprendizaje
En general, existen tres tipos de prediccin: clasificacin, regresin
Descubrimiento Modelado de un Descubrimiento de y estimacin de densidad. En clasificacin, el valor predicho es una
mediante fenmeno mediante relaciones entre variable categrica o binaria. Algunos mtodos populares de clasi-
modelos prediccin, comportamiento de ficacin incluyen rboles de decisin, regresin logstica (modelo
agrupamiento o estudiantes y sus de regresin para variables dependientes o de respuestas binomial-
ingeniera del caractersticas o mente distribuidas) y mquinas de soporte vector. En regresin, el
conocimiento, es variables valor predicho es una variable continua. Algunos mtodos popu-
usado como contextuales; lares de regresin en la minera de datos educacionales incluyen
componente en una Anlisis de la regresin lineal, redes neuronales y regresin sobre mquina de
futura prediccin o cuestiones de soporte vector. En estimacin de densidad, la variable predicha es
minera de investigacin para una funcin de densidad de probabilidad. Estimadores de densidad
relaciones una amplia variedad pueden estar basados en una variedad de funciones de kernel, in-
de contextos cluyendo funciones gaussianas. Para cada tipo de prediccin, las
variables de entrada pueden ser categricas o continuas. Distintos 3.3. Minera de Relaciones
mtodos de prediccin son ms efectivos dependiendo en el tipo
de variables de entrada utilizadas. Mtodos populares para evaluar En la minera de relaciones, el objetivo es descubrir relaciones entre
la precisin de una prediccin incluyen la correlacin lineal, coe- variables en un conjunto de datos con un gran nmero de variables.
ficiente de Cohen Kappa (que tiene en cuenta los aciertos que se Una forma de realizar esto es localizando las variables ms fuer-
puedan producir por casualidad) y A (el rea bajo la curva recei- temente relacionadas con una nica variable de inters, o tambin
ver operating curve, una representacin grfica de la sensitividad). mediante el descubrimiento de las relaciones ms fuertes entre dos
La precisin porcentual no suele ser usada para la clasificacin, ya variables. De manera general, existen cuatro tipos de minera de
que es altamente dependiente de tasas de distintas clases. Enton- relaciones: minera de reglas de asociacin, minera de correlacin,
ces, una precisin muy alta puede ser lograda en algunos casos por minera de patrones de secuencias y minera de datos causales. En
un clasificador que siempre escoja la clase mayoritaria. Cuando se la minera de reglas de asociacin, el objetivo es encontrar reglas
calcula la calidad de una prediccin, es importante tener en cuen- si X entonces Y de manera que si se encuentra un conjunto de
ta la no-independencia de distintas observaciones que impliquen al variables, otra variable tendr habitualmente un determinado valor.
mismo alumno. Para lograr este objetivo, para la minera de da- Por ejemplo, una regla podra ser:
tos educacionales suelen aplicarse mtodos meta-analticos como
Strubes Adjusted Z, o seleccionar estimadores conservadores que
asuman completa dependencia.
El estudiante

est frustrado

El estudiante

3.2. Agrupamiento El estudiante tiene = habitualmente

un sentimiento mas

pide ayuda
En agrupamiento, el objetivo es encontrar puntos de datos que se

fuerte de aprendizaje

agrupen de manera natural, repartiendo el conjunto original de da-

que de xito

tos en un conjunto de clusters. El agrupamiento es particularmen-
te til en casos donde las categoras ms comunes de los datos no En la minera de correlaciones, el objetivo es encontrar correlacio-
son conocidas. Si un conjunto de clusters es ptimo, en cada cate- nes lineales (positivas o negativas) entre variables. En la minera de
gora, cada punto ser ms similar a los puntos pertenecientes a su patrones de secuencias, el objetivo es encontrar asociaciones tem-
cluster que a puntos pertenecientes a otros grupos. Los clusters pue- porales entre eventos. Por ejemplo, para determinar qu secuencia
den ser creados con distinta granularidad: por ejemplo, las escuelas de comportamientos de un estudiante da lugar eventualmente a un
podran ser agrupadas para investigar similitudes y diferencias en- inters por el aprendizaje. En la minera de datos causales, el obje-
tre ellas, los estudiantes podran tambin agruparse por el mismo tivo es descubrir si un evento ha sido la causa de otro evento, ya sea
motivo, o incluso podran agruparse las acciones de los estudian- analizando la covarianza de los dos eventos o usando informacin
tes para investigar patrones de comportamiento. Los algoritmos de sobre cmo uno de los eventos fue provocado. Por ejemplo, si un
agrupamiento pueden comenzar sin hiptesis previas sobre los gru- evento pedaggico es aleatoriamente escogido usando experimen-
pos de datos (como el algoritmo k-means con inicio aleatorio), o tacin automatizada, y normalmente conlleva un resultado positivo
empezar desde una hiptesis especfica, posiblemente generada en de aprendizaje, una relacin causal puede ser inferida. Las relacio-
estudios previos con un conjunto de datos distinto. Un algoritmo nes encontradas a travs de la minera de relaciones deben satisfa-
de agrupamiento puede postular que cada punto debe pertenecer cer dos criterios: relevancia estadstica y un determinado nivel de
nicamente a un cluster (como en el algoritmo k-means), o puede inters. La relevancia estadstica es habitualmente evaluada a travs
decidir que algunos de los puntos pertenezcan a varios o ningn de test estadsticos estndar, tales como los F-test. Debido a que un
cluster (como en los modelos de mezcla de gaussianas). La calidad gran nmero de test son realizados, es necesario un control para
de un conjunto de grupos o clusters suele ser evaluada tomando co- encontrar relaciones casuales. Un mtodo para realizar esto es usar
mo referencia la medida en la cual el conjunto de clusters se ajusta a mtodos o ajustes estadsticos post-hoc que controlen el nmero de
los datos, relativo a cunto se espera que se ajusten nicamente por test realizados, como el ajuste de Bonferroni. Este mtodo puede
casualidad dado el nmero de clusters, usando mtricas estadsticas incrementar la confianza sobre una relacin individual, descartan-
tales como el criterio de informacin bayesiano. do la posibilidad de que sea una casualidad. Un mtodo alternativo
es la evaluacin de la probabilidad total del patrn de resultados
obtenidos, usando mtodos Monte Carlo. Este mtodo evala c-
mo de probable es que el patrn total surgiese por casualidades. El
nivel de inters de cada hallazgo es evaluado para reducir el conjun-
to de reglas / correlaciones / relaciones causales comunicadas a la
persona que realiza la investigacin. En conjuntos muy grandes de
datos, cientos de miles de relaciones significativas pueden ser en-
contradas. El nivel de inters mide qu hallazgos son los ms distin-
tivos y mejor respaldados por los datos, en algunos casos tambin
tratando de podar resultados similares. Hay una amplia variedad
de medidas del nivel de inters, incluyendo el soporte, confianza,
conviccin, alzado, resaltado, cobertura, correlacin y coseno. Al-
gunas investigaciones sugieren que el alzado y el coseno pueden ser
especialmente relevantes en el mbito de los datos educacionales.
3.4. Descubrimiento mediante Modelos
En el descubrimiento mediante modelos, se desarrolla un modelo

Figura 1. Conjunto Bayesiano de Clusters mediante prediccin, agrupamiento o, en algunos casos, ingenie-
ra del conocimiento (usando mtodos de razonamiento humano en
vez de mtodos automatizados). Este modelo es entonces utilizado Alternativamente, los datos pueden ser destilados para el etiqueta-
como un componente en otro anlisis, como prediccin o minera do manual, dando soporte a desarrollos posteriores de un modelo
de datos. En el caso de prediccin, las predicciones hechas por el predictivo. En este caso, sub-secciones de un conjunto de datos son
modelo creado son usadas como variables de entrada en la predic- mostrados en formato textual o visual, siendo etiquetados por co-
cin de una nueva variable. Por ejemplo, el anlisis de estructuras dificadores humanos. Estas etiquetas son habitualmente utilizadas
complejas como el engao al sistema en el aprendizaje online ha- como base para el desarrollo de un predictor. Este enfoque ha de-
bitualmente han dependido en la evaluacin de la probabilidad de mostrado acelerar en un factor de 40 los modelos predictivos de fe-
que un estudiante conociese ya de antemano el temario impartido. nmenos complejos como los engaos al sistema, en relacin con
Estas evaluaciones del conocimiento del alumno han dependido a enfoques anteriores para la recoleccin de los datos necesarios.
su vez de modelos de componentes del aprendizaje en un domi-
nio, normalmente expresados como un mapeo entre ejercicios en el
software de aprendizaje. En el caso de la minera de relaciones, se 4. APLICACIONES PRINCIPALES
estudian las relaciones entre las predicciones del modelo creado y
variables adicionales. Esto permite al investigador estudiar la rela-
cin entre una construccin compleja oculta y construcciones ob- Ha habido un amplio nmero de aplicaciones de minera de da-
servables. A menudo, el descubrimiento mediante modelos enfatiza tos educacionales, como se ha podido ver a lo largo de este escri-
la validacin generalizada de un modelo de prediccin a travs de to. En esta seccin, se ha prestado especial inters a cuatro reas
varios contextos. Por ejemplo, Baker us predicciones de engaos dentro del campo tratado. Un rea clave de aplicacin se encuen-
al sistema sobre datos de un ao completo de software educacio- tra en la mejora de los modelos de estudiante existentes, modelos
nal para estudiar si factores de estado o caractersticas eran mejo- que proporcionan informacin detallada sobre las caractersticas
res predictores sobre cunto un estudiante engaara al sistema. La de un estudiante tales como el conocimiento, motivacin, meta-
generalizacin se sustenta en una validacin apropiada de que el conocimiento y actitudes. El modelado de las diferencias indivi-
modelo se comporta de la misma manera sobre varios contextos. duales de cada estudiante para permitir al software responder a esas
diferencias, es un tema clave en el desarrollo de software educativo.
En los ltimos aos, la minera de datos educacionales ha permiti-
3.5. Destilado de datos do una expansin considerable en la sofisticacin de los modelos de
estudiantes. En particular, los mtodos de minera de datos educa-
Otro rea de inters en la minera de datos educacionales es la des- cionales han permitido a los investigadores realizar inferencias de
tilacin de datos para la interpretacin humana. En algunos casos, alto nivel acerca del comportamiento de los alumnos, tales como
los seres humanos pueden realizar inferencias sobre datos cuan- cundo un estudiante est engaando al sistema, cuando un alumno
do stos son presentados adecuadamente, que se encuentran ms se ha escurrido (cometer un error a pesar de poseer la habilidad
all del punto de mira inmediato de los mtodos de minera de da- para responder la pregunta correctamente). Estos modelos de es-
tos totalmente automatizados. Los mtodos en esta rea de minera tudiante ms avanzados han sido tiles en dos modos. En primer
de datos educacionales son de informacin y mtodos de visuali- lugar, han incrementado nuestra habilidad para predecir el conoci-
zacin. De todos modos, las visualizaciones ms utilizadas en el miento de un alumno y su futuro rendimiento la incorporacin de
campo educacional suelen ser distintas a las utilizadas para la re- modelos de acierto y de escurrirse a las predicciones del rendi-
solucin de problemas de visualizacin de la informacin, debin- miento del estudiante han incrementado notablemente la exactitud
dose a la estructura especfica y el significado embebido en esa es- de estas predicciones. En segundo lugar, estos modelos han permiti-
tructura, habitualmente presente en datos educacionales. Los datos do a los investigadores estudiar qu factores conducen al estudiante
son destilados para la interpretacin humana por dos motivos clave: a tomar decisiones concretas en un entorno de aprendizaje. Una se-
identificacin y clasificacin. Cuando los datos son destilados para gunda rea clave de aplicacin es en el descubrimiento o mejora de
identificacin, son mostrados de manera que un ser humano pue- modelos de la estructura de conocimiento del dominio. En la mine-
da identificar patrones conocidos que son, sin embargo, difciles de ra de datos educacionales, se han creado mtodos para descubrir
expresar formalmente. Por ejemplo, una visualizacin clsica de la rpidamente modelos precisos directamente de los datos. Estos m-
minera de datos educacionales es la curva de aprendizaje, que re- todos han sido habitualmente combinados con marcos de modelado
presenta el nmero de oportunidades de practicar una habilidad en psicomtricos con algoritmos avanzados de bsqueda en espacio, y
el eje X, y muestra el rendimiento (como el porcentaje de aciertos son habitualmente planteados como problemas de prediccin pa-
o tiempo tomado para responder) en el eje Y. ra el propsito de descubrimiento de modelos (por ejemplo, inten-
tar predecir si acciones individuales sern correctas o incorrectas
usando distintos modelos de dominio es un mtodo comn para el
desarrollo de estos modelos). Un tercer rea clave de la aplicacin
es el estudio del soporte pedaggico proporcionado por el software
de aprendizaje. El software educacional moderno aporta distintos
tipos de soporte pedaggico a los estudiantes. Descubrir cul es el
ms efectivo ha sido un rea de inters para los investigadores de
minera de datos educacionales. La descomposicin del aprendiza-
je, un tipo de minera de relaciones, ajusta datos de rendimiento
a curvas de aprendizaje exponenciales, relacionando el xito a la
cantidad de cada tipo de soporte pedaggico que un estudiante ha
recibido (con un peso para cada tipo de soporte). Los pesos indican
cmo de efectivo es cada tipo de soporte pedaggico en la mejo-
ra del aprendizaje. Un ejemplo ilustrativo se ofrece en la siguiente
seccin. El cuarto rea clave estudiado en la minera de datos edu-
cacionales son los descubrimientos cientficos sobre el aprendizaje
y los aprendices. Esto conlleva distintas formas. La aplicacin de
Figura 2. Curva de aprendizaje la minera de datos educacionales para la respuesta de preguntas
en cualquiera de las tres reas anteriores pueden comprender bene- encontrar un colegio K-122 que haya intentado un salto conceptual
ficios cientficos ms amplios; por ejemplo, el estudio del soporte de lo que normalmente es conocido como un sofisticado proceso de
pedaggico puede tener un potencial futuro a largo plazo para en- negocio, a una aplicacin de la minera de datos en la educiacin
riquecer teoras sobre andamiaje. Ms all de estas reas, sin em- pblica.
bargo, ha habido muchos anlisis enfocados directamente hacia el
descubrimiento cientfico. El descubrimiento mediante modelos es La intencin general del uso de rboles de decisin, como comen-
un mtodo clave para el descubrimiento cientfico a travs de la tamos anteriormente, es encontrar el mejor predictor de la variable
minera de datos educacionales. La descomposicin de mtodos de depediente ubicada en la raiz del propio rbol. Encontrar este pre-
aprendizaje es otro mtodo prominente para llevar a cabo estudios dictor normalmente requiere recodificar o agrupar numerosos va-
cientficos sobre el aprendizaje y los individuos implicados. lores originales del predictor para crear al menos dos nodos. Cada
nodo por tanto define la nueva rama del rbol que ha sido creada y
para cada rama creada, el proceso vuelve a repetirse. El algoritmo
5. EJEMPLO DE ESTUDIO: Identificacin de busca el mejor predictor sobre el conjunto de variables restantes, y
de nuevo, volver a crear al menos dos ramas para ese mejor pre-
caractersticas de fracasos escolares en dictor. Cuando no se pueda encontrar un predictor que mejore la
institutos eficacia, el rbol no seguir creciendo.
El abandono escolar siempre ha estado relacionado con factores Vamos a discutir las ventajas que proporciona este tipo de mode-
sociales, econmicos y psicolgicos. Se ha intentado, a partir de lado sobre los modelos estadsticos tradicionales. Primeramente,
ciertos estudios y usando distintas metodologas, identificar el pro- estn diseados para ser capaces de manejar un nmero muy gran-
ceso de un alumno con riesgo de fracaso escolar. En este caso, la de de variables de prediccin, en algunos casos, ms all de lo que
minera de datos, junto con el uso de un modelo basado en rboles permitira el correspondiente modelo paramtrico estadstico. Otra
de decisin, nos ayudar a investigar las correlaciones existentes en ventaja, es que muchos modelos basados en rboles son comple-
los casos de fracaso escolar. tamente no-paramtricos y pueden capturar relaciones que los mo-
delos paramtricos comunes no podran manejar, o al menos no
facilmente.
5.1. Estudios previos
5.3. Anlisis CHAID
Hess y Copeland, en 2001 ya midieron el uso de estrategias de
copia por los estudiantes para construir un modelo de prediccin Chi-Squared Automatic Interaction Detection, en castellano De-
con un anlisis discriminante, ya que bsicamente, era un proceso teccin Automtica de Interaccin basada en Chi-Cuadrado, es un
de clasificacin personal. Se dieron cuenta de que el uso de ciertas mtodo estadstico heurstico basado en arboles que examina las
estrategias de copia predecan con bastante acierto un fracaso en relaciones entre muchas variables de prediccin categricas, ordi-
el instituto. De igual manera, Street y Franklin en 1991 se dieron nales, o continuas, y la variable objeto de estudio. El programa em-
cunenta que los estudiantes con un estatus socio-econmico bajo, pleado (Answer Tree, SPSS, 2001), proporciona un diagrama re-
eran ms propensos a abandonar prematuramente el instituto que sumen (rbol), detallando las categoras que proporcionan mayor
los de un nivel socio-econmico ms elevado. dependencia en nuestro objeto de estudio. Tambin suministra una
Pursley y Lan en 2003, elaboraron un excelente estudio sobre este tabla para reportar qu nodos tienen la mayor concentracin segn
tema, referenciando el abandono desde diferentes perspectivas, in- un anlisis de ganancias, y una tabla de informacin desclasificada
cluyendo los logros acadmicos, la motivacin en el trabajo de la segn un anlisis de riesgo.
escuela, la participacin en actividades, las aspiraciones educacio-
nales, las percepciones de la escuela, las relaciones con los compa- 5.4. Anlisis del estudio
eros, y la autoestima.
Estos anlisis descritos en la seccin anterior, a la vez sofisticados
Otro estudio reciente sobre las correlaciones existentes en este tema
y elegantes, tienen una pega importante: es muy dificil explicar-
es el de Wayman en 2001. Se trata de un estudio muy tcnico que
lo a personas sin conocimiento de estadstica. Los individuos que
toma muchas medidas de los estudiantes, a travs de un modelo de
posean poco o ningn entrenamiento de estadstica, encuentran la
regresin logstica y de imputacin mltiple1 . Gracias a este estudio
regresin y sus otros primos paramtricos, unas metodologas un
se econtr un conjunto muy potente de predictores basados en la
tanto desalentadoras para interpretarlas. Sin embargo, este sistema
recompensa del estudio, el nivel socio-econmico, y la edad.
es sencillo y muy asequible para nefitos, ya que el anlisis CHAID
no abarca nada ms complicado que un anlisis frecuencial y de
5.2. rboles de decisin densidad, y el procedimiento de Chi-Cuadrado de Pearson es ami-
gable y ampliamente conocido.
Aplicando un modelo basado en rboles de decisin al sector de la
educacin, podremos identificar los estudiantes que requieran ma- CHAID realiza comparaciones en pares para encontrar la variable
yor ayuda en un rea en particular. Tambin, nos ayudarn a deter- de prediccin ms altamente relacionada con la variable raiz. En
minar el grupo de variables de prediccin que estn ms relacio- sistemas de muchas variables, tener esta funcin implementada en
nadas con nuestra variable final, el ndice de fracaso escolar. En el un ordenador es esencial para picar amplios conjuntos de datos.
sector de los institutos de secundaria, las aplicaciones existentes de Los datos empleados en este estudio fueron tomados de otros con-
este tipo de estudios son escasas, y a menudo son proporcionadas juntos de datos anteriores. No se emple ninguna valoracin adi-
nicamente en estudios post-secundaria. En amrica, es dificil cional ni dato demogrfico. Todas las variables empleadas fueron
tomadas de bases de datos electrnicas del distrito. Los alumnos
1 En la imputacin mltiple, los valores que falten para estimar cualquier
variable, se predicen usando valores existentes para otras variables. Estos 2 K-12 viene de Kindergarden (guardera, 4-6 aos) hasta el 12 grado
valores predichos se llaman imputaciones, y constituyen el conjunto de (16-19 aos). Son el primer y ltimo grado de educacin gratuita en Estados
datos imputados. Unidos, Australia, y la Canad inglesa.
que estaban registrados como que haban abandonado el instituto crtica (vista como un fracaso clasificado como un graduado), se
durante un curso acadmico fueron comparados con una muestra mantiene en un mnimo (slo 65 estudiantes) con este modelo.
aleatoria de alumnos que haban permanecido estudiando. A pesar
de que alguna investigacin sobre fracasos escolares, coomo la de Cuadro 2. Matriz de clasificacin errnea
Barrington y Hendricks, en 1989, encuentran poca relacin entre
Categora Actual
el abandono y el sexo del alumno, tambin se incluy en este ex-
perimento una variable que identificara el sexo del estudiante. A Fracaso Graduado Total
continuacin mostramos una lista de las variables empleadas:
Categoria Fracaso 562 116 678
Grupo (Abandono escolar/Graduado escolar) Estimada Graduado 65 403 468

Edad en aos Total 627 519 1146
Sexo Riesgo Estimado Validacin Cruzada
0.158 0.172
Grupo tnico
Status socio-econmico
N de infracciones disciplinarias de nivel 1 Quizs el inconveniente del modelo es que el riesgo estimado (ve-
rosimiltud de todos los tipos de clasificacin errnea), est entorno
N de infracciones disciplinarias de nivel 2 al 16 %. Por otra parte, la prediccin debe ser correcta el 80 % de
N de infracciones disciplinarias de nivel 3 las veces.
N de infracciones disciplinarias de nivel 4 Al inpeccionar el rbol generado3 , se observa que la variable ms
N de clases avanzadas a las que ha asistido relacionada con el fracaso escolar, es el rendimiento acadmico. La
primera variable (con mayor estadstica chi-cuadrado) es la nota
N de clases de Matemticas a las que ha asistido media. Los nodos 1 a 6 correspondientes al primer nivel por debajo
N de clases de Ciencias a las que ha asistido de la raiz, realizan por tanto la primera clasificacin en el rbol,
siendo el nodo 1 los que reciben la nota ms baja, y nodo 6 los de
Faltas justificadas la nota ms alta. Segn estos nodos, los patrones de clasificacin
Faltas sin justificar van cambiando. Por ejemplo, para los de la nota ms baja, se les
Nota media clasifica segn la edad, de tal manera que si tiene mala nota y
mucha edad tiene ms probabilidad de fracaso que si tiene mala
Nivel CSAP Reading Proficiency (entre cuatro niveles) nota pero es ms joven. A pesar de que el nodo 1 sea dividido,
Nivel CSAP Writing Proficiency (entre cuatro niveles) las probabilidades de fracaso son muy altas y por tanto se podra
simplificar an ms el rbol eliminando estos subnodos.
Nivel CSAP Math Proficiency (entre cuatro niveles)
Algunas de estas variables tuvieron q ser estimadas a partir de otros

datos. Por ejemplo, el nivel socio-econmico, fue estimado segn si
el colegio era gratuito o no, y segn la posibilidad de elegir o no un
almuerzo reducido. Estas relaciones a nuestro parecer pueden ser
slidas en Estados Unidos, pero quizs no tanto en paises europeos.
El nivel de infraccion disciplinaria va de menor a mayor, siendo 1
el primero, y 4 el ltimo. La nota media est escalada en 4 puntos, y
los resultados del CSAP (Colorado Student Assessment Program)
estn medidos tambin en una escala del 1 al 4 (1:Insatisfactorio,
2:Parcialmente competente, 3:Competente, 4:Avanzado).
Como resultado de una ejecucin preliminar usando todas estas va-
riables, algunas de ellas fueron recodificadas con el fin de reducir el Figura 3. rbol completo
numero de categoras y hacer los rboles resultantes ms interpre-
tables. Se recodificaron edad, grupo tnico y nota media y el
nmero de clases de matemticas, ciencias, y avanzadas. Tambin, El nodo 2 (correspondiente a los q tienen una nota media entre 1,37
como el nivel 1:Insatisfactorio y 4:Avanzado ocurran relativa- y 1,97 sobre 4), se divide segn la evaluacin de la prueba CSAP
mente poco, se simplificaron las variables del CSAP con valores Reading. Esto nos est indicando que los alumnos tienen mayor
dicotmicos (1:Aprobado, 0:Suspenso). probabilidad de permanecer en el colegio si se han presentado a
este test, y ms an si tienen habilidades de lectura. Tambin se
Al final, sin embargo, los mejores predictores fueron las variables extrae que aquellos con ms de 56 horas de faltas sin justificar
en sus estados sin recodificar. tienen mayor probabilidad de fracaso. El nodo 4 (con nota media
entre 2.41 y 2.97) se divide acorde la edad. Los nodos 5 y 6 no se
5.5. Resultados dividen, ya que las variables en el patrn subyacente a notas medias
altas no tienen valor potencial en la estimacin de nuestro objetivo.
La siguiente tabla es el resultado de la construccin del arbol de En un tercer nivel, bajo el nodo 12 (nota media entre 1.97 y 2.41
decisin que inclua todas las variables originales como predictores y adems menos de 56 horas de faltas sin justificar) se subdivide
potenciales. A los resultados, el software aplic una validacin segn se han presentado o no a la prueba de matemticas. De los
cruzada con 25 muestras aleatorias. Como se puede ver, muestra
la clasificacin errnea de este modelo basado en rbol. La celda 3 Hemos incluido el mismo rbol en un apndice para verlo ms claramente
que se encuentran en esta situacin y se han presentado a la prueba Referencias
de matemticas (independientemente de si se han presentado o no),
[1] William R. Veitch, Ph.D. Identifying Characteristics of High School
slo el 2,5 % de los alumnos abandonan la escuela, lo cual nos Dropouts: Data Mining With A Decision Tree Model. Presentado en
resulta bastante sorprendente, ya que tienen menos probabilidad de el Annual Meeting of the American Educational Research Association
abandono que los que tienen una nota media de 2.97 a 3.44. San Diego, CA April, 2004
[2] Baker, R.S.J.d. Data Mining for Education. Encontrado en McGaw, B.,
5.6. Conclusiones del estudio Peterson, P., Baker, E. (Eds.) International Encyclopedia of Education
(3rd edition). Oxford, UK: Elsevier
Como empezamos explicando al comienzo del caso de estudio, [3] Cristbal Romero, Sebastin Ventura, Enrique Garca. Data mining
el propsito de este se poda dividir en dos: primero investigar in course management systems: Moodle case study and tutorial. De-
la existencia de variables relacionadas con el fracaso escolar, y partment of Computer Sciences and Numerical Analisys, University of
segundo, aplicar minera de datos sobre las fuentes existentes con Crdoba, 14071 Crdoba, Spain
rboles de decisin. El arbol obtenido proporciona cierta habilidad [4] Enrique Garca, Cristbal Romero, Carlos de Castro, Sebastin Ven-
para predecir qu estudiantes tienen riesgo de fracasar. tura. Usando minera de datos para la contnua mejora de cursos
de E-Learning. Presentado en Conferencia IADIS Ibero-Americana
El programa empleado fue Answer Tree. Se trata de un programa WWW/Internet 2006. Escuela Politcnica Superior. Universidad de Cr-
muy completo y til para elaborar estos rboles, y adems tiene ca- doba.
ractersticas adicionales accesibles de manera interactiva sobre le [5] Antonio Gonzlez-Pardo, Francisco B. Rodrguez, Estrella Pulido and
arbol obtenido, que no explicamos en este trabajo para no desviar- David Camacho. Using Virtual Worlds for Behaviour Clustering-based
nos en exceso del tpico central. Analysis. Departamento de Ingeniera Informtica. Escuela Politcnica
Superior. Universidad Autnoma de Madrid.
Aplicando este sistema, con la debida instruccin al personal del
instituto (no excesiva, ya que no tienen por qu comprender los
principios de funcionamiento del sistema) y gracias a la minera de
datos, se puede hacer un seguimiento ms cercano a los estudiantes
que tengan mayor riesgo de abandono. Adems, sera facil generar
bases de datos y seleccionar grupos de trabajo para los alumnos que
tengan carencias educacionales especficas y stas les incremente
peligrosamente el riesgo de fracaso escolar.
Este sistema debera actualizarse anualmente, y ms ahora que los
medios interactivos estn cambiando la enseanza en las escuelas y
estos podran insertar nuevas variables en nuestro rbol de decisin.
Se podr observar cmo estos nuevos mtodos educacionales (piza-
rras electrnicas, ordenadores porttiles, portales acadmicos como
moodle..) cambian nuestro rbol de decisin y actuar en funcin de
las nuevas variables involucradas en nuestro rbol para lograr ma-
ximizar nuestro objetivo, el xito acadmico.
A. Apndice: rbol Completo
Figura 4. rbol Completo

08mem PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

08mem PDF

Caricato da

Copyright:

Formati disponibili

Minera de Datos en la Educacin

lvaro Jimnez Galindo

Abstract la clase o de la escuela entera. Otros temas como el tiempo, secuen-

Categories and Subject Descriptors 1 [Inteligencia Artificial]: 2. VENTAJAS RESPECTO A LOS

Cuadro 1. Principales enfoques de la minera de datos educacio-

3.4. Descubrimiento mediante Modelos

En el descubrimiento mediante modelos, se desarrolla un modelo

Grupo (Abandono escolar/Graduado escolar) Estimada Graduado 65 403 468

Algunas de estas variables tuvieron q ser estimadas a partir de otros

Figura 4. rbol Completo

Potrebbero piacerti anche