Sei sulla pagina 1di 4

Estudio de minería de datos por medio del lenguaje r para futura aplicación en

documentación académica y administrativa del departamento de innovación en


ingeniería en la universidad autónoma de occidente

Miguel Steven Rondón Salazar 1, MSc. Sandra Arce Guerreo2, Dr. Edgar Tello Leal3

Introducción.
Actualmente la Minería de Datos es un área de conocimiento de gran utilización debido a la
necesidad de realizar análisis de datos generados por mediante Tecnologías de Información.
El uso de constantes dispositivos electrónicos mediante Sistemas de Información y
aplicaciones de software mediante la tecnología de Internet genera una gran cantidad de
datos. Estos datos requieren de análisis para permitir tomar decisiones estratégicas en menor
tiempo y con una confiabilidad mayor. Mediante el análisis de conjuntos de datos se puede
encontrar características importantes, previamente desconocidas de los datos colectados, los
cuales pueden mejorar la toma decisiones en diversas áreas de la ciencia e industria (L.
Lanzarini, 2018). Por ejemplo, se puede demostrar su aplicación para solucionar problemas
usando bases de datos para detectar fraudes en tarjetas de crédito (Credit card fraud, 2013),
análisis predictivo de zonas de peligro para evitar riesgos de ciudadanos mediante el conjunto
de datos Crimes in Chicago (Chicago, 2015), identificar como influye la calidad del servicio
en la satisfacción y lealtad de cliente en PyMES de Ciudad Victoria, Tamaulipas, México.
Lo anterior, se realizó mediante el estudio y lectura de los libros Machine Learning
(Ramasubramanian, 2017) y A Data Scientist's Guide to Acquiring, Cleaning and Managing
(Buttrey, 2018), asesorado y supervisado por el Dr. Edgar Tello Leal, Profesor-Investigador
de la Universidad Autónoma De Tamaulipas, México.

1. Planteamiento del problema.

Dado que las monitorias son de suma importancia, para la comunidad estudiantil surge, el
interés de mejorar la experiencia en las monitorias. Durante el desarrollo de la investigación,
se detectó un desfase tiempo en las monitorias y tutorías, entre los estudiantes y el personal
encargado de dictarlas, la cual se logró solucionar creando una página web “Monitorias-
UAO”, esta permitió una recepción más placentera y dinámica a la hora de solicitar una
monitoria, ya que esta mantiene la información actualizada, en un tiempo real, dejando a un
lado las equivocaciones o problemas técnicos; para que los horarios de monitorias fueran
visibles en todo lugar y en todo momento, ayudando a que los estudiantes encontraran más
monitorias que se acomodaran con sus horarios. Debido a los resultados, en el semillero de
soluciones creativas dirigido por la profesora-investigadora MSc. Sandra Arce Guerrero, se
propuso inicialmente diseñar una plataforma web que permita recolectar, analizar y mostrar
de forma estadística procesos administrativos que influyen en el seguimiento de las
asignaturas adscritas a las áreas de “Fundamentos de ingeniería”, “Gestión de proyectos,
tecnología e innovación” y “Diseño de productos y experiencias”. Algunos ejemplos de estos
procesos administrativos son las coevaluaciones institucionales e informes descriptivos

1
Miembro del semillero de investigación “solución creativa de problemas” de la Universidad Autónoma De
Occidente, miguel.rondon@uao.edu.co
2
Profesor-Investigador de la Universidad Autónoma De Occidente. sarce@uao.edu.co
3
Profesor-Investigado, grupo de investigación en Telemática, Facultad de ingeniería de la Universidad
Autónoma De Tamaulipas, México. etello@docentes.uat.edu.mx
finales. Se realizó una prueba piloto de la plataforma aplicada en los cursos de Introducción
a la Ingeniería I para los estudiantes, el manejo del informe descriptivo de cada curso para
los profesores del área de Fundamentación en Ingeniería, y el registro de justificaciones por
inasistencia. Los resultados de estas pruebas generaron un conjunto masivo de datos que
requieren un análisis para poder representar los datos obtenidos de forma sencilla y visual en
la que se muestre tendencias que faciliten la toma de decisiones, soportadas por sistemas de
información. En este sentido, se realizó por medio del programa delfín un verano de
investigación sobre la minería de datos aplicada en diversos problemas usando bases de datos
como: ‘credit-card-fraud’ (Credit card fraud, 2013), ‘Crimes in Chicago’ (Chicago, 2015),
‘PyMES - Ciudad Victoria Tampico’ y otros. Basándose principalmente en los libros
Machine Learning Using R (Vol. 1) (Ramasubramanian, 2017) y A Data Scientist's Guide to
Acquiring, Cleaning and Managing Data in R (Vol. 1) (Buttrey, 2018) y la experiencia del
investigador a cargo del proyecto en la Universidad Autónoma De Tamaulipas, Dr. Edgar
Tello Leal. Así indagando y adquiriendo nuevos conocimientos sobre la minería de datos
para la aplicación de lenguajes computacionales con enfoque estadístico usando Lenguaje R
se espera implementar y validar estas técnicas en plataforma web propuesta inicialmente.

1.1 Objetivo general

Estudiar y analizar conceptos de minería de datos para su implementación en casos de estudio


del entorno de procesos universitarios (estudiantes y administrativos) por medio del Lenguaje
R.

1.2 Objetivos específicos

 Explorar los métodos y técnicas de la minería de datos aplicados a diversos conjuntos


de datos para generar una solución del problema mediante clasificación o
agrupamiento.
 Seleccionar los métodos aplicados a la representación virtual de datos en el registro
de documentación administrativa y académica de la UAO.

2. Metodología.

Fase 1: Identificación y propuesta de solución para las problemáticas de manejo de


información al Departamento de Innovación en Ingeniería en la Universidad Autónoma de
Occidente.
Fase 2: Análisis de conjuntos de datos se por medio del Lenguaje R utilizando la interfaz de
compilación R Studio. Realizando nuestros primeros análisis a conjuntos de datos con
estadística básica (medidas de tendencia central y dispersión de datos). Fase 3: Aplicar los
métodos para el tratamiento de datos, muestras y técnicas de representación de datos.
Fase 4: Implementación de un sistema de predicción de datos o de clasificación, tales como
árboles de decisiones y el teorema de Bayes. Las técnicas anteriores permitieron comparar
los métodos manuales con los métodos de aprendizaje automático, presentando un mejor
rendimiento y confiabilidad la aplicación de métodos estadísticos automatizados.

3. Resultados
Por medio de la página web diseñada e implementada se dio solución al desfase tiempo que
existía en las monitorias y tutorías, entre los estudiantes y el personal encargado de dictarlas.
Y aprovechando esa capacidad tecnológica con que cuenta la universidad.
Se diseñó y evaluó de una plataforma web para el manejo de documentos administrativo del
Departamento de Innovación en Ingeniería en la Universidad Autónoma de Occidente.
Por otro lado, mediante fuentes de datos administradas se implementan métodos y técnicas
de minería de datos, tales como árboles de decisiones, Teorema Bayes, agrupamiento
(clustering), así como reglas de asociación. En este sentido, se comprendió los fundamentos
de operación de los métodos y técnicas de minería de datos, así como el funcionamiento y su
implementación mediante el Lenguaje R. El objetivo de las implementaciones en los
conjuntos de datos es solucionar problemas de clasificación o agrupamiento, y poder
descubrir conocimiento a partir de datos en etapas posteriores. Por otro lado, se compara las
experiencias con otros leguajes de programación como c# y java, con el Lenguaje R,
identificando las ventajas de usar un lenguaje estadístico, permitiendo generar
(implementaciones) algoritmos computacionales que puedan usar sistemas de información
desarrollados en otros lenguajes.

4. Conclusiones

Por medio de las plataformas creadas anteriormente se logra establecer una relación a la
necesidad de integrar las ciencias de datos para sacar mayor provechó a los datos obtenidos.
El análisis de datos a través de herramientas tecnológicas posibilita realizar la toma de
decisiones garantizando una disminución en la tasa de error. Por tal motivo, es importante la
implementación de sistemas de información que incluyan componentes de software que
permitan realizar estas tareas.
En este sentido, el Lenguaje de programación R con un enfoque estadístico que permite el
diseño, implementación, ejecución y evaluación de algoritmos computacionales que
despliegan algún tipo de método o técnica de minería de datos, es de gran importancia para
realizas una gestión exitosa de los datos. Adicionalmente, la implementación de estas
técnicas en proyectos universitarios puede ser de gran ayuda a los procesos internos de las
instituciones de educación universitaria.
Por medio de los semilleros se logra fortalecer las habilidades de investigación en diferentes
líneas de interés.

5. Referencias

Buttrey, S. (2018). A Data Scientist's Guide to Acquiring, Cleaning and Managing Data in
R (Vol. 1). California, UnitedStates: John Wiley & Sons, Ltd. Recuperado el 2018 de
Junio de 18, de https://onlinelibrary.wiley.com/doi/book/10.1002/9781119080053
Chicago, D. d. (2015). Crimes in Chicago. Chicago. Recuperado el 22 de Agosto de 2018,
de https://www.kaggle.com/currie32/crimes-in-chicago/home
Credit card fraud. (2013). Bruxelles: Université Libre de Bruxelles. Recuperado el 22 de
Agosto de 2018, de https://www.kaggle.com/samkirkiles/credit-card-fraud/data
L. Lanzarini, W. H. (2018). Minería de Datos y Big Data. Aplicaciones en riesgo crediticio,
salud y analisis de mercado. Corrientes, Argentina: RedUNCI. Recuperado el 22 de
Agosto de 2018, de
http://sedici.unlp.edu.ar/bitstream/handle/10915/67411/Documento_completo.pdf-
PDFA.pdf?sequence=1&isAllowed=y
Ramasubramanian, K. S. (2017). Machine Learning Using R (Vol. 1). Apress. Recuperado
el 2018 de Junio de 18, de
https://www.apress.com/us/book/9781484223338#aboutAuthors

Potrebbero piacerti anche