Sei sulla pagina 1di 54

SECRETARÍA DE EDUCACIÓN PÚBLICA

SUBSECRETARÍA DE EDUCACIÓN SUPERIOR


TECNOLÓGICO NACIONAL DE MÉXICO
INSTITUTO TECNOLÓGICO DE CHETUMAL

TEMA

ANÁLISIS DE DATOS

TITULACIÓN INTEGRAL
(INFORME TÉCNICO DE RESIDENCIA PROFESIONAL)

QUE PARA OBTENER EL TÍTULO DE


INGENIERO EN TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIONES

PRESENTA

SMITH ROMERO JOANNE LIZETH

CHETUMAL, QUINTANA ROO. SEPTIEMBRE DE 2017


CONTENIDO

1 INTRODUCCIÓN ......................................................................................................... 5

2 JUSTIFICACIÓN .......................................................................................................... 6

2.1 Impacto social..................................................................................................... 6

2.2 Impacto ambiental .............................................................................................. 7

2.3 Impacto económico ............................................................................................ 7

2.4 Impacto tecnológico ............................................................................................ 7

3 OBJETIVOS GENERALES Y ESPECÍFICOS .............................................................. 9

3.1 Objetivo general ................................................................................................. 9

3.2 Objetivos Específicos ......................................................................................... 9

3.3 Metas .................................................................................................................. 9

4 ANTECEDENTES ...................................................................................................... 10

5 LUGAR DONDE SE REALIZÓ EL PROYECTO ........................................................ 14

5.1 Misión ............................................................................................................... 15

5.2 Visión ................................................................................................................ 15

5.3 Política de Calidad ............................................................................................ 15

5.4 Política de Ambiental ........................................................................................ 15

6 FUNDAMENTO TEÓRICO ......................................................................................... 16

6.1 Definición de Inteligencia de Negocios ............................................................. 16

6.2 Componentes de Business Intelligence ............................................................ 17

6.2.1 OLAP (On-line analytics processing) ......................................................... 17

6.2.2 Técnicas .................................................................................................... 19

6.2.3 Propagación Cuantitativa........................................................................... 21

6.2.4 Método de ajuste de curvas ....................................................................... 21

6.2.5 Variables Aleatorias ................................................................................... 22


6.2.6 Variables aleatorias discretas. ................................................................... 23

6.2.7 Variables aleatorias continuas. .................................................................. 23

6.2.8 Pronósticos ................................................................................................ 24

6.2.9 Prueba de Anderson Darling ..................................................................... 28

6.2.10 Modelo DIKW .......................................................................................... 29

6.2.11 Tipos de Conocimiento ............................................................................ 31

6.2.12 La Pirámide DIKW ................................................................................... 32

6.2.13 Estadística normal ................................................................................... 33

6.2.14 Estadística Inferencial.............................................................................. 33

6.2.15 Distribución Normal ................................................................................. 34

6.2.16 Distribución Lognormal ............................................................................ 34

7 PROBLEMA A RESOLVER ....................................................................................... 35

8 DESCRIPCIÓN DE LAS ACTIVIDADES REALIZADAS ............................................. 36

8.1 Búsqueda de información de Business Intelligence ......................................... 36

8.2 Análisis de la información ................................................................................. 36

8.3 Búsqueda de algoritmos de Business Inteligence ............................................ 36

8.4 Estudio de técnicas matemáticas para los algoritmos ...................................... 36

8.5 Análisis del algoritmo ........................................................................................ 37

8.6 Recolección de los datos de la empresa .......................................................... 37

8.7 Análisis de los datos ......................................................................................... 37

8.8 Aplicación del algoritmo .................................................................................... 38

8.9 Análisis de los resultados ................................................................................. 38

8.10 Elaboración del reporte final ........................................................................... 38

9 RESULTADOS PARA INGENIERÍA EN SISTEMAS EN COMPUTACIONALES ....... 39

10 CONCLUSIONES Y RECOMENDACIONES ........................................................... 48

3
11 COMPETENCIAS DESARROLLADAS Y/O APLICADAS ........................................ 51

12 REFERENCIAS BIBLIOGRÁFICAS Y/O APLICADAS ............................................. 52

CRONOGRAMA PRELIMINAR DE ACTIVIDADES ...................................................... 54

4
1 INTRODUCCIÓN

Según (Adér, 2008), el fracaso escolar es un término relativamente moderno en toda


institución educativa, tema que preocupa y ocupa a todos los involucrados en el sistema
de enseñanza aprendizaje. Dicha problemática está trascendiendo fronteras,
preocupando a los empleadores y a las instituciones educativas, ya que los alumnos
serán en un futuro no muy lejano parte de su plantilla de trabajadores.

Podemos ver la magnitud del problema al que se enfrentan los docentes todos los días
en el aula: alumnos sin conocimientos básicos para iniciar el curso correspondiente, bajo
rendimiento académico, materias reprobadas y, por último, deserción escolar. Para
disminuir estas cifras tan preocupantes se debería determinar a tiempo los indicadores
que sirven de base para la toma de decisiones. Conociendo cuáles son las causas que
están originando este bajo rendimiento académico, podremos emplear las estrategias
necesarias para ayudar a los docentes y de esta manera disminuir el índice de alumnos
irregulares, así como el porcentaje de deserción o abandono escolar.

En presente documento se muestra el análisis de los datos del índice de reprobación


semestral para las carreras de Ingeniería de Sistemas Computaciones e Ingeniería en
Tecnologías de la Información y Comunicaciones, del Instituto Tecnológico de Chetumal,
de las materias de primer semestre con mayor índice de reprobación.

5
2 JUSTIFICACIÓN

La inteligencia de negocios ha existido desde 1958 ayudando a los negocios e


instituciones a mantenerse competitivos dentro de su industria o mercado específico,
evaluando los datos, los servicios o el simple funcionamiento de la empresa u institución.
Les ayuda a identificar las tendencias en sus datos, lo que garantizará tomar medidas
correctivas inmediatas para garantizar que la producción, la entrega o el servicio nunca
falle. Esto elevará el rendimiento de la institución (Hsinchun Chen, 2012).

En el caso del Instituto Tecnológico de Chetumal, el análisis de los datos ayudará a tener
un mejor conocimiento de la situación del índice de reprobación de los alumnos de dichas
carreras. De igual manera ayudará a tomar decisiones preventivas y correctivas que
impacten en los índices de deserción.

2.1 Impacto social

La importancia de los datos en proyectos Business Intelligence (BI) sobrepasa cualquier


consideración que se haga sobre otros elementos fundamentales en los entornos de
inteligencia de negocios.

Su papel, más que importante, es absolutamente fundamental: en los datos reside la


clave del éxito de cualquier proyecto en BI. Sin embargo, y aunque esto sigue siendo así,
al día de hoy, la cantidad de fuentes de origen que aportan incesantemente nuevos datos
a las bases o data warehouses corporativas es tan grande, y tan ingente el volumen y la
variedad de estos mismos datos, que es necesario tomar en consideración otras
magnitudes como la calidad, aparte de la cantidad, para que un proyecto BI ofrezca los
resultados esperados: principalmente, un apoyo sólido y fiable a la toma de decisiones
(Carrasco, 2016).

Esto tiene un impacto social al disminuir la deserción de alumnos, y por consiguiente va


tener un impacto positivo por el hecho de que la Institución tendrá una mayor eficiencia
terminal.

6
2.2 Impacto ambiental

En el mundo de los negocios y en las instituciones, lo que marca la diferencia entre una
institución exitosa y otra, es la correcta y oportuna toma de decisiones. Para llevarla a
cabo de la mejor manera, es esencial contar con la información adecuada y en tiempo,
que soporte toda la gestión de las operaciones de la institución de forma ágil y rápida.

En este punto las tecnologías de información toman un papel muy relevante al permitir
la recolección, almacenamiento y procesamiento de datos generados por la operación
de las instituciones. Así mismo, se facilita el acceso a la información y reduce el margen
de error que pudiera existir al realizar una misma captura en varias ocasiones. Con base
a esto se puede decir que ayudará al ambiente ya que se utilizarán herramientas
tecnológicas para ayudar a reducir el uso del papel en las instituciones (Carrasco, 2016).

2.3 Impacto económico

Este proyecto tiene un impacto económico ya que tendrá una relación directa con las
expectativas que tenga el alumno al momento de egresar, ya que se buscará una
solución por la cual el alumno deja la institución, y se podrá hacer mejoras.

De igual manera, el impacto económico se pudiera traducir en que si se cuenta con


indicadores oportunos y pertinentes se podrían delinear estrategias que reduzcan el
número de cursos de repetición, lo que se traduce en un ahorro para la institución y una
disminución del tiempo invertido por los estudiantes para egresar.

2.4 Impacto tecnológico

Para (Carrasco, 2016) uno de los activos más valiosos en una institución es la
información y el valor de ésta depende de cómo es gestionada, del tiempo que se emplea
en procesarla y traducirla en el lanzamiento de mejora de dicha institución. La
información es la clave de las organizaciones e instituciones y se sabe muy bien que la
información es vital para la toma de decisiones. En la mayoría de los casos, la
información es acumulada en diferentes bases de datos que se encuentran por toda la

7
institución, pero la clave radica en ganar ventaja competitiva en la obtención inteligente
de esos datos.

La inteligencia de negocio nos sirve para, ampliar la visión estratégica, reducir el riesgo
y la incertidumbre en la toma de decisiones institucionales y construir ventajas
competitivas de largo plazo en base a su información inteligente, tener una mejora
continua de la institución, gracias a la información oportuna que genera el conocimiento
que enriquece la toma de decisiones, que las institución sean proactivas y ágiles en la
gestión de la información que utilizan.

8
3 OBJETIVOS GENERALES Y ESPECÍFICOS

3.1 Objetivo general

Analizar los datos de las materias de Fundamentos de Programación, Matemáticas


Discretas y Calculo Diferencial de las carreras de Ingeniería en Sistemas
Computacionales (ISIC) e Ingeniería en Tecnologías de la Información y Comunicaciones
(ITIC), mediante técnicas matemáticas, para determinar las materias con mayor índice
de reprobación, para adecuar futuros cambios que impacten en la vida académica de los
alumnos.

3.2 Objetivos Específicos

1. Identificar las posibles tendencias de los indicadores de las asignaturas con mayor
índice de reprobación.
2. Identificar distribuciones de probabilidad que describan de los datos de mayor
índice de reprobación.

3.3 Metas

El documento del análisis de la información, el reporte final.

9
4 ANTECEDENTES

La Inteligencia de Negocios comenzó a finales de los años setenta, donde los


vendedores comenzaron a ofrecer herramientas que permitieron a las personas
profundizar en el mundo del acceso y análisis de datos. Casi todos los sistemas incluían
un formato de datos interno y propietario, esto le dio al usuario final la posibilidad de crear
sus propios datos y colocarlos en un formato optimizado para las herramientas de
análisis para realizar inteligencia de negocios. Esto se llamó ¨La era de computación de
usuario final ¨.

En las consultas, análisis e informes que se realizaba, había suposiciones insidiosas que
los usuarios finales y el personal de TI a menudo realizaban erróneamente, entre los que
se destacan:

• Los informes eran creados utilizando lenguajes tradicionales como COBOL, ya


que eran fáciles de replicar.

• El formato y el diseño de los informes existentes eran mucho más fácil de replicar
y mejorar, que las opciones disponibles en los idiomas arcanos.

• Se utilizaba muy poca lógica de procesamiento en los objetos antiguos; por lo


tanto, una herramienta "moderna" hizo que sea más fácil reemplazar lo que se
tenía y crear nuevos objetos.

Según (Olszak, 2013), las primeras herramientas utilizadas para las consultas y reportes
fueron vendidas como soluciones, hágalo usted mismo, "Do it your self". Y por ello
existieron dificultades evidentes, por ejemplo:

• Datos cerrados y propietarios; sólo trabajaban con la herramienta de ese


proveedor.

• Normalmente se requerían extracciones de conjuntos de datos de origen.

• Las extracciones estaban desfasadas con los datos originales del cliente.

10
• La mayoría no podía contener el volumen de datos necesario.

• Siempre se requería asistencia de TI para extraer información de la fuente original.

• Una inversión significativa en estas tecnologías podría aislar y atrapar datos clave
utilizados dentro de una herramienta que podría caer más tarde detrás de la curva
de tecnología.

Por lo cual, la mayoría de los sistemas y datos a los que se accedían estaban basados
en mainframe, porque allí residía la mayoría de los datos. Las herramientas propietarias,
tendían a proporcionar capacidades muy potentes, si se aprendían a usarlas. Requerían
de capacitación para sus operadores porque muchas de ellas estaban basadas en la
línea de comandos y necesitaban que los datos se clasificaran en el orden correcto.

Si no se efectuaba lo anterior, los especialistas solían obtener resultados extraños al


calcular subtotales o producir totales por intervalos, a veces, encontraban que la
clasificación tomó un procesamiento extremadamente largo, porque los datos de origen
no se habían almacenado en la secuencia de registro físico. Simplemente tenían que
aprender a la par que el personal de tecnologías de la información (TI). Un aspecto
positivo para aquellos que aprendieron y usaron esas herramientas, fue la necesidad de
entender cómo se almacenaban y se accedían los datos.

Al poco tiempo de usar este tipo de herramientas, un aspecto negativo rápidamente fue
descubierto: hubo anomalías masivas e inexactitudes en los datos. Se perdían datos,
había registros incompletos, parte de la información estaba mal escrita, algunos datos
eran inexactos, etcétera. En otras palabras, los usuarios aprendieron los aspectos
negativos de trabajar con datos y su procesamiento.

A principios de los años 80 nació el concepto de Centro de Información. La idea era, que
los usuarios finales hicieran lo suyo. La pieza que faltaba era tener alguna apariencia de
orden detrás de su selección de herramientas y las habilidades necesarias para usarlas.

Según (Olszak, 2013), el Centro de Información se estableció tradicionalmente como una


organización central de apoyo, diseñada para proporcionar un conjunto de servicios para

11
los usuarios finales y para actuar como enlace entre los usuarios no técnicos y las TI.
Era un centro de competencia que proporcionaba una ayuda invaluable para que los
usuarios aprendieran las destrezas apropiadas en las herramientas apoyadas en la
organización. El CI (Centro de Información), como era típicamente llamado, fue capaz de
identificar dónde residían los datos, cómo llegar a él, y qué herramientas recomendar y
proporcionar capacitación en las herramientas y el apoyo continuo.

Varios CIs se convirtieron en centros de competencias de PC (Computadoras


Personales) a medida que la computadora personal emergió como la nueva herramienta
para el procesamiento. Pero la aparición de hojas de cálculo en el mercado llevó a la
desaparición de los CIs.

A finales de la década de los ochenta se produjo una revolución similar al lemming-like


para soportar los sistemas cliente / servidor. Los principios básicos detrás de esta
revolución fueron:

• Los mainframes eran caros y anticuados.

• Los datos deben residir en cajas más pequeñas y menos costosas.

• La lógica y los cálculos se realizaron en la base de datos del servidor y en las


herramientas del usuario final.

• El procesamiento distribuido sería la norma.

A finales de la década de 1980 y los principios de la década de 1990 se introdujo el


concepto de almacén de información, este concepto significa que todos los datos se
dejarían tal como están pero se accederán desde cualquier lugar con cualquier
herramienta.

Las tecnologías elaboradas emergieron mientras que muchos intentaron definir


relaciones de datos complejas para tener acceso a ella por la interconexión entre
“plumbing and wiring” el software y el hardware. Los usuarios podían conseguir los datos
in situ y realizar el análisis. Para (Olszak, 2013) hubo muchos aspectos negativos
relacionados con este enfoque, entre ellos los siguientes:
12
• Existía anomalías o error en los datos.

• Muchas aplicaciones de BI requieren datos de fuentes múltiples y dispares que


necesitan ser combinadas y unidas, por lo tanto, la complejidad y los volúmenes
de datos eran extremos.

• La validación y calificación de los resultados para la exactitud fue problemática.

• La falta de rendimiento fue un gran problema.

Sin embargo, para cada aspecto positivo del enfoque IW fue que todos se dieron cuenta
de que existía un requisito muy fuerte de metadatos. Debido a que había tantas fuentes
diferentes y definiciones, tenía que haber una manera de definir y comprender no sólo
los datos originales, sino también cualquier nueva definición y términos que se aplicaban.

13
5 LUGAR DONDE SE REALIZÓ EL PROYECTO

El Instituto Tecnológico de Chetumal (ITCH), es una institución pública de educación


superior ubicada en Chetumal, Quintana Roo, México.

Este proyecto se llevó a cabo en el Instituto Tecnológico de Chetumal con dirección Av.
Insurgentes No. 330, C.P. 77013 Col. David Gustavo Gtz. Chetumal, Quintana Roo, en
el departamento de Sistemas Computacionales

Actualmente, el Instituto Tecnológico de Chetumal imparte 10 carreras a nivel de


licenciatura y 3 a nivel posgrado.

Historia: El 8 de octubre de 1975, inició sus operaciones el Instituto Tecnológico Regional


de Chetumal, contando con las carreras de Licenciatura en Administración de Empresas
e Ingeniería Civil en Desarrollo de la Comunidad. Convirtiéndose en la primera Institución
de educación a nivel superior en el Estado y por ello la máxima casa de estudios de
Quintana Roo.

Oferta Educativa

 Licenciaturas
 Administración
 Contador Público
 Arquitectura
 Biología

Ingenierías

 Ingeniería Eléctrica
 Ingeniería Civil
 Ingeniería en Administración
 Ingeniería en Gestión Empresarial
 Ingeniería en Sistemas Computacionales
 Ingeniería Tecnologías de la Información Y Comunicaciones

14
Posgrados

 Maestría en Construcción.
 Manejo de Zonas Costeras.

La misión, la visión y las políticas principales de esta Institución son proporcionadas a


continuación:

5.1 Misión: Formar profesionistas competentes en educación superior tecnológica,


impulsores de una sociedad justa, equitativa y humana, capaces de responder a los
retos de la modernización, a través de aprendizajes significativos y de calidad.

5.2 Visión: Ser una institución educativa moderna, de alto desempeño, formadora de
profesionales con calidad, que contribuyan al desarrollo del estado y del país dentro del
proceso de internacionalización, con base en la mejora continua.

5.3 Política de Calidad: El Instituto Tecnológico de Chetumal establece el compromiso


de implementar todos sus procesos, orientándolos hacia la satisfacción de sus clientes
sustentada en la calidad del proceso educativo, para cumplir con sus requisitos mediante
la eficacia de un Sistema de gestión de la calidad y de mejora continua, conforme a la
norma ISO 9001:2008/NMX-CC-9001-IMNC-2008.

5.4 Política de Ambiental: “EL ITCH establece el compromiso de implementar todos sus
procesos, orientándolos hacia la satisfacción de sus clientes sustentada en la Calidad
del proceso Educativo, así como las actividades y servicios hacia el respeto del medio
ambiente, cumplir la legislación ambiental aplicable y otros requisitos; promover en su
personal, clientes y partes interesadas la prevención de la contaminación y el uso
racional de los recursos, mediante la implementación, operación y mejora continua de un
Sistema de Gestión Ambiental conforme a la norma ISO 14001:2004”

15
6 FUNDAMENTO TEÓRICO

6.1 Definición de Inteligencia de Negocios

Para (RANJAN, 2009) la Inteligencia de Negocio, o por su siglas en ingles BI, es un


término que se refiere a una variedad de aplicaciones de software utilizadas para analizar
datos en brutos de una organización. BI como una disciplina se compone de varias
actividades relacionadas, incluyendo minería de datos, procesamiento analítico en línea,
consulta y presentación de informes.

Las empresas utilizan BI para mejorar la toma de decisiones, reducir costos e identificar
nuevas oportunidades de negocio. BI es algo más que un simple reporte corporativo y
más que un conjunto de herramientas para extraer datos de los sistemas empresariales.
Los CEO (Central Inteligencie Office) utilizan BI para identificar procesos de negocio
ineficientes y que están maduros para el business process management.

Con las herramientas de BI actuales, la gente de negocios puede entrar y comenzar a


analizar los datos por sí mismos, en lugar de esperar a que la TI ejecute informes
complejos.

Los ejecutivos tienen que asegurarse de que los datos que alimentan las aplicaciones de
BI son limpios y consistentes para que los usuarios confíen en él.

La siguiente tabla consiste de algunas técnicas del BI, (RANJAN, 2009) ,

Stackowiak (2007) define la inteligencia de negocios como el proceso de tomar grandes


cantidades de datos, analizando esos datos y presentando un conjunto de informes de
alto nivel que condensan la esencia de esos datos en la base de las acciones
empresariales, decisiones empresariales.

Ver BI como forma y método de mejorar el desempeño del negocio proporcionando


asistencias poderosas para que el encargado de tomar decisiones ejecutivas les permita
tener información actuable a mano. Las herramientas de BI se ven como la tecnología

16
que permite la eficiencia de la operación del negocio, proporcionando un mayor valor a
la información de la empresa y por lo tanto la forma en que se utiliza esta información.

Zeng (2006) define BI como "El proceso de recopilación, tratamiento y difusión de


información que tiene un objetivo, la reducción de la incertidumbre en la toma de todas
las decisiones estratégicas". Los expertos describen Business Intelligence como un " Y
las tecnologías que se utilizan para reunir, proporcionar acceso para analizar datos e
información sobre una empresa, con el fin de ayudarles a tomar mejores decisiones de
negocios informados.

6.2 Componentes de Business Intelligence

6.2.1 OLAP (On-line analytics processing)

Procesamiento analítico en línea u OLAP proporciona vistas multidimensionales y


resumidas de los datos empresariales y se utiliza para la generación de informes,
análisis, modelado y planificación para optimizar el negocio. Las técnicas y herramientas
OLAP se pueden utilizar para trabajar con almacenes de datos o data marts diseñados
para sistemas de inteligencia empresarial sofisticados. Estos sistemas procesan
consultas necesarias para descubrir tendencias y analizar factores críticos. El software
de generación de informes genera vistas agregadas de los datos para mantener a la
administración informada sobre el estado de su negocio.

6.2.1.1 Advanced Analytics


Se denomina minería de datos, previsión o análisis predictivo, esto aprovecha las
técnicas de análisis estadístico para predecir o proporcionar medidas de certeza sobre
los hechos.

6.2.1.2 Corporate Performance Management (Portals, Scorecards, Dashboards)


Este componente ayuda proporcionar un contenedor para varias piezas para conectar
de modo que el agregado cuenta una historia. Por ejemplo, un cuadro de mando integral
que muestra portlets para métricas financieras combinadas con el aprendizaje
organizacional y las métricas de crecimiento.

17
6.2.1.3 Real time BI
Permite la distribución en tiempo real de métricas a través de correo electrónico, sistemas
de mensajería y / o pantallas interactivas.

6.2.1.4 Data Warehouse and Data Marts


Almacén de datos y data marts: El almacén de datos es el componente importante de la
inteligencia de negocios. Está orientado al tema, integrado. El almacén de datos soporta
la propagación física de datos mediante el manejo de los numerosos registros
empresariales para tareas de integración, limpieza, agregación y consulta.

También puede contener los datos operacionales que se pueden definir como un
conjunto actualizable de datos integrados que se utilizan para la toma de decisiones
tácticas en toda la empresa de un área temática en particular. Contiene datos en directo,
no instantáneas, y conserva un historial mínimo. Las fuentes de datos pueden ser bases
de datos operativas, datos históricos, datos externos, por ejemplo, de empresas de
investigación de mercado o de Internet) o información del entorno de almacén de datos
ya existente.

Las fuentes de datos pueden ser bases de datos relacionales o cualquier otra estructura
de datos que soporte la línea de aplicaciones empresariales. También pueden residir en
muchas plataformas diferentes y pueden contener información estructurada, como tablas
o hojas de cálculo, o información no estructurada, como archivos de texto sin formato o
imágenes y otra información multimedia.

6.2.1.5 Data Sources


Las fuentes de datos pueden ser bases de datos operativas, datos históricos, datos
externos o información del entorno de almacén de datos ya existente. Las fuentes de
datos pueden ser bases de datos relacionales o cualquier otra estructura de datos que
soporte la línea de aplicaciones empresariales. También pueden residir en muchas
plataformas diferentes y pueden contener información estructurada, como tablas o hojas
de cálculo, o información no estructurada, como archivos de texto sin formato o imágenes
y otra información multimedia.

18
6.2.2 Técnicas

El procesamiento analítico en línea u OLAP proporciona vistas multidimensionales y


resumidas de los datos empresariales y se utiliza para la generación de informes,
análisis, modelado y planificación para optimizar el negocio. Las técnicas y herramientas
OLAP pueden utilizarse para trabajar con almacenes de datos o datamarts diseñados
para sistemas de inteligencia empresarial sofisticados.

Tabla 1. Técnicas actuales de Bussines Intelligence

Técnicas Descripción

Modelado predictivo Predecir valor para un atributo de


elemento de datos específico.

Caracterización y minería de datos Distribución de datos, dispersión y


descriptivos excepción.

Asociación, correlación, análisis de Identificar las relaciones entre los


causalidad (Link Analysis) atributos.

Clasificación Determinar a qué clase pertenece un


elemento de datos.

Clustering y análisis de valores anómalos Partición de un conjunto en las clases,


por lo que los elementos con
características similares se agrupan

Análisis de patrones temporales y Tendencia y desviación, patrones


secuenciales secuenciales, periodicidad

OLAP (procesamiento de análisis en OLAP herramientas de usuarios para


línea) analizar las diferentes dimensiones de los
datos multidimensionales. Por ejemplo,
proporciona vistas de series de tiempo y
análisis de tendencias.

Visualización de modelos Hacer que los conocimientos


descubiertos sean entendidos mediante
gráficos, gráficos, histogramas y otros
medios visuales.

Análisis exploratorio de datos Explora un conjunto de datos sin una


fuerte dependencia de asumidos o

19
Tabla 1. Técnicas actuales de Bussines Intelligence

Técnicas Descripción
modelos; El objetivo es identificar los
patrones de una manera exploratoria.

Fuente. (RANJAN, 2009)

OLAP (On-line analytical processing). Se refiere a la forma en que los usuarios de


negocios pueden cortar su camino a través de datos, utilizando herramientas sofisticadas
que permiten la navegación de dimensiones, tales como el tiempo o las jerarquías
(RANJAN, 2009).

Estos sistemas procesan consultas necesarias para descubrir tendencias y analizar


factores críticos. El software de generación de informes genera vistas agregadas de los
datos para mantener a la administración informada sobre el estado de su negocio.

Otras herramientas de BI se utilizan para almacenar y analizar datos, como minería de


datos y almacenes de datos, por ejemplo sistemas de apoyo a la toma de decisiones y
previsión; almacenes de documentos y gestión de documentos; Gestión del
conocimiento; Mapeo, visualización de información.

BestTech

Los conceptos clave y las relaciones del Modelo Inteligencia de Negocios (BIM) son los
Objetivos, la situación, la influencia y los indicadores. (Jennifer Horkoff, 2013).

Visión general de los enfoques de razonamiento

Si se construye un modelo BIM de arriba hacia abajo, obteniendo las metas y estrategias
relevantes antes de derivar u obtener indicadores, el razonamiento debe operar en
ausencia de valores indicadores. Estos modelos, utilizados como parte de la planificación
estratégica, a menudo resultan en estrategias alternativas. Es importante poder analizar
y comparar estrategias en un nivel alto. Las técnicas que facilitan el análisis estratégico
utilizando las metas empresariales que se han utilizado durante mucho tiempo, como

20
parte del análisis orientado a objetivos. Estos procedimientos propagan evidencia
cualitativa o cuantitativa a través de enlaces en el modelo para evaluar

6.2.3 Propagación Cuantitativa.

La propagación cuantitativa demuestra un razonamiento cualitativo particular para el


modelado de objetivos adaptado para BIM. Varios procedimientos existentes
proporcionan propagación similar utilizando escalas cuantitativas (Flores Ibarra, 2015).

En la figura 1, muestra la tabla de reglas de propagación, los cuales se ajustan para


acomodar los valores cuantitativos, usando las fuerzas de enlace y los operadores min /
max sobre los enlaces AND / OR. Este procedimiento pretende que los números
resultantes representen valores probabilísticos, como en una red bayesiana. Si se
aplicara a los modelos BIM, se utilizarían indicadores cuantitativos probabilísticos.

Figura 1. Tabla Cuantitativa de Reglas de Propagación

Fuente. (Flores Ibarra, 2015)

6.2.4 Método de ajuste de curvas

El ajuste de curvas consiste en encontrar una curva que contenga una serie de puntos y
que posiblemente cumpla una serie de restricciones adicionales. Esta sección es una
introducción tanto a la interpolación.

Salvador (2008), establece que el ajuste de curvas es un proceso mediante el cual, dado
un conjunto de N pares de puntos {xi, yi}, x siendo la variable independiente e y la
dependiente, se determina una función matemática f(x) de tal manera que la suma de los
cuadrados de la diferencia entre

21
6.2.5 Variables Aleatorias

Las variables aleatorias son aquellas que tienen un comportamiento probabilístico en la


realidad (Eduardo Garcia Dunna, 2013). Un ejemplo de esto será tomar el número de
clientes que llegan cada hora a un banco, los factores que influyen en estas variables
son: el momento del día, la hora del día, el día de la semana entre otros. Debido a las
características, las variables aleatorias deben cumplir reglas de distribución de
probabilidad como los siguientes:

 La suma de las probabilidades asociadas a todos los valores posibles de la


variable aleatoria ´x´ es uno.
 La probabilidad de que un posible valor de la variables ´x´ se presente siempre
es mayor que o igual a cero.
 El valor esperado de la distribución de la variable aleatoria es la media de la
misma, la cual a su vez estima la verdadera media de la población.
 Si la distribución de probabilidad asociada a una variable aleatoria está definida
por más de un parámetro, dichos parámetros pueden obtenerse mediante un
estimador no sesgado. Por ejemplo, la varianza de la problacion ơ2 puede ser
estimado usando la varianza de una muestra que es s 2. De la misma manera, la
desviación estándar de la población ơ, puede estimarse mediante la desviación
estándar de la muestra s.

22
Tipos de variables aleatorias

Hay dos tipos de variables aleatorias las cuales son:

6.2.6 Variables aleatorias discretas.

Para (Eduardo Garcia Dunna, 2013), las variables aleatorias discretas son aquellas que
deben cumplir con los siguientes parámetros:

𝑃(𝑥) ≥ 0

∑ 𝑝𝑖 = 1
𝑖=0

𝑃(𝑎 ≤ 𝑥 ≥ 𝑏) = ∑ 𝑝𝑖 = 𝑃𝑎 + ⋯ + 𝑃𝑏
𝑖=𝑎

6.2.7 Variables aleatorias continuas.

Las variables aleatorias continuas se representan mediante una ecuación que se conoce
como función de densidad de probabilidad (Eduardo Garcia Dunna, 2013). Dada esta
condición, se cambia el uso de la sumatoria pro la de una integral para conocer la función
acumulada de la variable aleatoria. Conforme a Eduardo García Dunna (2013) las
variables aleatorias continuas deben cumplir los siguientes parámetros:

𝑃(𝑥) ≥ 0

𝑃(𝑥 = 𝑎) = 0

∫ 𝑓(𝑥) = 1
−∞

𝑏
𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = 𝑃(𝑎 < 𝑥 < 𝑏) = ∫ 𝑓(𝑥)
𝑎

23
6.2.8 Pronósticos

Según (Cohen, 2008), un pronóstico es la predicción de lo que sucederá con un elemento


determinando dentro del marco de un conjunto dado de condiciones. Se diferencia del
presupuesto porque este último es el resultado de decisiones encaminadas a generar las
condiciones que proporcionaran un nivel deseado de dicho elemento.

En el entorno actual las tecnologías de información y comunicaciones han transformado


los sistemas de innovación y el papel del pronóstico y la prospectiva. La prospectiva
buscar dar respuestas efectivas a la necesidad de recolectar, integrar y relacionar
información relevante, mediante metodologías y herramientas que permiten realizar
análisis robustos de la realidad.

Un pronóstico nos sirve como una base, un criterio, una justificación para el curso de
acción que se decidirá tomar, porque a partir del pronóstico que se genere, se toma una
decisión.

Los métodos de pronóstico se pueden clasificar en dos grandes grupos, los cuales son:

6.2.8.1 Cualitativos
a. Método de Jurado de opinión ejecutiva:

En este método se agrupan las opiniones de un grupo de expertos de alto nivel o


de directivos, a menudo en combinación con modelos estadísticos. Se debe tener
en mente la desventaja de la interacción grupal, ya que un grupo de personas no
garantiza que se conozca realmente del tema.

b. Método Delphi

En un proceso iterativo grupal, con ciertas reglas y metodologías, mediante el cual


se pretende maximizar las ventajas que presentan los métodos basados en
grupos de expertos y minimizar sus inconvenientes. Se logra mediante el
anonimato, una iteración con retroalimentación controlada, y la expresión de los
resultados mediante una distribución estadística.

24
c. Proposición de personal comercial

Se agrupan y revisan estimación de ventas esperadas por el vendedor, y luego se


obtiene un pronóstico global.

d. Estudio de mercado

Requiere información de los clientes sobre sus intenciones futuras de compra.


Esto incluye tanto sus preferencias, experiencia con el producto, y necesidades,
como una definición del precio máximo que estarán dispuestos a pagar o la
cantidad que demandaría a un determinado precio.

6.2.8.2 Cuantitativos
a. Enfoque Simple

Este método supone que la demanda en el próximo periodo será igual a la


demanda del periodo más reciente. Es la mejor predicción para los precios de
insumos, acciones entre otros.

b. Serie de Tiempo

Es una secuencia de datos uniformemente espaciada. Se obtiene observando las


variables en periodos de tiempo regulares. Se trata de un pronóstico basado en
los datos pasados, en otras palabras este método supone que los factores que
han influido en el pasado lo seguirían haciendo en el futuro.

25
La tendencia es el movimiento gradual de ascenso de descenso de los datos a lo
largo del tiempo. Los cambios en la población, ingresos etc, influyen en la
tendencia, ver figura 2.

Figura 2. Cuantitativos Serie de Tiempo

Fuente. (Cohen, 2008)


La estacionalidad es la existencia de un patrón periódico de comportamiento de
los datos. Se puede deber a la climatología, las costumbres, y producirse dentro
de un periodo diario, semanal, mensual, o anual.

Las variaciones aleatorias que son “saltos” en los datos causados por el azar y
situaciones inusuales. Son de corta duración y no se repiten, o al menos no lo
hacen con una frecuencia determinada. Al ser aleatorias, no se pueden predecir.

c. Media Simple

En este método pronosticamos un valor futuro similar al promedio de todos los


valores pasados.

Dentro de las ventajas del método tenemos que es muy amortiguado, por lo cual
no encontramos grandes saltos, y es muy simple de comprender por cualquier
persona.

26
El problema es que al tener en cuenta todos los datos históricos, llega un momento
donde los valores reales que se agregan prácticamente no modifican el pronóstico
futuro. Aun así, en algunas ocasiones se utiliza.

d. Media Móvil

Consiste simplemente en tomar el promedio aritmético de los últimos ‘n’ períodos.


El valor de ‘n’ se elige en función a la influencia que queramos que tenga la historia
más antigua en la predicción de los valores futuros.

∑ 𝑑𝑒𝑚𝑎𝑛𝑑𝑎 𝑑𝑒 𝑛 𝑝𝑒𝑟𝑖𝑜𝑑𝑜𝑠
𝑀𝑀 =
𝑛

Un valor de ‘n’ muy chico, hará que los pronósticos sigan más cerca de los últimos
valores reales, mientras que un valor de ‘n’ más grande, se traduce en una curva
más amortiguada aunque, por el mismo motivo, también de una menor velocidad
de cambio.

Se utiliza si no hay tendencia o si ésta es escasa. Se suele utilizar para alisar la


curva, facilitando una lectura general de los datos.

Casos particulares: Si sólo consideráramos 1 período previo para el cálculo de la


media móvil, estaríamos utilizando la Estimación Simple.

e. Media Móvil Ponderada

Se utiliza cuando se presenta una tendencia. Los datos anteriores pierden


importancia relativa. Las ponderaciones se basan en la intuición. Ante cambios
importantes de la demanda, puede seguir siendo muy lenta la respuesta.

∑(𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑐𝑖ó𝑛 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑛)(𝑑𝑒𝑚𝑎𝑛𝑑𝑎 𝑒𝑛 𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑛)


𝑀𝑒𝑑𝑖𝑎 𝑚ó𝑣𝑖𝑙 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑎 = ∑ 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑐𝑖𝑜𝑛𝑒𝑠

Casos particulares: Si le asignáramos el mismo peso (factor de ponderación) a


cada uno de los “n” períodos elegidos, estaríamos utilizando la Media Móvil.

27
f. Suavización Exponencial

Cohen (2008), muestra un caso especial de pronóstico de media móvil ponderada,


donde ahora los factores de ponderación disminuyen exponencialmente, dándole
más peso a los períodos más recientes. Se necesita una constante de alisado (α
αα α), que toma valores entre 0 y 1, eligiéndola de forma subjetiva. Ventaja:
necesita una cantidad reducida de datos históricos.

𝐹𝑡 = 𝐹𝑡−1 +∝ (𝐴𝑡−1 − 𝐹𝑡−1 )

Donde 𝐹𝑡 = 𝑃𝑟𝑜𝑛ó𝑠𝑡𝑖𝑐𝑜

𝐴𝑡 = 𝑉𝑎𝑙𝑜𝑟 𝑟𝑒𝑎𝑙

∝ = 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑎𝑙𝑖𝑠𝑎𝑑𝑜

6.2.9 Prueba de Anderson Darling

La prueba de Anderson-Darling es una prueba estadística de si una determinada muestra


de datos se extrae de una distribución de probabilidad dada, esta prueba se dio a conocer
en 1954.

En su forma básica, la prueba supone que no hay parámetros a estimar en la distribución


que se está probando, en cuyo caso la prueba y su conjunto de valores críticos está libre
de distribución. Sin embargo, la prueba se utiliza con mayor frecuencia en contextos en
los que se está probando una familia de distribuciones, en cuyo caso es necesario
estimar los parámetros de esa familia y tener en cuenta esto al ajustar la estadística de
prueba o sus valores críticos.

Cuando se aplica a la prueba de si una distribución normal describe adecuadamente un


conjunto de datos, es una de las herramientas estadísticas más poderosas para detectar
la mayoría de las salidas de la normalidad.

28
El procedimiento general de la prueba es:

1. Obtener ‘n’ datos de la variable aleatoria a analizar


2. Calcular la media y la variable de los datos.
3. Organizar los datos en forma ascendente.
4. Ordenar los datos en forma descendentes
5. Establecer de manera explícita la hipótesis nula, al proponer una distribución de
probabilidad.
6. Calcular la probabilidad esperada acumulada para cada número, y la probabilidad
esperada acumulada para cada número, a partir de la función de probabilidad
propuesta.
7. Calcular el estadístico de prueba.
8. Ajustar el estadístico de prueba de acuerdo con la distribución de probabilidad
propuesta.
9. Definir el nivel de significancia de la prueba, y determinar su valor crítico.
10. Comprar el estadístico de prueba con el valor crítico. Si el estadístico de prueba
en menor que el valor critico no se puede rechazar la hipótesis nula.

6.2.10 Modelo DIKW

Según (Figuerola, 2006), la mayoría de nosotros necesitamos de conocimientos como


base para hacer bien nuestro trabajo, y esto requiere conocimientos específicos, no
importa cuál es nuestro trabajo, todos necesitamos de este tipo de conocimientos para
ser efectivos. Esta es la razón por la cual la Gestión del Conocimiento (Knowledge
Management) es tan importante.

La gestión del conocimiento es la práctica de organizar, almacenar y compartir


información vital, para que todos puedan beneficiarse de su uso.

La Gestión del Conocimiento (del inglés Knowledge Management) es un concepto


aplicado en las organizaciones. Tiene el fin de transferir el conocimiento desde el lugar
dónde se genera hasta el lugar en dónde se va a emplear, e implica el desarrollo de las

29
competencias necesarias al interior de las organizaciones para compartirlo y utilizarlo
entre sus miembros, así como para valorarlo y asimilarlo.

Podemos decir que la Gestión del Conocimiento son un conjunto de técnicas y


herramientas para almacenar, distribuir, compartir y comunicar datos e información.
Mejora las comunicaciones y el conocimiento. Permite el aprendizaje continuo a través
de experiencias pasadas o lecciones aprendidas, que han sido previamente capturadas
y almacenadas.

El Gartner Group (2016) define el KM, como, "La gestión del conocimiento es una
disciplina que promueve un enfoque integrado para identificar, capturar, evaluar,
recuperar y compartir todos los activos de información de una empresa. Estos activos
pueden incluir bases de datos, documentos, políticas, procedimientos y conocimientos
antes no capturados y experiencia en trabajadores individuales".

El origen de la Gestión de Conocimientos, tal como el término se entiende hoy, surgió en


la comunidad de consultoría y de allí los principios se extendieron rápidamente por las
organizaciones a otras disciplinas.

Las empresas de consultoría se dieron cuenta rápidamente del potencial de Internet para
vincular entre sí sus propias organizaciones geográficamente dispersas y basadas en el
conocimiento. Una vez adquirida la experiencia en la forma de aprovechar las
comunicaciones para conectarse a través de sus organizaciones y para compartir y
gestionar la información y el conocimiento, rápidamente se dieron cuenta que la
experiencia o el conocimiento adquirido era un producto que podía ser vendido a otras
organizaciones. Un nuevo producto, por supuesto, necesitaba un nombre, y el nombre
elegido, fue la Gestión del Conocimiento.

El entusiasmo por el capital intelectual en la década de 1980, era muy elevado dado el
alto reconocimiento de la información y el conocimiento como bienes esenciales para
cualquier organización. Quizás el impulso más céntrico del KM es capturar y poner a
disposición, para que pueda ser utilizada por otras personas en la organización, la

30
información y el conocimiento que está en cabeza de la gente, y que nunca se ha
establecido de forma expresa.

6.2.11 Tipos de Conocimiento

Existen dos tipos diferentes de conocimiento:

6.2.11.1 Conocimiento Explícito


Es el que sabemos, tenemos y somos plenamente conscientes cuando lo ejecutamos,
es el más fácil de compartir con los demás ya que se encuentra estructurado y muchas
veces esquematizado para facilitar su difusión.

Este conocimiento es fácilmente articulable y se puede comunicar y transmitir de forma


sencilla. Este tipo de conocimiento no es tan personal, sino que puede ser adquirido por
cualquier miembro en una organización. Un manual que contenga las especificaciones
de un producto; una fórmula científica; un software informático, son ejemplos de
conocimiento explícito.

6.2.11.2 Conocimiento Tácito


Es aquel que permanece en un nivel “inconsciente”, se encuentra desarticulado y lo
implementamos y ejecutamos de una manera mecánica sin darnos cuenta de su
contenido, es algo que sabemos pero que nos resulta muy difícil explicarlo.

En este caso se trata del conocimiento personal o propio del individuo. Este conocimiento
se halla profundamente imbricado en la mente de la persona y ampliamente relacionado
con la experiencia práctica.

El conocimiento explícito incluye cosas que uno puede pasar fácilmente a otra persona
mediante la enseñanza o colocándola en algún medio público, una base de datos o un
libro. Explicarle los protocolos de seguridad de su compañía a un nuevo miembro del
equipo es una forma de demostrar el conocimiento explícito. El conocimiento tácito es
menos cuantificable, es aprendido más a menudo por la experiencia. Es la materia que
usted sabe, pero no necesariamente saben que usted lo sabe.

31
6.2.12 La Pirámide DIKW

Palabras como "datos", "información" y "conocimiento" se usan indistintamente. Pero hay


algunas diferencias importantes:

• Datos: Los datos son un hecho concreto o cifras sin ningún contexto o carentes de
significado. Por ejemplo, 1650, 9,6%, $709.7 miles de millones, son datos. Sin nada más
que los definan, estos dos elementos de datos no tienen mucho sentido.

• Información: Es la aplicación de un orden estructurado a los datos con el propósito de


que tengan algún significado. La información es un dato que está organizado. De este
modo podemos decir que 1650 son los puntos de S&P, 9,6% es la desocupación y $709.7
miles de millones fue el PIB de Argentina en el 2011.

• Conocimiento: La comprensión de un tema específico, a través de la experiencia (o


educación). Normalmente se utiliza el conocimiento en términos de una habilidad o
pericia personal en un área determinada. El conocimiento general refleja una
comprensión empírica, más que intuitiva. Se construye por sobre la información para
darnos un contexto. La diferencia clave entre el conocimiento y la información es que el
conocimiento nos da poder para tomar medidas.

• Sabiduría: Es el juicio óptimo, lo que refleja un profundo conocimiento de las personas,


cosas, eventos o situaciones. Una persona que tiene la sabiduría puede aplicar
efectivamente la percepción y el conocimiento con el fin de producir los resultados
deseados. Es la comprensión de la realidad objetiva dentro de un contexto más amplio.

En la figura 3 se nota la Pirámide DIKW, también conocida como el "la Jerarquía o la


“Cadena DIKW”, se refiere a una clase de modelos para la representación de las
relaciones estructurales y/o funcionales supuestas entre los datos, la información, el
conocimiento y la sabiduría. Por lo general la información se define en términos de datos,
conocimientos en materia de información y sabiduría en términos de conocimiento.

32
Figura 3. DIKW Hierarchy

Fuente. Minder Chen (1996-2013)


6.2.13 Estadística normal

Para Sierra Bravo (1991), la estadística es ¨la ciencia formada por un conjunto de teorías
y técnicas cuantitativas, que tiene por objetivos la organización, presentación,
descripción, resumen y comparación de conjuntos de datos numéricos, obtenidos de
poblaciones en su conjunto de individuos o fenómenos o bien de muestras que
representan las población estudiadas, así como el estudio de variación, propiedades,
relaciones, etc¨

6.2.14 Estadística Inferencial

Según Irma Nocedo de León (2001) dice que la estadística es la ciencia encargada de
suministrar la diferente técnica y procedimientos que permiten desde organizar la
recolección de datos hasta su elaboración, análisis e interpretación, abarca dos campos
fundamentales la estadística descriptiva y la estadística inferencial.

33
La estadística inferencial estudia el comportamiento y propiedades de las muestras y la
posibilidad y límites de la generalización de los resultados obtenidos a partir de aquellas
poblaciones que representan.

Su objetivos generalizar las propiedades de la población bajo estudio, basado en los


resultados de una muestra representativa de dicha población.

6.2.15 Distribución Normal

(Ortiz, 2008), establece el concepto de la distribución normal o también conocida como


distribución de Guss es la distribución más utilizada en la estadística, ya que constituye
en buen modelo para muchas aunque no para todas las poblaciones continuas.

La distribución normal es continua en vez de discreta. La media de una variable aleatoria


normal puede tener cualquier valor y la varianza cualquiera valor positivo. La función de
densidad de probabilidad de una variable aleatoria normal con media y varianza está
dada por:

1
𝑓(𝑥) = 𝑣 − (−) ∧ 2⁄22
√2

6.2.16 Distribución Lognormal

La distribución lognormal es útil para modelar datos de numerosos estudios médicos


tales como el periodo de incubación de una enfermedad etc.

Según (Ortiz, 2008) la distribución lognormal tiene una relación con la distribución
normal, es a menudo una buena opción para este conjunto de datos atípicos. La
distribución lognormal se deriva de la distribución normal de la siguiente manera: si X es
una variable aleatoria normal con media y varianza, entonces la variable aleatoria Y=e x
tiene distribución lognormal con parámetros µ y u2.

34
7 PROBLEMA A RESOLVER

La disminución del índice de reprobación y el aumento del índice de aprovechamiento


son una de las principales preocupaciones institucionales, ya que si el primero es muy
alto y el segundo muy bajo, la institución estaría en imposibilidad de acreditar las carreras
de Ingeniería en sistemas Computacionales e Ingeniería de la Información y
Comunicaciones.

Se ha visto una tendencia marcada y a la alza de un gran número de alumnos que


desertan o reprueban durante los primeros semestre, en las carreras Ingeniería en las
Tecnologías de la Información y Comunicaciones (ITIC) e Ingeniería en Sistemas
Computacionales (ISC); por eso es importante investigar los factores académicos que
influyen en el comportamiento planteado, adicionalmente buscar una explicación
matemática al comportamiento presentado por los alumnos para establecer estrategias
de mejora en el porcentaje de aprobados de dichas carreras.

35
8 DESCRIPCIÓN DE LAS ACTIVIDADES REALIZADAS

8.1 Búsqueda de información de Business Intelligence

Para poder tener mejor entendimiento sobre el análisis de los datos se buscó información
sobre Business Intelligence. En la primera actividad se llevó a cabo la búsqueda de
información, definición del Business Intelligence (Inteligencia de Negocios), entre otros
conceptos básicos, por consiguiente se inició a analizar la información de dichos
conceptos.

8.2 Análisis de la información

Las definiciones y conceptos encontrado en la primera actividad, fueron filtrados a


únicamente los que se harán útil para mejor entender lo que se hará para analizar los
datos. De igual manera se hico un filtrado de los libros y artículos encontrados sobre el
tema.

8.3 Búsqueda de algoritmos de Business Intelligence

En esta actividad se investigó sobre algoritmos de la minería de datos, cual es el


mecanismo de crear un modelo el cual analiza primero un conjunto de datos y luego
busca patrones y tendencias específicos. El algoritmo utiliza los resultados de este
análisis para definir los patrones del modelo de minería de datos. Los parámetros se
aplican a todo el conjunto de datos para extraer patrones procesables y estadísticas
detalladas.

El modelo de minería de datos que crea el algoritmo tomó diversas formas incluyendo:
un conjunto de reglas que describen como se agrupan los productos en una transición,
un modelo matemático que predice el índice de reprobación, y un conjunto que describe
como se relacionan los casos del conjunto de los datos.

8.4 Estudio de técnicas matemáticas para los algoritmos

Se hizo un estudio de técnicas matemáticas para los algoritmos encontrados, para


analizar el comportamiento, las características generales y particulares de los datos

36
proporcionados. El análisis de las técnicas matemáticas ayudó a entender mejor las
propiedades, para identificar los pronósticos y mejoras posteriores. De igual manera
permitió el desarrollo de una teoría útil para el análisis de otros algoritmos.

8.5 Análisis del algoritmo

Un algoritmo en minería de datos es un conjunto de heurísticas y cálculos que permiten


crear un modelo a partir de datos (Rokach, 2010). Para crear un modelo, el algoritmo
analiza primero los datos proporcionados, en busca de tipos específicos de patrones o
tendencias.
El algoritmo usa los resultados de este análisis en un gran número de iteraciones para
determinar los parámetros óptimos para crear el modelo de minería de datos. A
continuación, estos parámetros se aplican en todo el conjunto de datos para extraer
patrones procesables y estadísticas detalladas.
El modelo de minería de datos que crea un algoritmo a partir de los datos puede tomar
diversas formas, incluyendo:
 Un conjunto de clústeres que describe cómo se relacionan los casos de un
conjunto de datos.
 Un árbol de decisión que predice un resultado y que describe cómo afectan a este
los distintos criterios.
 Un modelo matemático que pronostica.
 Un conjunto de reglas que describen cómo se agrupan los datos en una
transacción, y las probabilidades de que dichos datos que se adquieran juntos.
8.6 Recolección de los datos de la empresa

Se recibió los datos del Instituto Tecnológico de Chetumal, recolectados en una página
de Excel.

8.7 Análisis de los datos

Se analizó los datos dados de la institución, esta información fue dividida para así poder
ser analizado. Los datos se ordenaron de la siguiente manera: carrera, materia, período,

37
grupo y calificación. A continuación, los datos fueron filtrados con Excel, con el fin de
tener un orden estándar de los datos.

El siguiente paso fue separar cada materia y cada grupo, con el fin de calcular su
información estadística y tener un número de porcentaje del número de estudiantes que
fracasaron por grupo.

8.8 Aplicación del algoritmo

Una vez realizados los pasos anteriores, se procedió a analizar el algoritmo y la


recolección de los datos de la institución, los datos fueron analizados y extraídos de su
forma en donde se encuentran para pasarlos a un medio, en el cual sea útil para trabajar,
y se comprobó los resultados de ProModel en Excel, para verificar los resultados, y se
crearon gráficas.

8.9 Análisis de los resultados

A los datos se le aplico el algoritmo y los resultados fueron analizados, si los resultados
no eran lo que se esperaba se volveriá a retomar el análisis de algoritmos y el procesos
se hará hasta que se obtengan los resultados requeridos.

8.10 Elaboración del reporte final

Por último tenemos la elaboración del reporte final, donde todo lo que se hizo, se
documentó.

38
9 RESULTADOS PARA INGENIERÍA EN SISTEMAS EN
COMPUTACIONALES

En la figura 4, se observa el resumen estadístico de la materia de Fundamentos de


Programación de la carrera de Ingeniería en Sistemas Computacionales. La materia
consiste de 19 grupos, abarcando el periodo escolar de agosto-diciembre 2012 al periodo
agosto-diciembre 2016, ya que estos fueron los datos proporcionados por la institución.

Figura 4. Índice de reprobación promedio por grupo para alumnos de ISC,


periodo agosto-diciembre 2012 a agosto-diciembre 2016.

Fuente. Aportación propia

El procedimiento llevado a cabo con dichos datos fue el filtrado por carrera, materia,
periodo, y por grupo; tomando en cuenta el porcentaje de reprobación por grupo y
recopilando estos porcentajes grupales e ingresándolo al software de ProModel, el cual
ayudó a tomar la mejor distribución de curvas.

39
En este caso ProModel arrojo que la distribución normal es la adecuada con una media
de 10.5 y una desviación típica de 6.34 como se puede ver en la figura 5. El siguiente
paso fue comprobar estos resultados manualmente utilizando el software de Excel.

Figura 5. Resultados de ProModel

Fuente. Aportación propia


En la figura 6 se observa el índice de reprobación semestral, en este caso la curva da un
coeficiente de determinación (R2) de 0.8097 utilizando una línea de tendencia polinomial
de orden 3. El resultado de dicho análisis se descarta ya que la predicción a futuro da un
coeficiente de determinación inválida.

Figura 6. Índice de reprobación semestral para alumnos de ISC, periodo agosto-


diciembre 2012 a agosto-diciembre 2016.

Fuente. Aportación propia

40
En el caso de Fundamentos de Programación de la carrera de Ingeniería
de Tecnologías de la Información y Comunicaciones (figura 7), se llevó a
cabo la misma secuencia de filtrado, y de igual manera se usó ProModel,
para tomar la mejor decisión de la distribución de la curva.

Figura 7. Índice de reprobación promedio por grupo para alumnos de ITIC,


periodo agosto-diciembre 2012 a agosto-diciembre 2016.

Fuente. Aportación propia


Esta materia consiste de 12 grupos los cuales se analizó el número de
reprobados por grupo y se recompilaron en ProModel el cual arrojó la
distribución normal con una media de 9.5 y una desviación típica de 7.92
(figura 8).

Figura 8. Resultados de ProModel

Fuente. Aportación propia

41
Esto se comprobó en Excel (figura 9), en donde se observa un coeficiente de
determinación de 0.7262 utilizando una línea de tendencia exponencial, de igual manera
este resultado se rechazó ya que la predicción del coeficiente de determinación es
inválida.

Figura 9. Índice de reprobación semestral para alumnos de ITIC,


periodo agosto-diciembre 2012 a agosto-diciembre
2016.

Fuente. Aportación propia

42
En el análisis de la materia de Matemáticas Discretas, solo se alcanzó la recopilación del
número de reprobados de la carrera de Ingeniería en Sistemas Computacionales (figura
10), ya que en la carrera de Ingeniería en Tecnología de la Información y
Comunicaciones no hubo suficientes datos.

Figura 10. Índice de reprobación semestral para alumnos de ISIC, periodo


agosto-diciembre 2012 a agosto-diciembre 2016.

Fuente. Aportación propia


Esta materia está compuesta de 18 grupos el cual se ingresaron los datos a ProModel y
arrojo un distribución de Lognormal con un mínimo de 1.2e+003, un mu de 7.1 y una
sigma de 3.3e-003 (figura 11).

Figura 11. Resultados ProModel

Fuente. Aportación propia

43
Esto fue comprobado manualmente en Excel (Figura 12), en donde se observa un
coeficiente de determinación de 0.8568, con una línea de tendencia polinomial de orden
3, el cual fue rechazado por un comportamiento errático al pronosticar a futuro.

Figura 12. Índice de reprobación semestral para alumnos de ISIC,


periodo agosto-diciembre 2012 a agosto-diciembre 2016.

Fuente. Aportación propia


En la figura 13 se observa los datos de la materia Cálculo Diferencial de la carrera de
Ingeniería en Sistemas Computacionales, el cual está compuesto de 18 grupos.

Figura 13. Índice de reprobación semestral para alumnos de ISIC,


periodo agosto-diciembre 2012 a agosto-diciembre 2016.

Fuente. Aportación propia

44
Estos datos fueron ingresados a ProModel el cual arrojo una distribución normal con una
media de 9.89 y una desviación típica de 7.85 (figura 14).

Figura 14. Resultados ProModel

Fuente. Aportación propia


A continuación se comprobó en Excel (figura 15) con un coeficiente de determinación
0.7042 utilizando un línea de tendencia de polinomial de orden 3 el cual fue rechazado
por ser un resultado muy errático.

Figura 15. Índice de reprobación semestral para alumnos de ISIC, periodo


agosto-diciembre 2012 a agosto-diciembre 2016.

Fuente. Aportación propia

45
En el caso de los datos de la materia de Cálculo Diferencia de la carrera de Ingeniería
en Tecnologías de la Información y Comunicaciones el cual está compuesto de 14 grupos
(figura 16).

Figura 16. Índice de reprobación semestral para alumnos de ITIC,


periodo agosto-diciembre 2012 a agosto-diciembre 2016.

Fuente. Aportación propia

Los datos fueron ingresados a ProModel el cual arrojo un resumen estadístico de la


distribución lognormal con un mínimo de -1.2e+003, mu de 7.09 y una sigma de 4.81e-
003, una normal con un media de 5.79 y la sigma de 5.81 (figura 17).

Figura 17. Resultados ProModel

Fuente. Aportación propia

Esto se comprobó en estos resultados fueron comprobados en Excel (Figura 18)

46
Figura 18. Índice de reprobación semestral para alumnos de ITIC,
periodo agosto-diciembre 2012 a agosto-diciembre 2016.

Fuente. Aportación propia

47
10 CONCLUSIONES Y RECOMENDACIONES

En esta investigación, se emplearon datos de las carreras en Ingeniería en Sistemas


Computacionales e Ingeniería en Tecnologías de Información y Comunicaciones,
específicamente, los relacionados con las listas de calificaciones de las asignaturas de
Fundamentos de Programación, Cálculo Diferencial y Matemáticas Discretas, por ser las
materias donde se ha detectado el mayor índice de reprobación por parte de los alumnos
de primer semestre.

Los datos analizados abarcan varios periodos escolares y el estudio se centra


principalmente en el índice de reprobación grupal. Inicialmente se hizo una estadística
descriptiva usando las medidas de tendencia central, para analizar el comportamiento de
los datos. Primordialmente, se trató de aplicar la regresión de mínimos cuadrados para
encontrar una curva que describa el comportamiento del índice de reprobación a lo largo
del tiempo. Asimismo, se buscó encontrar distribuciones de probabilidad que
describieran el comportamiento de las calificaciones grupales.

En el caso del estudio de regresiones, se puede afirmar que el comportamiento del índice
de reprobación es errático para las materias de Fundamentos de Programación y
Matemáticas Discretas. Aunque en el caso de la materia de Cálculo Diferencial, se
encontraron curvas que describen adecuadamente el comportamiento de la reprobación,
se podría suponer que el comportamiento de este indicador es, generalmente, errático.

Son tantas las variables que inciden en el proceso de enseñanza-aprendizaje que,


mientras no se vuelvan homogéneas muchas de ellas, no habrá un estudio de este tipo
que llegue a conclusiones significativas y perdurables. Entre las diferentes variables se
encuentra el nivel de preparación de los alumnos en los prerrequisitos de las asignaturas,
la estrategia empleada por el docente para impartir la asignatura, el tiempo destinado a
cada uno de los temas, el instrumento de evaluación empleado, la conducta del
catedrático, entre otras variables.

Algo interesante ocurrió con el estudio de inferencia estadística efectuado, donde se


estudió el número de reprobados por grupo. Para cada asignatura se encontró más de

48
una distribución de probabilidad que explicaba el comportamiento de los datos. Aunque
aquí se llegó a resultados satisfactorios, la utilidad de esos resultados se daría en
cuestiones de simulación, con la cual se podría hacer inferencias sobre la situación que
probablemente ocurra si no se llevan a cabo medidas preventivas. Esto último queda
más allá del alcance de este trabajo.

Dados los resultados anteriores, se infiere que el proceso de enseñanza-aprendizaje de


estas asignaturas es artesanal, es decir, “cada maestrito con su librito”. Hace falta pensar
en buscar un justo medio entre homogenización y libertad para muchas situaciones, tales
como los instrumentos de evaluación, las estrategias de enseñanza-aprendizaje, el nivel
académico de los alumnos en los antecedentes de cada asignatura e inclusive, la ética
de los alumnos.

Recomendaciones

El análisis de los datos

La calidad y el número suficiente de los datos usados en algunas técnicas son de vital
importancia, para su correcto funcionamiento, por ello antes de empezar a usar las
técnicas y los datos, se debe tener el cuidado de hacer o establecer los pasos a seguir
de acuerdo a la Inteligencia de negocios.

Éstas técnicas de análisis de datos, son muy útiles y efectivas porque describen la causa
y el efecto de las variables que se analizan, por tal razón es importante saber plasmar
las variables a ser analizadas, para comprender el comportamiento y el origen, con el
objetivo de establecer estrategias que coadyuven con el mejoramiento de los efectos de
las variables analizadas.

No son las únicas técnicas existentes para el análisis de los datos, pero en el caso
particular son las que se usaron y se recomendable incursionar y probar al menos unas
tres técnicas más para comparar y comprobar los resultados.

El uso de otras curvas, grados

49
La importancia del análisis del índice de reprobación en el Instituto Tecnológico de
Chetumal, pone énfasis a la necesidad de mejorar el porcentaje reprobatorio grupal para
las materias de Fundamentos de Programación, Matemáticas Discretas y Cálculo
Diferencial. A continuación se brindan las recomendaciones brevemente:

1. Que sea un hábito analizar los datos de las asignaturas, para tomar medidas
preventivas y correctivas a tiempo para así mejorar la situación.

2. Con la finalidad de mejorar el nivel de confiablidad de los resultados obtenidos


mediante inferencia estadísticos, ya que muchas pruebas de bondad de ajuste
exigen que sean por lo menos 30 datos.

3. Sería importante continuar con ésta clase de investigación, pero analizando las
causas u orígenes de la deserción.

50
11 COMPETENCIAS DESARROLLADAS Y/O APLICADAS

Algunas competencias desarrolladas son las siguientes:

 Competencias Instrumentales:
 Capacidad de análisis y síntesis
 Capacidad de organizar y planificar
 Conocimientos generales básicos
 Conocimientos básicos de la profesión
 Comunicaciones oral y escrita en la propia lengua
 Conocimiento de una segunda lengua
 Habilidades básicos de manejo del ordenador
 Habilidades de gestión de la información (habilidad para buscar y analizar
información proveniente de fuentes diversas)

Competencias sistemáticas:

 Capacidad de aplicar los conocimientos en la práctica.


 Habilidades de investigación
 Capacidad de aprender

51
12 REFERENCIAS BIBLIOGRÁFICAS Y/O APLICADAS

Adér, H. (2008). Phases and inital steps in data analysis. Netherlands: Johannes van
Kessel Publishing.

Carrasco, R. C. (2016). Análisis de impacto del Business Intelligence.

Cohen, I. R. (2008). Pronósticos. En I. R. Cohen, Pronósticos (pág. 9).

Eduardo Garcia Dunna, H. G. (2013). Simulacion y analisis de sistemas con ProModelo.


Mexico: Pearson.

Figuerola, N. (2006). Gestión del Conocimiento (Knowledge Management). En N.


Figuerola, Pirámide D-I-K-W (pág. 9).

Flores Ibarra, K. (2015). Comparación cuantitativa de modelos existentes para


propagación de ondas sísmicas.

Hsinchun Chen, R. H. (2012). BUSINESS INTELLIGENCE AND ANALYTICS: (Vol. 36).


MIS Quarterly.

Jennifer Horkoff, D. B. (2013). Strategic Business Modeling: Representation and


Reasoning. En J. Horkoff, Stratigic Business Modeling (pág. 39). Canda:
Department of Computer Science, University of Toronto.

Olszak, C. (2013). BUSINESS INTELLIGENCE. En C. Olszak, BUSINESS


INTELLIGENCE FOR INFORMATION SOCIETY (pág. 13). Poland: University of
Economics in Katowice, Poland.

Ortiz, L. G. (2008). Distribuciones De Probabilidad. Torreón: Carolin Ramos Galván.

RANJAN, J. (2009). BUSINESS INTELLIGENCE: CONCEPTS, COMPONENTS,


TECHNIQUES AND BENEFITS . En J. RANJAN, BUSINESS INTELLIGENCE
(pág. 11). India: Institute of Management Technology.

52
Rokach, O. M. (2010). Data Mining and Knowledge Discovery Handbook. . New York:
Springer.

Salvador, P. (2008). Ajuste de Curvas. En P. Salvador, Técnicas Computacionales, (pág.


9).

53
CRONOGRAMA PRELIMINAR DE ACTIVIDADES

54

Potrebbero piacerti anche