Sei sulla pagina 1di 14

J48 + K-means (POA)

ALUMNO:
INSTITUTO TECNOLÓGICO SUPERIOR DE

Apango Méndez Gustavo Adolfo

Número de Control:

18TE0013P
TEZIUTLÁN

Materia:
P.O.A.

Maestría en:
Sistemas Computacionales

Semestre:
2

ASESOR:
Padrón Rivera Gustavo

Teziutlán, Puebla; Mayo 2019

“ La Juventud de hoy, Tecnología del Mañana”


ÍNDICE
1.1 Introducción del algoritmo J48 ........................................................................................................................ 3
1.2 Validación cruzada ............................................................................................................................................................ 3
1.3 FSBD: A Framework for Scheduling of Big Data mining in Cloud Computing 5
1.4 Introducción de K-means ............................................................................................................................................. 5
1.5 Cómo funciona el algoritmo KMeans ............................................................................................................... 6
1.6 Aprendizaje supervisado ............................................................................................................................................. 7
1.7 Aprendizaje No supervisado .................................................................................................................................... 9
1.8 Eclipse .......................................................................................................................................................................................... 10
1.1 Introducción del algoritmo J48

El algoritmo J48 implementado en Weka es una versión del clásico


algoritmo de árboles de decisión entran dentro de los métodos de
clasificación supervisada, es decir, se tiene una variable dependiente
o clase, y el objetivo de clasificador es determinar el valor de dicha
clase para casos nuevos.

El proceso de construcción del árbol comienza por el nodo raíz, el que


tiene asociados todos los ejemplos o casos de entrenamiento. Lo primero
es seleccionar la variable o atributo a partir de la cual se va a
dividir la muestra de entrenamiento original (nodo raíz), buscando que
en los subconjuntos generados hay una mínima variabilidad respecto a
la clase. Este proceso es recursivo, es decir una vez que se haya
determinado la variable con la que se obtiene la mayor homogeneidad
respecto a la clase en los nodos hijos. Aunque en el límite este
proceso se detendría cuando todos los nodos hojas contuvieran casos
de una misma clase, no siempre se desea llegar a este extremo, para
lo cual se implementan métodos de pre-poda, para lo cual se implementan
métodos de pre-poda y post-poda de los árboles.

El algoritmo j48 amplía las funcionalidades del C 4.5, tales como


permitir la realización del proceso de post-poda del árbol mediante
un método basado en la reducción del error (reduced Error Pruming= o
que las divisiones osbre las variables discretas sean siempre binarias
(binarySplits), de acuerdo a la Rivera, Rosete y Rodríguez.

1.2 Validación cruzada

La validación cruzada es una herramienta estándar de análisis que


resulta muy útil a la hora de desarrollar y ajustar los modelos de
minería de datos. La validación cruzada se usa después de crear una
estructura de minería de datos y los modelos de minería de datos
relacionados para determinar la validez del modelo. La validación
cruzada tiene las siguientes aplicaciones:
 Validar la solidez de un modelo de minería de datos
determinado.
 Evaluar varios modelos de una instrucción única.
 Generar varios modelos e identificar a continuación el mejor
modelo basándose en estadísticas.

Se dividen las instancias en tantas carpetas como indica el parámetro


folds, y en cada evaluación se toman las instancias de cada carpeta
como datos de prueba, el resto como datos de entrenamiento para
construir el modelo. Los errores calculados serán el promedio de todas
las ejecuciones.

Dentro de los antecedentes, encontramos que con la promesa en la


demanda de recursos de cálculo/almacenamiento, muchos usuarios están
desplegando aplicaciones científicas intensivas de datos en la nube.
Para acelerar estas aplicaciones, la posibilidad de almacenar en caché
los datos intermedios mediante el cálculo elástico y el marco de
almacenamiento han demostrado ser prometedor.

Con este fin, se cree que un estudio de profundidad de las decisiones


de ubicación de caché a través de varias opciones de almacenamiento
de la nube sería altamente beneficioso para una gran clase de usuarios.
Aunque se han propuesto análisis tangenciales, la nuestra por el
contrario se centra en soluciones de compromiso coste-rendimiento de
mantener una caché de datos con varios parámetros de cualquier
aplicación en la nube. Se han comparado varios recursos de servicio
Web de Amazon (AWS) como posibles ubicaciones de memoria caché se
encontró que los atributos dependientes de aplicaciones como el tamaño
de unidad de datos, el tamaño total de la memoria caché, y la
persistencia, influyen poderosamente en el costo de sustento caché.

Por otra parte, mientras que las memorias cache basados en instancias
de esperar rendimiento más alto costo, el rendimiento que ofrecen puede
ser mayores opciones de menor costo.

Ahora, observemos que se ha aportado desde el análisis de datos por


medio de diferentes algoritmos ya establecidos:

Cloud computing data miniing to SCADA for energy management


1.3 FSBD: A Framework for Scheduling of Big Data mining in
Cloud Computing

La computación en la nube es vista como una tecnología emergente para


la minería de datos y análisis. La computación en nube puede
proporcionar resultados de minería de datos en forma de un software
como servicios (SAS). El rendimiento y la calidad de la minería son
criterios fundamentados para el uso de una aplicación de minería de
datos que nos brinda un entorno de computación en nube. En este
trabajo, se propone un marco computacional de la nube, que se encarga
de distribuir y programar una aplicación de minería de datos basados
en clúster y su conjunto de datos. El objetivo principal de esta
propuesta de marco para la programación de la Gran minería de datos
(FSBD) es disminuir el tiempo total de ejecución de la aplicación con
la mínima perdida en la calidad de la minería. Se considera que la
técnica de minería de datos basada en clúster como una aplicación
piloto para el marco.

Los resultados muestran un aumento de velocidad importante con una


pérdida con una pérdida mínima de la calidad de la minería. Se obtuvo
una relación de 2 de la normalizada actual makespan vis-a vis el
makepan ideal. La calidad de la minería de escala bien con el número
de grupos y el aumento del tamaño del conjunto de datos. Los resultados
son prometedores, el fomento de la adopción del marco por los
proveedores de la nube.

Con el rápido crecimiento de las aplicaciones emergentes como el


análisis social de redes, análisis Web semántica y análisis de redes
de bioinformática, una variedad de datos a procesar sigue siendo
testigo.

1.4 Introducción de K-means

K-Means

K-Means (traducido como K-Medias en español), es un método de


agrupamiento o clustering.

El clustering es una técnica para encontrar y clasificar K grupos de


datos (clusters). Así, los elementos que comparten características
semejantes estarán juntos en un mismo grupo, separados de los otros
grupos con los que no comparten características.

Para saber si los datos son parecidos o diferentes el algoritmo K-


medias utiliza la distancia entre los datos. Las observaciones que se
parecen tendrán una menor distancia entre ellas. En general, como
medida se utiliza la distancia euclideana aunque también se pueden
utilizar otras funciones.

1.5 Cómo funciona el algoritmo KMeans

Los algoritmos de clustering son considerados de aprendizaje no


supervisado. Este tipo de algoritmos de aprendizaje no supervisado
busca patrones en los datos sin tener una predicción específica como
objetivo (no hay variable dependiente). En lugar de tener una salida,
los datos solo tienen una entrada que serían las múltiples variables
que describen los datos.

K-means necesita como dato de entrada el número de grupos en los que


vamos a segmentar la población. A partir de este número k de clusters,
el algoritmo coloca primero k puntos aleatorios (centroides). Luego
asigna a cualquiera de esos puntos todas las muestras con las
distancias más pequeñas.

A continuación, el punto se desplaza a la media de las muestras más


cercanas. Esto generará una nueva asignación de muestras, ya que
algunas muestras están ahora más cerca de otro centroide. Este proceso
se repite de forma iterativa y los grupos se van ajustando hasta que
la asignación no cambia más moviendo los puntos. Este resultado final
representa el ajuste que maximiza la distancia entre los distintos
grupos y minimiza la distancia intragrupo.

La minería de datos o exploración de datos es un campo de la


estadística y las ciencias de la computación referido al proceso que
intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

Utiliza los métodos de la inteligencia artificial, aprendizaje


automático, estadística y sistemas de bases de datos.
El objetivo general del proceso de minería de datos consiste en extraer
información de un conjunto de datos y transformarla en una estructura
comprensible para su uso posterior…La tarea de minería de datos real
es el análisis automático o semi-automático de grandes cantidades de
datos para extraer patrones interesantes hasta ahora desconocidos,
como los grupos de registros de datos (análisis clúster), registros
poco usuales (la detección de anomalías) y dependencias (minería por
reglas de asociación). Esto generalmente implica el uso de técnicas
de bases de datos como los índices espaciales

1.6 Aprendizaje supervisado

Aprendizaje supervisado: funcionamiento y tipos

La primera modalidad de aprendizaje que tiene el machine learning es


la de aprendizaje supervisado. Usándola, se entrena al algoritmo
otorgándole las preguntas, denominadas características, y las
respuestas, denominadas etiquetas. Esto se hace con la finalidad de
que el algoritmo las combine y pueda hacer predicciones.

Existen, a su vez, dos tipos de aprendizaje supervisado:

· Regresión: tiene como resultado un número específico. Si las


etiquetas suelen ser un valor numérico, mediante las variables de las
características, se pueden obtener dígitos como dato resultante.
Clasificación: en este tipo, el algoritmo encuentra diferentes
patrones y tiene por objetivo clasificar los elementos en diferentes
grupos.
El algoritmo no está en capacidad de determinar a qué grupo pertenece
un valor o cuál es el resultado de una operación. Solamente logra
relacionar características con etiquetas y así obtener un resultado.

1.7 Aprendizaje No supervisado

A diferencia del aprendizaje supervisado, en el no supervisado solo


se le otorgan las características, sin proporcionarle al algoritmo
ninguna etiqueta. Su función es la agrupación, por lo que el algoritmo
debería catalogar por similitud y poder crear grupos, sin tener la
capacidad de definir cómo es cada individualidad de cada uno de los
integrantes del grupo.

¿Cómo se aplica esto en los softwares de automatización?

El funcionamiento del machine learning y sus dos modalidades son muy


fáciles de comprender. Pero, ¿cómo estos algoritmos pueden aplicarse
en la vida real? Aunque cualquier particular puede desarrollar
diferentes mecanismos simples y aplicarlos con algunos programas
informáticos, lo mejor es obtener softwares que hagan todo el trabajo
por ti, como los que ofrece WorkFusion.

Cualquier programa que aplique la machine learning puede simplificar


trabajos de bases de datos y por tanto, ahorrarle a muchos empleados
centenares de horas de trabajo. Además, se está involucrando
activamente la automatización cognitiva, que incluye a imágenes y
documentos no estructurados, lo que amplía aún más las capacidades de
agrupación, clasificación y regresión.

Diagramas UML
1.8 Eclipse
Generación de base de datos

Correspondiente a Vegetales
Correspondiente a Frituras
Correspondiente a JavaDoc

Potrebbero piacerti anche