Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introducción a R
Análisis de datos
19 de octubre de 2017
Introducción a R
Outline
1 Visualización
2 Estadı́stica descriptiva
Medidas de interés
3 Machine Learning
Aprendizaje no supervisado
Aprendizaje supervisado
Optimización
Introducción a R
Visualización
Outline
1 Visualización
2 Estadı́stica descriptiva
Medidas de interés
3 Machine Learning
Aprendizaje no supervisado
Aprendizaje supervisado
Optimización
Introducción a R
Visualización
Gráficos básicos
plot()
Ejemplo
plot()
Ejemplo
Outline
1 Visualización
2 Estadı́stica descriptiva
Medidas de interés
3 Machine Learning
Aprendizaje no supervisado
Aprendizaje supervisado
Optimización
Introducción a R
Estadı́stica descriptiva
Medidas de interés
Outline
1 Visualización
2 Estadı́stica descriptiva
Medidas de interés
3 Machine Learning
Aprendizaje no supervisado
Aprendizaje supervisado
Optimización
Introducción a R
Estadı́stica descriptiva
Medidas de interés
Funciones
Ejemplo
Funciones (Solución)
Ejemplo
Outline
1 Visualización
2 Estadı́stica descriptiva
Medidas de interés
3 Machine Learning
Aprendizaje no supervisado
Aprendizaje supervisado
Optimización
Introducción a R
Machine Learning
Aprendizaje no supervisado
Outline
1 Visualización
2 Estadı́stica descriptiva
Medidas de interés
3 Machine Learning
Aprendizaje no supervisado
Aprendizaje supervisado
Optimización
Introducción a R
Machine Learning
Aprendizaje no supervisado
Clasificación
La clasificación y predicción son dos métodos importantes de análisis de datos utilizados para encontrar
patrones en los datos.
La clasificación predice la clase categórica (o valores discretos), mientras que la regresión y otros modelos
predicen las funciones con valores continuos.
n-dimensionalidad
En este caso veremos cómo al combinar una técnica de reducción de la dimensionalidad (Análisis de
componentes principales, PCA) junto con un clustering representamos en un espacio menor los datos
definidos en una dimensión superior mientras que, al mismo tiempo, podemos agrupar esta información en
grupos y encontrar relaciones ocultas en los datos.
PCA reduce la dimensionalidad de los datos consiguiendo el número mı́nimo de variables que mantiene la
información sobre cómo se distribuyen los datos. Si usamos solo dos variables, se representa en un gráfico
bidimensional (ej.: scatterplot).
Para clustering se organizan muestras de datos por proximidad en función de sus variables. Ası́ se puede
entender cómo cada punto de datos se relaciona entre sı́ y descubrir grupos de similares. Se define un
centroide por cluster, o sea, una muestra de datos ideal que minimiza la suma de las distancias a cada uno
de los puntos de datos en un cluster.
Introducción a R
Machine Learning
Aprendizaje no supervisado
PCA
https://docs.google.com/spreadsheets/d/1X5Jp7Q8pTs3KLJ5JBWKhncVACGsg5v4xu6badNs4C7I/pub?gid=0&output=csv
Introducción a R
Machine Learning
Aprendizaje no supervisado
PCA
Conclusión PCA
k-means
k-means es un método de agrupamiento, que tiene como objetivo la partición de un Figure: k-means y problemas de
conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo clustering
cuyo valor medio (centroide) es más cercano.
El problema es difı́cil computacionalmente (NP-hard), aunque hay heurı́sticas que
convergen rápidamente a un óptimo local.
Este algoritmo requiere que se especifique la cantidad de clusters y se adapta bien a una
gran cantidad de muestras y se ha utilizado en una amplia gama de áreas de aplicación
en muchos campos diferentes.
El algoritmo k-means divide un conjunto de N muestras de X en k clusters disjuntos
C, cada una descrita por su centroide µj . Los centroides no son, en general, puntos de
X, aunque estén en el mismo espacio. El algoritmo k-means tiene como objetivo elegir
Pn 2
centroides que minimicen i=0 minµj ∈C (||xj − µi || ) o la inercia que es la
medida de coherencia interna de los clusters.
k-means
Outline
1 Visualización
2 Estadı́stica descriptiva
Medidas de interés
3 Machine Learning
Aprendizaje no supervisado
Aprendizaje supervisado
Optimización
Introducción a R
Machine Learning
Aprendizaje supervisado
k-NN
k-means
kknn
1 Definimos el data set para trabajar, podrı́amos importar un archivo csv o un archivo de
excel o bien conectarnos por ODBC a una base de datos.
2 Mediante un muestreo aleatorio definimos una tabla de aprendizaje para el modelo y una
tabla de pruebas para verificar su calidad predictiva.
3 Construimos el modelo alimentándolo con los datos de aprendizaje, se le indica el valor
máximo de k que el modelo puede usar y él determina el óptimo (el modelo deberı́a ser
calibrado para obtener el mejor resultado, este corre con las opciones por defecto)
4 Se ejecuta una predicción con el modelo que acabamos de construir sobre los datos de
prueba, para determinar cuantas veces acierta en la predicción.
5 Para analizar la calidad del modelo podemos construir una matriz de confusión. Cada
columna de la matriz representa el número de predicciones de cada clase, mientras que
cada fila representa a las instancias en la clase real. Se puede ver si el sistema está
confundiendo dos clases.
Ejercicio
6 Como se puede observar, el modelo lo ha hecho bastante bien, únicamente falla en dos
virginica que clasificó como versicolor, cabe resaltar que cuanto más grande sea la
diagonal mejor es el modelo. 1 Clasifique el dataset
https://goo.gl/Aa1WX5
7 Si representamos el modelo que acabamos de hacer el gráfico da información sobre la
calidad de la clasificación en función del número de vecinos.
Introducción a R
Machine Learning
Aprendizaje supervisado
Random Forest
RF
1 Random forest es una combinación de árboles de decisión tal que cada árbol depende de
los valores de un vector aleatorio probado independientemente y con la misma
distribución para cada uno de estos. Es una modificación sustancial de bagging que
construye una larga colección de árboles no correlacionados y luego los promedia.
2 Puede usarse para clasificar, regresión e incluso clustering.
RF
1 Random forest es una combinación de árboles de decisión tal que cada árbol depende de
los valores de un vector aleatorio probado independientemente y con la misma
distribución para cada uno de estos. Es una modificación sustancial de bagging que
construye una larga colección de árboles no correlacionados y luego los promedia.
2 Puede usarse para clasificar, regresión e incluso clustering.
3 Usamos la librerı́a randomForest
Ejercicio
Outline
1 Visualización
2 Estadı́stica descriptiva
Medidas de interés
3 Machine Learning
Aprendizaje no supervisado
Aprendizaje supervisado
Optimización
Introducción a R
Machine Learning
Optimización
Algoritmos genéticos
GA
GA
Ejercicio 1: Clustering
Enunciado
1 Cree una función que calcule que paı́s pertenece al cluster más inequı́vocamente y
el que menos, tanto perteneciente al cluster como de todo el dataset.
Tened en cuenta que los centroides se refieren a dos componentes principales.
2 Cree una función que calcule el numero de clusters que realiza una asignación de
paı́ses más equilibrada, es decir, que el número de paı́ses en cada cluster es
similar.
Introducción a R
Machine Learning
Optimización
Ejercicio 2: Optimización
Enunciado
Introducción a R
Análisis de datos
19 de octubre de 2017