Sei sulla pagina 1di 2

Práctica 2

RECONOCIMIENTO DE PATRONES

 DON QUIJOTE DE LA MANCHA


http://www.daemcopiapo.cl/Biblioteca/Archivos/7_6253.pdf
 Desarrolles los siguientes procedimientos con la finalidad de encontrar el patrón de los textos, con el fin de predecir las
siguientes dos palabras que escribirá el autor, en una frase cualquiera.
 Desarrolle este procedimiento usando exclusivamente el Python, no puede hacer usa de librerías de NLP, ni text mining.
 Se recomienda la creación de clases abstractas que se comporten como servidores de funciones y una sola clase para la
implementación del procedimiento haciendo llamadas a las clases abstractas.
import Class1 as Class1
import Class2 as Class2
import Class2 as Class3
import Class2 as Class4

class ClassMain:
def main():

if __name__ == '__main__':
parameters = Class1().method1()
data = Class2().method2()
result = ClassMain().main()

1. Descargue la obra desde internet.

2. Formateo de los datos.


Desarrolle un procedimiento manual para formatearlo y cargarlo en una estructura de datos.
Por ejemplo, que cada frase sea una fila en una tabla de texto,

3. Identifique todas las palabras diferentes en el documento


Se trata de identificar todas las palabras diferentes en los textos.

4. Diseñe un procedimiento para reducir la dimensionalidad del problema.


Se trata de reducir el número de palabras diferentes en los textos.
Sugerencias:
a) Trasladar todos los textos a mayúscula.
b) Eliminar tildes.
c) Lista de palabras (nombres propios)

5. Traduzca cada frase del texto a su equivalente binario


id w1 w2 w3 w4 w5 w6 w7 w8 w9 w10
1
2
3

Cada fila es un texto. Cada columna es una palabra diferente. La celda indica si la palabra existe para el texto.
Ejemplo
PRONUNCIARAS
PREDICCIONES
AUTOMÁTICO

INTERESANTE
APRENDIZAJE

PROBLEMAS

SIGUIENTE
PALABRAS

RESOLVER
PREDECIR
PERMITE

SEGURO
HACER

PUEDE
ESTOY

QUE
NO
LA
ES
EL

ES INTERESANTE RESOLVER PROBLEMAS 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0


QUE ES EL APRENDIZAJE AUTOMATICO? 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
NO ESTOY SEGURO 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0
EL APRENDIZAJE AUTOMATICO PERMITE HACER PREDICCIONES 1 0 1 1 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0
QUE PUEDE PREDECIR? 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0
LA SIGUIENTE PALABRAS QUE PRONUNCIARAS 0 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 1 0 0 1

6. Defina dos parámetros K1 y K2, que establece el tamaño de una ventana de textos.
Donde K1 es el tamaño de un vector de palabras que se usará para predecir las siguiente K 2 palabras.

7. Genere k1-grams de palabras, desde cada texto.


Un k1-grams es un texto de tamaño k1, extraído desde un texto original.

estoy feliz de llevar el curso de ia con el profesor oporto

5-grams del texto.


estoy feliz de llevar el
feliz de llevar el curso
de llevar el curso de
llevar el curso de ia
el curso de ia con
curso de ia con el
de ia con el profesor
ia con el profesor oporto
con el profesor oporto
el profesor oporto
profesor oporto

8. Determine las siguiente K2 palabras en el texto desde cada K1-gram.


Estos se usarán como target del modelo.
Es importante considerar que se debe de construir K2 modelos, uno por cada palabra.

9. Identifique los k1-grams diferentes desde todos los textos.


Se trata de identificar los k1-grams.

10. Prepare el dataset del problema.

Si el texto es el siguiente:

P2 P3 P3 P2 P1 P2 P2 P1 P2 P1 P2 P1 P3 P3 P1 P3

El dataset preparado será el siguiente:

P2 P3 P3 P2 P1
P3 P3 P2 P1 P2
P3 P2 P1 P2 P2
P2 P1 P2 P2 P1
P1 P2 P2 P1 P2
P2 P2 P1 P2 P1
P2 P1 P2 P1 P2
P1 P2 P1 P2 P1
P2 P1 P2 P1 P3
P1 P2 P1 P3 P3
P2 P1 P3 P3 P1
P1 P3 P3 P1 P3

11. Genere dos muestras de tamaño 50% y 50% mutuamente excluyentes.


Las muestras deben ser diferentes para cada uno de los modelos.

12. Diseñe K2 árboles de decisión para preparar los modelos.


Diseñe un modelo por cada una de los targets.

13. Mida el rendimiento de los modelos.


Para cada uno de los targets.

Potrebbero piacerti anche