Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Cristina T auc rn a
Dept. Matesco, Universidad de Cantabria
Listas por comprensin: o squares = [x**2 for x in range(10)] Programacin funcional: lter(), map(), reduce() o
Listas por comprensin: o squares = [x**2 for x in range(10)] Programacin funcional: lter(), map(), reduce() o Funciones
Listas por comprensin: o squares = [x**2 for x in range(10)] Programacin funcional: lter(), map(), reduce() o Funciones Condicionales
Listas por comprensin: o squares = [x**2 for x in range(10)] Programacin funcional: lter(), map(), reduce() o Funciones Condicionales Bucle for
Listas por comprensin: o squares = [x**2 for x in range(10)] Programacin funcional: lter(), map(), reduce() o Funciones Condicionales Bucle for Bucle while
Listas por comprensin: o squares = [x**2 for x in range(10)] Programacin funcional: lter(), map(), reduce() o Funciones Condicionales Bucle for Bucle while Mdulos o
PyYAML
http://pyyaml.org/download/pyyaml/PyYAML-3.09.win32-py2.6.exe
PyYAML
http://pyyaml.org/download/pyyaml/PyYAML-3.09.win32-py2.6.exe
NLTK
http://nltk.googlecode.com/files/nltk-2.0b8.win32.msi
PyYAML
http://pyyaml.org/download/pyyaml/PyYAML-3.09.win32-py2.6.exe
NLTK
http://nltk.googlecode.com/files/nltk-2.0b8.win32.msi
PyYAML
http://pyyaml.org/download/pyyaml/PyYAML-3.09.win32-py2.6.exe
NLTK
http://nltk.googlecode.com/files/nltk-2.0b8.win32.msi
Importar el paquete: >>> import nltk >>> nltk.download() Testear: >>> from nltk.corpus import brown >>> brown.words()
NLTK
Herramientas para procesar el texto
NLTK
Herramientas para procesar el texto
NLTK
Herramientas para procesar el texto
NLTK
Herramientas para procesar el texto
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very])
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very]) text3.generate()
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very]) text3.generate() len(text3), sorted(set(text3)), len(set(text3))
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very]) text3.generate() len(text3), sorted(set(text3)), len(set(text3)) text3.count(earth)
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very]) text3.generate() len(text3), sorted(set(text3)), len(set(text3)) text3.count(earth) sent1, sent2,..., sent9
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very]) text3.generate() len(text3), sorted(set(text3)), len(set(text3)) text3.count(earth) sent1, sent2,..., sent9 sent1+sent2
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very]) text3.generate() len(text3), sorted(set(text3)), len(set(text3)) text3.count(earth) sent1, sent2,..., sent9 sent1+sent2 sent1.append(Some)
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very]) text3.generate() len(text3), sorted(set(text3)), len(set(text3)) text3.count(earth) sent1, sent2,..., sent9 sent1+sent2 sent1.append(Some) text4[173], text4.index(awaken), text6[1600:1625]
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very]) text3.generate() len(text3), sorted(set(text3)), len(set(text3)) text3.count(earth) sent1, sent2,..., sent9 sent1+sent2 sent1.append(Some) text4[173], text4.index(awaken), text6[1600:1625] sent3[:3], sent3[3:], sent3[:-4]
NLTK
Herramientas para procesar el texto
>>> from nltk.book import * text3 text1.concordance(monstrous) text1.similar(monstrous), text2.similar(monstrous) text2.common contexts([monstrous, very]) text3.generate() len(text3), sorted(set(text3)), len(set(text3)) text3.count(earth) sent1, sent2,..., sent9 sent1+sent2 sent1.append(Some) text4[173], text4.index(awaken), text6[1600:1625] sent3[:3], sent3[3:], sent3[:-4] .join([Monty, Python]), Monty Python.split()
Encontrar el nmero total de palabras en el texto 2. u Encontrar el nmero total de palabras unicas en el texto 2. u Imprimir las ultimas 20 palabras del texto 2. Indicar cuantas de esas son unicas. Imprimir las ultimas 20 palabras del texto 2 ordenado. Imprimir las ultimas 20 palabras unicas del texto 2 ordenado.
Diccionario de frecuencias
Diccionario de frecuencias
Tareas a desarollar
Imprimir las 20 palabras ms utilizadas en el texto 1. a Imprimir todas las palabras con ms de 10 letras del texto 1. a Imprimir todas las palabras frecuentes (que aparecen al menos 20 veces) del texto 1 con ms de 10 letras. a
Utilizando el texto 4, imprimir: la lista de palabras (nicas) que acaban en -ableness; u la lista de palabras (nicas) que contienen gnt; u Utilizando el texto 8, encontrar: el nmero de palabras que empiezan con mayscula; u u el nmero de palabras compuestas enteramente por d u gitos.
Expresiones regulares
import re [w for w in text1 if re.search(ned$, w)] [w for w in text1 if re.search(..j..t..$, w)] [w for w in text1 if re.search([ghi][mno][jlk][def]$, w)] [w for w in text5 if re.search(m+i+n+e+$, w)] [w for w in text5 if re.search([0-9]+\.[0-9]+$, w)] [w for w in text1 if re.search([0-9]4$, w)] len(set([w for w in text1 if re.search( (ed|ing)$, w)]))
Earley parser
import nltk from nltk.book import * productions = S > S + M | M M > M T | T T > a grammar = nltk.parse cfg(productions) parser = nltk.EarleyChartParser(grammar, trace=2) sent = a + a a.split() trees = parser.parse(sent) trees = parser.nbest parse(sent) trees = parser.iter parse(sent)
productions = E > E OP E | N OP > + | x N > a grammar = nltk.parse cfg(productions) parser = nltk.EarleyChartParser(grammar, trace=2) sent = a + a a.split() trees = parser.nbest parse(sent,2) for tree in trees: print trees