Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
TextBlob:
Es una biblioteca de Python (2 y 3) para procesar datos textuales. Proporciona
una API simple para sumergirse en tareas comunes de procesamiento del
lenguaje natural (PNL) como el etiquetado de parte del discurso, extracción de
frases nominales, análisis de sentimientos, clasificación, traducción y más
simplifica el procesamiento de texto proporcionando una interfaz intuitiva a NLTK.
Posee una suave curva de aprendizaje al mismo tiempo que cuenta con una
sorprendente cantidad de funcionalidades.
Características
Extracción de frase sustantiva
Etiquetado de parte del discurso
Análisis de los sentimientos
Clasificación (ingenuo Bayes, árbol de decisión)
Traducción y detección de idiomas con tecnología de Google Translate
Tokenización (división de texto en palabras y oraciones)
Frecuencias de palabras y frases
Analizando
n-gramos
Inflexión de palabras (pluralización y singularización) y lematización
Corrección ortográfica
Agregue nuevos modelos o idiomas a través de extensiones
Integración de WordNet
Stanford CoreNLP: Paquete desarrollado por la universidad de Stanford, para
muchos constituye el estado del arte sobre las técnicas tradicionales
de Procesamiento del Lenguaje Natural. Si bien esta escrita en Java, posee
una interface con Python.
Stanford CoreNLP proporciona un conjunto de herramientas de tecnología del
lenguaje humano. Puede dar las formas básicas de las palabras, sus partes del
discurso, ya sean nombres de compañías, personas, etc., normalizar fechas,
horas y cantidades numéricas, marcar la estructura de las oraciones en términos
de frases y dependencias sintácticas, indicar cuyas frases nominales se refieren a
las mismas entidades, indican sentimientos, extraen relaciones particulares o de
clase abierta entre menciones de entidades, obtienen citas de personas, etc.
Elija Stanford CoreNLP si necesita:
Un juego de herramientas de PNL integrado con una amplia gama de
herramientas de análisis gramatical
Un anotador rápido y robusto para textos arbitrarios, ampliamente utilizado
en producción.
Un paquete moderno, actualizado regularmente, con la analítica de texto en
general de la más alta calidad.
Soporte para varios idiomas (humanos) principales
API disponibles para la mayoría de los principales lenguajes de
programación modernos
Capacidad para ejecutarse como un simple servicio web
El objetivo de Stanford CoreNLP es facilitar la aplicación de un conjunto de
herramientas de análisis lingüístico a un texto. Una tubería de herramienta se
puede ejecutar en un texto sin formato con solo dos líneas de código. CoreNLP
está diseñado para ser altamente flexible y extensible. Con una sola opción, puede
cambiar qué herramientas deben habilitarse y deshabilitarse. Stanford CoreNLP
integra muchas de las herramientas de NLP de Stanford, incluido el etiquetador de
parte del habla (POS) , el reconocedor de entidad con nombre (NER) , el
analizador , el sistema de resolución de coreferencia , el análisis de sentimientos ,
el aprendizaje de patrones de arranque y la extracción de información
abierta herramientas. Además, una canalización de anotadores puede incluir
anotadores adicionales personalizados o de terceros. Los análisis de CoreNLP
proporcionan los bloques de construcción fundamentales para aplicaciones de
comprensión de texto de nivel superior y de dominio específico.
Spacy: spaCy es una biblioteca para el procesamiento avanzado de lenguaje
natural en Python y Cython. Se basa en las últimas investigaciones y se diseñó
desde el primer día para ser utilizado en productos reales. spaCy viene con
modelos estadísticos pre-entrenados y vectores de palabras, y actualmente admite
tokenización para más de 49 idiomas. Cuenta con modelos de redes neuronales
convolucionales de alta tecnología para el etiquetado, el análisis y el
reconocimiento de entidades nombradas, así como una integración de aprendizaje
profundo y fácil. Es un software comercial de código abierto, publicado bajo la
licencia MIT.
Caracteristicas
Tokenización no destructiva
Entidad denominada reconocimiento
Soporte para más de 53 idiomas.
23 modelos estadísticos para 11 idiomas
vectores de palabras preentrenados
Velocidad de vanguardia
Integración fácil de aprendizaje profundo
Etiquetado de parte del discurso
Análisis de dependencia etiquetado
Segmentación de oraciones basada en sintaxis
Construido en visualizadores para sintaxis y NER
Cómoda asignación de cadena a hash
Exportar a matrices de datos numpy
Serialización binaria eficiente
Empaquetado y despliegue de modelos fáciles
Precisión robusta, rigurosamente evaluada
Textacy: Es una biblioteca de Python para realizar una variedad de tareas de
procesamiento de lenguaje natural (NLP), construida en la biblioteca spaCy de alto
rendimiento. Con los fundamentos --- tokenización, etiquetado de parte del
discurso, análisis de dependencias, etc. --- delegados a otra biblioteca, textacy se
enfoca principalmente en las tareas que vienen antes y después.
Caracteristicas
Puntos de entrada convenientes para trabajar con uno o varios documentos
procesados por spaCy, con funcionalidad agregada a través de extensiones
personalizadas e identificación automática del idioma para aplicar la tubería
correcta de spaCy
Variedad de conjuntos de datos descargables con contenido de texto y
metadatos, desde discursos del Congreso hasta literatura histórica y
comentarios de Reddit.
E / S de archivo fácil para transmitir datos hacia y desde el disco
Limpieza, normalización y exploración de texto sin procesar - antes del
procesamiento
Extracción flexible de palabras, ngramas, fragmentos de sustantivos,
entidades, acrónimos, términos clave y otros elementos de interés.
Tokenización y vectorización de documentos, con funcionalidad para
capacitación, interpretación y visualización de modelos de temas.
Comparación de cadenas, conjuntos y documentos de similitud mediante
una variedad de métricas
Cálculos para estadísticas de texto comunes, incluyendo Flesch-Kincaid
Grade Level y Flesch Reading Ease multilingüe
Gensim: Es un robusto kit de herramientas de modelado de vectores de código
abierto y tópicos implementado en Python. Utiliza NumPy, SciPy y opcionalmente
Cython para el rendimiento. Gensim está específicamente diseñado para manejar
grandes colecciones de texto, utilizando el flujo de datos y algoritmos
incrementales eficientes, que lo diferencian de la mayoría de los otros paquetes de
software científicos que sólo se enfocan en el procesamiento por lotes y en
memoria.
Caracerísticas de Gensim
Gensim incluye implementaciones de algoritmos tf-idf, proyecciones aleatorias,
algoritmos word2vec y document2vec, procesos jerárquicos Dirichlet (HDP),
análisis semántico latente (LSA) y asignación de Dirichlet latente (LDA),
incluyendo versiones paralelas distribuidas.
Documento
En Gensim, un documento es un objeto del tipo de secuencia de texto (comúnmente conocido
como stren Python 3). Un documento puede ser cualquier cosa, desde un breve tweet de 140
caracteres, un solo párrafo (es decir, resumen de un artículo de revista), un artículo de noticias
o un libro.
Corpus
Un corpus es una colección de objetos Document . Los cuerpos cumplen dos roles
en Gensim:
1. Entrada para entrenar un modelo . Durante el entrenamiento, los modelos
usan este corpus de entrenamiento para buscar temas y temas comunes,
inicializando sus parámetros internos del modelo.
Gensim se centra en no supervisadas modelos para que ninguna
intervención humana, tales como anotaciones costosos o etiquetar
documentos por parte, se requiere.
2. Documentos para organizar. Después del entrenamiento, se puede usar un
modelo de tema para extraer temas de documentos nuevos (documentos
que no se ven en el corpus de entrenamiento).
Dichos corpus pueden indexarse para consultas de similitud , consultar por
similitud semántica, agruparse, etc.
Aquí hay un ejemplo de corpus. Se compone de 9 documentos, donde cada
documento es una cadena que consta de una sola oración.
Este es un ejemplo particularmente pequeño de un corpus con fines ilustrativos. Otro ejemplo
podría ser una lista de todas las obras escritas por Shakespeare, una lista de todos los
artículos de Wikipedia o todos los tweets de una persona de interés en particular.
pyLDAvis: Esta librería está diseñado para ayudar a los usuarios a interpretar los
temas que surgen de un análisis de tópicos. Nos permite visualizar en forma muy
sencilla cada uno de los temas incluidos en el texto.
Está diseñado para ayudar a los usuarios a interpretar los temas en un modelo de
tema que se ha ajustado a un corpus de datos de texto. El paquete extrae
información de un modelo de tema LDA ajustado para informar una visualización
interactiva basada en la web.
La visualización está destinada a ser utilizada dentro de un cuaderno de IPython,
pero también se puede guardar en un archivo HTML independiente para compartir
fácilmente.
PyTorch
Keras
Keras es una librería de alto nivel, muy fácil de utilizar. Está escrita y mantenida
por Francis Chollet, miembro del equipo de Google Brain. Permite a los usuarios
elegir si los modelos que se construyen serán ejecutados en el grafo simbólico
de Theano, TensorFlow o CNTK.
Principios rectores
La facilidad de uso. Keras es una API diseñada para seres humanos, no
para máquinas. Pone la experiencia del usuario al frente y al centro. Keras
sigue las mejores prácticas para reducir la carga cognitiva: ofrece API
consistentes y simples, minimiza el número de acciones del usuario
requeridas para casos de uso comunes y proporciona comentarios claros y
procesables sobre el error del usuario.
Modularidad. Un modelo se entiende como una secuencia o un gráfico de
módulos independientes totalmente configurables que se pueden conectar
con la menor cantidad de restricciones posible. En particular, las capas
neurales, las funciones de costo, los optimizadores, los esquemas de
inicialización, las funciones de activación y los esquemas de regularización
son módulos independientes que puede combinar para crear nuevos
modelos.
Fácil extensibilidad. Los nuevos módulos son fáciles de agregar (como
nuevas clases y funciones), y los módulos existentes proporcionan amplios
ejemplos. Poder crear fácilmente nuevos módulos permite una expresividad
total, lo que hace que Keras sea adecuado para la investigación avanzada.
Trabaja con Python . No hay archivos de configuración de modelos
separados en un formato declarativo. Los modelos se describen en el
código Python, que es compacto, más fácil de depurar y permite la facilidad
de extensibilidad.
MXNet:
MXNet es una librería flexible y eficiente para armar modelos de Deep
Learning con soporte para varios idiomas.
Que permite definir, entrar y desplegar redes neuronales deep en un largo número
de dispositivos (desde Entornos cloud a dispositivos móviles).
Entre sus características tenemos:
· Flexible: soporta programación imperativa y simbólica
· Portable: corre en CPUs, GPUs, clusters, servers, desktops o telefónos móviles
· Soporte Múltiples Lenguajes: incluyendo C++, Python, R, Scala, Julia, Matlab y
Javascript, todos con el mismo rendimiento
· Distribuido en Cloud: soporta training distribuido en múltiples máquinas
CPU/GPU incluyendo clusters AWS, Azure, YARN y GCE
· Rendimiento: Engine optimizada en C++ paraleliza I/O y computación
Bibliografia .-
4 to PARCIAL
INTELIGENCIA ARTIFICIAL
Librerias, Frameworks, APIS de
Procesamiento Del Lenguaje Natural En Python
Docente: Ing. Santos Irineo Juchasara
Colque
Universitario: Rayni Gean Marco Prada
Oliva
Curso: 4to año
Fecha: 24 de Noviembre de 2019
Llallagua–Potosí–Bolivia
Noviembre–2019