Sei sulla pagina 1di 23

MODELACIÓN Y METODOLOGÍA PARA ANÁLISIS CUALITATIVO

SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA

www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com

Introducción:
El objetivo general, es conocer las diferentes herramientas
tecnológicas, matemáticas y estadísticas para procesar y analizar
un gran volumen de información cualitativa, cuyo objetivo final es
contribuir al analista o tomador de decisión de una herramienta
actualizada que le permita proyectar en el tiempo y estudiar la
evolución de la información de diferentes escenarios de interés, en
función de las diferentes variables tanto cuantitativas como
cualitativas que pueden ser extraídas de la información recopilada
y conocer las relaciones entre ellas y sus métricas.
MODELACIÓN Y METODOLOGÍA PARA ANÁLISIS CUALITATIVO
SIMULACIÓN
MATEMÁTICA Y Cuando analizamos información cualitativa debemos estructurar
ESTADÍSTICA (preparar) el cuerpo o corpus (colección de texto escrito o hablado
almacenado en soporte informático) del documento:

1. Normalización del Corpus: estandarización a la normativa


ortográfica y gramatical, en el idioma en el que se desarrollará
www.symmtec.com
@symmtecc en twitter el lenguaje. Definición del vocabulario y diccionario.
contacto@symmtec.com
2. Lematización: El Lema es la forma que por convenio se acepta
como representante de todas las formas flexionadas de una
misma palabra. Es decir, el lema de una palabra es la palabra
que nos encontraríamos como entrada en un diccionario
tradicional: singular para sustantivos, masculino singular para
adjetivos, infinitivo para verbos.

3. Detección de multipalabras y palabras vacías. Conjunto de dos


o más palabras que al estar juntas adquieren un nuevo
significado y son semánticamente relevantes en el texto, como
por ejemplo: “transporte público”, “en honor a la verdad”, etc.
MODELACIÓN Y METODOLOGÍA PARA ANÁLISIS CUALITATIVO
SIMULACIÓN
Cuando analizamos información cualitativa debemos estructurar el
MATEMÁTICA Y
cuerpo o corpus (colección de texto escrito o hablado almacenado
ESTADÍSTICA en soporte informático) del documento:

4. Segmentación en contextos elementales (EC): frases, párrafos, etc.

www.symmtec.com Análisis
@symmtecc en twitter
contacto@symmtec.com
matemático y
estadístico
MODELACIÓN Y ANÁLISIS MATEMÁTICO Y ESTADÍSTICO
SIMULACIÓN
MATEMÁTICA Y 1. Determinación de palabras claves o unidades léxicas (LU).
ESTADÍSTICA Palabras con una frecuencia de presencia alta.
Cada una de estas palabras claves contiene una serie de
asociaciones. La cantidad de contextos elementales en los que
aparece dicha palabra se puede cuantificar numéricamente. Las
www.symmtec.com relaciones necesitan de la caracterización de un índice de
@symmtecc en twitter
contacto@symmtec.com
semejanza. En el primer orden (existen de orden superior), se
utilizan para analizar las co – ocurrencias (relaciones) con métricas
bien definidas.
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO
Los índices de asociación o de similitud se utilizan para analizar las relaciones entre las
unidades léxicas (LU) en el interior de los contextos elementales (EC)

Variable binaria de pertenencia: 1 si la LU está en el EC, 0 en caso


contrario.
MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com

Relación entre unidades léxicas en el conjunto


de los contextos elementales.
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO
1. El valor de 𝑎 representa el número de LU que toman valor 1 (presente en el conjunto
de EC) en cada variable 𝑋𝑖 , 𝑋𝑗 de forma simultánea.
2. El valor de 𝑏 representa el número de LU de la muestra que toman valor 1 en la
variable 𝑋𝑖 y o en la 𝑋𝑗 (presente en el conjunto de EC).
3. El valor de 𝑐 representa el número de LU que toman valor 0 en la variable 𝑋𝑖 y 1 en
la 𝑋𝑗 (presente en el conjunto de EC).

4. El valor de 𝑑 representa el número de LU que toman valor 0 (presente en el conjunto


de EC) en cada variable 𝑋𝑖 , 𝑋𝑗 de forma simultánea.
MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com

Relación entre unidades léxicas en el conjunto


de los contextos elementales.
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO
5. El valor de 𝑎 + 𝑐 representa el número de veces que la variable 𝑋𝑗 toma el valor 1,
independiente del valor tomado por 𝑋𝑖 .
6. El valor de 𝑏 + 𝑑 representa el número de veces que la variable 𝑋𝑗 toma el valor 0,
independiente del valor tomado por 𝑋𝑖 .
7. El valor de 𝑎 + 𝑏 representa el número de veces que la variable 𝑋𝑖 toma el valor 1,
independiente del valor tomado por 𝑋𝑗 .
8. El valor de 𝑐 + 𝑑 representa el número de veces que la variable 𝑋𝑖 toma el valor 0,
independiente del valor tomado por 𝑋𝑗 .
MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com

Relación entre unidades léxicas en el conjunto


de los contextos elementales.
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO
Los índices de asociación o de similitud se utilizan para analizar las relaciones entre las
unidades léxicas (LU) en el interior de los contextos elementales (EC)

Definición de similaridad:

Sea U un conjunto finito (también puede ser infinito) de elementos. Sea

𝑠: 𝑈 × 𝑈 → ℝ+ 0
Se define similaridad si se cumplen las siguientes propiedades ∀ 𝑥, 𝑦 ∈ 𝑈

0 ≤ 𝑠 𝑥, 𝑦 ≤ 𝑠0 (Real finito) MODELACIÓN Y


𝑠 𝑥, 𝑥 = 𝑠0 SIMULACIÓN
MATEMÁTICA Y
𝑠 𝑥, 𝑦 = 𝑠 𝑦, 𝑥 ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
Relación de similaridad con la métrica de distancia en topología contacto@symmtec.com
(teoría de la medida)
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO
Índices de asociación de primer orden

Índice Jaccard 0 ≤ 𝐼𝐽 ≤ 1 mide el grado de similitud entre dos conjuntos (para todo
tipo de elementos). La medida se basa en la probabilidad condicionada de que una
variable presente un 1 en ambas variables, dado que las coincidencias del tipo 0 – 0 han
sido descartadas primero. La formulación es la siguiente:
𝐴∩𝐵 𝑎
𝐽 𝐴, 𝐵 = =
𝐴∪𝐵 𝑎+𝑏+𝑐

MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com

Otros índices de primer orden de asociación


ANÁLISIS MATEMÁTICO Y ESTADÍSTICO
Índices de asociación de primer orden

Índice Jaccard 0 ≤ 𝐼𝐽 ≤ 1 mide el grado de similitud (probabilidad condicionada) entre


dos conjuntos (para todo tipo de elementos). La medida se basa en la probabilidad de
que una variable presente un 1 en ambas variables, dado que las coincidencias del tipo 0
– 0 han sido descartadas primero.

MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com

Tabla de valores para la relación de asociación entre LU


en el conjunto de EC de acuerdo al índice Jaccard.
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO

MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com
+56 9 87487830
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO
Test Chi Cuadrado:
Test Estadístico que permite someter a prueba de hipótesis referida a distribuciones de
frecuencia, esto es, comprobar si los valores de frecuencia obtenidos por un examen y
registrado en una tabla cualquiera de doble entrada, son significativamente diferentes a los
valores teóricos (diferencia de lo observado y lo teórico).

Normalmente se trabaja con dos valores de umbral: 3.84 y 6.64. Ambos con un grado de
libertad y probabilidades de 0.05 (95%) y 0.01 (90%) de confianza, respectivamente.
Contraste de frecuencia observadas con frecuencias esperadas
Respecto a la hipótesis nula: La frecuencia de la unidad léxica (Word “x”) no es MODELACIÓN Y
Significativa para el contexto elemental (Context “A”). SIMULACIÓN
MATEMÁTICA Y
LU independiente del EC
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com
+56 9 87487830
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO

Si O representa la frecuencia Observada y E representa la frecuencia teórica


(valor esperado), entonces de forma simplificada de la fórmula de Chi
cuadrado es la siguiente:
MODELACIÓN Y
2
𝑂−𝐸 2 SIMULACIÓN
𝜒 =
𝐸 MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
El valor teórico, está dado por: @symmtecc en twitter
contacto@symmtec.com
𝑁𝑖 ∙ 𝑁𝑗 +56 9 87487830
𝐸=
𝑁𝑖𝑗

Para la tabla anterior, el valor de


Chi Cuadrado es de 19,38
MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
Dado que el valor encontrado es mayor que el umbral, la hipótesis nula es www.symmtec.com
www.symmtec.com
@symmtecc
@symmtecc enen twitter
rechazada. twitter
contacto@symmtec.com
contacto@symmtec.com
+56
+56 9
9 87487830
87487830
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO
Así, podemos organizar la información analizada en una matriz. Las tablas permiten verificar
las relaciones entre ocurrencias y co – ocurrencias de las palabras que presentan la
asociación más fuerte con aquella seleccionada. Las llaves de lectura son las siguientes: Lema
seleccionado (A), lemas asociados (B) al lema (A), valor del índice de asociación seleccionado
(COEFF), Total de contextos elementales (CE) analizados (TOT CE), total de los CE en los que
esta presenta el lema (A) seleccionado (CE_A), total de los CE en los que está presente cada
lema (B) asociado (CE_B), total de los CE en los que los lemas (A) y (B) están asociados
(CE_AB), valor del Chi cuadrado para verificar la significación de las co – ocurrencias (CHI2) y
la probabilidad asociada a cada valor del Chi cuadrado (definición 1) (p).

MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com
+56 9 87487830
ANÁLISIS MATEMÁTICO Y ESTADÍSTICO

MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com
+56 9 87487830
APLICACIÓN DE SOFTWARE

www.tlab.it/es/presentation.php

Descargas – T LAB Demo

T LAB PLUS DEMO 2016 (Requiere registro)

Seguir pasos de instalación. Iniciar T LAB

MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com
+56 9 87487830
TEORIA DE GRAFOS. ALGORITMO DEL CAMINO MÁS CORTO DE
DIJKSTRA

Edsger Wybe Dijkstra


(1930 - 2002)
Científico de la
computación.

Utilizaremos las estructuras de grafos para utilizar algunas técnicas que


surgen en el área de la investigación de operaciones. Estas técnicas
MODELACIÓN Y
OPTIMIZAN algunos resultados de grafos que tienen un número real
SIMULACIÓN
positivo, llamado peso, asociado a cada arista del grafo. MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
Con los grafos, desarrollaremos los métodos de optimización en forma @symmtecc en twitter
algorítmica para facilitar su implementación en un computador. El contacto@symmtec.com
+56 9 87487830
problema que trataremos: La distancia más corta entre un vértice
dado 𝑣0 y cada uno de los demás vértices de un grafo dirigido conexo
sin lazo, conocido como: algoritmo del camino más corto de Dijkstra
(1959).
TEORIA DE GRAFOS. ALGORITMO DEL CAMINO MÁS CORTO DE
DIJKSTRA

Edsger Wybe Dijkstra


(1930 - 2002)
Científico de la
1. Hacemos el contador 𝑖 = 0, 𝑆𝑖 = 𝑣0 Etiquetamos 𝑣0 con 0, − y
computación.
cada 𝑣 ≠ 𝑣0 con ∞, − . Si 𝑛 = 1 entonces 𝑉 = 𝑣0 y el problema
está resuelto. Si 𝑛 > 1 continuamos con el paso 2.
MODELACIÓN Y
2. Para cada 𝑣 ∈ 𝑆𝑖 reemplazamos (cuando sea posible), la etiqueta de v SIMULACIÓN
por la nueva etiqueta final 𝐿 𝑣 , 𝑦 donde: MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
𝐿 𝑣 = min 𝐿 𝑣 , 𝐿 𝑢 + 𝑝 𝑢, 𝑣 @symmtecc en twitter
𝑢∈𝑆𝑖 contacto@symmtec.com
+56 9 87487830
Donde y es un vértice en 𝑆𝑖 que produce 𝐿 𝑣 mínimo. La función p
es la asociada al peso.
TEORIA DE GRAFOS. ALGORITMO DEL CAMINO MÁS CORTO DE
DIJKSTRA

3. Si cada vértice 𝑆𝑖 para algún 0 ≤ 𝑖 ≤ 𝑛 − 2 tiene la etiqueta ∞, − ,


entonces el grafo etiquetado contiene la información que estamos
buscando. Si no, existe al menos un vértice 𝑣 ∈ 𝑆𝑖 que no está Edsger Wybe Dijkstra
etiquetado como ∞, − y realizamos las siguientes tareas: (1930 - 2002)
Científico de la
computación.
Seleccionamos un vértice 𝑣𝑖+1 tal que 𝐿(𝑣𝑖+1 ) sea mínimo (para todo v de
este tipo). Puede haber varios de estos vértices, en cuyo caso podemos
elegir cualquiera de los posibles candidatos. El vértice 𝑣𝑖+1 es un MODELACIÓN Y
elemento de 𝑆𝑖 que es el más cercano a 𝑣0 SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
Asignamos 𝑆𝑖 ∪ 𝑣𝑖+1 a 𝑆𝑖+1 @symmtecc en twitter
contacto@symmtec.com
+56 9 87487830
Incrementamos el contador i en 1. Si 𝑖 = 𝑛 − 1 el grafo etiquetado
contiene la información deseada. Si 𝑖 < 𝑛 − 1 regresamos al paso 2.
TEORIA DE GRAFOS. ALGORITMO DEL CAMINO MÁS CORTO DE
DIJKSTRA

Edsger Wybe Dijkstra


Ejercicio: (1930 - 2002)
Científico de la
computación.

MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com
+56 9 87487830
TEORIA DE GRAFOS. ALGORITMO ARBOL RECUBRIDOR MINIMO
DE KRUSKAL (PRIM, FLUJO MAXIMO, CORTE MÍNIMO)
1. Hacemos el contador 𝑖 = 1 y seleccionamos una arista 𝑒1 ∈ 𝐺 tal que 𝑝(𝑒1 ) sea lo más
pequeña posible.
2. Para 1 ≤ 𝑖 ≤ 𝑛 − 2 si hemos seleccionado las aristas 𝑒1 , 𝑒2 , … , 𝑒𝑖 entonces
seleccionamos la arista 𝑒𝑖+1 de las aristas restantes en G de modo que 𝑝(𝑒1+1 ) sea lo
más pequeña posible y el subgrafo de G determinado por las aristas 𝑒1 , 𝑒2 , … , 𝑒𝑖 , 𝑒𝑖+1 (y
los vértices incidentes) no contenga ciclos.

3. Reemplazamos i con i+1. Si 𝑖 = 𝑛 − 1 el subgrafo determinado por las aristas


𝑒1 , 𝑒2 , … , 𝑒𝑛−1 es conexo con n vértices y n – 1 aristas, y es un árbol recubridor óptimo
para G. Si 𝑖 < 𝑛 − 1, regresamos al paso 2.
MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com
David Kruskal (1925 – 2006) +56 9 87487830
Científico de la Computación
TEORIA DE GRAFOS. ALGORITMO ARBOL RECUBRIDOR
MINIMO DE KRUSKAL

Ejercicio:

MODELACIÓN Y
SIMULACIÓN
MATEMÁTICA Y
ESTADÍSTICA
www.symmtec.com
@symmtecc en twitter
contacto@symmtec.com
+56 9 87487830

Potrebbero piacerti anche