Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
La lógica borrosa o difusa es una rama cada día más empleada y con mayor número de usos
de las ciencias matemáticas que ayuda a representar los conceptos imprecisos del mundo
real más cercanos a la forma de expresión del lenguaje humano que la lógica clásica
(Denoda Pérez et al., 2013a).
Esto se implementa a través de los llamados subconjuntos borrosos que vienen definidos
por una función de pertenencia basada en la afirmación “todo es cuestión de grado”, es
decir, mientras que en la lógica clásica un elemento pertenece o no “completamente cierto”
o “completamente falso” a un conjunto; en la lógica borrosa, la función de pertenencia
establece en qué grado entre 0 (falso) y 1 (cierto) ese elemento pertenece a ese conjunto.
7
Capítulo 1
A : X [0,1]
1.1
x X A ( x) [0,1]
Así puede interpretarse como el grado en que un elemento particular que se considera
cumple con las especificaciones que definen a los elementos del conjunto en cuestión.
8
Capítulo 1
9
Capítulo 1
Sin embargo, en muchas ocasiones será más práctico operar con su representación a través
de sus conjuntos de nivel o α-cortes. Estos son intervalos de confianza que se pueden
representar como:
N {x | N ( x) } [ f 1 ( ), g 1 ( )] [n1 ( ), n2 ( )] 1.5
10
Capítulo 1
R( a ) for x a
x
cR
1.6
donde constituye el valor central y las extensiones izquierda y derecha; L y R son
funciones de pertenencias decrecientes para R+ en [0,1], y , para ,
y para .
La función de pertenencia para este número borroso triangular viene dada por:
11
Capítulo 1
x a1
a a si a1 x a2
2 1
a x
A ( x) 3 si a2 x a3 1.7
a3 a2
0 en otro caso
donde el soporte viene dado por [a1 , a3 ] , la extensión izquierda es y la
extensión derecha es .
Como se puede observar la función de pertenencia de un número borroso triangular es
lineal. La extensión izquierda es la recta que pasa por (a1 ,0) y (a 2 ,1) , la extensión derecha
12
Capítulo 1
La función de pertenencia para este número borroso trapezoidal viene dada por:
x a1
a a si a1 x a 2
2 1
1 si a 2 x a3
A ( x) 1.8
a 4 x si a x a
a 4 a3 3 4
0 en otro caso
donde el soporte viene dado por [a1 , a4 ] , el núcleo viene dado por el intervalo [a 2 , a3 ]
cr a4 a3 .
Un número borroso trapezoidal A se denota mediante una cuarteta de confianza donde los
valores que la componen son el valor más pequeño posible, el valor inferior y el valor
superior que conforman el núcleo y el valor más elevado posible, es decir
A [a1 , a2 , a3 , a4 ] o mediante el núcleo y las extensiones de la forma A [a1n , a2n , cl , cr ] .
pertenencia de valores superiores al núcleo, g(x) es la recta que pasa por los puntos (a3 ,1) y
(a4 ,0) .
13
Capítulo 1
Una variable lingüística según la definición formal propuesta por (Zadeh, 1973, Zadeh,
1975b, Zadeh, 1975c, Zadeh, 1975a) está dada por <N, U, T(N), M> dónde:
– M es una regla semántica que asocia cada elemento de T(N) con un conjunto difuso en U
de entre todos los posibles.
14
Capítulo 1
[c, d ] {a * b | a1 a a2 , b1 b b2 } 1.9
1 1
c Min ,
a1 a 2
1 1
d Max , excepto para a1 0 a2
a1 a 2
1 1
Si el conjunto borroso está definido sobre , sería [a1 , a 2 ] ,
1
a 2 a1
15
Capítulo 1
[a1 , a 2 ] 1 1
División: [a1 , a 2 ] [b1 , b2 ]1 [a1 , a 2 ] , 1.14
[b1 , b2 ] b2 b1
Multiplicación por un número real:
Un número real puede interpretarse como a [a, a], a , por tanto:
y sus -cortes:
C [c1 ( ), c2 ( )] [a1 ( ) b1 ( ), a2 ( ) b2 ( )] 1.19
16
Capítulo 1
y sus -cortes:
Inverso:
1
Sea A un número borroso tal que Sop(A ) . Su inverso C A tiene como función
de pertenencia:
1
C ( x) A ( ) 1.24
x
1 1
con -cortes C [c1 ( ), c2 ( )] , 1.25
a 2 ( ) a1 ( )
División de números borrosos:
17
Capítulo 1
a ( ) a 2 ( )
C [c1 ( ), c2 ( )] 1 ,
b2 ( ) b1 ( )
Multiplicación por un escalar:
Existen numerosas situaciones en las cuales parte de la información disponible aportada por
diferentes expertos, está expresada por estimaciones inciertas.
El conocimiento de distancia sirve para calcular el grado de separación entre dos elementos,
dos conjuntos, etc. Según (Kaufmann y Gil Aluja, 1992) y (Kaufmann et al., 1994)
acentúan la importancia de conocer las distancias que separan dichas previsiones para poder
agruparlas convenientemente a los efectos de poder adoptar decisiones.
Sea X un conjunto no vacío. Una función d de valores reales no negativos definida en el
producto cartesiano X X se llama una métrica o distancia en X, tal que para todo
elemento a, b, c X se verifica los siguientes axiomas.
i. d (a, b) 0 y d (a, a) 0
ii. d (a, b) d (b, a) (Simetría )
iii. a b d (a, b) 0
iv. d (a, b) d (b, c) d (a, c) (desigualdad triangular )
donde según (Kaufmann y Gupta, 1985) es un operador asociado con la noción de
distancia.
Si se satisface ii, iii, iv pero no necesariamente i, entonces la función d es una
pseudométrica.
18
Capítulo 1
Se pueden utilizar muchas variantes para determinar la distancia. Las más utilizadas entre
esta gran variedad son la distancia de Hamming, la distancia de Euclides y la distancia de
Minkowski, por lo que para un mismo problema se obtendrían resultados no idénticos. En
esta investigación se utiliza la distancia de Hamming.
1
d D ( A , B ) a 2 ( ) b2 ( ) d 1.33
0
1 1
d ( A , B ) a1 ( ) b1 ( ) d a 2 ( ) b2 ( ) d 1.34
0 0
19
Capítulo 1
Esta ecuación da la distancia entre dos números borrosos; es también llamada índice de
desemejanza (disimilitud) entre A y B (Kaufmann y Gupta, 1985).
Se debe señalar que existen varias formas de establecer un orden a partir de la noción de
distancia, nosotros seguiremos el procedimiento descrito en (Merigó Lindahl, 2008).
Para establecer un orden total entre n números borrosos A1 , A2 ,..., An a partir del uso de la
noción de distancia se sigue el siguiente proceso:
Se calcula el máximo de A1 , A2 ,..., An :
AM A1 () A2 ()...() An
20
Capítulo 1
tales circunstancias, es posible expresar las estimaciones de las personas por medio de
valores lingüísticos en lugar de valores numéricos exactos.
A continuación se muestra las bases fundamentales del método expuesto por los autores
Camprubi, G., Eriz, M. y Lazzari, L. L. en el trabajo “Métodos de agregación de variables
lingüísticas”. (Camprubi et al., 2007)
21
Capítulo 1
sentido usual. Cualquier etiqueta li representa un valor posible de una variable lingüística,
3) Existe un operador máximo: MAX li , l j li si li l j .
1.5.2 Procedimiento
Para procesar encuestas utilizando las temáticas anteriores es necesario:
1) Definir el conjunto de etiquetas lingüísticas con su semántica.
2) Utilizando como operador lingüístico la media aritmética, calcular el número
borroso medio para cada atributo analizado.
3) Luego se calcula la distancia entre el número borroso medio y cada una de las
etiquetas lingüísticas que pueden estar representadas a través de números
borrosos triangulares.
4) Se aproxima a la etiqueta más cercana utilizando alguna métrica por ejemplo la
distancia de Hamming (enunciada en el epígrafe 1.4.3).
22
Capítulo 1
términos lingüísticos en L, y FX mi1 mi 2 ... mik , j 1,2,..., n sea una sucesión de
L1 L2 Lk
i
k
muestras aleatorias borrosas en U, mij ( mij 1) es la pertenencia con respecto a L j .
j 1
23
Capítulo 1
MB L j S j max Si
1i k
1.38
Nota: Un nivel de significación α para la moda borrosa puede ser definida de la siguiente
forma:
Sea U el conjunto universo, L una variable lingüística y L1 , L2 ,..., Lk el conjunto de k
24
Capítulo 1
borrosa (MB) muestral, es decir, MB L j S j max Si . Si hay más de dos conjuntos de
1i k
L j que satisfacen las mismas condiciones, se dice que la muestra borrosa tiene un acuerdo
múltiple común.
borrosas aleatorias en U. Para cada muestra FSi , si existe un intervalo c, d que está
Si a, b no existe (por ejemplo a, b es un conjunto vacío) se dice que esta muestra borrosa
En esta sección se formaliza la definición de mediana borrosa para datos con múltiples
valores y datos en intervalos de confianza (Nguyen y Wu, 2006).
términos lingüísticos en L, y X mi1 mi 2 ... mik , i 1,2,..., n una sucesión de
L1 L2 Lk
i
n
muestras aleatorias borrosas en U, Sea S j mij , j 1,2..., k , T 1 S1 2 S 2 ... k S k .
i 1 n n n
T T
j
Entonces, la mínima L j tal que S j { es el mínimo entero que sea T } se
i 1 2 2 2
25
Capítulo 1
n
T
medianaBorrosa( xi ) L j : mínimo j S j
2
1.40
i 1
mediana l j
FMediana (c; r ), c mediana c j , r 1.41
2
El segundo procedimiento aplica el procedimiento clásico para obtener la mediana.
26
Capítulo 1
U, y
FX
mi1 mi 2
m
... ik , i 1,2,..., n , sea una sucesión de muestras aleatorias
L1 L2 Lk
i
k
borrosas en U, mij ( mij 1) es la pertenencia con respecto a L j . Entonces la varianza
j 1
Métodos de defuzzificación:
27
Capítulo 1
Método Centroide:
Es el método más ampliamente utilizado. Puede ser llamado como método de centro de
gravedad o método de centro de área. Según este método el valor cierto representativo A de
un número borroso , se halla como:
x  ( x)dx
A sop ( Â )
1.43
 ( x)dx
sop ( Â )
Para un número borroso , su número equivalente cierto A es un valor crisp que pertenece
al núcleo de , es decir:
A= x| x Nucl( A) 1.44
En el caso en que el núcleo del número borroso se componga únicamente de un valor, la
determinación de A es inmediata. Sin embargo, si el núcleo es un intervalo de confianza
se utilizará la siguiente expresión:
ab
A 1.45
2
28
Capítulo 1
El objetivo principal de los modelos de regresión borrosa es encontrar el mejor modelo con
el menor error posible (Shakouri y Nadimi, 2009). Dependiendo de cómo se define el error,
este método se puede clasificar en dos clases:
Enfoque posibilístico: Trata de minimizar toda la borrosidad del modelo, reduciendo al
mínimo el total de extensiones de sus coeficientes borrosos, sujeto a la inclusión de los
puntos de datos de cada muestra dentro de un intervalo de datos factible especificado
(Tanaka et al., 1989, Tanaka et al., 1982, Tanaka y Watada, 1988).
El análisis de regresión difusa fue introducido por primera vez por Tanaka et al. (Tanaka et
al., 1982), que estableció su idea sobre la base de la teoría de la posibilidad. El
procedimiento de estimación de parámetros fue modelado como un problema de
programación lineal, donde las entradas son precisas y la salida es un número borroso. Más
tarde se extendió de coeficientes borrosos triangulares a números difusos gaussianos
(Tanaka, 1987).
Modelo de mínimos cuadrados: Consiste en minimizar la suma de errores al cuadrado en
el valor estimado, basado en sus especificaciones.
El enfoque que se emplea en la tesis es el enfoque posibilístico.
29
Capítulo 1
Y A0 A1 x1 A2 x2 ...An xn 1.46
En (1.46), los coeficientes , son números borrosos, por lo que el j-ésimo
queda caracterizado por:
A j {x, ( x)} { A j [ A1 j ( ), A2 j ( )] | 0 1} 1.47
Aj
Las divergencias que se producen respecto a la teórica relación lineal no tiene naturaleza
aleatoria, sino borrosa y el término de error no queda introducido como sumando en el
hiperplano, sino que es incorporado en los coeficientes , al asumirse que
son números borrosos.
sujeto a:
1.49
1.50
1.51
30
Capítulo 1
El valor de indica un nivel de confianza, este toma valores en el conjunto continuo [0,1].
Si el nivel de confianza está próximo a cero se tendrá un punto de vista pesimista del
modelo mientras que si está cercano a uno el resultado será más optimista. Si los
coeficientes tienen funciones de pertenencia triangulares es igual a
.
1.52
1.53
n
a j X ij L1( h) c j X ij yi L1( h ) ei i 1,..., m
n
1.56
j 0 j 0
1.57
31
Capítulo 1
1.58
1.60
El modelo anterior tiene la virtud de disponer de una estimación que tiene una solución
estándar para la tendencia central, pero conceptualmente no tiene la simplicidad de la
solución de Tanaka.
La función objetivo minimiza la suma de las distancias absolutas entre las extensiones y los
centros de la variable observada y los valores estimados en un nivel óptimo de h.
32
Capítulo 1
1.61
sujeto a:
, i = 1,2,…,m 1.62
, i = 1,2,…,m 1.63
; 1.64
1.65
En comparación con el enfoque de Tanaka, la formulación del problema es mucho más
compleja (Shakouri y Nadimi, 2009), en el modelo de Tanaka el valor de h es introducido
por el investigador mientras que en este modelo se estiman simultáneamente los
coeficientes y el valor de h. Como la formulación es más compleja puede requerir un mayor
tiempo de solución pero si se utilizan adecuados software de optimización (LINGO,
GAMS) la solución sólo requiere algunos segundos en una computadora moderna.
Otros métodos de regresión borrosa reportados son: el método de Diamond (Diamond,
1988), los introducidos por Kim y Bishu (Kim y Bishu, 1998) y por Modarres (Modarres et
al., 2005).
33
Capítulo 1
1.66
Donde
1.67
1.68
34
Capítulo 1
Para el conjunto de los datos de una regresión se define el indicador de bondad de ajuste
SIM2 (m indica la cantidad de datos)
m
(1 T ) i
SIM 2 i 1
m 1.69
1.70
Con esta definición de se construye el índice de bondad de ajuste Sim3 que varía entre 0
y 1:
m
(1 R ) i
SIM 3 i 1
1.71
m
1.72
(1 U ) i
SIM 4 i 1
1.73
m
35
Capítulo 1
(y y ) i i
2
regresión. Por ejemplo, si R 2 borroso resulta 0.8, lo interpretamos como que la regresión
1.75
36
Capítulo 1
37
Capítulo 1
autores afirman que es una herramienta fácilmente comprensible por el personal médico y
en ocasiones ha mostrado mejores aciertos que la lógica bayesiana (Massad et al., 2001).
38
Capítulo 2
41
Capítulo 2
Por todo esto en (Siqueira, 2001) se propone un nuevo enfoque para el estudio a través de
los conceptos borrosos. Cada individuo será considerado expuesto o no a un factor de
riesgo de acuerdo con una determinada función de pertenencia. Su categorización como
enfermo o no se realizará de acuerdo con otra función de pertenencia. A partir de esto, el
análisis de riesgo puede realizarse a través de la aplicación de la teoría de conjuntos
difusos, lo que permite el cálculo aproximado de la Razón de Riesgo Borrosa (FRR) y la
Razón de Odds Borrosa (FOR).
2.1
2.2
2.3
Donde: 2.4
El RR no siempre es una medida adecuada, por ejemplo para los estudios caso-control no
debe calcularse, sin embargo es posible calcular para cualquier caso una medida indirecta
del riesgo: la razón de productos cruzados.
El RR es un índice de asociación, siendo el riesgo de un evento o el desarrollo de una
enfermedad en relación a la exposición a un factor o factores determinados.
|
2.5
|
enfermedad, dado que haya estado expuesto a los factores de riesgo y | representa la
probabilidad condicional de que alguien desarrolle la enfermedad, dado que no haya estado
expuesto a los factores de riesgo.
A partir de que el riesgo relativo se obtiene usando probabilidades condicionales se
propone que el riesgo borroso se defina en términos de posibilidades relativas, donde la
clasificación de los individuos en cuanto a la exposición y su respuesta es decir el posible
padecimiento de la enfermedad, sea borrosa.
2.6
|
2.7
|
| 2.8
| |
| Riesgo Sobre Riesgo
E | Protegido Resistente
Tabla 2.2: Tabla cruzada de expuestos (E) contra no expuestos ( )
2.10
Para lograr un intervalo de confianza (EI, ED) aproximado al 95% para OR se emplean las
siguientes expresiones:
2.11
44
Capítulo 2
2.12
Donde: 2.13
Un enfoque borroso para OR debe considerar los grados de pertenencia para los individuos
en cada uno de los subconjuntos borrosos (expuestos y enfermos). El siguiente paso es
considerar la posibilidad relativa, en lugar de la probabilidad condicional para cada uno de
los subconjuntos borrosos. Por lo tanto, el estimador de riesgo Razón de Odds Borrosa
(FOR) se puede definir de la siguiente manera:
| |
2.15
| |
45
Capítulo 2
46
Capítulo 2
48
Capítulo 2
fc ( a2 ) fc ( a3 ) …
fc ( a1) Perfil ( f P (c) )
C1
C2
.
.
.
Cm
Tabla 2.3: Tabla con los datos iniciales
La función f P A (c, a) es usada para determinar el grado de incidencia de cada variable con
relación al perfil del experto, el conjunto de los valores del perfil del experto se representa
con P y A representa el conjunto de las variables.
Para calcular f P A (c, a) se utiliza la siguiente fórmula:
f
P A
(c, a ) = SL (1 - f ( c ) , f ( a ) )=
P c
min (1, 1+(- f P (c) f ( a ) ))
c
=1
Si 1 - f P (c) f (a)
c
es menor que 1, entonces f P (c) f (a)
c
es menor que cero, es decir,
50
Capítulo 2
El usuario mediante el primer caso de uso puede obtener estadígrafos descriptivos como
media, mediana, moda y varianza de datos numéricos y borrosos. El actor mediante el
segundo caso de uso puede obtener modelos de regresión borrosa por los diferentes
métodos implementados así como los índices de bondad de ajuste de los modelos
obtenidos. Con el tercer caso de uso el usuario obtiene el modelo de regresión de Nadimi y
Shakouri en un fichero con formato lg4 (formato de entrada al LINGO). El usuario utiliza
el cuarto caso de uso para realizar operaciones aritméticas borrosas como suma, resta,
multiplicación, división e inverso de números borrosos continuos, triangulares o
trapezoidales. El último caso de uso lo utiliza el usuario para definir las variables del
modelo e insertar los datos de la misma.
52
Capítulo 2
En esta figura se muestra la clase abstracta Variable y las seis clases que representan tipos
de variables, las cuales son Numérico, Borroso Discreto, Borroso Continuo, Borroso
Triangular, Borroso Triangular Simétrico y Borroso Trapezoidal. Cada una de estas clases
tiene un método aceptar (accept()) que recibe al objeto visitador (Visitor) como argumento
y llama al método visit de su clase.
Como se puede apreciar en el diagrama existe una clase dato para cada tipo de Variable y
todas ellas heredan de la clase abstracta Dato y sus atributos especifican la estructura de
cada variable.
La segunda jerarquía de clases representa las operaciones que se realizan sobre la estructura
de objetos de la figura 2.2. Las clases de esta jerarquía se ilustran en la figura 2.3 mediante
un diagrama de clases en UML, destacando los principales atributos y métodos.
La clase VisitorMedia, VisitorMediana, VisitorModa y VisitorVarianza calcula el
estadígrafo descriptivo correspondiente para cada tipo de variable.
53
Capítulo 2
La clase VisitorSuma permite obtener la suma de dos variables borrosa continua, borrosa
triangular o borrosa trapezoidal. Esta clase consta de dos atributos de tipo Variable que
constituyen los operandos de la operación aritmética. Las clases VisitorResta,
VisitorMultiplicación, VisitorMultiplicacionPorReal, VisitorInverso y VisitorDivisión son
similiar a la clase VisitorSuma.
La clase VisitorRegresión es una de las clases más importantes pues obtiene la regresión
lineal borrosa posibilística mediante el método de Tanaka cuando la variable dependiente es
un número triangular o triangular simétrico. La programación de cada modelo se encuentra
en los métodos visitorBTriangular y visitorBTriangularSimétrico. Entre sus atributos
destacan la variable dependiente y la lista de variables independientes. Los resultados de la
regresión borrosa se almacenan en los atributos varEstimada (valores de la variable
estimada) y coefEcuación (coeficientes de la ecuación de regresión) para el caso borroso
triangular y varEstimadaH y coefEcuacionH para el caso triangular simétrico.
La clase VisitorRegresiónS_P permite obtener la regresión lineal borrosa posibilística
mediante el método de Savic y Pedrycs cuando la variable dependiente es un número
triangular. La programación de este modelo se encuentra en el método visitorBTriangular,
el cual invoca a los métodos enterMethod() y Savic_Pedrycs(), que son los que realizan las
operaciones concretas de las dos fases del modelo de regresión.
Fuera de la jerarquía de clases Visitor se encuentran las clases Medidas_Bondad y
Modelo_Nadimi, con la primera se obtienen los métodos para calcular las medidas SIM2,
SIM3, SIM4 y R2 Borroso. Con la clase Modelo_Nadimi se logra un fichero en formato de
entrada al Lingo (lg4) con el modelo propuesto por Nadimi y Shakouri.
55
Capítulo 2
56
Capítulo 2
El usuario mediante el primer caso de uso puede obtener las medidas de riesgo
relativo (RR) y la razón de productos cruzados (OR) así como un intervalo que verifica
aproximadamente un 95% de confiabilidad; con el segundo caso de uso el usuario obtiene
el riesgo relativo borroso (FRR) y la razón de productos cruzados borrosa (FOR). El último
caso de uso permite la obtención de algunas medidas descriptivas como máximo, mínimo,
media, amplitud y desviación estándar para variables numéricas mientras que para las
variables nominales se obtiene la frecuencia y el porcentaje.
(Nueva Zelanda) bajo licencia GPL lo cual ha impulsado que sea una de las más utilizadas
en el área en los últimos años.
En riesgo.jar se encuentra el paquete riesgo que contiene nueve clases que realizan los
cálculos más importantes del sistema. La clase FuncPertenencia es abstracta y posee el
método abstracto funcPertenenciaX() que es implementado en las clases FuncRecta,
FuncTriangular y FuncTrapezoidal; estas clases heredan de FuncPertenencia y calculan la
pertenencia para un valor real. También está la clase RiesgoRelativoBorroso que tiene
como función realizar todos los cálculos para lograr obtener un índice de riego relativo
borroso y la razón de productos cruzados, esta clase posee un atributo de tipo
FuncPertenencia lo que establece la relación de agregación entre estas clases. La clase
RiesgoRelativoClasico contiene métodos para realizar todas las operaciones necesarias para
obtener los valores de riesgo relativo y la razón de productos cruzados. Las clases
CargarDatos y CargarLimites son las encargadas de leer los datos desde los ficheros
correspondientes, la primera clase utiliza la biblioteca weka para realizar las operaciones de
lectura de los datos.
2.3.3 Mathematica
Mathematica es un software utilizado por científicos, ingenieros, matemáticos y otros
especialistas del área de la computación, fue concebido por Stephen Wolfram y
desarrollado por Wolfram Research. Es una herramienta especializada en análisis numérico
y cálculo simbólico.
El lenguaje de programación de Mathematica está basado en re-escritura de términos (que
se identifica también como computación simbólica), y soporta el uso de programación
funcional y de procedimientos (aunque en general, la programación funcional es más
eficiente). Está implementado en una variante del lenguaje de programación C orientado a
objetos, pero el grueso del extenso código de bibliotecas está en realidad escrito en el
lenguaje Mathematica, que puede ser usado para extender el sistema algebraico.
58
Capítulo 2
Usualmente, nuevo código puede ser añadido en forma de paquetes de Mathematica, como
los archivos de texto escrito en el lenguaje de Mathematica.
Por las grandiosas ventajas que ofrece este software, fue utilizado para la implementación
de los canales endémicos y los métodos de procesamiento de encuestas que utilizan lógica
borrosa.
59
Capítulo 3
1
Department of Plant Systems Biology, Flanders Interuniversity Institute for Biotechnology (VIB), Ghent
University, Belgium
60
Capítulo 3
El primer paso fue conformar los números borrosos triangulares a partir del error típico de
la media.
Se calculó para estos números la media y la mediana utilizando el software efuzzy primero
para la clase 1 (proteínas que interactúan). Los resultados se muestran en la tabla siguiente.
Si se toma de cada dato de la base de casos los valores centrales de los números
triangulares y se aplican las técnicas clásicas de análisis descriptivo (media y mediana)
utilizando el software SPSS los resultados que se evidencias es que no existen diferencias.
Para la clase 0 (proteínas que no interactúan) los resultados de la media y la mediana fueron
los siguientes:
61
Capítulo 3
Si se compara los resultados con la variante clásica se observa que no existen grandes
diferencias.
62
Capítulo 3
Figura 3.1: Gráfico del valor de la media en la variable GO_sim_bp_sum (en azul la
clase de proteínas que interactúan y en rojo las que no interactúan)
Figura 3.2 Gráfico del valor de la mediana en la variable GO_sim_bp_sum (en azul la
clase de proteínas que interactúan y en rojo las que no interactúan)
Desde hace algunos años, el Ministerio de Educación Superior aplica una encuesta de
satisfacción estudiantil a una muestra de los estudiantes universitarios de todo el país con el
propósito de conocer la calidad del proceso de enseñanza aprendizaje.
63
Capítulo 3
La encuesta (ver anexo 2) cuenta con nueve preguntas, medidas según una escala Likert de
siete valores. El valor uno se corresponde con el nivel más bajo de satisfacción, mientras
que el siete es el de mayor satisfacción.
Procesamiento de la encuesta:
L7 Perfecto (0.83, 1, 1)
Tabla 3.5: Etiquetas lingüísticas y números borrosos triangulares que las caracterizan
64
Capítulo 3
Primero se trabaja con el atributo A1. Se calcula el número borroso medio, el cual es:
0 L1 0 L2 0 L3 3 L4 3 L5 5 L6 35 L7
AM (0.758, 0.927, 0.967)
46
En segundo lugar se calcula la distancia entre este número borroso medio y cada una de las
etiquetas lingüísticas representadas a través de números borrosos triangulares L1 (Nulo), L2
(Muy Bajo), L3 (Bajo), L4 (Medio), L5 (Alto), L6 (Muy alto), L7 (Perfecto) de acuerdo con
la tabla 3.5.
d ( AM , L1 ) 1.705 d ( AM , L2 ) 1.455 d ( AM , L3 ) 1.125 d ( AM , L4 ) 0.79
Por último se aproxima a la etiqueta más cercana (cuya distancia es la menor) obteniéndose
como resultado la etiqueta L7 .
Prosiguiendo en forma análoga para los demás atributos se obtienen los resultados que se
muestran en la tabla 3.10:
66
Capítulo 3
Tabla 3.7: Resultados del operador de agregación simbólico para cada atributo
La Hipertensión arterial (HTA) es una de las enfermedades más comunes que afectan la
salud de los individuos adultos en las poblaciones de todas las partes del mundo. Incluso
desde hace unos años también se está presentando en la población infantil causando no
menos daños que en la adulta.
Debido a su carácter asintomático se le ha denominado la “epidemia silenciosa” pues por lo
regular no presenta claras manifestaciones que evidencien su presencia, sin embargo no
deja de provocar afectaciones al organismo humano (Rodriguez, 2006).
Al mismo tiempo de representar por sí misma una enfermedad, la hipertensión arterial
constituye un factor de riesgo muy importante para otras enfermedades, fundamentalmente
cerebrales, cardiacas y renales, las cuales en caso de que no conlleven al paciente a la
67
Capítulo 3
68
Capítulo 3
Para este modelo se obtuvo un valor de =0.71 y =0.48 mientras que el R 2borroso
resultó ser 0.32. Obsérvese que la medida Sim3 es muy buena, pero no lo es el R 2borroso .
Ello corrobora la afirmación realizada en (Morales Martínes, 2010) acerca de que esta
medida no es siempre adecuada.
Modelo Savic y Pedrycs
Para este modelo se obtuvo un valor de =0.89 y =0.80 mientras que el R 2borroso
resultó ser 0.775.
Modelo de regresión clásico:
R2= 0.775
Test de normalidad según Jarque Bera: p = 0.745
No existe una diferencia muy marcada en los valores de los coeficientes. Por ejemplo, la
constante borrosa es de en el método de Tanaka, mientras que en
Savic y Pedrycs resultó ser muy similar al coeficiente de la
69
Capítulo 3
Para este grupo se tiene que el =0.681 y =0.418 mientras que el R 2borroso resultó
ser alto: 0.946. Se puede interpretar que el modelo hallado es capaz de explicar el 94.6 %
de la variación presente en los datos centrales .
Savic y Pedrycs
Para este modelo se obtuvo un valor de =0.96 y =0.90 mientras que el R 2borroso
resultó ser 0.994.
Modelo de regresión clásico:
R2 = 0.994
Test de Normalidad según Jarque Bera: p = 0.703
70
Capítulo 3
Tampoco aquí existe una gran diferencia en los valores de los coeficientes. Obsérvese en
particular el asociado al índice de masa corporal (imc) que es de en
Tanaka, en Savic y Pedrycs y de en el modelo clásico.
El test de Jarque Bera (0.703) muestra el ajuste a la distribución normal.
Los índices de bondad de ajuste obtenidos en el modelo de Savic y Pedrycs son muy
buenos. Si se compara el valor del coeficiente R2 borroso se puede apreciar que en ambos
métodos de regresión borrosa fue alto: en Tanaka 0.946 y en Savic y Pedrycs 0.994.
Para este grupo se obtuvo =0.70 y =0.46 mientras que el R 2borroso resultó ser
también alto: 0.899, por lo que se puede interpretar que el modelo de regresión borrosa
explica el 89.9 % de la variación presente en los datos centrales .
Modelo Savic y Pedrycs
Con este modelo se obtuvieron los siguientes valores en los índices de bondad de ajuste:
=0.91 y =0.79 mientras que el R 2borroso resultó ser también alto: 0.966, por lo
que se puede interpretar que el modelo de regresión borrosa explica el 96.6 % de la
variación presente en los datos centrales .
Modelo de regresión clásico:
R2 = 0.966
71
Capítulo 3
72
Capítulo 3
donde yi es el valor de la Presión Arterial Media (PAM) después de dos minutos de estrés y
el error de estimación.
A continuación se muestran varios modelos de regresión borrosa para pronosticar la
hipertensión arterial en escolares de edad pediátrica considerando si tienen alto o bajo
riesgo de ser hipertensos.
R2 = 0.613
Si se comparan los modelos anteriores con la regresión clásica se observa que no existe una
diferencia muy marcada en los valores de los coeficientes. Por ejemplo, en el modelo de
Shakouri y Nadimi la constante borrosa es de , en el modelo de Tanaka
Simétrico es mientras que la del método clásico es de , el
73
Capítulo 3
Los siguientes valores constituyen los índices de bondad de ajuste simétricos obtenidos:
Sim3 = 0.61, Sim4 = 0.57 y R2 borroso = 0.73.
Modelo de Regresión Clásica
Se calculó el modelo de Regresión Clásica usando el método enter y se obtuvo:
R2 = 0.78
Tampoco existe una diferencia muy marcada en los valores de los coeficientes en estos
modelos. Por ejemplo, en el modelo de Shakouri y Nadimi la constante borrosa es de
, en el modelo de Tanaka Simétrico es mientras que la del método
clásico es de , el coeficiente asociado a la variable talla en el modelo de Nadimi es
, en Tanaka mientras que el clásico es . Ese análisis
puede hacerse para todos los coeficientes. El valor R2 borroso obtenido 0.73, es muy
similar al coeficiente R2 de la regresión clásica que refleja como valor obtenido 0.78.
74
Capítulo 3
Riesgo, es la variable dependiente. Ella tiene dos categorías que son: Alto y No Alto. Cada
caso fue etiquetado por un Comité de Expertos del Proyecto PRODEC, compuestos por
médicos de diferentes especialidades y de reconocido prestigio en Cuba (González, 2005).
Para los especialistas pertenecientes a dicho Comité, era interesante obtener un índice de
riesgo apropiado para el alto riesgo cardiovascular, es por ello que la variable dependiente
riesgo tiene sólo dos valores posibles, diferenciando así los pacientes con alto riesgo, del
resto del grupo.
75
Capítulo 3
Estos datos se tomaron y se transformaron, en un fichero con extensión arff. Estos ficheros
tienen la siguiente estructura:
En la primera línea se especifica un nombre, que no tiene que coincidir con el del fichero:
@relation nombre_que_eligió
Luego se especifica el tipo para cada atributo, se emplea una línea para cada atributo.
@attribute nombre_atributo_numérico NUMERIC
@attribute nombre_atributo_nominal { valor0, ..., valorn}
A continuación se especifica la cláusula @data y se comienza a introducir los valores de los
datos, para ello se colocan en el orden en el que se especificó los nombres de los atributos
con su tipo, se separan por comas y cada línea representa una persona.
En la Tabla 3.10 se muestra el nuevo nombre, tipo y valores que recibe la variable en este
fichero. Se construyó además el fichero txt con los límites, según se muestra en la Tabla
3.11.
Nombre de la Variable Identificador Tipo Valores
Ingiere bebidas alcohólicas en demasía bebe numérico { ‘0’, ‘1’ }
Hábito de fumar fuma numérico { ‘0’, ‘1’ }
Edad edad numérico
TA Sistólica basal sistbas numérico
TA Diastólica basal diastbas numérico
Glicemia glicemia numérico
Colesterol total coltotal numérico
Colesterol LDL colesldl numérico
Riesgo riesgo nominal {‘1’, ‘2’ }
Tabla 3.10 Cambios en el nombre, tipo y valores de los datos
76
Capítulo 3
Tabla 3.12: Tabla con los resultados relacionados con el riesgo clásico
A partir de la tabla anterior se puede concluir que para todas las variables ambos valores de
RR y OR son mayores que la unidad, lo que indica que todas ellas constituyen factores de
riesgo.
Al analizar todas las variables, exceptuando las relacionadas con el colesterol, se observa
que el extremo izquierdo de su intervalo de confianza es superior a la unidad, corroborando
así la afirmación anterior: estas variables constituyen factores de riesgo.
Por su parte, el intervalo de confianza asociado a las variables coltotal y colesldl contiene a
la unidad, luego esas son variables dudosas en cuanto a su relación directa con el riesgo
cardiovascular. Debe aclararse que estos resultados no son concluyentes, con ellos sólo se
pretende ejemplificar. Para llegar a conclusiones más certeras debe aumentarse el tamaño
de la muestra y realizar estudios más complejos.
77
Capítulo 3
Para la variable “sistbas” no se pudo calcular el valor de OR pero según sus valores de RR
y su intervalo de confianza se puede decir que es un factor que confiere riesgo.
A continuación se muestra una tabla con los resultados asociados al riesgo borroso para
todas las variables numéricas.
No Variable FRR FOR B
1 edad 1.053 1.053 0.201
2 1.326 2.359 5.254
3 0.4 0.4 -6.806
4 bebe 1.998 412.593 6.714
5 1.89 9.069 2.841
6 1.959 24.606 3.876
7 fuma 1.996 223.816 6.102
8 0.03 0.03 -4.198
9 0.835 0.835 -0.334
10 sistbas 1.328 2.46 5.464
11 1.419 1.769 2.484
12 0.992 0.992 -0.03
13 diastbas 1.328 2.5 5.545
14 0.576 0.576 -2.588
15 0.5 0.5 -3.494
16 glicemia 0.942 0.942 -0.24
17 0.424 0.424 -5.875
18 1.354 1.833 3.339
19 coltotal 0.534 0.534 -3.182
20 1.281 2.751 6.827
21 0.634 0.634 -1.889
22 colesldl 0.834 0.834 -0.792
23 0.434 0.434 -5.516
24 0.434 0.434 -5.617
La figura 3.4 muestra la relación que existe entre los valores de beta y el riesgo borroso.
Obsérvese que para valores de beta menores de cero, el riesgo es menor que la unidad,
mientras que para valores positivos de beta, el riesgo supera a la unidad.
78
Capítulo 3
A continuación se presenta una tabla que permite la comparación entre los resultados
clásicos y borrosos para las variables, se debe tener en cuenta que en los valores borrosos,
se calcula para cada variable un valor por cada beta y según el valor de beta puede existir
variación en los valores.
No Variable RR OR FRR FOR
1 edad 42.77 52.94 1.053 1.053
2 1.326 2.359
3 0.4 0.4
4 bebe 2.217 2.31 1.998 412.593
5 1.89 9.069
6 1.959 24.606
7 fuma 6.105 6.968 1.996 223.816
8 0.03 0.03
9 0.835 0.835
10 sistbas 22.26 1.328 2.46
11 1.419 1.769
12 0.992 0.992
13 diastbas 9.496 15.868 1.328 2.5
14 0.576 0.576
15 0.5 0.5
16 glicemia 7.674 10.64 0.942 0.942
17 0.424 0.424
18 1.354 1.833
19 coltotal 1.817 1.886 0.534 0.534
20 1.281 2.751
21 0.634 0.634
79
Capítulo 3
En este epígrafe se mostraron los resultados obtenidos al aplicar las variantes clásicas y
borrosas para calcular índices de riesgo a pacientes cardiovasculares de la ciudad de Santa
Clara. Como se evidenció el OR no se pudo calcular en el caso de la variante clásica en la
variable sistbas sin embargo por la variante borrosa este valor si se pudo mostrar lo que
evidencia de alguna manera que utilizando esta técnica siempre podremos tener un valor
para el riesgo y que este nos brindará una mejor perspectiva de los efectos de ese factor.
A partir de los valores calculados anteriormente se construye un gráfico de curvas con las
cifras de los percentiles delimitados (Figura 3.5).
80
Capítulo 3
Este gráfico permite para el siguiente año, registrando los casos sobre el canal endémico se
identifiquen epidemias.
Para construir el canal endémico borroso se realizaron los primeros tres pasos anteriores
como si se fuera a construir un canal endémico clásico pero no se construye un gráfico sino
que se define una variable: canal endémico con funciones de pertenencia de cada uno de los
términos lingüísticos bajo, seguridad, alarma y epidemia para cada semana (52 semanas).
En la siguiente figura se muestra para la semana 2.
1.0
0.8
Bajo
0.6
Seguridad
0.4 Alarma
0.2 Epidemia
81
Capítulo 3
En la semana 2 del año 2013 hubo un total de 267 personas diagnosticadas con EDA. Si se
analiza el canal endémico clásico puede observarse que con esta cantidad, se estaría en la
zona de alarma. Al analizar la variante borrosa, se tiene que la pertenencia a la zona de
epidemia ( ) es mayor que la pertenencia a la zona de alarma ( ). Este resultado
permite detectar un posible foco epidémico más tempranamente.
Con la variante borrosa se puede detectar con mayor rapidez cuando se está en presencia de
epidemia que utilizando la variante clásica de canales endémicos. Para la semana 2 el
percentil 25 es 209, el percentil 50 es 223 y el percentil 75 es 270, por lo que según la
metodología clásica, se tendría que esperar a que el número de casos superara los 270 para
poder declarar la zona de epidemia.
Para tomar decisiones no es necesario esperar a que la cantidad de casos diagnosticados
arribe a un número determinado que puede ser alto (270). En la variante borrosa la
referencia del conjunto de números de caso y su grado de pertenencia a uno u otro conjunto
pueden ayudar a la toma de decisiones certeras para la detección temprana de epidemias.