01.2a. BD Borrosa. Analisis Borroso de Datos-ILM - ILM

Capítulo 1
1. CAPÍTULO 1: ELEMENTOS FUNDAMENTALES DEL ANÁLISIS

BORROSO DE DATOS
En este capítulo se expone la teoría de los conjuntos borrosos y se formaliza en las

principales definiciones del análisis estadístico borroso. Se definen los números borrosos
así como las funciones de pertenencia que lo caracterizan y algunas operaciones
fundamentales. Se introducen las variables lingüísticas. Se muestran variantes para realizar
el cálculo de medidas descriptivas borrosas y varios modelos de regresión borrosa así como
índices de bondad de ajuste para los mismos.
1.1 Lógica Borrosa. Teoría de los conjuntos borrosos
La lógica borrosa o difusa es una rama cada día más empleada y con mayor número de usos
de las ciencias matemáticas que ayuda a representar los conceptos imprecisos del mundo
real más cercanos a la forma de expresión del lenguaje humano que la lógica clásica
(Denoda Pérez et al., 2013a).
Esto se implementa a través de los llamados subconjuntos borrosos que vienen definidos
por una función de pertenencia basada en la afirmación “todo es cuestión de grado”, es
decir, mientras que en la lógica clásica un elemento pertenece o no “completamente cierto”
o “completamente falso” a un conjunto; en la lógica borrosa, la función de pertenencia
establece en qué grado entre 0 (falso) y 1 (cierto) ese elemento pertenece a ese conjunto.
Un conjunto borroso es un conjunto para el cual la pertenencia de un elemento está definida

de forma borrosa. Así, si se denomina X como al universo o conjunto referencial, un
subconjunto borroso, que se denotará de la siguiente manera A , es aquel en el que la
pertenencia de un elemento x  X tiene asignado un nivel de verdad que puede tomar
valores en el conjunto continuo [0,1]. El nivel de pertenencia de un elemento x vendrá dado
por su función de pertenencia o función característica  A (x) . Así, se puede definir a un
subconjunto borroso como A  {( x,  A ( x)) | x  X } siendo la función de pertenencia:
7
Capítulo 1
 A : X  [0,1]
1.1
x  X   A ( x)  [0,1]
Donde 0 indica la no pertenencia al conjunto A y 1 la pertenencia absoluta. Existe una

degradación del nivel de pertenencia de forma que si  A ( x)  0.9 , el nivel de pertenencia
del elemento x es muy elevado, y si  A ( x)  0.1 el nivel de pertenencia de x es muy bajo.
Así puede interpretarse como el grado en que un elemento particular que se considera
cumple con las especificaciones que definen a los elementos del conjunto en cuestión.
1.2 Números borrosos y funciones de pertenencia

En esta sección se dará la definición de números borrosos los cuales son un caso particular
y de gran interés de los subconjuntos borrosos. Para ello se muestra en primer lugar el
concepto de intervalo, que es fundamental dentro de los números borrosos.
1.2.1 Intervalos de confianza

Un número ordinario a   , puede interpretarse utilizando el concepto de función de
pertenencia como:
1 si x  a
 a ( x)   1.2
0 si x  a
De manera similar podemos definir un intervalo de confianza  para un número ordinario.
Tal intervalo será un conjunto binario clásico A, que representa cierto tipo de incertidumbre
acerca del valor auténtico de dicho número. Por ejemplo, si el intervalo se denota por
A  [a1 , a3 ], a1 , a3  , a1  a3 , este se puede considerar como una clase de conjuntos. En
la figura 1.1 se expresa el intervalo como función de pertenencia:
0 si x  a1

 A ( x)  1 si a1  x  a3 1.3
0 si x  a
 3
Si a1  a3 este intervalo indica un punto que es [a1 , a1 ]  a1
8
Capítulo 1
Figura 1.1: Número ordinario A  [a1 , a3 ] dado por un intervalo de confianza
1.2.2 Números borrosos

Un número borroso es expresado como un conjunto borroso definiendo un intervalo
borroso en los números reales  . Como la frontera de este intervalo es ambigua, el
intervalo es además un conjunto borroso. Generalmente un intervalo borroso se representa
por dos puntos extremos a1 y a 3 y un punto central a 2 que es el punto en donde se alcanza
el valor máximo como [a1 , a2 , a3 ] . (Figura 1.2)
Figura 1.2: Número borroso A  [a1 , a2 , a3 ]
Un número borroso es un subconjunto borroso N definido sobre la recta real  y que

cumple además las siguientes propiedades.
1. Es normal, es decir, que el núcleo de N es no vacío o lo que es lo mismo, existe al

menos un elemento x de  tal que  N ( x)  1
2. Es convexo, geométricamente quiere decir que los α-cortes de N son intervalos

cerrados y acotados.
3. El soporte de N está acotado.
9
Capítulo 1
4. La función de pertenencia es seccionalmente continua.

Los números borrosos constituyen una herramienta valiosa para representar cantidades
estimadas u observadas en el contexto de la lógica borrosa.
De forma general la función de pertenencia de un número borroso N puede escribirse

como:
 f ( x) a1  x  a 2
1 a 2  x  a3

 N ( x)     1.4
 g ( x) a 3  x  a 4

0 en otro caso
El intervalo de confianza [a1 , a4 ] es el soporte del número borroso y [a 2 , a3 ] es el núcleo
del número borroso. Asimismo f(x) es creciente en el intervalo [a1 , a2 ] y g(x) es
decreciente en el intervalo [a3 , a 4 ] (ver figura 1.3)
Figura 1.3: Forma general de un número borroso
Sin embargo, en muchas ocasiones será más práctico operar con su representación a través
de sus conjuntos de nivel o α-cortes. Estos son intervalos de confianza que se pueden
representar como:
N  {x   |  N ( x)  }  [ f 1 ( ), g 1 ( )]  [n1 ( ), n2 ( )] 1.5
donde n1 ( ) (n2 ( )) serán funciones crecientes (decrecientes de  ) con n1 ( )  n2 ( )
10
Capítulo 1
1.2.3 Números borrosos L-R de Dubois y Prade

Para la construcción de un número borroso L-R de Dubois y Prade (Dubois y Prade, 1987)
se parte en primer lugar de dos funciones L(x) y R(x), las cuales se denominan funciones de
forma a la izquierda y a la derecha respectivamente. Estas se asumen, generalmente, como
dos funciones lineales. A continuación se muestra la definición de número borroso del tipo
LR (Dubois y Prade, 1987).
Definición 1. es un número borroso de tipo LR cuya función de pertenencia se define
como:
 ax
 L( c ) for x  a

 A ( x)   L

 R( a ) for x  a
x
 cR
1.6
donde constituye el valor central y las extensiones izquierda y derecha; L y R son
funciones de pertenencias decrecientes para R+ en [0,1], y , para ,
y para .
1.2.4 Números borrosos triangulares

Los números borrosos triangulares son los más usados en la práctica por su relativa
comodidad de manipulación. Sin embargo muchos autores han cuestionado su utilización
indiscriminada. Como es evidente estos son la versión más sencilla del concepto general de
número borroso L-R expuesto anteriormente. Un número borroso triangular (NBT) tiene,
como su nombre lo indica, la forma triangular mostrada en la figura 1.4.
Figura 1.4 Número borroso triangular A  [a1 , a2 , a3 ] .
La función de pertenencia para este número borroso triangular viene dada por:
11
Capítulo 1
 x  a1
 a  a si a1  x  a2
 2 1
 a x
 A ( x)   3 si a2  x  a3 1.7
 a3  a2
0 en otro caso


donde el soporte viene dado por [a1 , a3 ] , la extensión izquierda es y la
extensión derecha es .
Como se puede observar la función de pertenencia de un número borroso triangular es
lineal. La extensión izquierda es la recta que pasa por (a1 ,0) y (a 2 ,1) , la extensión derecha
es la recta que toma valores en (a 2 ,1) y (a3 ,0) .
1.2.4.1 Número borroso triangular simétrico

Un número borroso triangular se denota por una terna de confianza donde los valores que la
componen son el valor más pequeño posible, el valor central y el valor más elevado
posible, es decir, de la forma A  [a1 , a2 , a3 ] , o mediante el centro y las extensiones de la
forma , donde a es llamado valor medio o el centro, y y son las

extensiones izquierda y derecha respectivamente.
Si = =c entonces es llamado un número borroso triangular simétrico, denotado por:
1.2.5 Números borrosos trapezoidales

Otra de las formas de números borrosos son los números borrosos trapezoidales. Estas
formas trapezoidales surgen como consecuencia de que ellas tienen varios puntos con
máximo grado de pertenencia de valor 1. Para un número borroso trapezoidal no se obtiene
un solo punto cuando  =1, sino una línea horizontal sobre un intervalo [a 2 , a3 ] tal como
muestra la figura 1.5.
12
Capítulo 1
Figura 1.5: Número borroso trapezoidal A  [a1 , a2 , a3 , a4 ] .
La función de pertenencia para este número borroso trapezoidal viene dada por:
 x  a1
 a  a si a1  x  a 2
 2 1
1 si a 2  x  a3
 A ( x)   1.8
 a 4  x si a  x  a
 a 4  a3 3 4

0 en otro caso
donde el soporte viene dado por [a1 , a4 ] , el núcleo viene dado por el intervalo [a 2 , a3 ]
como ya se vio anteriormente, la extensión izquierda es cl  a2  a1 y la derecha es
cr  a4  a3 .
Un número borroso trapezoidal A se denota mediante una cuarteta de confianza donde los
valores que la componen son el valor más pequeño posible, el valor inferior y el valor
superior que conforman el núcleo y el valor más elevado posible, es decir
A  [a1 , a2 , a3 , a4 ] o mediante el núcleo y las extensiones de la forma A  [a1n , a2n , cl , cr ] .
Como se puede observar la función de pertenencia de un número borroso trapezoidal

también es lineal. La función que delimita el nivel de pertenencia de los valores inferiores
f(x), es la recta que pasa por los puntos (a1 ,0) y (a 2 ,1) y la que delimita el grado de
pertenencia de valores superiores al núcleo, g(x) es la recta que pasa por los puntos (a3 ,1) y
(a4 ,0) .
13
Capítulo 1
1.3 Variables lingüísticas
Una variable lingüística según la definición formal propuesta por (Zadeh, 1973, Zadeh,
1975b, Zadeh, 1975c, Zadeh, 1975a) está dada por <N, U, T(N), M> dónde:
– N es el nombre de la variable lingüística y U el dominio subyacente.
– T(N) es el conjunto de términos o etiquetas lingüísticas que puede tomar N.
– M es una regla semántica que asocia cada elemento de T(N) con un conjunto difuso en U
de entre todos los posibles.
Las variables lingüísticas pueden formular descripciones vagas en lenguaje natural a

términos matemáticos precisos (Passino y Yurkovich, 1997) y son una forma de comprimir
información (Zadeh, 1994b, Zadeh, 1994a, Zadeh, 1996) llamada granulación
(granulation), es decir, ayuda a caracterizar fenómenos que o están mal definidos o son
complejos de definir o ambas cosas (Zadeh, 1975b, Zadeh, 1975c, Zadeh, 1975a). Son un
medio de trasladar conceptos o descripciones lingüísticas a descripciones numéricas, o sea,
relaciona o traduce el proceso simbólico a proceso numérico. Según (Ruiz, 2007) las
variables difusas proporcionan una transición gradual de estados y tienen capacidad para
expresar y trabajar con observaciones y medidas de incertidumbre, que son más ajustadas a
la realidad que las variables con cambios abruptos. Las etiquetas lingüísticas son los
términos lingüísticos definidos como conjuntos difusos que representan los posibles valores
de una variable lingüística (Kacprzyk, 1997, Pedrycz, Zadeh, 1994b, Zadeh, 1994a). Son
susceptibles de ser representadas de muy diversas formas, entre las que podemos destacar:
números reales, intervalos, números difusos triangulares o trapeciales (Herrera y Viedma,
2000a, Herrera y Viedma, 2000b, Umano et al., 1998, Zadeh, 1975b, Zadeh, 1975c, Zadeh,
1975a), por lo que la función de pertenencia debe ser obtenida del experto en ese dominio
de conocimiento.
1.4 Operaciones con números borrosos

Las operaciones aritméticas entre números borrosos pueden establecerse a partir de la
aritmética entre intervalos de confianza.
14
Capítulo 1
1.4.1 Aritmética de Intervalo

Supongamos que tenemos dos intervalos cerrados y acotados cualesquiera, tales como,
A  [a1 , a2 ] y B  [b1 , b2 ] , con a1 , a2 , b1 , b2   .
En general cuando se aplica una función a un conjunto de intervalos, el límite inferior
(superior) del intervalo resultante será el valor mínimo (máximo) calculado aplicando esa
función a todas las posibles combinaciones de valores pertenecientes a los intervalos
considerados.
Si * denota suma, resta, multiplicación, o división, entonces [a1 , a2 ] * [b1 , b2 ]  [c, d ] donde:
[c, d ]  {a * b | a1  a  a2 , b1  b  b2 } 1.9
Si * es división se asumirá que el cero no pertenece al intervalo [b1 , b2 ] . La ecuación

anterior se puede especializar en cada caso de acuerdo a:
Suma: [a1 , a2 ]  [b1 , b2 ]  [a1  b1 , a2  b2 ] 1.10
Resta: [a1 , a2 ]  [b1 , b2 ]  [a1  b2 , a2  b1 ] 1.11
Multiplicación: [a1 , a2 ]  [b1 , b2 ]  [c, d ] 1.12

donde:
c  Min{a1b1 , a1b2 , a2 b1 , a2 b2 } y d  Max{a1b1 , a1b2 , a2 b1 , a2 b2 }

Si el conjunto borroso está definido sobre  , entonces [a1 , a2 ]  [b1 , b2 ]  [a1b1 , a2 b2 ]
Se define ahora la operación de inverso para una mejor comprensión de la operación de
división.
Inverso: [a1 , a2 ]1  [c, d ] 1.13
donde:
1 1 
c  Min  , 
 a1 a 2 
1 1 
d  Max  ,  excepto para a1  0  a2
 a1 a 2 
 1 1
Si el conjunto borroso está definido sobre  , sería [a1 , a 2 ]   , 
1
 a 2 a1 
15
Capítulo 1
[a1 , a 2 ] 1 1
División:  [a1 , a 2 ]  [b1 , b2 ]1  [a1 , a 2 ]   ,  1.14
[b1 , b2 ]  b2 b1 
Multiplicación por un número real:
Un número real puede interpretarse como a  [a, a], a   , por tanto:
a [b1 , b2 ]  [c, d ] 1.15
donde c  Min [ab1 , ab2 ] y d  Max[ab1 , ab2 ]
1.4.2 Operaciones aritméticas con números borrosos
A continuación se estudiarán las operaciones más usuales entre números borrosos.

Si los  -cortes y la función de pertenencia de los números borrosos sobre los que se
realizan estas operaciones A y B vienen dados por:
A  {x |  A ( x)}  {A  [a1 ( ), a2 ( )] | 0    1}
B  {x |  B ( x)}  {B  [b1 ( ), b2 ( )] | 0    1}
Para hallar la función de pertenencia de C  A * B debemos aplicar el principio de

extensión generalizado teniendo en cuenta que se está evaluando una aplicación
f :      . De forma general, y si suponemos que: 0  Sop( A ) y 0  Sop( B ) :
 C ( x)  Max [Min( A ( x1 ),  B ( x2 ))] 1.16
x  x1 *x2
siendo los  -cortes de C , C :
Min{a1 ( ) * b1 ( ), a1 ( ) * b2 ( ), a 2 ( ) * b1 ( ), a 2 ( ) * b2 ( )}, 1.17

C  [c1 ( ), c2 ( )]   
Max{a1 ( ) * b1 ( ), a1 ( ) * b2 ( ), a 2 ( ) * b1 ( ), a 2 ( ) * b2 ( )} 
Suma de números borrosos:
Sea C  A  B , la función de pertenencia de C se halla como:

 C ( x)  Max [Min( A ( x1 ),  B ( x2 ))] 1.18
x  x1  x2
y sus  -cortes:
C  [c1 ( ), c2 ( )]  [a1 ( )  b1 ( ), a2 ( )  b2 ( )] 1.19
Resta de números borrosos:
Sea C  A  B , la función de pertenencia de C se halla como:
16
Capítulo 1
 C ( x)  Max [Min( A ( x1 ),  B ( x2 ))] 1.20

x  x1  x2
y sus  -cortes:
C  [c1 ( ), c2 ( )]  [a1 ( )  b2 ( ), a2 ( )  b1 ( )] ya que C  A  ( B ) 1.21
Multiplicación de números borrosos:
Sea C  A  B , la función de pertenencia de C se halla como:

 C ( x)  Max[ Min(  A ( x1 ),  B ( x2 ))] 1.22
x  x1  x2
siendo sus  -cortes

Min{a1 ( )  b1 ( ), a1 ( )  b2 ( ), a 2 ( )  b1 ( ), a 2 ( )  b2 ( )},
C  [c1 ( ), c2 ( )]   
1.23
Max{a1 ( )  b1 ( ), a1 ( )  b2 ( ), a 2 ( )  b1 ( ), a 2 ( )  b2 ( )} 
Si el Sop(A ) y el Sop(B )    respectivamente se obtiene entonces que:

C  [c1 ( ), c2 ( )]  [a1 ( )  b1 ( ), a2 ( )  b2 ( )]
Inverso:
1
Sea A un número borroso tal que Sop(A )    . Su inverso C  A tiene como función
de pertenencia:
1
 C ( x)   A ( ) 1.24
x
 1 1 
con  -cortes C  [c1 ( ), c2 ( )]   ,  1.25
 a 2 ( ) a1 ( ) 
División de números borrosos:
Sea C  A  B , en los cuales 0  Sop( A ) y 0  Sop( B ) : La función de pertenencia de C

se halla como:
C ( x)  Max
x
[ Min (  A ( x1 ),  B ( x2 ))] 1.26
x 1
x2
siendo sus  -cortes

 a1 ( ) a1 ( ) a2 ( ) a2 ( ) 
 Min{ b ( ) , b ( ) , b ( ) , b ( )}, 
C  [c1 ( ), c2 ( )]  
1 2 1 2
 1.27
 a1 ( ) a1 ( ) a2 ( ) a2 ( ) 
 Max{ b ( ) , b ( ) , b ( ) , b ( )} 
 1 2 1 2 
17
Capítulo 1
Si el Sop(A ) y el Sop(B )    respectivamente se obtiene entonces que:
 a ( ) a 2 ( ) 
C  [c1 ( ), c2 ( )]   1 , 
 b2 ( ) b1 ( ) 
Multiplicación por un escalar:
Sea A un número borroso y k   un escalar. El producto C  kA tiene función de

pertenencia:
 x
 A ( k ) si k  0

 C ( x)   1.28
1 si x  0
 si k  0
0 si x  0
1.4.3 Distancia entre números borrosos
Existen numerosas situaciones en las cuales parte de la información disponible aportada por
diferentes expertos, está expresada por estimaciones inciertas.
El conocimiento de distancia sirve para calcular el grado de separación entre dos elementos,
dos conjuntos, etc. Según (Kaufmann y Gil Aluja, 1992) y (Kaufmann et al., 1994)
acentúan la importancia de conocer las distancias que separan dichas previsiones para poder
agruparlas convenientemente a los efectos de poder adoptar decisiones.
Sea X un conjunto no vacío. Una función d de valores reales no negativos definida en el
producto cartesiano X  X se llama una métrica o distancia en X, tal que para todo
elemento a, b, c  X se verifica los siguientes axiomas.
i. d (a, b)  0 y d (a, a)  0
ii. d (a, b)  d (b, a) (Simetría )
iii. a  b  d (a, b)  0
iv. d (a, b)  d (b, c)  d (a, c) (desigualdad triangular )
donde  según (Kaufmann y Gupta, 1985) es un operador asociado con la noción de
distancia.
Si se satisface ii, iii, iv pero no necesariamente i, entonces la función d es una
pseudométrica.
18
Capítulo 1
Se pueden utilizar muchas variantes para determinar la distancia. Las más utilizadas entre
esta gran variedad son la distancia de Hamming, la distancia de Euclides y la distancia de
Minkowski, por lo que para un mismo problema se obtendrían resultados no idénticos. En
esta investigación se utiliza la distancia de Hamming.
Distancia de Hamming para intervalos de confianza

Dados dos números borrosos A y B de R expresados por intervalos A  [a1 , a2 ] y
B  [b1 , b2 ] , se puede definir una distancia de Hamming a la izquierda y otra a la derecha:
Distancia izquierda: d I ( A , B )  a1  b1 1.29
Distancia derecha: d D ( A, B )  a2  b2 1.30
Distancia total: d ( A, B )  d I  d D  a1  b1  a2  b2 1.31
Distancia de Hamming para números borrosos continuos

La distancia entre dos números borrosos continuos A y B de R expresados por sus
  cortes A  [a1 ( ), a2 ( )] y B  [b1 ( ), b2 ( )] , se obtiene generalizando la distancia
izquierda y derecha respectivamente de los intervalos para todo valor de   [0,1] .
1
d I ( A , B )   a1 ( )  b1 ( ) d 1.32
0
1
d D ( A , B )   a 2 ( )  b2 ( ) d 1.33
0
1 1
d ( A , B )   a1 ( )  b1 ( ) d   a 2 ( )  b2 ( ) d 1.34
0 0
Si se desea una distancia normalizada, es decir cuyo valor se encuentre entre 0 y 1, se

deben escoger dos números reales  1 y  2 , tales que dichos números vengan dados de
forma conveniente para que contengan a A 0 y B 0 .

Y se obtiene una distancia relativa mediante la expresión (Kaufmann y Gupta, 1985).
d ( A, B )
 ( A, B )  1.35
2(  2  1 )
19
Capítulo 1
Esta ecuación da la distancia entre dos números borrosos; es también llamada índice de
desemejanza (disimilitud) entre A y B (Kaufmann y Gupta, 1985).
1.4.4 Clasificación de los números borrosos en un orden total
Se debe señalar que existen varias formas de establecer un orden a partir de la noción de
distancia, nosotros seguiremos el procedimiento descrito en (Merigó Lindahl, 2008).
Para establecer un orden total entre n números borrosos A1 , A2 ,..., An a partir del uso de la
noción de distancia se sigue el siguiente proceso:
Se calcula el máximo de A1 , A2 ,..., An :
AM  A1 () A2 ()...() An
1. Se obtienen las distancias de cada número borroso al máximo:

i  1,..., n : d ( Ai , AM )
2. El número Ai más cercano a AM , es decir aquel cuya distancia sea menor se

considera que es el mayor de los n números borrosos.
Pero en el paso 2 pueden haber varios números borrosos con el mismo desplazamiento y
entonces se utiliza un procedimiento propuesto en (Kaufmann y Gupta, 1985).
En estos casos (clases de números borrosos con el mismo desplazamiento) se aplica un
segundo criterio que se basa en la moda o valor central del número borroso. Si no tiene una
moda única (cuestión que no ocurre si hablamos de números borrosos triangulares), se toma
la media de los valores modales. Es posible que las modas generen subclases de
equivalencia que nos obliguen, todavía a utilizar un tercer criterio que se basa en la
divergencia y consiste en seleccionar de cada subclase la divergencia (a3-a1) como criterio
para la ordenación lineal de números borrosos.
1.5 Procesamiento de encuestas utilizando lógica borrosa

En muchos procesos reales de toma de decisión los objetivos, las restricciones y las
acciones a seguir no son conocidos con exactitud. Los individuos que participan tienen
dificultad en representar con un valor numérico exacto su apreciación de los hechos. Bajo
20
Capítulo 1
tales circunstancias, es posible expresar las estimaciones de las personas por medio de
valores lingüísticos en lugar de valores numéricos exactos.
A continuación se muestra las bases fundamentales del método expuesto por los autores
Camprubi, G., Eriz, M. y Lazzari, L. L. en el trabajo “Métodos de agregación de variables
lingüísticas”. (Camprubi et al., 2007)
1.5.1 Pasos iniciales en el proceso de toma de decisión

Para resolver un problema con información lingüística se debe seleccionar: un conjunto de
términos lingüísticos con su semántica y un operador de agregación de información
lingüística.
1.5.1.1 Conjunto de términos lingüísticos

En un modelo lingüístico de toma de decisión se debe elegir un conjunto apropiado de
términos o etiquetas, de acuerdo con el dominio del problema, en base a la cual los
individuos expresan sus preferencias.
Se debe acordar sobre el nivel de distinción al que se quiere expresar la incertidumbre, o la
granularidad del conjunto de etiquetas, y sobre la semántica de las etiquetas, es decir qué
tipo de funciones de pertenencia usar para caracterizar los valores lingüísticos.
La granularidad corresponde a la cardinalidad del conjunto de términos lingüísticos usados
para expresar la información. Es usual emplear un número impar de etiquetas, (Miller,
1956) considera entre cinco y nueve la cantidad de valores que puede discriminar el ser
humano. Por lo general, se define una etiqueta intermedia, “aproximadamente 0.5”, que
representa un estado neutro y las demás etiquetas se distribuyen simétricamente alrededor
de ella.
La semántica del conjunto de términos puede estar dada por números borrosos del intervalo
[0,1] definidos por medio de sus funciones de pertenencia.
Dado que las etiquetas lingüísticas son aproximaciones de expresiones propias de los
individuos, el empleo de funciones de pertenencia: triangulares o trapeciales, es adecuado
para capturar la vaguedad de las estimaciones. Los valores numéricos reales proporcionan
la granularidad más fina que se puede considerar en los procesos de decisión.
21
Capítulo 1
Sea L  li , i  H  0,, t un conjunto de etiquetas finito y totalmente ordenado en el
sentido usual. Cualquier etiqueta li representa un valor posible de una variable lingüística,
es decir, una restricción o propiedad borrosa definida en 0,1 . El conjunto de etiquetas

satisface las siguientes propiedades:
1) Es ordenado: li  l j si i  j .
2) Existe un operador de negación: NEG li   l j tal que j  t  i .
 
3) Existe un operador máximo: MAX li , l j  li si li  l j .
4) Existe un operador mínimo: MIN li , l j   li si l j  li .
1.5.1.2 Agregación de la información lingüística

Los métodos basados en el Principio de Extensión operan sobre las funciones de
pertenencia de los términos lingüísticos empleando las operaciones aritméticas extendidas.
Además, en general, el número borroso obtenido no coincide con ninguna etiqueta del
conjunto. Se debe realizar un procedimiento de aproximación lingüística que consiste en
encontrar una etiqueta cuyo significado esté lo más cerca posible, de acuerdo con alguna
métrica, del reflejado por el resultado obtenido.
El operador lingüístico más sencillo basado en las operaciones aritméticas extendidas es la
media aritmética.
1.5.2 Procedimiento
Para procesar encuestas utilizando las temáticas anteriores es necesario:
1) Definir el conjunto de etiquetas lingüísticas con su semántica.
2) Utilizando como operador lingüístico la media aritmética, calcular el número
borroso medio para cada atributo analizado.
3) Luego se calcula la distancia entre el número borroso medio y cada una de las
etiquetas lingüísticas que pueden estar representadas a través de números
borrosos triangulares.
4) Se aproxima a la etiqueta más cercana utilizando alguna métrica por ejemplo la
distancia de Hamming (enunciada en el epígrafe 1.4.3).
22
Capítulo 1
1.6 Análisis descriptivo borroso

Cuando se quiere investigar las opiniones de las personas o el consenso en algunos temas
determinados, el uso de la moda o la mediana será más adecuado que el de la media. Sin
embargo las estadísticas tradicionales ofrecen una sola respuesta o cierto rango de la
respuesta, incapaz de reflejar suficientemente el pensamiento complejo de un individuo. Si
las personas pueden utilizar la función de pertenencia para expresar el grado de sus
sentimientos sobre la base de sus propias decisiones, la respuesta presentada estará más
cerca al pensamiento humano real.
El análisis estadístico borroso crece como una nueva disciplina debido a la necesidad de
hacer frente a la información imprecisa causada por el pensamiento humano en ciertos
ambientes experimentales.
1.6.1 Medidas de Tendencia Central o de Posición

A continuación se formalizan las definiciones de media borrosa, moda borrosa, mediana
borrosa y varianza borrosa. Para un estudio más profundo se puede consultar (Nguyen y
Wu, 2006).
1.6.1.1 Media borrosa

En esta sección se muestra la definición de media borrosa para datos con múltiples valores
y datos en intervalos de confianza (Nguyen y Wu, 2006).
Definición 1.2 (Media muestral borrosa: datos con múltiples valores)

Sea U el conjunto universo, L una variable lingüística y L1 , L2 ,..., Lk  el conjunto de k
 
términos lingüísticos en L, y FX  mi1  mi 2  ...  mik , j  1,2,..., n sea una sucesión de
 L1 L2 Lk 
i
k
muestras aleatorias borrosas en U, mij ( mij  1) es la pertenencia con respecto a L j .
j 1
Entonces la media muestral borrosa se define como:

1 n 1 n 1 n
 i1 n 
n i 1
m mi2  mik
n i 1
FX   i 1
 ...  1.36
L1 L2 Lk
23
Capítulo 1
Definición 1.3 (Media muestral borrosa: datos en intervalos de confianza)

Sea U el conjunto universo, y Fxi   ai , bi  , ai , bi  R, i  1,..., n una sucesión de muestras
borrosas aleatoria en U. Entonces la media muestral borrosa se define como:

1 n 1 n 
F x    ai ,  bi  1.37
 n i 1 n i 1 
1.6.1.2 Moda borrosa

En esta sección se formaliza la definición de moda borrosa para datos con múltiples valores
y datos en intervalos de confianza (Nguyen y Wu, 2006).
Definición 1.4 (Moda muestral borrosa: datos con múltiples valores)

términos lingüísticos en L, y FS i , i  1,2..., n una sucesión de muestras aleatorias borrosas
en U, para cada muestra FS i , asignamos a un término lingüístico L j una pertenencia

k n
normalizada mij ( mij  1) . Sea S j   mij , j  1,2..., k . Entonces el máximo valor de S j
j 1 i 1
(con respecto a L j ) se llama moda borrosa (MB) de la muestra, es decir es la pertenencia
con respecto a L j . Entonces la moda muestral borrosa se define como:

MB  L j S j  max Si
1i  k
 1.38
Nota: Un nivel de significación α para la moda borrosa puede ser definida de la siguiente
forma:
términos lingüísticos en L, y FS i , i  1,2..., n, una sucesión de muestras aleatorias
borrosas en U. Para cada muestra FS i , asignamos a un término lingüístico L j una

k n
pertenencia normalizada mij ( mij  1) . Sea S j   I ij , j  1,2..., k , I ij  1 si mij   ,
j 1 i 1
I ij  0 si mij   . Por lo que el máximo valor de S j (con respecto a L j ) se llama moda
24
Capítulo 1
 
borrosa (MB) muestral, es decir, MB  L j S j  max Si . Si hay más de dos conjuntos de
1i  k
L j que satisfacen las mismas condiciones, se dice que la muestra borrosa tiene un acuerdo
múltiple común.
Definición 1.5 (Moda muestral borrosa: datos en intervalos de confianza)

términos lingüísticos en L, y FSi   ai , bi  , ai , bi  R, i  1,..., n una sucesión de muestras
borrosas aleatorias en U. Para cada muestra FSi , si existe un intervalo  c, d  que está
respaldado por ciertas muestras, entonces llamamos a estas muestras un conglomerado.

Sea MS un conjunto de conglomerados que contiene el máximo número de muestras,
entonces, la moda borrosa (MB) se define como:
MB   a, b    ai , bi  |  ai , bi   MS 1.39
Si  a, b no existe (por ejemplo  a, b es un conjunto vacío) se dice que esta muestra borrosa
no tiene moda borrosa.
1.6.1.3 Mediana borrosa
En esta sección se formaliza la definición de mediana borrosa para datos con múltiples
valores y datos en intervalos de confianza (Nguyen y Wu, 2006).
Definición 1.6 (Mediana muestral borrosa: datos con múltiples valores)

 
términos lingüísticos en L, y  X  mi1  mi 2  ...  mik , i  1,2,..., n una sucesión de
 L1 L2 Lk 
i
n
muestras aleatorias borrosas en U, Sea S j   mij , j  1,2..., k , T  1 S1  2 S 2  ...  k S k .
i 1 n n n
T  T 
j
Entonces, la mínima L j tal que  S j    {   es el mínimo entero que sea  T } se
i 1 2 2 2
llama mediana muestral borrosa de xi , es decir
25
Capítulo 1
 n
T  
medianaBorrosa( xi )   L j : mínimo j S j   
 2 
1.40
 i 1
Mediana muestral borrosa: datos en intervalos de confianza

Para calcular la mediana muestral borrosa en intervalos de confianza existen dos
procedimientos.
El primer procedimiento viene dado por la definición 1.7 que aparece como ha sido
mencionado anteriormente en Fundamentals of Statistics with Fuzzy Data (Nguyen y Wu,
2006).
Definición 1.7
Sea U el conjunto universo, y Fxi   ai , bi  , ai , bi  R, i  1,..., n una sucesión de muestras
borrosas aleatorias en U. Sea c j el centro de cada intervalo  ai , bi  y l j la longitud de cada
intervalo  ai , bi  . Entonces la mediana muestral borrosa se define como:
mediana l j 
FMediana  (c; r ), c  mediana c j  , r  1.41
2
El segundo procedimiento aplica el procedimiento clásico para obtener la mediana.
Pasos para obtener la mediana muestral borrosa en intervalos de confianza:
1. Ordenar los números borrosos siguiendo el procedimiento mostrado en el

subepígrafe 1.4.4.
2. Aplicar el procedimiento para obtener la mediana clásica. Si el número de intervalos
es impar, la mediana es el número borroso que se encuentra en la posición del
medio y si es par, entonces la mediana es el número borroso que se corresponde con
la semisuma de cada componente de los números borrosos centrales.
1.6.2 Medidas de dispersión o variabilidad

A continuación se define la varianza relativa borrosa siguiendo el mismo razonamiento de
las definiciones anteriores.
1.6.2.1 Varianza relativa borrosa
26
Capítulo 1
Definición 1.8 (Varianza relativa borrosa: datos con múltiples valores)

Sea U el conjunto universo y L  L1 , L2 ,..., Lk  un conjunto de k variables lingüísticas en
U, y 
FX 
mi1 mi 2

m 
 ...  ik , i  1,2,..., n , sea una sucesión de muestras aleatorias
 L1 L2 Lk 
i
k
borrosas en U, mij ( mij  1) es la pertenencia con respecto a L j . Entonces la varianza
j 1
muestral borrosa (VB) se define como:

n 2 2 2
1 n n
1 n n
1 n
 (mi1 
i 1
 mi1 )
n i 1
 (mi 2 
i 1
 mi 2 )
n i 1
 (mi1 
i 1
 mik )
n i 1
k n k n k n
(n  1) mij (n  1) mij (n  1) mij
j 1 i 1 j 1 i 1 j 1 i 1
VB    ...  1.42
L1 L2 Lk
1.6.3 Métodos de defuzzificación

En muchos problemas, aunque estimemos las variables que lo describen mediante números
borrosos, será necesario cuantificar las magnitudes que pretendemos estimar finalmente
mediante un valor cierto, es decir, debemos asignarles un valor “crisp”. Esto es lo que en la
literatura borrosa se conoce como “defuzzificar” números borrosos, o lo que los profesores
Kaufmann y Gil Aluja denominan como “hacer caer la entropía”.
La literatura borrosa da diversas alternativas para la defuzzificación de números borrosos, a
continuación se enuncian siete métodos y se describen los dos utilizados.
Métodos de defuzzificación:
1. Principio de Máxima Pertenencia (Max-membership principle).

2. Centroide (Centroid method).
3. Promedio ponderado (Weighted average method).
4. Media de la Máxima Pertenencia (Mean–max membership).
5. Centro de suma (Centre of sums).
6. Centro de mayor área (Centre of largest area).
7. Primero de los máximos o último de los máximos (First of maxima or last of
maxima).
27
Capítulo 1
Método Centroide:
Es el método más ampliamente utilizado. Puede ser llamado como método de centro de
gravedad o método de centro de área. Según este método el valor cierto representativo A de
un número borroso , se halla como:
 x   Â ( x)dx
A sop ( Â )
1.43
  Â ( x)dx
sop ( Â )
Método Media de Máxima Pertenencia:
Para un número borroso , su número equivalente cierto A es un valor crisp que pertenece
al núcleo de , es decir:
A= x| x  Nucl( A) 1.44
En el caso en que el núcleo del número borroso se componga únicamente de un valor, la
determinación de A es inmediata. Sin embargo, si el núcleo es un intervalo de confianza
se utilizará la siguiente expresión:
ab
A 1.45
2
1.7 Análisis de regresión borrosa
El análisis de regresión borrosa es una poderosa herramienta para la investigación y la

predicción de conjuntos de datos imprecisos que contienen un grado de ambigüedad y de
incertidumbre. (Aqil et al., 2007, Buckley, 2006, Jin et al., 2005, Shakouri et al., 2008)
La regresión borrosa es una relación de entrada-salida en la que los datos de entrada o de
salida, o ambos, son números borrosos (Shakouri y Nadimi, 2009). A diferencia de la
regresión lineal clásica en la que se supone que los parámetros son variables aleatorias con
funciones de distribución de probabilidad, en la regresión borrosa, los coeficientes están
sujetos a la teoría de la posibilidad (Zadeh, 1977). Por lo tanto, los datos de entrada
(variables independientes Xi), los datos de salida (variable dependiente Y) y en
consecuencia, la relación entre ellos es relajada.
28
Capítulo 1
El objetivo principal de los modelos de regresión borrosa es encontrar el mejor modelo con
el menor error posible (Shakouri y Nadimi, 2009). Dependiendo de cómo se define el error,
este método se puede clasificar en dos clases:
Enfoque posibilístico: Trata de minimizar toda la borrosidad del modelo, reduciendo al
mínimo el total de extensiones de sus coeficientes borrosos, sujeto a la inclusión de los
puntos de datos de cada muestra dentro de un intervalo de datos factible especificado
(Tanaka et al., 1989, Tanaka et al., 1982, Tanaka y Watada, 1988).
El análisis de regresión difusa fue introducido por primera vez por Tanaka et al. (Tanaka et
al., 1982), que estableció su idea sobre la base de la teoría de la posibilidad. El
procedimiento de estimación de parámetros fue modelado como un problema de
programación lineal, donde las entradas son precisas y la salida es un número borroso. Más
tarde se extendió de coeficientes borrosos triangulares a números difusos gaussianos
(Tanaka, 1987).
Modelo de mínimos cuadrados: Consiste en minimizar la suma de errores al cuadrado en
el valor estimado, basado en sus especificaciones.
El enfoque que se emplea en la tesis es el enfoque posibilístico.
1.7.1 Regresión borrosa posibilística

Se puede considerar que la regresión borrosa aparece en la historia de los análisis de
regresión en 1982, gracias a Hideo Tanaka y sus colaboradores (aunque existe una
exposición previa de 1980, pasando a constituir una nueva alternativa de regresión frente a
las muchas metodologías de regresión que existían para trabajar con números precisos.
Los primeros intentos de regresión borrosa están enfocados en base al principio
posibilístico que acabamos de comentar, donde, cada uno de los datos estimados
contiene, en términos difusos, al dato original .
En la regresión borrosa posibilística se asume que la relación entre la variable explicada y
las explicativas es lineal, pero en este caso si se dispone de una muestra:
{( , las posibles divergencias que pudieran surgir entre la i-
ésima observación de la variable dependiente y su estimación , se expresa mediante
una relación borrosa del tipo:
29
Capítulo 1
Y  A0  A1 x1  A2 x2  ...An xn 1.46
En (1.46), los coeficientes , son números borrosos, por lo que el j-ésimo
queda caracterizado por:
A j  {x,  ( x)}  { A j  [ A1 j ( ), A2 j ( )] | 0    1} 1.47
Aj
Las divergencias que se producen respecto a la teórica relación lineal no tiene naturaleza
aleatoria, sino borrosa y el término de error no queda introducido como sumando en el
hiperplano, sino que es incorporado en los coeficientes , al asumirse que
son números borrosos.
1.7.2 Modelos de regresión borrosa posibilística

Existen varios modelos de regresión lineal borrosa posibilística reportados en la literatura.
A continuación se presentan cuatro modelos dos introducidos por Hideo Tanaka, uno por
los autores Savic y Pedrycs y finalmente el método de Shakouri y Nadimi.
1.7.2.1 Regresión borrosa posibilística presentada por Hideo Tanaka

En la regresión borrosa posibilística presentada por Hideo Tanaka (Tanaka y Ishibuchi,
1992) se tiene un conjunto inicial de observaciones, donde los valores de entrada son
precisos y están representados en la matriz de valores reales de m observaciones y n
variables (con ) y la variable de salida es imprecisa siendo sus
valores sujetos a funciones de pertenencia triangulares con parámetros . Los
coeficientes estimados estarán representados por funciones de pertenencia
triangulares .
Para obtener una solución, se formula un problema de programación lineal como:
m
f ( x, A)  A0   Aj x j 1.48
j 1
sujeto a:
1.49
1.50
1.51
30
Capítulo 1
El valor de indica un nivel de confianza, este toma valores en el conjunto continuo [0,1].
Si el nivel de confianza está próximo a cero se tendrá un punto de vista pesimista del
modelo mientras que si está cercano a uno el resultado será más optimista. Si los
coeficientes tienen funciones de pertenencia triangulares es igual a
.
Las restricciones posibilísticas (1.49)-(1.50) se reducen a:
1.52
1.53
Esta última forma es la más habitual de plantear las restricciones posibilísticas de la

regresión borrosa.
1.7.2.2 Modelo de regresión borrosa posibilística simétrica introducida por Hideo

Tanaka
Si se tiene números borrosos triangulares simétricos el modelo de programación lineal
queda representado como:
1.54
Sujeto a:
n n
 a j X ij  L1( h)  c j X ij  yi  L1( h ) ei i  1, ..., m 1.55
j 0 j 0
n
 a j X ij  L1( h)  c j X ij  yi  L1( h ) ei i  1,..., m
n
1.56
j 0 j 0
1.57
Donde , constituyen el centro y las

extensiones de los coeficientes estimados, es la matriz de
observaciones de entrada, y ; son los valores de la variable de
salida borrosa. Si los coeficientes son números borrosos triangulares, entonces es
igual a .
31
Capítulo 1
1.7.2.3 Modelo de Savic y Pedrycs
El planteamiento de la regresión borrosa de Tanaka está orientado a minimizar la

incertidumbre, no se preocupa por el comportamiento de la estimación de los valores
centrales. Sin embargo en la literatura se puede encontrar un modelo que incorpora una
estimación especifica de la tendencia central desarrollado por Savic y Pedrycs (Savic y
Pedrycz, 1992). Este modelo consta de dos fases:
 En la primera fase se realiza un ajuste de mínimos cuadrados entre los valores y
los valores los cuales son los valores centrales de con los que se logran los
*
valores modales a j que son utilizados en la segunda fase.
 En la segunda fase se utiliza el mismo criterio de vaguedad de la regresión borrosa
1.58
Sujeto a las condiciones posibilísticas:

1.59
1.60
El modelo anterior tiene la virtud de disponer de una estimación que tiene una solución
estándar para la tendencia central, pero conceptualmente no tiene la simplicidad de la
solución de Tanaka.
1.7.2.4 Modelo introducido por Shakouri y Nadimi

El modelo de regresión lineal borrosa introducido por Shakouri y Nadimi (Shakouri y
Nadimi, 2009) presenta como novedoso que la función objetivo ayuda a estimar un nivel de
confianza óptimo, es decir, un valor óptimo de h, simultáneamente con los coeficientes
utilizando números borrosos triangulares simétricos.
La función objetivo minimiza la suma de las distancias absolutas entre las extensiones y los
centros de la variable observada y los valores estimados en un nivel óptimo de h.
El modelo de programación lineal formulado es:
32
Capítulo 1
1.61
sujeto a:
, i = 1,2,…,m 1.62
, i = 1,2,…,m 1.63
; 1.64
1.65
En comparación con el enfoque de Tanaka, la formulación del problema es mucho más
compleja (Shakouri y Nadimi, 2009), en el modelo de Tanaka el valor de h es introducido
por el investigador mientras que en este modelo se estiman simultáneamente los
coeficientes y el valor de h. Como la formulación es más compleja puede requerir un mayor
tiempo de solución pero si se utilizan adecuados software de optimización (LINGO,
GAMS) la solución sólo requiere algunos segundos en una computadora moderna.
Otros métodos de regresión borrosa reportados son: el método de Diamond (Diamond,
1988), los introducidos por Kim y Bishu (Kim y Bishu, 1998) y por Modarres (Modarres et
al., 2005).
1.7.3 Índices de bondad de ajuste

Para dimensionar la calidad del ajuste de cualquier regresión, se deben definir medidas que
muestren la similitud o divergencia entre los números observados y estimados esto
constituye un aspecto fundamental dentro del campo de la regresión borrosa. En esta
sección se analizan diferentes índices de bondad que se pueden utilizar para determinar la
calidad de la estimación obtenida a través del proceso de regresión.
En el contexto de la regresión posibilística, se han desarrollado muy pocas medidas de
bondad de ajuste siendo la más conocidas la medida de divergencia de Kim y Bishu, que
tiene el grave inconveniente, de que no está normalizada, puesto que el numerador es
independiente del denominador. La otra medida propuesta en la literatura, el R2 híbrido
sigue sin estar normalizado, puesto que no es posible determinar su valor máximo. Tampoco
el R2 tradicional probabilístico está normalizado en el ámbito difuso.
33
Capítulo 1
En (Donoso Salgado, 2006) se pueden encontrar seis medidas de bondad de ajuste

normalizadas (varían entre 0 y 1) que controlan diversos aspectos de la similitud entre dos
números borrosos y que evalúan la calidad de una estimación de regresión borrosa. Además
se realiza una calificación para saber hasta qué punto cumplen con su objetivo:
 SIM1 pondera las diferencias entre las distribuciones de posibilidad de Yi e Y i

incluyendo la totalidad de las funciones de pertenencia.
 SIM2 mide las diferencias en el soporte, tanto del punto central como sus dos
extensiones, entre los valores de salida y sus respectivas estimaciones.
 SIM3 mide las diferencias tanto de las extensiones como de la tendencia central.
 SIM4 mide la diferencia máxima de las extensiones de los datos de entrada con sus
respectivas estimaciones.
 SIM5 mide la proximidad de las funciones de pertenencia con un solo punto, el
supremo de la intersección.
 R 2 borroso mide las diferencias cuadráticas del valor central observado con el valor
central estimado.
A continuación se explicarán los índices: SIM2, SIM3, SIM4 y el R 2 borroso.
1.7.3.1 Índice de bondad del ajuste SIM2

Este índice mide las diferencias tanto del punto central como de sus dos extensiones, entre
los valores observados y sus respectivas estimaciones. Si se tienen los valores observados
en la forma y las estimaciones como , donde el punto central
está representado por y las extensiones son y respectivamente.
Se calcula el indicador Ti:
1.66
Donde
1.67
1.68
34
Capítulo 1
Para el conjunto de los datos de una regresión se define el indicador de bondad de ajuste
SIM2 (m indica la cantidad de datos)
m
 (1  T ) i
SIM 2  i 1
m 1.69

Este índice mide las diferencias tanto de las extensiones como de la tendencia central. Por
lo tanto de esta manera se define:
1.70
Con esta definición de se construye el índice de bondad de ajuste Sim3 que varía entre 0
y 1:
m
 (1  R ) i
SIM 3  i 1
1.71
m

Otra medida de similitud basada en la métrica de Hausdorff está dada por la relación:
1.72
Considerando para el conjunto de m observaciones, se crea otro índice de bondad de

ajuste, que fluctúa entre 0, cuando los m números observados se encuentran muy distantes
de los m números estimados, y 1, cuando las funciones de pertenencia de las m parejas de
números difusos son iguales. Su formulación es la siguiente:
m
 (1  U ) i
SIM 4  i 1
1.73
m
1.7.3.4 Medida de ajuste de la tendencia central

Para medir la calidad del ajuste de la tendencia central, se conoce de la regresión
probabilística el coeficiente de determinación, llamado también R-cuadrado, que varía entre
0 y 1.
35
Capítulo 1
En el caso borroso se propone un indicador R2 de tendencia central, cuya principal

característica es que, a medida que las diferencias cuadráticas entre el valor observado y el
valor central estimado tiende a cero, el indicador tenderá a uno:
n
(y  y ) i i
2
R 2borroso  max (0,1  n

i 1
) 1.74
(y  y
i 1
i media ) 2
donde ymedia es el promedio de las observaciones yi .

Este indicador toma valores entre 0 y 1. Como el denominador que aparece en la expresión
es el mismo que el denominador del coeficiente de determinación probabilístico, se puede
mantener la interpretación de éste, en el sentido de que R 2 borroso es una medida de
proporción de la parte de la variación cuadrática de los yi que es explicada por la
regresión. Por ejemplo, si R 2 borroso resulta 0.8, lo interpretamos como que la regresión
explica el 80% de la variación de los datos centrales yi .

Estas y otras medidas han sido objeto de estudio recientemente (Bermúdez Pérez Borroto et
al., 2014). Se ha demostrado que las medidas de bondad de ajuste que mejor caracterizan
las ecuaciones de regresión borrosa son: Sim3, Sim4 y Sim34, este último es un índice
propuesto por el autor que se define como:
1.75
1.8 Aplicaciones del análisis estadístico borroso y la lógica borrosa

Muchas investigaciones se centran en el análisis estadístico borroso y sus aplicaciones en
los campos de las ciencias sociales, en (Wu y Hwang, 1995) se propone una prueba
estadística borrosa para analizar la estacionariedad de la función de demanda del dinero a
corto plazo en Taiwán; en (Wu y Chen, 1999), se considera la construcción de modelos a
través de simulación cualitativa; (Casalino et al., 2004), (Esogbue y Song, 2003), (Wu,
1995), y (Wu y Sun, 2001) demostraron los conceptos de estadística borrosa y lo aplicaron
a la encuesta social, en (Wu y Tseng, 2002) usaron un método de regresión borrosa para la
estimación del coeficiente para analizar el índice en Taiwán de vigilancia de los derechos
36
Capítulo 1
económicos. En (Camprubi et al.) utilizaron la media borrosa como método de agregación

de variables lingüísticas.
El análisis de regresión borrosa también ha sido aplicado en diferentes áreas tales como la
modelación de datos económicos o financieros (Aguilera Cuevas y Rodríguez Betancourt,
1999), la ingeniería de software (Conte et al., 1986) y el reconocimiento de un patrón de
estimación humana (Romero Cortés y Aguilar Vázquez, 1999). En (Donoso Salgado, 2006)
se presenta un caso de aplicación a estudios sociológicos y demográficos, en el contexto de
la llamada regresión ecológica. En (Morales Martínes, 2010) se aplicó al estudio de las
fluctuaciones de la tasa de cambio del euro de acuerdo a las variaciones de los precios de
diferentes productos exportables e importables como metales básicos, metales preciosos,
alimentos, azúcar, energía, entre otros; obteniendo resultados satisfactorios. En la actividad
aseguradora aplicaron los instrumentos de regresión borrosa para la determinación de las
Provisiones para Siniestros pendientes de declaración (IBNR) (Sánchez). En la rama
turística se empleó esta técnica para la planificación presupuestaria en el Hotel Meliá
Santiago de Cuba (Aguilera Cuevas y Rodríguez Betancourt, 1999). En (Reig Mullor y
González Carbonell, 2002) la usaron al planificar la gestión de los materiales.
La lógica borrosa se ha utilizado ampliamente en el campo de la medicina. Por ejemplo, se
utilizó en Sao Paolo, Brasil para evaluar campaña masiva de vacunación contra el
sarampión y demostró ser una herramienta de análisis útil y poderosa (Hernandez Caceres,
2006, Massad et al., 1999). Se incluyó en modelos matemáticos para analizar la transmisión
y las medidas preventivas del SIDA en heterosexuales (Morio et al., 1996). Varios modelos
borrosos se han utilizado para predecir la dispersión de pandemias e identificar zonas de
riesgos (Hufnagel† et al.), para evaluar adicción a drogas(Torres y Nieto, 2006), para
evaluar riesgos del feto antes del nacimiento(Gurgen et al., 2001), para comparar diferentes
enfoques terapéuticos integrando medicina oriental y occidental(Phuong y Kreinovich,
2001), para analizar las relaciones contradictorias, imprecisas, no lineares que presentan las
enfermedades (RI y PR, 2005 , Seising, 2006), entre muchas otras aplicaciones. Además
vale la pena mencionar su uso como técnica en un sistema computadorizado para apoyo al
diagnóstico basado en la intensidad y duración de síntomas(Bellamy, 1997). Algunos
37
Capítulo 1
autores afirman que es una herramienta fácilmente comprensible por el personal médico y
en ocasiones ha mostrado mejores aciertos que la lógica bayesiana (Massad et al., 2001).
1.9 Consideraciones finales
En este capítulo se han presentado de manera resumida, los conceptos fundamentales de la

teoría de los conjuntos borrosos. Se definen en detalle los números borrosos triangulares,
trapezoidales, y las variables lingüísticas. También se describen algunas operaciones en los
números borrosos, así como la distancia entre estos y la clasificación en un orden total. Se
enuncia un método que permite, utilizando lógica borrosa, realizar procesamiento de
encuestas. Se muestra en el análisis descriptivo borroso variantes para realizar el cálculo de
medidas como la media, moda, mediana y varianza borrosa respectivamente. Se presentan
los elementos fundamentales de la regresión lineal borrosa posibilística, varios modelos
fueron descritos con su formulación y los índices de bondad de ajuste: SIM2, SIM3, SIM4,
SIM3,4 y R 2borroso .
38
Capítulo 2
2. MÉTODOS QUE UTILIZAN LÓGICA BORROSA PARA DETERMINAR

RIESGO. HERRAMIENTAS COMPUTACIONALES
En este capítulo se describen técnicas que utilizando lógica borrosa permiten determinar el
riesgo en diferentes contextos. Se explica el cálculo de medidas de riesgo borrosas y se
propone una variante de canal endémico que utiliza la teoría de la lógica borrosa, todo ello
con una aplicación muy importante en la Epidemiología. Se confecciona un método que
permite determinar el riesgo atendiendo a criterio de expertos. Posteriormente se explican
las herramientas computacionales utilizadas haciendo énfasis en la herramienta diseñada
efuzzy versión 2.0.
2.1 Métodos borrosos aplicados a la Epidemiología

La Epidemiología es la ciencia que estudia la distribución, frecuencia y los factores
relacionados con las enfermedades. Ocupa un lugar en la intersección entre las ciencias
médicas y las sociales y aplica numerosos métodos matemáticos y computacionales al
estudio de poblaciones enfermas.
La Epidemiología es la base de la medicina preventiva y una fuente de información
fundamental para la Salud Pública. Es por ello que se persigue que los sistemas de salud
amplíen su nivel de vigilancia y de respuesta temprana ante posibles riesgos (Vaquer
Fernández et al., 2014).
Esta ciencia se dedica al “estudio y análisis de los factores de riesgo que influyen en la
aparición, presencia, frecuencia y distribución de cualquier enfermedad en una comunidad
humana, para averiguar sus causas y difusión y conseguir la disminución o desaparición de
aquella. Es decir, se ocupa desde el punto de vista preventivo de los fenómenos de la masa
en las enfermedades transmisibles y no transmisibles” (Gómez, 2008).
Una adecuada práctica de la salud pública requiere que las decisiones tengan una base
científica. La vigilancia en salud pública resulta un componente esencial en el proceso de
prevención y control de las enfermedades y factores de riesgo y en la promoción de la
salud; es una herramienta vital en la ubicación de los recursos del sistema de salud y en la
evaluación de la eficiencia de los programas de prevención y control (Denoda Pérez et al.,
2013b).
39
Capítulo 2
Para su desempeño la epidemiología no se limita al aspecto médico de los problemas, sino

que se vale de múltiples disciplinas pertenecientes a diversas áreas de las ciencias, por
ejemplo la Matemática, la Demografía, Investigación de Operaciones y particularmente la
Estadística. Esta última disciplina ha tenido una creciente incidencia en el pensamiento
epidemiológico. Múltiples son los procedimientos concebidos al calor de nuevos problemas
y sucesivos los refinamientos para enfrentarlos.
El análisis epidemiológico de cualquier enfermedad involucra varios niveles de
incertidumbre, dado que las enfermedades pueden manifestarse de forma diferente en
dependencia del entorno, de la vulnerabilidad del ente susceptible y la virulencia del agente
patógeno.
En epidemiología es muy frecuente la necesidad de calcular la posibilidad de que un
individuo que presenta un determinado atributo tenga cierta enfermedad específica. La
medida epidemiológica más básica es la probabilidad condicional de que un individuo
tenga la enfermedad dado que presenta dicho atributo. Esa probabilidad es llamada riesgo de
la enfermedad y el atributo factor de riesgo. Sin embargo este riesgo no es suficiente para
establecer la incidencia del factor de riesgo sobre la enfermedad. Por ello se define el riesgo
relativo (o razón de riesgo) como el cociente entre el riesgo de la enfermedad en el grupo
expuesto al factor de riesgo y el grupo no expuesto.
Por ejemplo, el grado de exposición de una persona al humo del cigarro puede estimarse a
partir del consumo de cigarrillos por fumador, es decir mientras mayor sea el consumo de
cigarros diarios, mayor será la exposición. Sin embargo, la persona que no fuma es
considerada no expuesta según esta medida, lo que en realidad no es totalmente cierto
(Siqueira, 2001).
Debido a ejemplos como este, se puede concluir que la lógica booleana en el análisis de
riesgo no siempre muestra los valores reales. Es por ello que surge la idea de modelar el
grado de exposición a un factor de riesgo según una función de pertenencia y la respuesta
de enfermo o no atendiendo a otra función de pertenencia, haciendo uso de la lógica
borrosa.
El cálculo de medidas de riesgo es muy importante en Epidemiología. Tanto el riesgo
relativo clásico, como la razón de productos cruzados se utilizan ampliamente, sin
40
Capítulo 2
considerar las fuentes de incertidumbres e imprecisiones asociadas. En este trabajo se

muestra una solución alternativa que sí tiene en cuenta estos aspectos: el riesgo relativo
borroso y la razón de productos cruzados borrosa.
Es usual que la descripción de las enfermedades se realice mediante términos lingüísticos
que en general son vagos e imprecisos y tienen una naturaleza subjetiva, por lo cual se hace
idónea la aplicación de la lógica borrosa.
La detección precoz de si una enfermedad se encuentra en epidemia o no, requiere de
métodos lo suficientemente sensibles y eficientes. Actualmente los métodos que se llevan a
cabo son los corredores o canales endémicos en los cuales la incidencia actual es
representada gráficamente sobre la incidencia histórica y, de esta forma, detectar
tempranamente cifras anormalmente altas (o bajas) de casos de la enfermedad en estudio.
En este trabajo se presentan los canales endémicos borrosos como un nuevo método que
utilizando lógica borrosa puede detectar tempranamente las cifras altas (o bajas) de casos
de una enfermedad en estudio e identificar un brote o epidemia.
2.1.1 Estimador de riesgo en epidemiología

Un estudio en epidemiologia requiere que dos distinciones principalmente sean hechas una
entre quienes realmente están expuestos a factores de riesgo que se están analizando y
quienes no y otra sobre quienes realmente padecen o no la enfermedad. Estas distinciones
están sujetas a errores, prejuicios y subjetividades. Dentro de las investigaciones en
epidemiologia también aumenta su complejidad la necesidad de analizar muchas variables
independientes, determinar cómo interactúan en un determinado conjunto estas variables,
medir el grado de exposición a un factor determinado, etc. (Siqueira, 2001). Por ejemplo la
frecuencia de la hipertensión está relacionada con la edad y el sexo y estas variables
interactúan entre sí: antes de los 50 años, los hombres son más propensos a la hipertensión,
pero después de 50 años, las mujeres son más propensas (Jekel J.F., 1996).
Teniendo en cuenta todo esto se logra ver que el tratamiento dicotómico de las variables
utilizado por el álgebra y la lógica booleana no siempre representa la realidad existente si
está vinculado a la epidemiología (Siqueira, 2001).
41
Capítulo 2
Por todo esto en (Siqueira, 2001) se propone un nuevo enfoque para el estudio a través de
los conceptos borrosos. Cada individuo será considerado expuesto o no a un factor de
riesgo de acuerdo con una determinada función de pertenencia. Su categorización como
enfermo o no se realizará de acuerdo con otra función de pertenencia. A partir de esto, el
análisis de riesgo puede realizarse a través de la aplicación de la teoría de conjuntos
difusos, lo que permite el cálculo aproximado de la Razón de Riesgo Borrosa (FRR) y la
Razón de Odds Borrosa (FOR).
2.1.2 Riesgo relativo borroso

El riesgo relativo (RR o razón de riesgo) se puede definir como el cociente entre el riesgo
de la enfermedad en el grupo expuesto al factor de riesgo y el grupo no expuesto.
El cálculo del riesgo relativo es muy simple utilizando una tabla como la que se muestra a
continuación:
Estado de enfermedad Total
Factor de riesgo Enfermo No enfermo
Expuesto a b a+b
No expuesto c d c+d
Total a+c b+d n
Tabla 2.1: Tabla cruzada general de exposición a una enfermedad contra un factor de
riesgo
A partir de la Tabla 2.1 se define el riesgo relativo (RR) como:
2.1
Donde representa el riesgo de enfermedad en los expuestos y el
riesgo de enfermedad en las personas no expuestas.

A partir de las expresiones:
2.2
2.3
Donde: 2.4
Se construye un intervalo de confianza (EI, ED) aproximado al 95% para el RR calculado.

42
Capítulo 2
El RR no siempre es una medida adecuada, por ejemplo para los estudios caso-control no
debe calcularse, sin embargo es posible calcular para cualquier caso una medida indirecta
del riesgo: la razón de productos cruzados.
El RR es un índice de asociación, siendo el riesgo de un evento o el desarrollo de una
enfermedad en relación a la exposición a un factor o factores determinados.
|
2.5
|
Donde | representa la probabilidad condicional de que alguien desarrolle la
enfermedad, dado que haya estado expuesto a los factores de riesgo y | representa la
probabilidad condicional de que alguien desarrolle la enfermedad, dado que no haya estado
expuesto a los factores de riesgo.
A partir de que el riesgo relativo se obtiene usando probabilidades condicionales se
propone que el riesgo borroso se defina en términos de posibilidades relativas, donde la
clasificación de los individuos en cuanto a la exposición y su respuesta es decir el posible
padecimiento de la enfermedad, sea borrosa.
2.6
|
2.7
|
| 2.8
Donde es la distribución de posibilidad y la función de pertenencia y

| la posibilidad relativa de desarrollar una enfermedad dado que se ha estado
expuesto a un cierto factor de riesgo y | la posibilidad relativa de desarrollar una

enfermedad dado que no se ha estado expuesto al factor de riesgo.
El estimador de riesgo RR es consecuentemente con el FRR, y evalúa la relación de

causalidad considerando sólo el grupo de pacientes. Una situación más general es propuesta
por (Greenland, 1987) que consideró la posibilidad teórica de cuatro tipos de individuos:
1. Los individuos propensos a desarrollar la enfermedad, independientemente de ser

expuestos o no a los factores de riesgo.
43
Capítulo 2
2. Los individuos resistentes que nunca desarrollarán la enfermedad

independientemente de ser expuestos o no a los factores de riesgo.
3. Los individuos que están protegidos, o sea que desarrollan la enfermedad si no están
expuestos a las posibles causas de su protección.
4. Los individuos en riesgo, que son aquellos que solamente desarrollará si se someten
a los factores de sospecha.
Esta clasificación supone un alto nivel de heterogeneidad en la población e involucra
varias incertidumbres en la definición de cada clase, tornándose por estas razones una
propuesta más interesante. La siguiente tabla muestra los cuatro tipos y sus respectivas
categorías.
| |
| Riesgo Sobre Riesgo
E | Protegido Resistente
Tabla 2.2: Tabla cruzada de expuestos (E) contra no expuestos ( )
2.1.3 Razón de productos cruzados borrosa

La razón de productos cruzados (OR) calcula el número de veces que la respuesta ocurre
por cada vez que no ocurre. Si la respuesta ocurre con una probabilidad r y no ocurre con
una probabilidad 1- r, la medida odds de que ocurra dicha respuesta estará dada por:
2.9
El odds se calcula tanto para el grupo de los expuestos como para los no expuestos. A partir
de la Tabla 2.1, el odds de enfermedad para los expuestos estará dado por a/b y para los no
expuestos por c/d. Entonces la razón de productos cruzados o razón de odds (OR) que
compara el riesgo en expuestos y no expuestos es:
2.10
Para lograr un intervalo de confianza (EI, ED) aproximado al 95% para OR se emplean las
siguientes expresiones:
2.11
44
Capítulo 2
2.12
Donde: 2.13
La razón de odds se define en términos de probabilidades condicionales:

| |
2.14
| |
Un enfoque borroso para OR debe considerar los grados de pertenencia para los individuos
en cada uno de los subconjuntos borrosos (expuestos y enfermos). El siguiente paso es
considerar la posibilidad relativa, en lugar de la probabilidad condicional para cada uno de
los subconjuntos borrosos. Por lo tanto, el estimador de riesgo Razón de Odds Borrosa
(FOR) se puede definir de la siguiente manera:
| |
2.15
| |
Donde el operador representa el operador de conjunción y opera como el mínimo de los

dos elementos.
La expresión anterior representa que los individuos que no desarrollan la enfermedad si no
se exponen y que desarrollan la enfermedad si se exponen, se clasifican como individuos en
riesgo. Los que desarrollan la enfermedad si no se exponen y no desarrollan la enfermedad
si se exponen son clasificados como protegidos. Los demás individuos, no contribuyen con
información alguna acerca de la relación causal. Por lo tanto, la relación entre los
individuos en riesgo y protegidos debe proporcionar un buen estimador de riesgo.
Considerando la incertidumbre acerca de los criterios de clasificación el proceso de
clasificación y la heterogeneidad de la población, el enfoque difuso propuesto definirá una
asociación entre la causa y el efecto que depende del valor de la relación expresada por la
ecuación anterior: es mayor que la unidad (en el caso de una asociación positiva) o menor
que la unidad (en el caso de una asociación negativa) (Siqueira, 2001).
2.1.4 Canales endémicos borrosos

Los corredores o canales endémicos creados por Selwyn Collins en 1932 son una
herramienta de amplio uso en vigilancia epidemiológica que sirve para establecer los
45
Capítulo 2
valores esperados de incidencia de una enfermedad en un tiempo y un lugar determinados.

Constituyen una expresión gráfica de una frecuencia de casos de una enfermedad. Estos
valores se fijan a partir del registro de una serie temporal de cinco a diez años previos al
año que se desea evaluar, con valores medios y rangos o intervalos calculados para una
unidad de tiempo determinada, que usualmente es de siete días y se define como semana
epidemiológica. Los canales endémicos borrosos constituyen una variante alternativa de los
canales endémicos clásicos pero que utilizan la lógica borrosa.
Cuando la curva de incidencia del año en curso sobrepasa el valor esperado o habitual de
casos, se considera que hay brote o epidemia. Existen varios métodos para confeccionar
canales endémicos y todos consisten en la obtención de una medida central que sirve como
curva de expectativa y otras dos curvas que enmarcan el recorrido de fluctuación normal de
la incidencia para cada uno de los intervalos de tiempo considerados, fundamentalmente
semanas o meses, a partir de una serie notificada de casos en un período de cinco a siete
años. El aumento de la cantidad de años no mejora sustancialmente el análisis ya que es
muy probable que se mantengan estables los factores que han generado la serie sobre todo
los criterios diagnósticos, los mecanismos de notificación y registro y la endemia
característica del evento (Dueñas Herrera et al., 2008, Sanz y Fuster, 2010, Wang et al.,
2006).
De los distintos métodos que se han desarrollado para elaborar corredores endémicos, el
más simple consiste en diagramar el número máximo y mínimo de casos, y confeccionar de
esta manera una banda, por encima de la cual se considera el área de brote. Pueden
utilizarse también la mediana y los cuartiles de la incidencia por unidad de tiempo (meses o
semanas), para generar una figura con cuatro áreas definidas como zona de éxito, de
seguridad, de alerta y de epidemia. Se puede encontrar una adecuada introducción a la
evolución de estos métodos en el estudio de Bortman, donde además se desarrolla un
método numérico más complejo para generar con datos empíricos un gráfico con las cuatro
áreas mencionadas (Bortman, 1999). Este método incorpora las medias geométricas de las
tasas y su desviación estándar para estimar los intervalos de confianza que determinarán los
valores extremos. Desde su publicación original en 1999 y hasta la actualidad, el modelo de
46
Capítulo 2
Bortman ha significado un invaluable aporte a la vigilancia epidemiológica para el

monitoreo de situaciones de brotes epidémicos.
Los métodos más utilizados para elaborar canales endémicos en Cuba tanto por las
Unidades de Análisis y Tendencias en Salud (UATS) provinciales y municipales como por
las áreas de salud, emplean como medida central la mediana, dadas las características de
este estadígrafo que no se ve afectado por los valores extremos de la serie y aunque se
prefiere para obtener los límites de variación la utilización de los valores inframáximos y
supramínimos, pues en este procedimiento se desechan las observaciones extremas
superiores e inferiores lo que contribuye a incrementar la sensibilidad del canal para la
detección precoz de epidemias (1999, Morilla Guzmán y Dueñas Gómez, 2009).
Para la confección de un canal endémico se realizan los siguientes pasos:
1. Construir una tabla a partir del número de casos semanales (mensuales) por año,
durante un mínimo de 5 años o un máximo de 10 años.
2. Ordenar los valores por semanas (meses), sin tener en cuenta los años, de menor a
mayor por cada semana (mes).
3. Calcular los percentiles: p25, p50, p75.
4. Construir un gráfico de curvas con las cifras de los percentiles delimitados. Resultan
cuatro zonas:
Zona de Éxito: Por debajo del 1er Percentil (p25).
Zona de Seguridad: Entre el 1er Percentil (p25) y la Mediana (p50).
Zona de Alarma o Alerta: Entre el 2do Percentil (p50) y el 3er Percentil (p75).
Zona Epidémica: Por encima del 3er Percentil (p75).
El canal endémico permite en el siguiente año, registrar los casos sobre el canal endémico e
identificar epidemias.
Confección del canal endémico borroso
A continuación se propone una variante de canal endémico que utiliza la teoría de la lógica
borrosa (Denoda Pérez et al., 2013b). Para confeccionarlo se requiere realizar los primeros
tres pasos de la variante clásica pero no el 4to paso, en vez de construir un gráfico de curvas
se propone construir una variable lingüística por cada semana (mes) caracterizada de la
siguiente forma:
47
Capítulo 2
Nombre de la variable = Canal Endémico

Conjunto de términos lingüísticos T(x) = {bajo o éxito, seguridad, alarma, epidemia}
Universo de discurso = [0,..., Máximo de casos (MAX)]
Cada término lingüístico se verá caracterizado por un conjunto borroso con función de
pertenencia definida.
Las funciones de pertenencia que se proponen usar son las triangulares y trapezoidales y los
parámetros serán los valores de percentiles calculados.
 Éxito: Función Triangular con parámetros (0, 0, p25).
 Seguridad: Función Triangular con parámetros (0, p25, p50).
 Alarma: Función Triangular con parámetros (p25, p50, p75).
 Epidemia: Función Trapezoidal con parámetros (p50, p75, MAX, MAX).
Para evaluar se toma el número de casos registrado en una determinada semana del
próximo año y se ubica según el grado de pertenencia a un conjunto o al otro.
La lógica difusa o borrosa permite evaluar la situación con más precisión, pues la forma de
expresar la salida de datos estaría dada por el grado de pertenencia a un conjunto o al otro,
lo cual ayuda en gran manera al proceso de toma de decisiones.
2.2 Método para la determinación del riesgo atendiendo a criterio de

expertos
A continuación se presenta una metodología para la determinación del riesgo atendiendo a
criterio de expertos (Casas-Cardoso et al., 2013). El primer paso consiste en construir un
conjunto borroso para cada variable predictora. El comité de expertos atribuye un valor
entre 0 y 1 a cada variable para indicar la pertenencia ideal que debería tener un paciente en
cada variable.
El segundo paso consiste en construir una tabla con m filas (una por cada variable) y n
columnas (una por cada paciente). Cada celda tiene un valor de pertenencia ( fC (ai ) )
representado la evaluación del paciente ai en la variable Cj. La última columna refleja el

valor de pertenencia para cada variable según el criterio de experto.
La disposición de la tabla de datos se muestra a continuación.
48
Capítulo 2
fc ( a2 ) fc ( a3 ) …
fc ( a1) Perfil ( f P (c) )
C1
C2
.
.
.
Cm
Tabla 2.3: Tabla con los datos iniciales
La función f P A (c, a) es usada para determinar el grado de incidencia de cada variable con
relación al perfil del experto, el conjunto de los valores del perfil del experto se representa
con P y A representa el conjunto de las variables.
Para calcular f P A (c, a) se utiliza la siguiente fórmula:
f P A (c, a)  SL (1  f P (c), fC (a))  min(1,1  ( f P (c)  fC (a))) 2.16

El tercer paso consiste en calcular la fórmula anterior para cada valor en cada fila.
La justificación para emplear esta fórmula está dada por su sentido objetivo:
Si 1 - f P (c)  f (a)
c
es mayor que 1, entonces  f P (c)  f (a)
c
es mayor que cero, es decir,
f P (c) es menor que f (a)

c
y en este caso:
f
P A
(c, a ) = SL (1 - f ( c ) , f ( a ) )=
P c
min (1, 1+(- f P (c)  f ( a ) ))
c
=1
Si 1 - f P (c)  f (a)
c
es menor que 1, entonces  f P (c)  f (a)
c
es menor que cero, es decir,
f P (c) es mayor que f (a)

c
y en este caso:
f P A (c, a)  SL (1  f P (c), fC (a))  min (1,1  f P (c)  fC (a)) es menor que 1.

Si la evaluación del paciente en una variable es mayor o igual a la establecida por el perfil
del experto, entonces la evaluación correspondiente es máxima.
Por tanto, podemos interpretar la función f P A (c, a) como un indicador del riesgo para
cada paciente en cada variable. Estos resultados son promediados por columna para obtener
un valor global por paciente. Esta última fila es una estimación del riesgo de cada paciente,
que pudiera convertirse en un método de clasificación si se define un punto de corte para
decidir los que tengan alto o no alto riesgo.
49
Capítulo 2
2.3 Herramientas computaciones utilizadas en la investigación

En esta investigación se utilizaron varias herramientas como el software efuzzy, rfuzzy, y
Mathematica. Se hace énfasis en la implementación de la versión 2.0 del efuzzy, así como
las demás herramientas usadas. A continuación se explican los detalles de cada una ellas.
2.3.1 Software efuzzy

El software efuzzy (Denoda Pérez et al., 2011) permite realizar análisis estadístico borroso,
en su versión 1.0 tenía entre sus funcionalidades realizar análisis de regresión borrosa
utilizando el modelo de Hideo Tanaka en un entorno gráfico, así como obtener estadígrafos
descriptivos borrosos como media, mediana, moda y varianza. También incluía la
realización de operaciones aritméticas borrosas. El modelo de regresión lineal borrosa
posibilística que incorporaba era el modelo desarrollado por Tanaka mostrado en la sección
1.6.2.1 y los índices de ajuste que se obtenían era el SIM3 y el R2 borroso. En esta versión
del software se tenía como desventaja la conexión que se desarrollaba con el kernel del
software Mathematica para resolver problemas de programación lineal. En la versión 2.0 se
elimina dicha conexión y se utiliza la biblioteca de software libre commons-math3-3.2 para
resolver los problemas de programación lineal que se formulan a partir de la regresión
borrosa. Se ajusta el método de regresión borrosa introducido por Tanaka para que utilice
dicha biblioteca. Se incorporan nuevas funcionalidades entre las que se destaca el trabajo
con datos triangulares simétricos. Se añaden nuevos modelos de regresión borrosa entre
ellos se encuentra: el método introducido por Tanaka para datos triangulares simétricos
mostrado en la sección 1.7.2.2 y el modelo de Savic y Pedrycs enunciado en el subepígrafe
1.7.2.3, además se añade una opción para obtener el modelo de Nadimi y Shakouri en
formato lg4 (formato de entrada al software de optimización LINGO). Se incorporan
nuevos índices de bondad de ajuste como el SIM2 y el SIM4.
2.3.1.1 Diagrama de casos de uso

La herramienta efuzzy v.2.0 está destinada a cualquier tipo de usuario, pudiendo ser un
estudiante, especialista o investigador en computación, matemática o ramas similares. En el
diagrama de la figura 2.1 se le ha nombrado a ese actor como Usuario.
50
Capítulo 2
Figura 2.1: Diagrama de Casos de Uso
El usuario mediante el primer caso de uso puede obtener estadígrafos descriptivos como
media, mediana, moda y varianza de datos numéricos y borrosos. El actor mediante el
segundo caso de uso puede obtener modelos de regresión borrosa por los diferentes
métodos implementados así como los índices de bondad de ajuste de los modelos
obtenidos. Con el tercer caso de uso el usuario obtiene el modelo de regresión de Nadimi y
Shakouri en un fichero con formato lg4 (formato de entrada al LINGO). El usuario utiliza
el cuarto caso de uso para realizar operaciones aritméticas borrosas como suma, resta,
multiplicación, división e inverso de números borrosos continuos, triangulares o
trapezoidales. El último caso de uso lo utiliza el usuario para definir las variables del
modelo e insertar los datos de la misma.
2.3.1.2 Diagrama de clases

El software se compone de la interfaz de usuario con nombre efuzzyV2.0.jar y la biblioteca
fuzzy.jar que provee los métodos que realizan las funcionalidades propias del sistema.
Además se hace uso de la biblioteca commons-math3-3.2.jar para resolver problemas de
programación lineal y la biblioteca jfreechart-1.0.10.jar para generar gráficos. Con la
51
Capítulo 2
utilización de la biblioteca Commons Math se eliminó la conexión que desarrollaba el

efuzzy en su versión anterior con el software Mathematica mediante el JLink.jar.
JFreeChart es distribuido con el código fuente completo sujeto a las condiciones de la
licencia GNU Lesser General Public Licence lo que le permite ser usado en aplicaciones de
software libres.
Commons Math es una biblioteca escrita en Java que contiene componentes matemáticos y
estadísticos y provee algoritmos de programación lineal. No posee ninguna dependencia
externa más allá de los componentes de commons y la plataforma de Java. De los dieciséis
sub-paquetes que la componen se utilizó org.apache.commons.math3.optim para resolver
los problemas de programación lineal.
A continuación se expone el diseño de clases de la biblioteca fuzzy.jar.
El patrón de diseño utilizado fue el Patrón Visitor, este ofrece una ventaja muy importante
y es que permite definir nuevas operaciones sin cambiar las clases de los elementos en los
que opera, con sólo agregar nuevas clases a la jerarquía Visitor. Este diseño favoreció la
extensibilidad del efuzzy 1.0 pudiéndose añadir nuevas clases con gran facilidad en la
nueva versión.
Se tienen dos jerarquías de clases, la primera representa las clases que conforman la
estructura de los objetos y la segunda jerarquía representa las operaciones que se realizan
sobre esa estructura de objetos.
En la Figura 2.2 se ilustra la primera jerarquía de clases, con sus atributos y métodos más
relevantes mediante un diagrama de clases en UML.
52
Capítulo 2
Figura 2.2: Diagrama de clases que especifica la estructura de los objetos
En esta figura se muestra la clase abstracta Variable y las seis clases que representan tipos
de variables, las cuales son Numérico, Borroso Discreto, Borroso Continuo, Borroso
Triangular, Borroso Triangular Simétrico y Borroso Trapezoidal. Cada una de estas clases
tiene un método aceptar (accept()) que recibe al objeto visitador (Visitor) como argumento
y llama al método visit de su clase.
Como se puede apreciar en el diagrama existe una clase dato para cada tipo de Variable y
todas ellas heredan de la clase abstracta Dato y sus atributos especifican la estructura de
cada variable.
La segunda jerarquía de clases representa las operaciones que se realizan sobre la estructura
de objetos de la figura 2.2. Las clases de esta jerarquía se ilustran en la figura 2.3 mediante
un diagrama de clases en UML, destacando los principales atributos y métodos.
La clase VisitorMedia, VisitorMediana, VisitorModa y VisitorVarianza calcula el
estadígrafo descriptivo correspondiente para cada tipo de variable.
53
Capítulo 2
Figura 2.3: Diagrama de clases de la jerarquía Visitor

54
Capítulo 2
La clase VisitorSuma permite obtener la suma de dos variables borrosa continua, borrosa
triangular o borrosa trapezoidal. Esta clase consta de dos atributos de tipo Variable que
constituyen los operandos de la operación aritmética. Las clases VisitorResta,
VisitorMultiplicación, VisitorMultiplicacionPorReal, VisitorInverso y VisitorDivisión son
similiar a la clase VisitorSuma.
La clase VisitorRegresión es una de las clases más importantes pues obtiene la regresión
lineal borrosa posibilística mediante el método de Tanaka cuando la variable dependiente es
un número triangular o triangular simétrico. La programación de cada modelo se encuentra
en los métodos visitorBTriangular y visitorBTriangularSimétrico. Entre sus atributos
destacan la variable dependiente y la lista de variables independientes. Los resultados de la
regresión borrosa se almacenan en los atributos varEstimada (valores de la variable
estimada) y coefEcuación (coeficientes de la ecuación de regresión) para el caso borroso
triangular y varEstimadaH y coefEcuacionH para el caso triangular simétrico.
La clase VisitorRegresiónS_P permite obtener la regresión lineal borrosa posibilística
mediante el método de Savic y Pedrycs cuando la variable dependiente es un número
triangular. La programación de este modelo se encuentra en el método visitorBTriangular,
el cual invoca a los métodos enterMethod() y Savic_Pedrycs(), que son los que realizan las
operaciones concretas de las dos fases del modelo de regresión.
Fuera de la jerarquía de clases Visitor se encuentran las clases Medidas_Bondad y
Modelo_Nadimi, con la primera se obtienen los métodos para calcular las medidas SIM2,
SIM3, SIM4 y R2 Borroso. Con la clase Modelo_Nadimi se logra un fichero en formato de
entrada al Lingo (lg4) con el modelo propuesto por Nadimi y Shakouri.
Figura 2.4 Clases: Medidas_Bondad y Modelo_Nadimi
55
Capítulo 2
2.3.1.3 Artefactos del sistema

El primer artefacto es el ejecutable del software de nombre efuzzyV2.0.jar, este
proporciona la interfaz gráfica de usuario y depende de la biblioteca fuzzy.jar y la máquina
virtual de Java (jre).
La biblioteca fuzzy.jar a su vez depende de las bibliotecas commons-math3-3.2.jar y
jfreechart-1.0.10.jar, y esta última de jcommon-1.0.13.jar
Figura 2.5: Diagrama de artefactos
2.3.1.4 Implementación del software

Se escogió el lenguaje Java desarrollado por Sun Microsystems para la implementación del
software. Existe un conjunto de Entornos de Desarrollo Integrado (IDE, de sus siglas en
inglés) que permiten el desarrollo de proyectos en Java. De los IDE disponibles para Java
se seleccionó el NetBeans 6.9.1 y JDK 1.7, este es el kit de desarrollo oficial del lenguaje
de programación Java, uno de los más populares entre los orientados a objetos y el más
popular en la actualidad.
2.3.2 Software rfuzzy

Es una herramienta (González Pérez, 2013) que permite la obtención de medidas
relacionadas con el riesgo en sus dos formas clásico y borroso; todo esto con una utilidad
fundamental en la Epidemiología. El índice de riesgo clásico incluye las medidas de riesgo
relativo (RR) y la razón de productos cruzados (OR) así como un intervalo que verifica
56
Capítulo 2
aproximadamente un 95% de confiabilidad; el índice de riesgo borroso incluye un valor de

riesgo relativo borroso (FRR) y la razón de productos cruzados borrosa (FOR).
2.3.2.1 Diagramas de caso de uso

Los usuarios de la herramienta serán personas con un conocimiento previo sobre la
estadística y algunos conocimientos básicos sobre los datos que utilizará; todos tendrán
acceso a las diferentes funcionalidades del software por ello en el diagrama se le identifica
como usuario.
Figura 2.6: Diagrama de casos de uso del rfuzzy
El usuario mediante el primer caso de uso puede obtener las medidas de riesgo
relativo (RR) y la razón de productos cruzados (OR) así como un intervalo que verifica
aproximadamente un 95% de confiabilidad; con el segundo caso de uso el usuario obtiene
el riesgo relativo borroso (FRR) y la razón de productos cruzados borrosa (FOR). El último
caso de uso permite la obtención de algunas medidas descriptivas como máximo, mínimo,
media, amplitud y desviación estándar para variables numéricas mientras que para las
variables nominales se obtiene la frecuencia y el porcentaje.
2.3.2.2 Descripción de las clases que conforman el software

El software se compone de la interfaz de usuario rfuzzy.jar y la biblioteca riesgo.jar.
Se hace uso de la biblioteca new-weka-paralell.jar para la lectura del fichero con los datos,
y la biblioteca jsc.jar para realizar cálculos estadísticos.
La biblioteca new-weka-paralell.jarrealizada en Java permite la extracción de
conocimientos desde bases de datos. Ha sido desarrollado en la universidad de Waikato
57
Capítulo 2
(Nueva Zelanda) bajo licencia GPL lo cual ha impulsado que sea una de las más utilizadas
en el área en los últimos años.
En riesgo.jar se encuentra el paquete riesgo que contiene nueve clases que realizan los
cálculos más importantes del sistema. La clase FuncPertenencia es abstracta y posee el
método abstracto funcPertenenciaX() que es implementado en las clases FuncRecta,
FuncTriangular y FuncTrapezoidal; estas clases heredan de FuncPertenencia y calculan la
pertenencia para un valor real. También está la clase RiesgoRelativoBorroso que tiene
como función realizar todos los cálculos para lograr obtener un índice de riego relativo
borroso y la razón de productos cruzados, esta clase posee un atributo de tipo
FuncPertenencia lo que establece la relación de agregación entre estas clases. La clase
RiesgoRelativoClasico contiene métodos para realizar todas las operaciones necesarias para
obtener los valores de riesgo relativo y la razón de productos cruzados. Las clases
CargarDatos y CargarLimites son las encargadas de leer los datos desde los ficheros
correspondientes, la primera clase utiliza la biblioteca weka para realizar las operaciones de
lectura de los datos.
2.3.2.3 Implementación del software

Esta herramienta al igual que el efuzzy fue implementada en Java y utilizando el NetBeans
6.9.1 como entorno de desarrollo.
2.3.3 Mathematica
Mathematica es un software utilizado por científicos, ingenieros, matemáticos y otros
especialistas del área de la computación, fue concebido por Stephen Wolfram y
desarrollado por Wolfram Research. Es una herramienta especializada en análisis numérico
y cálculo simbólico.
El lenguaje de programación de Mathematica está basado en re-escritura de términos (que
se identifica también como computación simbólica), y soporta el uso de programación
funcional y de procedimientos (aunque en general, la programación funcional es más
eficiente). Está implementado en una variante del lenguaje de programación C orientado a
objetos, pero el grueso del extenso código de bibliotecas está en realidad escrito en el
lenguaje Mathematica, que puede ser usado para extender el sistema algebraico.
58
Capítulo 2
Usualmente, nuevo código puede ser añadido en forma de paquetes de Mathematica, como
los archivos de texto escrito en el lenguaje de Mathematica.
Por las grandiosas ventajas que ofrece este software, fue utilizado para la implementación
de los canales endémicos y los métodos de procesamiento de encuestas que utilizan lógica
borrosa.

En este capítulo se mostró el cálculo de medidas de riesgo: el riesgo relativo borroso y la
razón de productos cruzados borrosa. Se propuso una variante de canal endémico que,
utilizando algunos elementos de lógica borrosa, permite detectar las cifras altas (o bajas) de casos
de una enfermedad e identificar un brote o epidemia más tempranamente que utilizando la variante
clásica. Se enuncia un método que permite determinar el riesgo atendiendo a criterio de
expertos. Se exponen las herramientas utilizadas en la investigación. Se detalla la
implementación de la nueva versión del software efuzzy desarrollado por la propia autora.
59
Capítulo 3
3. APLICACIONES DE TÉCNICAS BORROSAS DE ANÁLISIS DE DATOS

En el presente capítulo se muestran varias aplicaciones en diferentes dominios que han sido
resueltas utilizando técnicas borrosas de análisis de datos.
3.1 Análisis descriptivo borroso de datos

A continuación se muestran dos aplicaciones que hacen uso de la estadística descriptiva
borrosa para solucionar problemas reales.
3.1.1 Análisis descriptivo de la base de datos Arabidopsis thaliana

Se cuenta con la base de datos de Arabidopsis thaliana para predecir interacciones de
proteínas, la misma se obtuvo por el Departamento de Biología de Sistemas de Plantas1, a
partir de documentación reportada en la literatura. Dicha base contiene información
relevante de las interacciones de proteínas de la Arabidopsis thaliana: atributos de
dominios conservados, valores de expresión para calcular coeficientes de correlación de
Pearson, información de anotaciones de GO (Gene Ontology, genes ontólogos), OG
(Orthologous Group, grupos ortólogos), entre otros.
El conjunto de datos consta de 4314 pares de proteínas, 1438 son ejemplos de verdaderas
interacciones y 2876 son ejemplos negativos (o al menos dudosos). De dicho conjunto se
realizó una selección al azar de 1000 casos de cada clase para mostrar algunas técnicas de
análisis descriptivo borroso.
Se seleccionaron 5 rasgos, que se mencionan a continuación:
1. “GO similarity score biological process: average” (GO_sim_bp_avg)
2. “GO similarity score biological process: sum” (GO_sim_bp_sum)
3. “GO similarity score biological process: maximum” (GO_sim_bp_max)
4. “GO similarity score cellular component: sum” (GO_sim_cc_sum)
5. “GO similarity score cellular component: maximum” (GO_sim_cc_max)
Se tuvo en cuenta el atributo clase, que tiene valor cero cuando no interactúan las proteínas,
y valor uno cuando hay una interacción de proteínas.
1
Department of Plant Systems Biology, Flanders Interuniversity Institute for Biotechnology (VIB), Ghent
University, Belgium
60
Capítulo 3
El primer paso fue conformar los números borrosos triangulares a partir del error típico de
la media.
Se calculó para estos números la media y la mediana utilizando el software efuzzy primero
para la clase 1 (proteínas que interactúan). Los resultados se muestran en la tabla siguiente.
Variables N Media Media Mediana Mediana

Borrosa Desfuzzificada Borrosa Desfuzzificada
GO_sim_bp_avg 1000 [0.018, 0.019 [-0.001, 0.00
0.019, 0.000,
0.020] 0.001]
GO_sim_bp_sum 1000 [91.857, 98.485 [-6.628, 0.00
98.485, 0.000,
105.113] 6.628]
GO_sim_bp_max 1000 [2.097, 2.194 [-0.097, 0.00
2.194, 0.000,
2.291] 0.097]
GO_sim_cc_sum 1000 [15.137, 17.507 [-2.370, 0.00
17.507, 0.000,
19.877] 2.370]
GO_sim_cc_max 1000 [1.439, 1.509 [-0.070, 0.00
1.509, 0.000,
1.579] 0.070]
Tabla 3.1 Medidas descriptivas borrosas para los datos de la clase 1
Si se toma de cada dato de la base de casos los valores centrales de los números
triangulares y se aplican las técnicas clásicas de análisis descriptivo (media y mediana)
utilizando el software SPSS los resultados que se evidencias es que no existen diferencias.
GO_sim_b GO_sim_b GO_sim_b GO_sim_c GO_sim_c

p_avg p_sum p_max c_sum c_max
N Válidos 1000 1000 1000 1000 1000
Perdidos 0 0 0 0 0
Media .01859 97.90 2.1940 17.5070 1.5090
Mediana .00000 .00 .0000 .0000 .0000
a Class = 1
Tabla 3.2 Medidas descriptivas clásicas para los datos de la clase 1
Para la clase 0 (proteínas que no interactúan) los resultados de la media y la mediana fueron
los siguientes:
61
Capítulo 3
Variables N Media Media Mediana Mediana

Borrosa Desfuzzificada Borrosa Desfuzzificada
GO_sim_bp_avg 1000 [0.008, 0.009 [-0.001, 0.00
0.009, 0.000,
0.009] 0.001]
GO_sim_bp_sum 1000 [13.969, 16.233 [-2.264, 0.00
16.233, 0.000,
18.497] 2.264]
GO_sim_bp_max 1000 [0.552, 0.597 [-0.045, 0.00
0.597, 0.000,
0.642] 0.045]
GO_sim_cc_sum 1000 [1.930, 2.266 [-0.336, 0.00
2.266, 0.000,
2.602] 0.336]
GO_sim_cc_max 1000 [0.495, 0.536 [-0.041, 0.00
0.536, 0.000,
0.577] 0.041]
Tabla 3.3 Medidas descriptivas borrosas para los datos de la clase 0
Si se compara los resultados con la variante clásica se observa que no existen grandes
diferencias.
GO_sim_b GO_sim_b GO_sim_b GO_sim_c GO_sim_c

p_avg p_sum p_max c_sum c_max
N Válidos 1000 1000 1000 1000 1000
Perdidos 0 0 0 0 0
Media .00868 16.23 .5970 2.2660 .5360
Mediana .00000 .00 .0000 .0000 .0000
a Class = 0
Tabla 3.4 Medidas descriptivas clásicas para los datos de la clase 0
A continuación se muestran los gráficos de los valores de la media y la mediana para la

variable “GO similarity score biological process: sum” (GO_sim_bp_sum) obtenidos
mediante el software Mathematica.
62
Capítulo 3
Figura 3.1: Gráfico del valor de la media en la variable GO_sim_bp_sum (en azul la
clase de proteínas que interactúan y en rojo las que no interactúan)
En la figura anterior se observa que hay diferencias en cuanto a la media en la variable

seleccionada. En “Protein-protein interaction prediction by using bayesian networks
models” (Chávez Cárdenas et al., 2014) se evidencia que entre estos grupos hay diferencias
significativas.
A continuación se muestra el gráfico de la mediana, obsérvese que el valor central en
ambos casos es cero y lo que varía son las extensiones.
Figura 3.2 Gráfico del valor de la mediana en la variable GO_sim_bp_sum (en azul la
clase de proteínas que interactúan y en rojo las que no interactúan)
En el Anexo 1 se encuentran los resultados para las demás variables.
3.1.2 Procesamiento de encuestas de satisfacción estudiantil
Desde hace algunos años, el Ministerio de Educación Superior aplica una encuesta de
satisfacción estudiantil a una muestra de los estudiantes universitarios de todo el país con el
propósito de conocer la calidad del proceso de enseñanza aprendizaje.
63
Capítulo 3
La encuesta (ver anexo 2) cuenta con nueve preguntas, medidas según una escala Likert de
siete valores. El valor uno se corresponde con el nivel más bajo de satisfacción, mientras
que el siete es el de mayor satisfacción.
Se escogió el 4to año de la carrera Ciencia de la Computación, el segundo semestre del

curso 2012-13, con un total de 46 estudiantes encuestados. De las 9 preguntas de la
encuesta no se evaluó la pregunta 5 sobre la práctica laboral pues los estudiantes no habían
realizado la práctica correspondiente en ese curso.
Procesamiento de la encuesta:
En este problema se utiliza el siguiente conjunto de etiquetas lingüísticas finito y totalmente

ordenado L= {L1, L2, L3, L4, L5, L6, L7} donde L1  ...  L7 del intervalo [0,1].
Generalmente se considera una etiqueta intermedia “aproximadamente 0.5” que representa
el estado neutro y las demás etiquetas se distribuyen simétricamente alrededor de ella. Las
etiquetas lingüísticas y su semántica están representadas por los números borrosos del
intervalo [0,1] que figuran en la tabla 3.5 (ver figura 3.3):
Etiqueta lingüística Número borroso triangular
L1 Nulo (0, 0, 0.17)
L2 Muy Bajo (0, 0.17, 0.33)
L3 Bajo (0.17, 0.33, 0.5)
L4 Medio (0.33, 0.5, 0.67)
L5 Alto (0.5, 0.67, 0.83)
L6 Muy Alto (0.67, 0.83, 1)
L7 Perfecto (0.83, 1, 1)
Tabla 3.5: Etiquetas lingüísticas y números borrosos triangulares que las caracterizan
64
Capítulo 3
Figura 3.3: Representación gráfica de la semántica de las etiquetas lingüísticas
A continuación se enumeran los atributos que serán utilizados y la correspondencia con la

pregunta de la encuesta de satisfacción.
A1: P1. La docencia que recibo exige de mí esfuerzo y dedicación.
A2: P2. Utilizo la computación en los trabajos docentes, laborales e investigativos que
realizo en las diferentes asignaturas.
A3: P3. Dispongo, por diferentes vías, de bibliografía actualizada para el estudio de las
asignaturas que recibo en la carrera.
A4: P4. Consulto bibliografía en lengua extranjera para ampliar mi conocimiento acerca
de las materias que estudio.
A5: P6. Participo en la elaboración y ejecución del proyecto educativo de mi año o grupo.
A6: P7. Siento satisfacción con la preparación profesional que estoy adquiriendo.
A7: P8. Los profesores de la carrera son ejemplos como profesionales y educadores.
A8: P9. Los conocimientos adquiridos en Filosofía, Economía Política, Teoría
sociopolítica y Problemas Sociales de la Ciencia, contribuyen positivamente a mi
formación profesional.
A9: Satisfacción general.
A continuación se muestra la frecuencia absoluta con respecto a las etiquetas lingüísticas
por cada atributo.
65
Capítulo 3
Atributos Nulo Muy Bajo Medio Alto Muy Perfecto

Bajo Alto
A1 0 0 0 3 3 5 35
A2 0 0 0 1 3 13 29
A3 0 1 2 6 17 8 11
A4 0 2 2 12 13 11 5
A5 0 1 1 3 8 7 26
A6 0 0 2 1 9 14 20
A7 0 0 0 3 2 15 24
A8 3 6 2 11 6 8 8
A9 3 10 9 40 61 81 158
Tabla 3.6: Frecuencia absoluta con respecto a las etiquetas lingüísticas por cada
atributo.
Primero se trabaja con el atributo A1. Se calcula el número borroso medio, el cual es:
0  L1  0  L2  0  L3  3  L4  3  L5  5  L6  35  L7
AM   (0.758, 0.927, 0.967)
46
En segundo lugar se calcula la distancia entre este número borroso medio y cada una de las
etiquetas lingüísticas representadas a través de números borrosos triangulares L1 (Nulo), L2
(Muy Bajo), L3 (Bajo), L4 (Medio), L5 (Alto), L6 (Muy alto), L7 (Perfecto) de acuerdo con
la tabla 3.5.
d ( AM , L1 )  1.705 d ( AM , L2 )  1.455 d ( AM , L3 )  1.125 d ( AM , L4 )  0.79
d ( AM , L5 )  0.455 d ( AM , L6 )  0.133 d ( AM , L7 )  0.125
Por último se aproxima a la etiqueta más cercana (cuya distancia es la menor) obteniéndose
como resultado la etiqueta L7 .
Prosiguiendo en forma análoga para los demás atributos se obtienen los resultados que se
muestran en la tabla 3.10:
66
Capítulo 3
Atributo Media aritmética Operador de agregación

simbólico
A1 (0.606, 0.769, 0.897) L7
A2 (0.752, 0.920, 0.981) L6
A3 (0.562, 0.730, 0.854) L5
A4 (0.496, 0.663, 0.810) L5
A5 (0.683, 0.851, 0.923) L6
A6 (0.677, 0.843, 0.937) L6
A7 (0.726, 0.893, 0.970) L6
A8 (0.431, 0.587, 0.724) L4
A9 (0.637, 0.803, 0.897) L6
Tabla 3.7: Resultados del operador de agregación simbólico para cada atributo
Se observa que el nivel de satisfacción general es muy alto. La satisfacción en la mayoría

de las preguntas de la encuesta es alta o por encima de este aunque hay que profundizar en
la pregunta 9 de la encuesta cuyo nivel de satisfacción es media. Es importante destacar que
la satisfacción es perfecta para el atributo 1 que representa la pregunta 1 de la encuesta de
satisfacción donde se evalúa el rigor en la docencia.
3.2 Modelos para el pronóstico de la Hipertensión Arterial
La Hipertensión arterial (HTA) es una de las enfermedades más comunes que afectan la
salud de los individuos adultos en las poblaciones de todas las partes del mundo. Incluso
desde hace unos años también se está presentando en la población infantil causando no
menos daños que en la adulta.
Debido a su carácter asintomático se le ha denominado la “epidemia silenciosa” pues por lo
regular no presenta claras manifestaciones que evidencien su presencia, sin embargo no
deja de provocar afectaciones al organismo humano (Rodriguez, 2006).
Al mismo tiempo de representar por sí misma una enfermedad, la hipertensión arterial
constituye un factor de riesgo muy importante para otras enfermedades, fundamentalmente
cerebrales, cardiacas y renales, las cuales en caso de que no conlleven al paciente a la
67
Capítulo 3
muerte, provocan daños irreversibles en órganos tan importantes, ocasionando entonces

incapacidad física e intelectual.
Resulta necesario entonces dedicar personal y recursos en investigaciones sobre esta
patología para indagar en sus factores predisponentes, descubrir personas que estén en
riesgo de padecerla, alertar a los que la padezcan, en fin, llevar a cabo todas las acciones
que contribuyan a reducir la prevalencia de esta enfermedad y las graves consecuencias que
ella provoca.
La prevención de las enfermedades cardiovasculares no queda limitada a la edad adulta,
sino que debe iniciarse en la edad pediátrica. La HTA es la mayor causa de
morbimortalidad en muchos países, por sus consecuencias sobre el sistema cardiovascular y
los accidentes cerebro vasculares. Se ha demostrado que la HTA en la infancia es un factor
de riesgo independiente para la hipertensión en la edad adulta y está asociada con
marcadores precoces de enfermedad cardiovascular como hipertrofia ventricular izquierda,
espesor de la íntima-media, complianza arterial, ateroesclerosis y disfunción diastólica. La
prevalencia global de HTA en adultos es del 15-20%; mientras que, en niños con edades
entre 4 y 15 años se estima en un 2%.
A continuación se obtienen modelos de regresión borrosa para pronosticar la hipertensión
arterial en adultos y luego en escolares de edad pediátrica.
3.2.1 Modelos de regresión borrosa para pronosticar la hipertensión arterial

en adultos
Los datos que se utilizan fueron suministrados por el proyecto PROCDEC (González
Rodríguez, 2014). La información recogida presenta como variable dependiente la tensión
arterial que tiene como componentes la diastólica basal, la presión arterial media (PAM) y
la sistólica basal. Este número borroso triangular se denotará por en los modelos. Como
variables independientes o predictoras se tienen la edad, el índice de masa corporal (imc), la
glicemia, los triglicéridos (triglice), colesterol HDL (coleshdl) y colesterol LDL (colesldl).
La muestra consta de un total de 24 pacientes de los cuales ocho son hipertensos, ocho son
clasificados como pre-hipertensos y ocho son normotensos. La muestra es pequeña porque
el propósito es hacer un estudio preliminar que después deberá generalizarse.
68
Capítulo 3
A continuación se presentan los resultados obtenidos al aplicar las técnicas de regresión

borrosa y de regresión lineal a las muestras utilizadas en el estudio:
Modelos para el grupo de Hipertensos
Modelo de regresión borroso obtenido mediante el método de Tanaka (valor de h =

0.95):
Para este modelo se obtuvo un valor de =0.71 y =0.48 mientras que el R 2borroso
resultó ser 0.32. Obsérvese que la medida Sim3 es muy buena, pero no lo es el R 2borroso .
Ello corrobora la afirmación realizada en (Morales Martínes, 2010) acerca de que esta
medida no es siempre adecuada.
Modelo Savic y Pedrycs
resultó ser 0.775.
Modelo de regresión clásico:
R2= 0.775
Test de normalidad según Jarque Bera: p = 0.745
No existe una diferencia muy marcada en los valores de los coeficientes. Por ejemplo, la
constante borrosa es de en el método de Tanaka, mientras que en
Savic y Pedrycs resultó ser muy similar al coeficiente de la
69
Capítulo 3
regresión clásica que es . De igual forma se pudieran comparar todos los

coeficientes.
Para que el modelo de regresión lineal múltiple sea válido debe verificarse la normalidad de
los residuales. El test de Jarque Bera (0.745) muestra el ajuste a la distribución normal. En
el modelo borroso no hay que probar ningún supuesto adicional, debido a que los
coeficientes incluyen la información de los residuales. Esta es la causa por la que existe una
pequeña diferencia en los coeficientes de ambos modelos.
Si se observa el resultado del R2 borroso se puede apreciar que en el método de Savic y
Pedrycs ese valor es 0.775 igual al obtenido en la regresión clásica, lo que sugiere que este
es uno de los mejores métodos reportados en la literatura.
Modelos para el grupo de Pre-hipertensos
Modelo de regresión borroso obtenido mediante Tanaka (h = 0.95):
Para este grupo se tiene que el =0.681 y =0.418 mientras que el R 2borroso resultó
ser alto: 0.946. Se puede interpretar que el modelo hallado es capaz de explicar el 94.6 %
de la variación presente en los datos centrales .
Savic y Pedrycs
resultó ser 0.994.
R2 = 0.994
Test de Normalidad según Jarque Bera: p = 0.703
70
Capítulo 3
Tampoco aquí existe una gran diferencia en los valores de los coeficientes. Obsérvese en
particular el asociado al índice de masa corporal (imc) que es de en
Tanaka, en Savic y Pedrycs y de en el modelo clásico.
El test de Jarque Bera (0.703) muestra el ajuste a la distribución normal.
Los índices de bondad de ajuste obtenidos en el modelo de Savic y Pedrycs son muy
buenos. Si se compara el valor del coeficiente R2 borroso se puede apreciar que en ambos
métodos de regresión borrosa fue alto: en Tanaka 0.946 y en Savic y Pedrycs 0.994.
Modelos para el grupo de Normotensos
Modelo de regresión borroso obtenido:
Para este grupo se obtuvo =0.70 y =0.46 mientras que el R 2borroso resultó ser
también alto: 0.899, por lo que se puede interpretar que el modelo de regresión borrosa
explica el 89.9 % de la variación presente en los datos centrales .
Modelo Savic y Pedrycs
Con este modelo se obtuvieron los siguientes valores en los índices de bondad de ajuste:
=0.91 y =0.79 mientras que el R 2borroso resultó ser también alto: 0.966, por lo
que se puede interpretar que el modelo de regresión borrosa explica el 96.6 % de la
variación presente en los datos centrales .
R2 = 0.966
71
Capítulo 3
Test de Normalidad según Jarque Bera: p = 0.987

Las pruebas de normalidad son siempre cuestionables cuando la cantidad de datos resulta
pequeña. Tal es el caso de los tres modelos mostrados en este trabajo. Cuando la cantidad
de observaciones es pequeña, o no se cumple el supuesto de normalidad de los residuales,
las técnicas borrosas serían la elección apropiada.
Por otra parte, debe recordarse que los métodos borrosos necesitan resolver un problema de
programación lineal cuya cantidad de restricciones es directamente proporcional a la
cantidad de observaciones. Si ese número es grande, la obtención de tales modelos puede
ser complicada. En estos casos se sugiere utilizar las técnicas clásicas de regresión lineal
múltiple.
Tanto los métodos clásicos de regresión como los métodos borrosos pueden utilizarse para
obtener modelos que permitan realizar pronósticos certeros. Ninguno de ellos es mejor que
el otro, sino que pueden complementarse. Teniendo en cuenta los comentarios anteriores, se
puede elegir entre uno u otro en dependencia del tamaño de la muestra y del cumplimiento
o no del supuesto de normalidad de los residuales.
3.2.2 Modelos de regresión borrosa para el pronóstico de la HTA en la edad

pediátrica
El diagnóstico de hipertensión en niños es complicado porque los valores normales y
anormales de la presión sanguínea varían con la edad, el sexo y la talla, con un amplio
rango descrito en tablas y por tanto, son difíciles de recordar. Se ha demostrado que la
hipertensión en la infancia es un factor de riesgo independiente para la hipertensión en la
edad adulta y está asociada con marcadores precoces de enfermedad cardiovascular.
En el estudio, la muestra estuvo constituida por un total de 20 niños supuestamente sanos
entre 8 a 12 años de edad, de ambos sexos, pertenecientes a 4 escuelas primarias de la
ciudad de Santa Clara, con el objetivo de diagnosticar el riesgo de HTA.
Se confeccionó una historia clínica con información del niño que contenía 87 variables de
las cuales se seleccionaron como variables independientes las siguientes: Peso, Talla,
Circunferencia Cintura (CCintura), Colesterol, Triglicéridos, Índice Masa Corporal (imc).
La variable dependiente es borrosa triangular simétrica y se denota de la forma
72
Capítulo 3
donde yi es el valor de la Presión Arterial Media (PAM) después de dos minutos de estrés y
el error de estimación.
A continuación se muestran varios modelos de regresión borrosa para pronosticar la
hipertensión arterial en escolares de edad pediátrica considerando si tienen alto o bajo
riesgo de ser hipertensos.
Modelos obtenidos para los escolares normotensos
Modelo de Shakouri y Nadimi

Utilizando las variables mencionadas anteriormente se aplicó el modelo de Shakouri y
Nadimi, a continuación se muestra el modelo de regresión borrosa obtenido:
Al aplicar este método se obtiene el valor óptimo de h = 0.3946728 mediante el software

Lingo. En el Anexo 3 se presenta dicho modelo.
Modelo de Hideo Tanaka
Utilizando el valor de estimación h obtenido del modelo de Shakouri y Nadimi se aplicó el
modelo de Tanaka dando como resultado la ecuación de regresión:
y los índices de bondad de ajuste:

Sim3 = 0.73, Sim4 = 0.57 y R2 borroso = 0.34
Modelo de Regresión Clásico
Se calculó el modelo de regresión clásico usando el método enter y se obtuvo:
R2 = 0.613
Si se comparan los modelos anteriores con la regresión clásica se observa que no existe una
diferencia muy marcada en los valores de los coeficientes. Por ejemplo, en el modelo de
Shakouri y Nadimi la constante borrosa es de , en el modelo de Tanaka
Simétrico es mientras que la del método clásico es de , el
73
Capítulo 3
coeficiente asociado a la variable peso en el modelo de Nadimi es , en Tanaka

mientras que el clásico es . Ese análisis puede hacerse para todos los
coeficientes.
Modelos obtenidos para los escolares hipertensos
Modelo de Shakouri y Nadimi

Se aplicó el modelo de Shakouri y Nadimi y se obtiene el siguiente modelo de regresión
borrosa:
con h = 0.8755588 como valor óptimo para este modelo.

Modelo de Hideo Tanaka
Utilizando el valor de estimación h obtenido anteriormente se aplicó el modelo de Tanaka
dando como resultado:
Los siguientes valores constituyen los índices de bondad de ajuste simétricos obtenidos:
Sim3 = 0.61, Sim4 = 0.57 y R2 borroso = 0.73.
Modelo de Regresión Clásica
Se calculó el modelo de Regresión Clásica usando el método enter y se obtuvo:
R2 = 0.78
Tampoco existe una diferencia muy marcada en los valores de los coeficientes en estos
modelos. Por ejemplo, en el modelo de Shakouri y Nadimi la constante borrosa es de
, en el modelo de Tanaka Simétrico es mientras que la del método
clásico es de , el coeficiente asociado a la variable talla en el modelo de Nadimi es
, en Tanaka mientras que el clásico es . Ese análisis
puede hacerse para todos los coeficientes. El valor R2 borroso obtenido 0.73, es muy
similar al coeficiente R2 de la regresión clásica que refleja como valor obtenido 0.78.
74
Capítulo 3
3.3 Cálculo de medidas de riesgo en pacientes con alto riesgo

cardiovascular
A continuación se muestra la aplicación del índice de riesgo clásico y el borroso a un
problema real. Para ello se utilizaron datos suministrados por el proyecto PROCDEC de la
Universidad Central “Marta Abreu” de Las Villas. La muestra consta de un total de 849
pacientes de los cuales 220 son hipertensos, 219 son pre-hipertensos y 410 son
normotensos. Se analiza una selección de nueve variables empleadas en el diagnóstico de
alto riesgo cardiovascular. La Tabla 3.8 muestra las características fundamentales de las
variables aleatorias que son discretas y la Tabla 3.9 se refiere a las continuas.
Variables Valores Porcentajes
Riesgo cardiovascular Alto 4.8
(riesgo) No alto 95.2
Ingiere bebidas alcohólicas en Sí 50.7
demasía (bebe) No 49.3
Hábito de fumar Sí 38.7
(fuma) No 61.3
Tabla 3.8 Variables aleatorias discretas
Variable Mínimo Máximo

Edad 18 78
TA Sistólica basal 80 220
TA Diastólica basal 50 130
Glicemia 2.70 11.10
Colesterol total 88.94 421.50
Colesterol LDL 30.55 494.97
Tabla 3.9 Variables aleatorias continuas
Riesgo, es la variable dependiente. Ella tiene dos categorías que son: Alto y No Alto. Cada
caso fue etiquetado por un Comité de Expertos del Proyecto PRODEC, compuestos por
médicos de diferentes especialidades y de reconocido prestigio en Cuba (González, 2005).
Para los especialistas pertenecientes a dicho Comité, era interesante obtener un índice de
riesgo apropiado para el alto riesgo cardiovascular, es por ello que la variable dependiente
riesgo tiene sólo dos valores posibles, diferenciando así los pacientes con alto riesgo, del
resto del grupo.
75
Capítulo 3
Estos datos se tomaron y se transformaron, en un fichero con extensión arff. Estos ficheros
tienen la siguiente estructura:
En la primera línea se especifica un nombre, que no tiene que coincidir con el del fichero:
@relation nombre_que_eligió
Luego se especifica el tipo para cada atributo, se emplea una línea para cada atributo.
@attribute nombre_atributo_numérico NUMERIC
@attribute nombre_atributo_nominal { valor0, ..., valorn}
A continuación se especifica la cláusula @data y se comienza a introducir los valores de los
datos, para ello se colocan en el orden en el que se especificó los nombres de los atributos
con su tipo, se separan por comas y cada línea representa una persona.
En la Tabla 3.10 se muestra el nuevo nombre, tipo y valores que recibe la variable en este
fichero. Se construyó además el fichero txt con los límites, según se muestra en la Tabla
3.11.
Nombre de la Variable Identificador Tipo Valores
Ingiere bebidas alcohólicas en demasía bebe numérico { ‘0’, ‘1’ }
Hábito de fumar fuma numérico { ‘0’, ‘1’ }
Edad edad numérico
TA Sistólica basal sistbas numérico
TA Diastólica basal diastbas numérico
Glicemia glicemia numérico
Colesterol total coltotal numérico
Colesterol LDL colesldl numérico
Riesgo riesgo nominal {‘1’, ‘2’ }
Tabla 3.10 Cambios en el nombre, tipo y valores de los datos
Variable Límite 1 Límite2

bebe 0.5 0.5
fuma 0.5 0.5
edad 30 50
sistbas 140 180
diastbas 90 110
glicemia 3.3 6.6
coltotal 200 240
colesldl 130 160
Tabla 3.11 Tabla con los límites para cada variable
76
Capítulo 3
A continuación se muestran los resultados obtenidos utilizando el software rfuzzy.

Primeramente se muestra una tabla con los valores para el riesgo clásico de todas las
variables numéricas.
EI para ED para EI para ED para
Variable RR RR RR OR OR OR Expuesto Enfermos Sanos
edad 42.77 13.347 137.031 52.94 16.132 173.73 Sí 38 156
No 3 652
bebe 2.217 1.202 4.09 2.31 1.214 4.395 Sí 25 326
No 16 482
fuma 6.105 3.334 11.179 6.968 3.629 13.379 Sí 25 148
No 16 660
sistbas 22.26 16.317 30.376 Sí 3 0
No 38 808
diastbas 9.496 3.822 23.594 15.868 3.429 73.425 Sí 3 4
No 38 804
glicemia 7.674 3.941 14.943 10.64 4.314 26.241 Sí 8 18
No 33 790
coltotal 1.817 0.914 3.614 1.886 0.901 3.95 Sí 10 118
No 31 690
colesldl 1.422 0.712 2.839 1.451 0.696 3.025 Sí 10 147
No 31 661
Tabla 3.12: Tabla con los resultados relacionados con el riesgo clásico
A partir de la tabla anterior se puede concluir que para todas las variables ambos valores de
RR y OR son mayores que la unidad, lo que indica que todas ellas constituyen factores de
riesgo.
Al analizar todas las variables, exceptuando las relacionadas con el colesterol, se observa
que el extremo izquierdo de su intervalo de confianza es superior a la unidad, corroborando
así la afirmación anterior: estas variables constituyen factores de riesgo.
Por su parte, el intervalo de confianza asociado a las variables coltotal y colesldl contiene a
la unidad, luego esas son variables dudosas en cuanto a su relación directa con el riesgo
cardiovascular. Debe aclararse que estos resultados no son concluyentes, con ellos sólo se
pretende ejemplificar. Para llegar a conclusiones más certeras debe aumentarse el tamaño
de la muestra y realizar estudios más complejos.
77
Capítulo 3
Para la variable “sistbas” no se pudo calcular el valor de OR pero según sus valores de RR
y su intervalo de confianza se puede decir que es un factor que confiere riesgo.
A continuación se muestra una tabla con los resultados asociados al riesgo borroso para
todas las variables numéricas.
No Variable FRR FOR B
1 edad 1.053 1.053 0.201
2 1.326 2.359 5.254
3 0.4 0.4 -6.806
4 bebe 1.998 412.593 6.714
5 1.89 9.069 2.841
6 1.959 24.606 3.876
7 fuma 1.996 223.816 6.102
8 0.03 0.03 -4.198
9 0.835 0.835 -0.334
10 sistbas 1.328 2.46 5.464
11 1.419 1.769 2.484
12 0.992 0.992 -0.03
13 diastbas 1.328 2.5 5.545
14 0.576 0.576 -2.588
15 0.5 0.5 -3.494
16 glicemia 0.942 0.942 -0.24
17 0.424 0.424 -5.875
18 1.354 1.833 3.339
19 coltotal 0.534 0.534 -3.182
20 1.281 2.751 6.827
21 0.634 0.634 -1.889
22 colesldl 0.834 0.834 -0.792
23 0.434 0.434 -5.516
24 0.434 0.434 -5.617
Tabla 3.13: Resultados relacionados con el riesgo borroso
La figura 3.4 muestra la relación que existe entre los valores de beta y el riesgo borroso.
Obsérvese que para valores de beta menores de cero, el riesgo es menor que la unidad,
mientras que para valores positivos de beta, el riesgo supera a la unidad.
78
Capítulo 3
Figura 3.4: Estimador del riesgo borroso para la variable edad
A continuación se presenta una tabla que permite la comparación entre los resultados
clásicos y borrosos para las variables, se debe tener en cuenta que en los valores borrosos,
se calcula para cada variable un valor por cada beta y según el valor de beta puede existir
variación en los valores.
No Variable RR OR FRR FOR
1 edad 42.77 52.94 1.053 1.053
2 1.326 2.359
3 0.4 0.4
4 bebe 2.217 2.31 1.998 412.593
5 1.89 9.069
6 1.959 24.606
7 fuma 6.105 6.968 1.996 223.816
8 0.03 0.03
9 0.835 0.835
10 sistbas 22.26 1.328 2.46
11 1.419 1.769
12 0.992 0.992
13 diastbas 9.496 15.868 1.328 2.5
14 0.576 0.576
15 0.5 0.5
16 glicemia 7.674 10.64 0.942 0.942
17 0.424 0.424
18 1.354 1.833
19 coltotal 1.817 1.886 0.534 0.534
20 1.281 2.751
21 0.634 0.634
79
Capítulo 3
22 colesldl 1.422 1.451 0.834 0.834

23 0.434 0.434
24 0.434 0.434
Tabla 3.14: Resultados de RR, OR, FRR, FOR
En este epígrafe se mostraron los resultados obtenidos al aplicar las variantes clásicas y
borrosas para calcular índices de riesgo a pacientes cardiovasculares de la ciudad de Santa
Clara. Como se evidenció el OR no se pudo calcular en el caso de la variante clásica en la
variable sistbas sin embargo por la variante borrosa este valor si se pudo mostrar lo que
evidencia de alguna manera que utilizando esta técnica siempre podremos tener un valor
para el riesgo y que este nos brindará una mejor perspectiva de los efectos de ese factor.
3.4 Aplicación de los canales endémicos a las Enfermedades Diarreicas

Agudas (EDA)
A continuación se realiza un estudio aplicando primeramente canales endémicos clásicos y
luego la variante de canales endémicos borrosos con el objetivo de comparar ambas
técnicas.
En este caso de estudio se tomaron todos los valores absolutos de los números de casos
semanales de las Enfermedades Diarreicas Agudas (EDA) de los habitantes de la ciudad de
Santa Clara desde el 2003 hasta el 2012.
Para el procesamiento se utilizó el software Mathematica 8.0, como se mencionó
anteriormente esta es una herramienta especializada en análisis numérico y cálculo
simbólico.
El primer paso fue conformar la matriz inicial de los datos a partir del número de casos
semanales por año, ocurridos en los últimos diez años.
Posteriormente se ordenan los valores por semanas y se calculan los percentiles.
A partir de los valores calculados anteriormente se construye un gráfico de curvas con las
cifras de los percentiles delimitados (Figura 3.5).
80
Capítulo 3
Figura 3.5: Canal endémico de enfermedades diarreicas agudas (EDA) en Santa

Clara, 2003-2012
Este gráfico permite para el siguiente año, registrando los casos sobre el canal endémico se
identifiquen epidemias.
Para construir el canal endémico borroso se realizaron los primeros tres pasos anteriores
como si se fuera a construir un canal endémico clásico pero no se construye un gráfico sino
que se define una variable: canal endémico con funciones de pertenencia de cada uno de los
términos lingüísticos bajo, seguridad, alarma y epidemia para cada semana (52 semanas).
En la siguiente figura se muestra para la semana 2.
1.0
0.8
Bajo
0.6
Seguridad
0.4 Alarma
0.2 Epidemia
100 200 300 400 500
Figura 3.6: Representación de la variable: canal endémico para la semana 2
81
Capítulo 3
Análisis de los resultados y comparación de las variantes analizadas
En la semana 2 del año 2013 hubo un total de 267 personas diagnosticadas con EDA. Si se
analiza el canal endémico clásico puede observarse que con esta cantidad, se estaría en la
zona de alarma. Al analizar la variante borrosa, se tiene que la pertenencia a la zona de
epidemia ( ) es mayor que la pertenencia a la zona de alarma ( ). Este resultado
permite detectar un posible foco epidémico más tempranamente.
Con la variante borrosa se puede detectar con mayor rapidez cuando se está en presencia de
epidemia que utilizando la variante clásica de canales endémicos. Para la semana 2 el
percentil 25 es 209, el percentil 50 es 223 y el percentil 75 es 270, por lo que según la
metodología clásica, se tendría que esperar a que el número de casos superara los 270 para
poder declarar la zona de epidemia.
Para tomar decisiones no es necesario esperar a que la cantidad de casos diagnosticados
arribe a un número determinado que puede ser alto (270). En la variante borrosa la
referencia del conjunto de números de caso y su grado de pertenencia a uno u otro conjunto
pueden ayudar a la toma de decisiones certeras para la detección temprana de epidemias.

En este capítulo se mostraron varias aplicaciones de las técnicas borrosas de análisis de
datos abordadas en la presente tesis. Primero se aplicó análisis descriptivo borroso a un
problema de interacción de proteínas de la Arabidopsis thaliana. También se procesó la
encuesta de satisfacción estudiantil de la facultad MFC en el primer semestre del curso
2012-2013 aplicando los conceptos de media y distancia borrosa. Se demostró que con
estos métodos se puede descubrir conocimiento en las encuestas de satisfacción
obteniéndose la satisfacción de los estudiantes en cada pregunta y en general. Se utilizaron
los modelos de regresión borrosa para pronosticar la hipertensión arterial en adultos y en
niños. Se realizó el cálculo de medidas de riesgo en pacientes con alto riesgo cardiovascular
y se confeccionó un canal endémico clásico y uno borroso con los datos las Enfermedades
Diarreicas Agudas (EDA) del 2003 hasta el 2012. En algunos casos se comparó con las
técnicas tradicionales y se observó resultados más precisos que ayudan en la toma de
decisión y en el descubrimiento de conocimiento.
82

01.2a. BD Borrosa. Analisis Borroso de Datos-ILM - ILM

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

01.2a. BD Borrosa. Analisis Borroso de Datos-ILM - ILM

Caricato da

Copyright:

Formati disponibili

Capítulo 1

1. CAPÍTULO 1: ELEMENTOS FUNDAMENTALES DEL ANÁLISIS

En este capítulo se expone la teoría de los conjuntos borrosos y se formaliza en las

1.1 Lógica Borrosa. Teoría de los conjuntos borrosos

Un conjunto borroso es un conjunto para el cual la pertenencia de un elemento está definida

subconjunto borroso como A  {( x,  A ( x)) | x  X } siendo la función de pertenencia:

Donde 0 indica la no pertenencia al conjunto A y 1 la pertenencia absoluta. Existe una

del elemento x es muy elevado, y si  A ( x)  0.1 el nivel de pertenencia de x es muy bajo.

1.2 Números borrosos y funciones de pertenencia

1.2.1 Intervalos de confianza

Si a1  a3 este intervalo indica un punto que es [a1 , a1 ]  a1

Figura 1.1: Número ordinario A  [a1 , a3 ] dado por un intervalo de confianza

1.2.2 Números borrosos

el valor máximo como [a1 , a2 , a3 ] . (Figura 1.2)

Figura 1.2: Número borroso A  [a1 , a2 , a3 ]

Un número borroso es un subconjunto borroso N definido sobre la recta real  y que

1. Es normal, es decir, que el núcleo de N es no vacío o lo que es lo mismo, existe al

2. Es convexo, geométricamente quiere decir que los α-cortes de N son intervalos

3. El soporte de N está acotado.

4. La función de pertenencia es seccionalmente continua.

De forma general la función de pertenencia de un número borroso N puede escribirse

El intervalo de confianza [a1 , a4 ] es el soporte del número borroso y [a 2 , a3 ] es el núcleo

del número borroso. Asimismo f(x) es creciente en el intervalo [a1 , a2 ] y g(x) es

decreciente en el intervalo [a3 , a 4 ] (ver figura 1.3)

Figura 1.3: Forma general de un número borroso

donde n1 ( ) (n2 ( )) serán funciones crecientes (decrecientes de  ) con n1 ( )  n2 ( )

1.2.3 Números borrosos L-R de Dubois y Prade

1.2.4 Números borrosos triangulares

Figura 1.4 Número borroso triangular A  [a1 , a2 , a3 ] .

es la recta que toma valores en (a 2 ,1) y (a3 ,0) .

1.2.4.1 Número borroso triangular simétrico

forma , donde a es llamado valor medio o el centro, y y son las

1.2.5 Números borrosos trapezoidales

Figura 1.5: Número borroso trapezoidal A  [a1 , a2 , a3 , a4 ] .

como ya se vio anteriormente, la extensión izquierda es cl  a2  a1 y la derecha es

Como se puede observar la función de pertenencia de un número borroso trapezoidal

1.3 Variables lingüísticas

– N es el nombre de la variable lingüística y U el dominio subyacente.

– T(N) es el conjunto de términos o etiquetas lingüísticas que puede tomar N.

Las variables lingüísticas pueden formular descripciones vagas en lenguaje natural a

1.4 Operaciones con números borrosos

1.4.1 Aritmética de Intervalo

Si * es división se asumirá que el cero no pertenece al intervalo [b1 , b2 ] . La ecuación

Resta: [a1 , a2 ]  [b1 , b2 ]  [a1  b2 , a2  b1 ] 1.11

Multiplicación: [a1 , a2 ]  [b1 , b2 ]  [c, d ] 1.12

a [b1 , b2 ]  [c, d ] 1.15

donde c  Min [ab1 , ab2 ] y d  Max[ab1 , ab2 ]

1.4.2 Operaciones aritméticas con números borrosos

A continuación se estudiarán las operaciones más usuales entre números borrosos.

B  {x |  B ( x)}  {B  [b1 ( ), b2 ( )] | 0    1}

Para hallar la función de pertenencia de C  A * B debemos aplicar el principio de

siendo los  -cortes de C , C :

Min{a1 ( ) * b1 ( ), a1 ( ) * b2 ( ), a 2 ( ) * b1 ( ), a 2 ( ) * b2 ( )}, 1.17

Suma de números borrosos:

Sea C  A  B , la función de pertenencia de C se halla como:

Resta de números borrosos:

Sea C  A  B , la función de pertenencia de C se halla como:

 C ( x)  Max [Min( A ( x1 ),  B ( x2 ))] 1.20

C  [c1 ( ), c2 ( )]  [a1 ( )  b2 ( ), a2 ( )  b1 ( )] ya que C  A  ( B ) 1.21

Multiplicación de números borrosos:

Sea C  A  B , la función de pertenencia de C se halla como:

siendo sus  -cortes

Si el Sop(A ) y el Sop(B )    respectivamente se obtiene entonces que:

Sea C  A  B , en los cuales 0  Sop( A ) y 0  Sop( B ) : La función de pertenencia de C