Sei sulla pagina 1di 34

Unidad IV

BASES DE DATOS
ESTADSTICOS
Bases de Datos Estadsticos
ESTADSTICOS
Administracin, Almacenamiento y Procesamiento
de Informacin Estadstica
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Informacin Estadstica
Poblacin :
Conjunto homogneo de objetos simples o complejos,
los cuales son objeto de un proceso estadstico.
Unidad Individual :
Objeto perteneciente a una poblacin, que puede ser
Bases de Datos Estadsticos
Objeto perteneciente a una poblacin, que puede ser
simple (por ejemplo, una persona, un automvil, etc.) o
complejo (por ejemplo, una familia, un curso, etc.).
Caracterstica :
Cualidad, propiedad o rasgo comn, que poseen las
unidades estadsticas. En estadstica se denominan
caracteres.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Microdatos o Microinformacin :
Conjunto de datos que se obtiene tras realizar un
proceso de observacin sobre las unidades individuales
que componen una poblacin.
Macrodatos o Macroinformacin :
Informacin Estadstica
Bases de Datos Estadsticos
Conjunto de datos que se derivan del procesamiento de
la microinformacin (resmenes o estadsticas).
Metadatos o Metainformacin :
Es la informacin acerca de la informacin (la
documentacin del sistema, constituida por
definiciones, nombres, descripciones, periodos de
referencia, disponibilidad, fiabilidad, anlisis,
metodologa, etc.)
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Secreto Estadstico :
Marco legal que se imponen las naciones tienen con la
finalidad de restringir el acceso a la informacin
estadstica, impidiendo su divulgacin indiscriminada y
normando su tratamiento (procesamiento).
Informacin Estadstica
Bases de Datos Estadsticos
normando su tratamiento (procesamiento).
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Taxonoma de las Investigaciones Estadsticas
Investigaciones Atemporales :
Son aquellas en que la Dimensin Temporal no tiene un
papel relevante en el estudio. El tiempo no es
importante en lo que a los datos, al almacenamiento y
al tratamiento se refiere.
Bases de Datos Estadsticos
Investigaciones Peridicas :
Son aquellas que se realizan en periodos de tiempo
regulares, que son significativos para la investigacin.
En cada periodo, a travs de muestras independientes,
se recopila un conjunto de datos con una estructura
similar para todos los periodos.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Investigaciones Continuas :
Como en el caso anterior, el proceso de recopilacin de
la informacin se repite en diferentes periodos en el
tiempo, sin embargo, un determinado porcentaje de
unidades individuales se volvern a incluir en la
muestra siguiente. En este tipo de investigaciones,
reviste inters el poder determinar la evolucin del
Taxonoma de las Investigaciones Estadsticas
Bases de Datos Estadsticos
reviste inters el poder determinar la evolucin del
fenmeno, es decir, interesa estudiar la vida de ciertas
unidades estadsticas, las que se conservan en las
sucesivas muestras, a fin de observar los cambios que
se han producido en las mismas.
Series Cronolgicas :
Son una sucesin de observaciones cuantitativas
ordenadas en el tiempo, dicho orden es esencial para el
tratamiento de la informacin.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Definicin :
Una Base de Datos Estadsticos Temporalmente
Extendida es la unin de dos bases de datos, denominadas
Microbase y Macrobase de Datos Estadsticos.
Ambas bases de datos contienen informacin
temporal, que permiten mantener una historia de una
determinada parcela del mundo real.
Bases de Datos Estadsticos
determinada parcela del mundo real.
Los macrodatos, que componen la Macrobase, se
generan a partir de los microdatos por medio de consultas
formuladas en de un lenguaje de manipulacin de datos
especial, que debe impedir que se vulnere el secreto
estadstico.
La Macrobase, debido a que contiene solamente
informacin derivada, es en si redundante, pero dado que
los macrodatos no se actualizan sino que se calculan,
dicha redundancia no produce inconsistencias.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Funcin de
Base de Datos Estadsticos
Bases de Datos Estadsticos
Microbase
de datos
Estadsticos
Macrobase
de datos
Estadsticos
Funcin de
Tabulacin
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
MICROBASE DE DATOS
ESTADSTICOS
Bases de Datos Estadsticos
ESTADSTICOS
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Microbase de Datos Estadsticos
Dominios:
Dominios Cualitativos: Conjuntos finitos que contienen
modalidades no cuantificables, que generalmente se
describen mediante palabras.
Dominios Cuantitativos: Conjuntos que contienen valores
numricos, que se asocian a caractersticas que pueden
Bases de Datos Estadsticos
numricos, que se asocian a caractersticas que pueden
cuantificarse o medirse.
Dominios Imgenes: Son la imagen de otros dominios bajo
una determinada funcin. Formalmente, sea D un dominio y f
una funcin definida sobre D, entonces el conjunto I=f(D), es
el dominio imagen definido por f sobre D.
Dominios Temporales: Son conjuntos de valores
numricos, expresados en una misma unidad de medida
temporal.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Esquema de Relacin :
Conjunto que identifica todas las caractersticas de un
determinado tipo de unidades estadsticas, que tienen inters
para el sistema de informacin.
Se representa por el siguiente conjunto:
E = { K, A
1
, A
2
, ...,A
q
, V
1
, V
2
, ... , V
r
}
Microbase de Datos Estadsticos
Bases de Datos Estadsticos
1 2 q 1 2 r
donde A
i
, i=1, 2, ..., q, representan las q caractersticas
cualitativas, y V
j
, j=1,2, ..., r, representan las r caractersticas
cuantitativas, de inters en cada unidad estadstica.
La Caracterstica K ha sido introducida especialmente y
representa la caracterstica (o el conjunto de caractersticas) que
forman la clave de la relacin.
Dicha clave debe cumplir con la propiedades de Unicidad y
Minimalidad del Modelo Relacional Clsico.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Relacin :
Una relacin es un conjunto de tuplas, donde cada tupla se define
como:
{ (C,c) / C E y c Dom(C) }
Donde E representa el esquema de R y Dom(C)
representa el dominio subyacente a la caracterstica C.
Microbase de Datos Estadsticos
Bases de Datos Estadsticos
representa el dominio subyacente a la caracterstica C.
En este modelo, las relaciones tienen las mismas
propiedades que en el modelo relacional clsico.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
N Obs Escolaridad Edad Sexo Estatura Peso
1 Bsica 18 M 162 65
2 Bsica 22 F 155 58
3 Bsica 19 F 175 68
4 Bsica 20 F 158 70
5 Media 20 F 170 72
6 Media 19 M 172 68
7 Media 20 M 160 60
Ejemplo :
Bases de Datos Estadsticos
7 Media 20 M 160 60
8 Media 22 M 166 75
9 Universitaria 27 F 155 50
10 Universitaria 28 M 170 75
11 Universitaria 26 F 165 65
12 Universitaria 27 M 166 60
Clave ( K )
Caractersticas Cualitativos ( A ) Caractersticas Cuantitativos ( V )
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Microbase de Datos Estadsticos
Restricciones :
Como la microbase de datos estadsticos es en la prctica un caso
particular de base de datos relacional, en primer lugar ella debe
cumplir con la Integridad de Entidad e Integridad
Referencial del Modelo Relacional Clsico, a la que
Bases de Datos Estadsticos
Referencial del Modelo Relacional Clsico, a la que
agregaremos, a fin de preservar la seguridad y privacidad de la
informacin estadstica, la siguiente restriccin:
La informacin correspondiente a las unidades estadsticas
o los datos agregados generados a partir de dichas
unidades estadsticas, no pueden ser difundidos si con ello
comprometen el secreto estadstico.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Bases de Datos Estadsticos
Paso de la
Microbase a la Macrobase
Bases de Datos Estadsticos
Microbase a la Macrobase
de Datos Estadsticos
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Metadatos
Espacio
De
Clasificacin
Macrodatos
Bases de Datos Estadsticos
M
i
c
r
o
d
a
t
o
s
Casillas
Subconjunto
De los
Microtados
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Proyeccin Intervalada :
Una Proyeccin Intervalada es una funcin que produce una
agrupacin en intervalos de los elementos del dominio de una
caracterstica.
Formalmente, una proyeccin intervalada se define como:
Sea C una caracterstica y D el dominio sobre el cual dicha
Bases de Datos Estadsticos
Sea C una caracterstica y D el dominio sobre el cual dicha
caracterstica est definida, una proyeccin intervalada g, es una
funcin tal que,
g : D PI{C},
y x,y g(D), cumple las siguientes condiciones:
1) x D, y D,
2) x , e y ,
3) x y = .
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Proyeccin Intervalada :
Por ejemplo, sea f(x) = [ x/10 ] +1 y
Edad = { 0,2,3,4, , 120}
entonces, la PI f aplicada sobre Edad, origina el siguiente
Bases de Datos Estadsticos
entonces, la PI f aplicada sobre Edad, origina el siguiente
conjunto:
f(Edad) = {1,2, , 13}
que puede interpretarse como una transformacin a dcadas de
las edades establecidas en el conjunto Edad.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Proyeccin Intervalada Identidad (PII):
Diremos que una proyeccin intervalada es identidad, cuando
f(x)=x para cualquier x en el dominio de las x.
Observacin:
Bases de Datos Estadsticos
Que la imagen sea igual al dominio no necesariamente significa
que la funcin es identidad.
Contra ejemplo:
Considere f(x)=x+1, definida sobre los nmeros enteros.
Claramente f(Z) = Z, pero sin embargo f(x) x, por tanto, no es
una proyeccin intervalada.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Espacio de Clasificacin :
Un Espacio de Clasificacin (EC) es una estructura de datos que
define un criterio de agrupacin de los microdatos contenidos en una
relacin.
Produce una reagrupacin de los microdatos en subconjuntos
disjuntos denominados casillas.
Bases de Datos Estadsticos
disjuntos denominados casillas.
La definicin y descripcin de dicho espacio, se hace va un
producto cartesiano de proyecciones intervaladas.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Espacio de Clasificacin :
Sea una relacin con esquema E = { K, A
1
, A
2
, ...,A
q
, V
1
, V
2
, ...
, V
r
}, y sean Q = {1,2, ...,r} y R = {1,2, ...,r}, conjuntos que
contienen los subndices de las caractersticas cualitativas y
cuantitativas de respectivamente, entonces el Espacio de
Clasificacin es el conjunto definido por la siguiente
Bases de Datos Estadsticos
Clasificacin es el conjunto definido por la siguiente
expresin:
EC = ( g
i
( D
i
) ) X ( g
j
( D
j
) )
i L j J
donde L Q, J R y (g
k
, k L U J), son Proyecciones
Intervaladas definidas sobre los correspondientes dominios de
las caractersticas.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Una casilla del Espacio de Clasificacin, que representamos por la
tupla (a
1
, a
2
, ...., a
e
) o simplemente <a>, es tal que, cada (a
i
,
i=1,...,e), representa uno de los intervalos definidos por las
Proyecciones Intervaladas que generan dicho espacio.
La aplicacin del Espacio de Clasificacin sobre una relacin
cualquiera, llammosle , producir una reagrupacin de sus
Bases de Datos Estadsticos
cualquiera, llammosle , producir una reagrupacin de sus
tuplas en torno a las casillas definidas por dicho espacio, formando
una coleccin de conjuntos disjuntos. Denotaremos por
<a>
al
conjunto de tuplas originado por la casilla <a>. As,
=
<a>
<a> EC
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
N Obs Escolaridad Edad Sexo Estatura Peso
1 Bsica 18 M 162 65
2 Bsica 22 F 155 58
3 Bsica 19 F 175 68
4 Bsica 20 F 158 70
Sea el siguiente ejemplo:
Construir el espacio de clasificacin en funcin de los valores de los
dominios de Escolaridad y Sexo.
Bases de Datos Estadsticos
4 Bsica 20 F 158 70
5 Media 20 F 170 72
6 Media 19 M 172 68
7 Media 20 M 160 60
8 Media 22 M 166 75
9 Universitaria 27 F 155 50
10 Universitaria 28 M 170 75
11 Universitaria 26 F 165 65
12 Universitaria 27 M 166 60
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
1) Determinar los dominios:
Dom(Escolaridad) = {Bsica, Media, Universitaria}
Dom(Sexo) = {Varn, Mujer}
2) Construccin del espacio de clasificacin:
PII(Dom(Escolaridad)) X PII(Dom(Sexo)) =
{ (Bsica, Varn), (Bsica, Mujer),
Bases de Datos Estadsticos
(Media, Varn), (Media, Mujer),
(Universitaria, Varn), (Universitaria, Mujer) }
3) Casillas:
Las casillas son cada uno de los elementos de espacio de
clasificacin.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Funcin de Agregacin Simple ( FAS ) :
Se llama Funcin de Agregacin Simple, denotada
por F, a una funcin que se aplica sobre las tuplas
de una relacin , (F: R ), tal que:
Bases de Datos Estadsticos
F() = f(x)
x
f(x) es una expresin algebraica definida en
trminos de las caractersticas del Esquema de
Relacin de o constantes.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Ejemplos: Funcin de Agregacin Simple.
1) Sea f(x) = 1.
F() = f(x) = 1 = # ( )
x x
Bases de Datos Estadsticos
2) Sea f(x) = Edad(x).
F() = f(x) = Edad(x)
x x
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Propiedad de Aditividad :
Una funcin cumple la propiedad de aditividad si y solo
si, dadas dos relaciones
1
y
2
, tales que
1

2
= ,
entonces :
Bases de Datos Estadsticos
(
1

2
) = (
1
) + (
2
).
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Generacin de los Macrodatos
Funcin de Agregacin Mltiple ( FAM ) :
La Funcin de Agregacin, que denotaremos por ,
se define de tal forma que :
= <F
1
, F
2
, ..., F
w
>,
Bases de Datos Estadsticos
= <F
1
, F
2
, ..., F
w
>,
donde cada (F
i
, i=1, ..., w) es una Funcin de
Agregacin Simple.
As, : R
w
, es tal que :
(x) = (F
1
(x), F
2
(x), ..., F
w
(x) ).
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Funcin de Tabulacin ( ) :
Se define como:
() = ( EC ( () ) )
donde () es una composicin de operadores
Generacin de los Macrodatos
Bases de Datos Estadsticos
donde () es una composicin de operadores
relacionales que construyen o seleccionan los
microdatos, a partir de los cuales se generarn las
agregaciones. EC es el Espacio de Clasificacin que
reagrupara las tuplas, y es la funcin de
tabulacin que define las agregaciones en cada uno
de los conjuntos de tuplas, asociados a las casillas
de EC.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
MACROBASE DE DATOS
ESTADSTICOS
Bases de Datos Estadsticos
ESTADSTICOS
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Macrobase de Datos Estadsticos
Dominios :
Dominios Cualitativos: Conjuntos de Intervalos que
resultan de aplicar las Proyecciones Intervaladas que definen
el Espacio de Clasificacin.
Bases de Datos Estadsticos
Dominios Cuantitativos: Conjuntos de valores numricos
correspondientes a los escalares que generan las Funciones
de Agregacin Simple que componen la Funcin de
Agregacin o algunas de las proyecciones intervaladas del
Espacio de Clasificacin (por ejemplo, algunas Proyecciones
Intervaladas aplicadas sobre las propiedades temporales).
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Macrobase de Datos Estadsticos
Esquema de Relacin :
Conjunto de caractersticas { P
1
, P
2
, ..., P
e
, S
1
, S
2
, ..., S
w
},
que denotaremos por

, tal que Pi, i=1, ...,e representan las


caractersticas definidas por las Proyecciones Intervaladas del
Espacio de Clasificacin y S
j
, j=1, ...,w representan las
Bases de Datos Estadsticos
Espacio de Clasificacin y S
j
, j=1, ...,w representan las
caractersticas definidas por las Funciones de Agregacin
Simple que componen las Funcin de Agregacin.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Macrobase de Datos Estadsticos
Relacin :
Una relacin de la Macrobase de Datos Estadsticos, se
genera por medio de la aplicacin de una Funcin de
Tabulacin sobre una relacin de la Microbase o Macrobase
de Datos Estadsticos.
Bases de Datos Estadsticos
Formalmente se define como , () = ( EC ( () ) ), que
es el conjunto:
{(<a>,<v(a)>) / <a> EC y <v(a)> = (
<a>
)}
La Clave Primaria de la relacin de macrodatos la
constituye el conjunto de caractersticas que representan las
Proyecciones Intervaladas del Espacio de Clasificacin.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas
Macrobase de Datos Estadsticos
Reglas de Integridad :
La relaciones de la Macrobase de Datos Estadsticos debern
cumplir con las reglas de Integridad del Modelo Relacional
Clsico, ms las siguientes reglas adicionales:
Bases de Datos Estadsticos
1. Una tupla (<a>,<v(a)>) existe en , si y solo si
<a>

2. Las agregaciones no pueden dar lugar a que vulnere el
secreto estadstico.
Licenciatura en Ciencia de la Computacin - Bases de Datos Avanzadas

Potrebbero piacerti anche