La Tabla de Datos

N02 De la Observación a la
Tabla de Investigación.
Preparación de los Datos
Investigación en Ingeniería
• Ayudar al participante a mejorar el entendimiento del concepto
dato y las diferentes estructuras o tablas de datos en que se
pueden tabular. Aprender las mejores prácticas para pasar de la
observación a la tabla de datos
• Conocer los indicadores de conocimiento que se obtienen del
análisis de las diferentes tablas
• Conocer, estudiar y aplicar las herramientas disponibles para
tratar las observaciones y manipular tablas de datos
• Conocer los fundamentos de la lógica borrosa para representar
datos imprecisos
Matilde I. Césari & Ricardo M. Césari

“…Torturando los datos hasta que confiesen…”
LOS DATOS conjunto discreto de hechos acerca de eventos
• Para los CIENTÍFICOS, los datos representan

observaciones cuidadosamente recogidas de pueden provenir
algún fenómeno en estudio. de fuentes
externas o
internas,
• En los NEGOCIOS, los datos guardan pudiendo ser de
informaciones sobre mercados, competidores y carácter objetivo
o subjetivo, o de
clientes. tipo cualitativo o
cuantitativo, etc.
• En PROCESOS INDUSTRIALES los datos recogen
valores sobre el funcionamiento de
determinados procesos
en general, los datos en bruto raramente son provechosos:

su verdadero valor radica en la posibilidad de extraer
información útil para la toma de decisiones o la exploración y
comprensión de los fenómenos que dieron lugar a los datos.
…el sentido de los mismos
“…Torturando los datos hasta que confiesen…”
Newman (2000) Propuso el siguiente modelo:
“DATOS INFORMACIÓN CONOCIMIENTO”
Y sostiene que la Observación en el proceso de

Investigación produce DATOS.
EL Análisis de Datos y su contextualización
proporciona INFORMACIÓN
Finalmente cuando la información es interpretada,

se transforman en CONOCIMIENTO
DECISIONES
ESTRATEGICAS- acción
Estrategias Metodológicas para:
La Observación
La concepción de un proceso de observación se
organiza en torno a dos cuestiones:
1- ¿Cual es el objetivo final del estudio...?
2- ¿Qué tipo de observación es necesario... y posible...?
EL INVESTIGADOR REALIZA UN ESPIRAL “ABDUCTIVO-

HIPOTÉTICO DEDUCTIVO” QUE LO OBLIGA TANTO A
“EXPLORAR COMO EXPERIMENTAR”
El Análisis
Su naturaleza, El Análisis Multivariado de Datos (AMD) en la
fundamentalmente descriptiva versión de la escuela francesa, surge en la década de
y el acercamiento
los 70, planteando fines menos deterministas que los
geométrico asignan un rol
de la Estadística tradicional, su objetivo general es la
muy importante a las
representaciones gráficas, búsqueda de una estructura presente en los datos, en
sobre todo en una etapa un contexto de tipo más abductivo que deductivo,
exploratoria que revaloriza el rol del individuo.
INSTRUMENTOS DE OBSERVACIÓN
• Diseño experimental
• Encuestas y entrevistas
• Diferencial semántico, Test psicológico
• Cuestionarios, censos, fichas o grillas de
evaluación
• Repositorios de datos: datamart, sistemas
informáticos, sistemas industriales…
• Datos observados de estudios de investigación
y desarrollo.
• Simulación
• Artículos, libros, e-mail, foros….
…
El Dato: Es portador de información
En el Proceso de
Investigación la
Traducción de la Los componentes :
Experiencia a la Unidad de Análisis (UA),
Descripción las variables (V) y
Científica, produce el Valor (R)
un material básico
que se llama DATO
poseen esta
estructura
Todas las investigaciones invariante de la
científicas y técnicas contienen informacion: las UA
datos de distinto tipo. ocupan las filas, las V
y determinan una Matriz de Datos las columnas y los R,
o un Sistema de Matrices de Datos en el cruce.
(Samaja J.2000)
m
(V) variable
(R) valor
los elementos
Tabla de portadores de
información y se
Datos representan en un
matriz de fila
(UA) unidad columna
análisis
describen una
•NUMÉRICOS - cuantitativos cantidad
Continuas (mediciones)
Discretas - Frecuencias (conteo, binario, nº difuso)

Tipo de describen una
•CATEGÓRICOS - cualitativos cualidad
DATOS
Nominales (clases, categorías, modalidades)
Ordinales (grupos con un orden – ej rangos)
Lingüísticos borrosos – clases superpuestas
•TEXTUALES - léxicos oraciones, párrafos,

fragmentos de textos
link DE INTERNET CON DATASET (conjuntos de datos)
UC Irvine Machine Learning Repository

https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset
Research Pipeline's wiki pages. Your Guide to the World's
Free Online Data
http://www.researchpipeline.com/mediawiki/index.php?title=Main_
Page
Web del Global Change Master Directory. Contiene más de
20.000 conjuntos de datos sobre La Tierra
http://gcmd.nasa.gov/KeywordSearch/Keywords.do?Portal=GCMD
&KeywordPath=Parameters|Home&MetadataType=0&Columns=0#
maincontent
Otros…
Transformación del Dato TIPO DE TABLAS
Los componentes :
Unidad de Análisis (UA), Tabla cuantitativa Tabla cualitativa
las variables (V) y
el Valor (R) continua nominal
AFCM
ACP
Datos con propiedades Datos categóricos que clasifican

numéricas asociados a una a los individuos en grupos
o varias unidad de medida mutuamente excluyentes
Tabla contingencia Tabla frecuencia

Datos de
frecuencia
que puede ser
un conteo
(entero +) o
binario (0 o 1)
Datos numéricos que representa

información de un grupo de individuos.
Puede ser efectivos asociados a los grupos o una función
sobre un atributo numérico observado sobre los ind. AFCS
M
Las Variables deben cumplir en todos los
casos las condiciones de exclusividad,
homogeneidad y exhaustividad:
1 Deben ser discretas y exclusivas.

Dos categorías o modalidades diferentes “deben
recibir dos significaciones diferentes, perfectamente
diferenciadas”.
2 Deben ser homogéneas.
Deben ser equivalentes, del punto de vista del
criterio que sirvió para construir las categorías, es
decir “deben pertenecer al mismo tema”.
3 Deben ser exhaustivas.
Deben permitir clasificar todos los observables y que
presenten una relación con las dimensiones
consideradas en el estudio, es decir “deben explicar
completamente cada dimensión estudiada”.
Mediciones Unidades de
y INSTRUMENTO TABLA DE análisis,
estructuras variables y
observadas OBSERVACIÓN DATOS valores
Valoración CUALITATIVA VARIABLES
 Opciones mutuamente Variable categórica - nominal

excluyentes
 Múltiple opciones Variable numérica - frecuencias
Valoración CUANTITATIVA Variable lingüística - DIFUSA
Escalas de valoración Variable categórica - ordinal
Valores sujetos a una Variable numérica - continua

Nº
unidad de medida
Observaciones ABIERTAS
texto Variable TEXTUALES

Nº
unidad de medida
valor medido con un

instrumento, asociado con
una unidad de medida
Cada estructura observada es un individuo al cuál

se midió un determinado atributo, asociado con
una unidad e medida dada.
Por ejemplo:
edad, altura, peso
M
Nº
unidad de medida
Datos relativos rendimiento de la CPU, se describe en términos
de su tiempo de ciclo, tamaño de la memoria, etc
Cuatro
mediciones de
cráneos egipcios
masculinos de 5
periodos de
tiempo
diferentes
Cuatro mediciones de 150 cráneos egipcios masculinos de
5 periodos de tiempo diferentes
Sabor Queso Cheddar A medida que envejece el queso ,
varios procesos químicos que tienen
lugar determinar el sabor de la final
Este conjunto de datos

contiene concentraciones de
diversos productos químicos en
30 muestras de queso cheddar
maduro y una medida subjetiva
de sabor para cada muestra
Características del vino en tres lugares en la misma región
Características del vino en tres lugares en la misma región
Factores ambientales y poblacionales de la Contaminación
Los resultados
de un ensayo
comparativo
aleatorizado
para investigar
el efecto del
calcio sobre la
presión
sanguínea en los
hombres
afroamericanos
10 hombres recibieron
un suplemento de calcio
durante12 semanas y un
grupo control de 11
hombres recibieron un
placebo durante el
mismo período
Calificaciones en 5 asignaturas y puntuaciones en
2 factores comunes de 20 alumnos
Medición Química del AROMA
M
Evolución de las principales formas secundarias de energía seleccionadas
para el Indicador Sintético de Energía (ISE). Datos anuales 1993-2005 y
mensuales desde 2003 en adelante
excluyentes
Listado de posibles opciones:

Op1
Op2
Op3
Opn
NS (no sabe)
NC (no contesta) datos mercantes
Cada estructura observada es un individuo que se

agrupa en una categoría de n opciones posibles.
Un individuo sólo puede estar en una única categoría
Por ejemplo: sexo, lugar de

procedencia son datos que se
representan por variables
cualitativas.
M
excluyentes
M
excluyentes
Tolerancia de
enfermedad
de 9
variedades
de plantas de
vid
M
 Opciones mutuamente Variable categórica - ordinal
excluyentes
Listado de posibles opciones:

Op1
Op2
Op3
Otras
NC (no contesta)
Cada estructura observada es un individuo asociado a

una o varias categorías.
Cada posible opción es una variable lógica (0/1)
Un individuo puede haber elegido 1 o varias opciones.
Tabla de contingencia: representa la relación entre individuos
y opciones, en función de la frecuencia 1 si eligió la opción, o 0
si no la eligió.
Por ejemplo: colores preferidos
M
¿qué color o colores asocia con ...? (violeta, azul, verde,

amarillo, naranja, rojo), (elija hasta 3)
Horas Docentes Totales en cada Instituto

afectadas a distintas funciones.
cruza 8 profesionales
y 6 tipos de medios de
comunicación, que
tienen un día a la
semana por lo menos
un contacto con los
medios
Escalas de valoración
Variable categórica - ordinal Variable numérica - continua
Estudio Estudio
más más
específico y general y
detallado sintético
Relaciones no lineales Relaciones lineales
Por ejemplo:
Intensidad del olor
Escalas de valoración Variable numérica - continua
Escalas de valoración Variable categórica - ordinal
Datos sensoriales de
orégano de Río Negro 2007
proyecto de investigación
sobre “VÍNCULO DE PAREJA:
MODIFICACIONES EN LA
SUBJETIVIDAD DE LOS
PARÁMETROS DEFINITORIOS
EN LOS ÚLTIMOS 35 AÑOS”.
¿tiempo en que ¿tiempo en que ....Y la

Nombre real, Actualmente su
Localidad: Sexo: Edad: estuvo o está en estuvo o está en convivencia
fictico o apodo estado es:
pareja? AÑOS pareja? MESES es:
casado/a o en convive en
Seba Las Heras Masculino 31 8 96
pareja pareja
Chacras de casado/a o en convive en

Emilio Rearte Masculino 58 30 360
Coria pareja pareja
Carlos Godoy Cruz Masculino 58 31 372
pareja pareja
Silvio San Martin Masculino 37 10 120
pareja pareja
Luciana San Martin Femenino 30 4 48
pareja pareja
Juan Sebastián San Martin Masculino 30 4 48
pareja pareja
Zoila Vistalba Femenino 66 45 540
pareja pareja
César San Martín Masculino 70 45 540
pareja pareja
Pipo San Martin Masculino 65 42 504
pareja pareja
 Escalas Estructuradas Variable numérica - frecuencias
texto Variable textuales
Corpus
Texto1
Tabla Léxica Variable numérica - frecuencias
formas
Texto 2
individuos
Fi j
Texto 3
Análisis léxico
Texto 4
La Tabla Léxica contiene las frecuencias relativas con la

que cada forma gráfica o variable léxica, ha sido
empleada por cada individuo.
Texto n
Es una tabla de contingencia que contiene los perfiles
léxicos de los individuos.
texto Variable numérica - frecuencias
HOROSCOPO EN LA Web
HOROSCOPO EN LA Web
HOROSCOPO EN LA Web
texto Variable numérica - frecuencias
TEXTOS ARGENTINOS
Evaluación de vinos mediante notas y comentarios
Mónica Bécue Bertaut 2007 - Universitat Autónoma de Barcelona
Ejemplo: guía de vinos de Castilla y León

---- Note= 80 Valdelosfriales-2003
Joven típico, con notas de tempranillo y balsámicos; en
boca amable y frutoso.
---- Note=91 Tares P3-2001 premium

Mucho terruño se detecta en el bouquet de este gran
tinto; pólvora, sílex, pizarra, cascajo caliente con el
contraste de tierra húmeda y mucha fruta madura de
hueso. concentrado, tacto graso sobre el paladar;
impresionante viscosidad en la lengua, otra vez
impresiones de tierra húmeda y pólvora en el largo
final.
TABLA LÉXICA ACTIVA
Evaluación de vinos mediante notas y comentarios
Mónica Bécue Bertaut 2007 - Universitat Autónoma de Barcelona
Lowest marks Highest marks

agradable reducido potente estilo vez denso
frutal sobremadurez discreto salado
puro concentrado graso
crianza sequedad frutosidad impresionante
tuestes dejar necesitar torrefacto
algo medio ensamblado
cierto mineral potencial granuloso
limpio tempranillo seco
abierto primer sabroso gran enérgico
ligeramente clásico rojo
ligero algún salino moderno sorprende tiempo
beber americano
demasiado
dominar típico
fino
Criterio dominante: potencia
carnoso tacto
expresión
evolucionar capa franco donde del vino; las palabras
amargo complejo
todo denso,
compotado
fácil largo
suave mucho graso, concentrado
noble
ser cascajo
tradicional Ribera
rústico cesta bouquetSe oponen a ligero,
coco
fácil,
toque sí lex
joven
pólvora
roble Algunos defectos: sequedad, intenso
voluptuoso
firme
lineal sobremadurez, evolucionado vino magní fico
corto amable chocolate
defectos importantes en el
herbáceo
consistencia
mundo del vino
-1,9 -1,5 -1,1 -0,7 -0,3 0,1 0,5 0,9 1,3
Mark 81 82 83 84 85 86 87 88 89 90
Average mark: 85.16

Preprocesamiento de Datos
1. Los datos reales pueden ser , pueden conducir a la

extracción de patrones/reglas poco útiles.
• Datos Incompletos: falta de valores de atributos, …
Esto se puede • Datos con Ruido
deber a: • Datos inconsistentes (incluyendo discrepancias)
2. La preparación de datos puede generar un

que el original, lo cual puede mejorar la eficiencia del
proceso de explotación de Datos.
• Selección relevante de datos: eliminando registros

Esta actuación duplicados, eliminando anomalías, …
incluye: • Reducción de Datos: Selección de características,
muestreo o selección de instancias, discretización
3. La preparación de datos genera “ ”, los cuales

pueden conducir a patrones/reglas de calidad.
• Recuperar información incompleta
Por ejemplo, • Eliminar outliers o atípicos
se puede: • Resolver conflictos, …
Césari Matilde
Es difícil dar una lista exacta de tareas o tópicos.

Diferentes autores dan diferentes tareas y clasificaciones
TAREAS O TÓPICOS
Se incluye la
transformación de
datos y normalización,
integración, limpieza
de ruido e imputación
de valores perdidos
Las técnicas de reducción
de datos se orientan a
obtener una
representación reducida
de los datos originales,
manteniendo en la mayor
medida posible la integridad y
la información existente en
los datos.
Césari Matilde
El preprocesamiento de datos es
un con
una metodología concreta de
actuación para todos los problemas
Cada puede requerir una

, utilizando
de preprocesamiento
La
extraído depende en gran medida
de la .
Césari Matilde
Esta tarea consiste en llenar los valores faltantes, suavizar los

datos erróneos, identificar o remover los datos inconsistentes.
Césari Matilde
Combina datos desde

múltiples fuentes y
maneja la integración de
esquemas de datos a
través de la combinación
• Se pueden presentar problema en la identificación
de los metadatos.
de las entidades y los atributos para establecer las
relaciones o los mapeos correspondientes. La redundancia de datos es
• La detección y solución de los valores en conflicto, frecuente cuando se deben integrar
ya que atributos de diferentes fuentes de datos
los datos de varias fuentes de datos
pueden significar lo mismo, pero denominarse
diferente o llamarse igual y tener un significado
completamente distinto.
Césari Matilde
• Normalización: donde los atributos son escalados dentro de un rango

pequeño de valores como entre -1 y 1 o entre 0 y 1.
• Suavizado: el cual es utilizado para remover el ruido de los datos.
• Agregación: donde las operaciones de síntesis o agregación son aplicadas
a los datos. Por ejemplo, las ventas diarias pueden ser agregadas en ventas
mensuales o ventas anuales.
• Generalización: los datos de bajo nivel o primitivos son reemplazados por
conceptos de más alto nivel, haciendo uso del concepto de jerarquía. Por
ejemplo, para atributos categóricos como el caso de calles puede ser
generalizado al concepto de nivel más alto como ciudad. De forma similar,
con los atributos numéricos como la edad puede establecerse
correspondencia con conceptos de nivel superior como joven, adulto, anciano
Césari Matilde
Obtener representación reducida en volumen,

pero produciendo los mismos resultados o
similares en el análisis
Discretización es una parte de la reducción de datos, pero
con importancia particular, especialmente para datos
numéricos
Césari Matilde
Valores de atributos faltantes
• Los datos asociados a los registros no están completos,

algunos contienen valores faltantes para los atributos.
• Estos registros no pueden ser eliminados, porque la cantidad
de datos podría no ser suficiente y porque los datos
remanentes podrían contener información útil para el análisis.
Paso 1: una vez que se dispone de un archivo con datos
faltantes, se recopila y valida toda la información
auxiliar disponible que pueda ser de ayuda para
la imputación.
Paso 2: se estudia el patrón de pérdida. Posteriormente
se observa si hay un gran número de registros
que simultáneamente tienen no respuesta en un
conjunto de variables.
Paso 3: se seleccionan varios métodos de imputación
posibles y se contrastan los resultados.
el mejor método de
Paso 4: se calculan las varianzas para los distintos
imputación es el que no
métodos de imputación seleccionados con el se aplica
objetivo de obtener estimaciones con el mínimo
sesgo y la mejor precisión. lo que sugiere agotar todo los
Paso 5: se concluye a partir de los resultados obtenidos recursos para minimizar la
falta de datos
Césari Matilde
Valores de atributos faltantes sencillo procedimiento iterativo,

fácil de implementar con
simples rutinas de estimación
Principio de la aproximación NIPALS mínimo cuadrática de modelos
para imputar datos perdidos lineales, que puede ser aplicado
Nonlinear Iterative Partial Least tanto sobre matrices de datos
Squares (NIPALS) es la base de la completas, como con faltantes
regresión PLS [(Tenenhaus, 1998]
Césari Matilde
Equilibrar (raking) una muestra de encuesta
Ponderación mediante la ponderación de casos
Si se ponderan los casos lo que hacemos es cambiar el peso que tiene cada caso.
Por defecto cada individuo vale una unidad y el recuento de cualquier
característica, por ejemplo ser hombre, es la suma de tantos 1 como individuos
tienen ese valor
Imaginemos por ejemplo que la proporción poblacional de

varones y mujeres en un territorio fuera de 50 y 50 por ciento,
obtenemos una muestra de esa población y nos sale 48 y 52
sesgo en favor de los perfiles de
Para corregir este desvío y restituir el 50% de su las mujeres que apareen un 2%
población en términos muestrales es necesario más de lo que corresponde
introducir una ponderación de tal manera que
convierta el peso de los hombre de 48 a 50 y el de
las mujeres de 52 a 50
Si nuestra muestra es de 1000 individuos eso
implica que tenemos 480 varones y 520 mujeres
En el caso de los varones (i=1) teóricamente
deberían ser 500 individuos, quiere decir por tanto
que debemos aumentar la importancia de los
varones multiplicando cada individuo por un valor
superior a 1, en concreto, 1,083. en el recuento
en el caso de las mujeres genera un peso inferior a final tendremos
1 de 0,923 500 varones y
500 mujeres
Césari Matilde
Análisis de valores atípicos
o extremos (outliers)
• Un valor atípico es un valor registrado para una variable

determinada, que parece inusual y sospechosamente menor o
mayor que los otros valores observados.
• Es una observación con un valor que no parece corresponderse
con el resto de los valores en el grupo de datos.
un error de lectura (en un

instrumento de medición),
un error de teclado o un
evento especial
debido a un evento
atípico, pero sin embargo
conocido o interesante de  Algoritmo de Tukey
estudiar  Distancias Medias
 Gráfica de Cajas Y Bigotes
 Prueba de Dixon Y Grubbs
 Distancia de Mahalanobis
 Regresión por Mínimos
Cuadrados
 etc
Césari Matilde
EL CONCEPTO LÓGICA BORROSA
Zadeh en 1965
Es una rama de la Inteligencia Artificial que se funda en

el concepto “todo es cuestión de grado”, lo cual permite
manejar información vaga o de difícil especificación
CONJUNTOS BORROSOS VARIABLES LINGÜÍSTICAS

BORROSAS
lo difuso puede
entenderse como la
posibilidad de asignar
diferentes valores de
verdad a los enunciados
Césari Matilde
PROPUESTA METODOLÓGICA DE
ANÁLISIS DE DATOS BORROSOS
1 TABULAR y NORMALIZAR Datos observados o medidos
Tabulación Normalización
2 TRANSFORMAR las valoraciones a DATOS BORROSOS
Descriptores Semántica de los Borrosificación

lingüísticos Conjuntos difusos
se determina un VALOR Estrategia

3 COLECTIVO, para cada 4 metodológica para el
característica ANÁLISIS de datos
Agregación Borrosa Normalización
Desborrosificación Representación GRAFICA

ANÁLISIS
Césari Matilde
1 TABULAR y NORMALIZAR Datos observados o medidos
Valoraciones se presentan Tablas

Tabulación observadas
en diversas de Datos
Cuantitativas y
Cualitativas
Se agregan
variables
Información nominales
cualitativas
complementaria
que explique la unidad
de análisis observada
Normalización Los valores Se estandarizan

de las Tablas Ecuación de la recta
Opcional método de
de Datos
normalización lineal
a valores de 0 a 1
• Eliminar problemas en la utilización de diferentes escalas
• Posibilidad de utilizar una misma variable lingüística
Césari Matilde
2 TRANSFORMAR las valoraciones a DATOS BORROSOS
Los atributos medidos se representan a través de una o varias variables lingüísticas

borrosas, lo que requiere seleccionar los descriptores lingüísticos adecuados y su semántica
conjunto de etiquetas Función matemática

Descriptores o de “términos Semántica de los representa el grado de
lingüísticos lingüísticos” Conjuntos difusos posibilidad de
(conjuntos difusos) pertenecer a un
conjunto borroso
Borrosificación
Los datos tabulados
en punto 1
se convierte a través de las ecuaciones
de las funciones de pertenencia en un número borroso
Césari Matilde
3 se determina un VALOR COLECTIVO, para cada característica

Se aplica un “operador de agregación borroso” sobre las evaluaciones borrosificadas y
un “método de desborrosificación” para calcular un valor preciso numérico (crisp).
calcular para cada conjunto borroso,

Agregación Borrosa la unión del conjunto difuso
operador de
agregación borroso
“valor borroso agregado

colectivo” del grupo de
observaciones
se obtiene información precisa

Desborrosificación expresada mediante un valor crisp
fórmula matemática
“valor numérico
colectivo” aproximado del
grupo de observaciones
Césari Matilde
4 Estrategia metodológica para el ANÁLISIS de datos
Todos los datos son normalizados mediante el método

Normalización de normalización lineal en valores de 0 a 100
Sistemas de tablas se representa porcentaje de posibilidad que asocia

de contingencia un elemento en fila con un elemento columna
Visualizar números borrosos

Representación GRAFICA con gráficos Estrellas y
grafico XY dispersión de la
ANÁLISIS variable lingüística e Va ria bl
e Ca lifica
cio ne
s
Va ria bl cr isp
ica
lingüíst 10 10
l4
tor 10
Análisis Factorial de Correspondencias

Nº descrip ge ne ra
l l4
ra pe cto 10
muest tero As pie l
X01 En olor de
l4 10
tero C
X02 En rm a l4 5
tero Fo 9
X03 En l2
Simples (AFCS) para visualizar asociaciones

r pulpa 8
tad C olo /se milla
X04 Mi lación
pulpa l3 8 7
tad Re 8
X05 Mi or
l3 8
tad Ol tico
X06 Mi ra cte rís l3 8
Sa bor ca
tad
M6 X07 Mi bor du
lce l3 8
tad Sa
X08 Mi bo r ácido l3 10 8
tad Sa
X09 Mi sidad
l4 8
tad Jugo
La interpretación, descripción y validación, se efectúa

X10 Mi xtura pu
lpa l3
tad Te
X11 Mi pie l
Mi tad Te xtura
X12
por las pruebas del chi2, y prueba exactas de Fischer
El valor de test calculado sobre la prueba exacta

de Fisher, permite seleccionar los atributos más
característicos según el grado de posibilidad de
pertenecer a un conjunto, o según las diferencias
significativas con la percepción media
Césari Matilde

La Tabla de Datos

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

La Tabla de Datos

Caricato da

Copyright:

Formati disponibili

N02 De la Observación a la

Matilde I. Césari & Ricardo M. Césari

• Para los CIENTÍFICOS, los datos representan

en general, los datos en bruto raramente son provechosos:

Newman (2000) Propuso el siguiente modelo:

“DATOS INFORMACIÓN CONOCIMIENTO”

Y sostiene que la Observación en el proceso de

Finalmente cuando la información es interpretada,

2- ¿Qué tipo de observación es necesario... y posible...?

EL INVESTIGADOR REALIZA UN ESPIRAL “ABDUCTIVO-

Discretas - Frecuencias (conteo, binario, nº difuso)

Ordinales (grupos con un orden – ej rangos)

Lingüísticos borrosos – clases superpuestas

•TEXTUALES - léxicos oraciones, párrafos,

UC Irvine Machine Learning Repository

Datos con propiedades Datos categóricos que clasifican

Tabla contingencia Tabla frecuencia

Datos numéricos que representa

1 Deben ser discretas y exclusivas.

Valoración CUALITATIVA VARIABLES

 Opciones mutuamente Variable categórica - nominal

 Múltiple opciones Variable numérica - frecuencias

Valoración CUANTITATIVA Variable lingüística - DIFUSA

Escalas de valoración Variable categórica - ordinal

Valores sujetos a una Variable numérica - continua

texto Variable TEXTUALES

valor medido con un

Cada estructura observada es un individuo al cuál

Este conjunto de datos

Listado de posibles opciones:

Cada estructura observada es un individuo que se

Por ejemplo: sexo, lugar de

Listado de posibles opciones:

Cada estructura observada es un individuo asociado a

Por ejemplo: colores preferidos

¿qué color o colores asocia con ...? (violeta, azul, verde,

Horas Docentes Totales en cada Instituto

Variable categórica - ordinal Variable numérica - continua

Relaciones no lineales Relaciones lineales

¿tiempo en que ¿tiempo en que ....Y la

Chacras de casado/a o en convive en

La Tabla Léxica contiene las frecuencias relativas con la

Ejemplo: guía de vinos de Castilla y León

---- Note=91 Tares P3-2001 premium

Lowest marks Highest marks

-1,9 -1,5 -1,1 -0,7 -0,3 0,1 0,5 0,9 1,3

Average mark: 85.16

1. Los datos reales pueden ser , pueden conducir a la

2. La preparación de datos puede generar un

• Selección relevante de datos: eliminando registros

3. La preparación de datos genera “ ”, los cuales

Es difícil dar una lista exacta de tareas o tópicos.

Cada puede requerir una

Esta tarea consiste en llenar los valores faltantes, suavizar los

Combina datos desde

• Normalización: donde los atributos son escalados dentro de un rango

Obtener representación reducida en volumen,

• Los datos asociados a los registros no están completos,

Valores de atributos faltantes sencillo procedimiento iterativo,

Imaginemos por ejemplo que la proporción poblacional de

• Un valor atípico es un valor registrado para una variable

un error de lectura (en un

Es una rama de la Inteligencia Artificial que se funda en

CONJUNTOS BORROSOS VARIABLES LINGÜÍSTICAS