Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Contenido
[ocultar]
3 Tiempo de conversión
señal
5 Ejemplo
6 Ventajas
8 Véase también
9 Bibliografía
10 Enlaces externos
Bit de resolución: Número de bits que el convertidor analógico a digital (ADC) utiliza para
representar una señal.
Rango: Valores máximo y mínimo entre los que el sensor, instrumento o dispositivo funcionan bajo
unas especificaciones.
Teorema de Nyquist: Al muestrear una señal, la frecuencia de muestreo debe ser mayor que dos
veces el ancho de banda de la señal de entrada, para poder reconstruir la señal original de forma
exacta a partir de sus muestras. En caso contrario, aparecerá el fenómeno del aliasing que se
produce al infra-muestrear. Si la señal sufre aliasing, es imposible recuperar el original. Velocidad
de muestreo recomendada:
Los componentes de los sistemas de adquisición de datos, poseen sensores adecuados que
convierten cualquier parámetro de medición de una señal eléctrica, que se adquiriere por el
hardware de adquisición de datos. Los datos adquiridos se visualizan, analizan, y almacenan en un
ordenador, ya sea utilizando el proveedor de software suministrado u otro software. Los controles y
visualizaciones se pueden desarrollar utilizando varios lenguajes de programación de propósito
general como VisualBASIC, C++, Fortran, Java, Lisp, Pascal. Los lenguajes especializados de
programación utilizados para la adquisición de datos incluyen EPICS, utilizada en la construcción
de grandes sistemas de adquisición de datos, LabVIEW, que ofrece un entorno gráfico de
programación optimizado para la adquisición de datos, y MATLAB. Estos entornos de adquisición
proporcionan un lenguaje de programación además de bibliotecas y herramientas para la
adquisición de datos y posterior análisis.
De la misma manera que se toma una señal eléctrica y se transforma en una digital para enviarla al
ordenador, se puede también tomar una señal digital o binaria y convertirla en una eléctrica. En
este caso el elemento que hace la transformación es una tarjeta o módulo de Adquisición de Datos
de salida, o tarjeta de control. La señal dentro de la memoria del PC la genera un programa
adecuado a las aplicaciones que quiere el usuario y, luego de procesarla, es recibida por
mecanismos que ejecutan movimientos mecánicos, a través de servomecanismos, que también
son del tipo transductores.
Un sistema típico de adquisición utiliza sensores, transductores, amplificadores, convertidores
analógico - digital (A/D) y digital - analógico (D/A), para procesar información acerca de un sistema
físico de forma digitalizada.
Un sensor es un dispositivo que convierte una propiedad física o fenómeno en una señal eléctrica
correspondiente medible, tal como tensión, corriente, el cambio en los valores de resistencia o
condensador, etc. La capacidad de un sistema de adquisición de datos para medir los distintos
fenómenos depende de los transductores para convertir las señales de los fenómenos físicos
mensurables en la adquisición de datos por hardware. Transductores son sinónimo de sensores
en sistemas de DAQ. Hay transductores específicos para diferentes aplicaciones, como la
medición de la temperatura, la presión, o flujo de fluidos. DAQ también despliega diversas técnicas
de acondicionamiento de Señales para modificar adecuadamente diferentes señales eléctricas en
tensión, que luego pueden ser digitalizados usando CED.
Las señales pueden ser digitales (también llamada señales de la lógica) o analógicas en función
del transductor utilizado.
DAQ hardware son por lo general las interfaces entre la señal y un PC. Podría ser en forma de
módulos que pueden ser conectados a la computadora de los puertos (paralelo, serie, USB, etc...)
o ranuras de las tarjetas conectadas a (PCI, ISA) en la placa madre. Por lo general, el espacio en
la parte posterior de una tarjeta PCI es demasiado pequeño para todas las conexiones necesarias,
de modo que una ruptura de caja externa es obligatorio. El cable entre este recuadro y el PC es
cara debido a los numerosos cables y el blindaje necesario y porque es exótico. Las tarjetas DAQ a
menudo contienen múltiples componentes (multiplexores, ADC, DAC, TTL-IO, temporizadores de
alta velocidad, memoria RAM). Estos son accesibles a través de un bus por un micro controlador,
que puede ejecutar pequeños programas. El controlador es más flexible que una unidad lógica
dura cableada, pero más barato que una CPU de modo que es correcto para bloquear con simples
bucles de preguntas.
Driver software normalmente viene con el hardware DAQ o de otros proveedores, y permite que el
sistema operativo pueda reconocer el hardware DAQ y dar así a los programas acceso a las
señales de lectura por el hardware DAQ. Un buen conductor ofrece un alto y bajo nivel de acceso.
[editar]Tiempo de conversión
Es el tiempo que tarda en realizar una medida el convertidor en concreto, y dependerá de la
tecnología de medida empleada. Evidentemente nos da una cota máxima de la frecuencia de la
señal a medir.
Este tiempo se mide como el transcurrido desde que el convertidor recibe una señal de inicio de
"conversión" (normalmente llamada SOC, Start of Conversión) hasta que en la salida aparece un
dato válido. Para que tengamos constancia de un dato válido tenemos dos caminos:
Amplificación
Excitación
Filtrado
Multiplexado
Aislamiento
Linealización
Cuando el sistema de adquisición y la señal a medir están ambas referidas a masa pueden
aparecer problemas si hay una diferencia de potencial entre ambas masas, apareciendo un "bucle
de masa", que puede devolver resultados erróneos.
Filtrado - El fin del filtro es eliminar las señales no deseadas de la señal que estamos observando.
Por ejemplo, en las señales cuasi-continuas, (como la temperatura) se usa un filtro de ruido de
unos 4 Hz, que eliminará interferencias, incluidos los 50/60 Hz de la red eléctrica.
Las señales alternas, tales como la vibración, necesitan un tipo distinto de filtro, conocido como
filtro antialiasing, que es un filtro pasabajo pero con un corte muy brusco, que elimina totalmente
las señales de mayor frecuencia que la máxima a medir, ya que se si no se eliminasen aparecerían
superpuestas a la señal medida, con el consiguiente error.
Linealización - Muchos transductores, como los termopares, presentan una respuesta no lineal
ante cambios lineales en los parámetros que están siendo medidos. Aunque la linealización puede
realizarse mediante métodos numéricos en el sistema de adquisición de datos, suele ser una
buena idea el hacer esta corrección mediante circuitería externa.
[editar]Ejemplo
Transductor
El acondicionamiento de señal
El convertidor analógico-digital
La etapa de salida (interfaz con la lógica)
El transductor es un elemento que convierte la magnitud física que vamos a medir en una señal de
salida (normalmente tensión o corriente) que puede ser procesada por nuestro sistema. Salvo que
la señal de entrada sea eléctrica, podemos decir que el transductor es un elemento que convierte
energía de un tipo en otro. Por tanto, el transductor debe tomar poca energía del sistema bajo
observación, para no alterar la medida.
El acondicionamiento de señal es la etapa encargada de filtrar y adaptar la señal proveniente del
transductor a la entrada del convertidor analógico / digital. Esta adaptación suele ser doble y se
encarga de:
La adaptación entre los rangos de salida del convertidor y el de entrada del convertidor tiene como
objetivo el aprovechar el margen dinámico del convertidor, de modo que la máxima señal de
entrada debe coincidir con la máxima que el convertidor (pero no con la máxima tensión admisible,
ya que para ésta entran en funcionamiento las redes de protección que el convertidor lleva
integrada).
Por otro lado, la adaptación de impedancias es imprescindible ya que los transductores presentan
una salida de alta impedancia, que normalmente no puede excitar la entrada de un convertidor,
cuya impedancia típica suele estar entre 1 y 10 k.
El convertidor analógico/digital es un sistema que presenta en su salida una señal digital a partir de
una señal analógica de entrada, (normalmente de tensión) realizando las funciones de
cuantificación y codificación.
La cuantificación implica la división del rango continuo de entrada en una serie de pasos, de modo
que para infinitos valores de la entrada la salida sólo puede presentar una serie determinada de
valores. Por tanto la cuantificación implica una pérdida de información que no podemos olvidar.
La codificación es el paso por el cual la señal digital se ofrece según un determinado código
binario, de modo que las etapas posteriores al convertidor puedan leer estos datos
adecuadamente. Este paso hay que tenerlo siempre en cuenta, ya que puede hacer que
obtengamos datos erróneos, sobre todo cuando el sistema admite señales positivas y negativas
con respecto a masa, momento en el cual la salida binaria del convertidor nos da tanto la magnitud
como el signo de la tensión que ha sido medida.
La etapa de salida es el conjunto de elementos que permiten conectar el s.a.d con el resto del
equipo, y puede ser desde una serie de buffers digitales incluidos en el circuito convertidor, hasta
una interfaz RS-232, RS-485 o Ethernet para conectar a un ordenador o estación de trabajo, en el
caso de sistemas de adquisición de datos comerciales.
[editar]Ventajas
Flexibilidad de procesamiento, posibilidad de realizar las tareas en tiempo real o en análisis
posteriores (a fin de analizar los posibles errores), gran capacidad de almacenamiento, rápido
acceso a la información y toma de decisión, se adquieren gran cantidad de datos para poder
analizar, posibilidad de emular una gran cantidad de dispositivos de medición y activar varios
instrumentos al mismo tiempo, facilidad de automatización, etc.
Tendríamos que tener una capacidad de 37,8 GB. Pero teniendo en cuenta que siempre se tiene
que tener una copia de seguridad, esta capacidad la tendremos que multiplicar por dos y eso nos
daría 75,7 GB.
Ejemplo 2
En un sistema de adquisición de datos entran 210 señales por segundo, de 8 bytes cada
una. ¿qué capacidad ha de tener el disco duro del PC servidor para tener un histórico de todo un
mes?
3600 * 24 * 30 = 2592000
[editar]Véase también
Procesamiento de señales
Análisis de datos
Dispositivos de entrada:
Escáner 3D
Conversión analógica-digital
Hardware:
PXI
Software:
LabVIEW
Measurement Studio para Visual Studio
LabWindows/CVI para Lenguaje C
MATLAB
[editar]Bibliografía
I) INTRODUCCION
La palabra Estadística tiene varias acepciones para cada persona. Así para el gerente de de
una central de energía eléctrica, la estadística puede ser la información sobre la cantidad de
contaminantes que están siendo emitidos hacia la atmósfera. Para el director de una escuela, es la
información acerca del ausentismo, las calificaciones de los alumnos y los sueldos del profesorado.
Y para un universitario, la estadística son las calificaciones logradas entonos los problemas de un
curso del semestre. Todas estas personas están empleando correctamente el término estadística y
sin embrago cada una le da un significado ligeramente diferente y la usa para un propósito un
poco distinto. Hoy la estadística y el análisis estadístico están presentes en casi todas las
profesiones. Se han convertido, en especial para los gerentes, en una herramienta de suma
utilidad.
1. DEFINICION
ESTADISTICA
Se ocupa de los métodos científicos para recolectar, organizar, resumir, presentar y analizar datos,
así como de sacar conclusiones válidas y tomar decisiones con base en este análisis.
4. POBLACION Y MUESTRA
Población.- También llamado universo, se refiere a un grupo de individuos u objetos, por ejemplo,
las alturas y los pesos de los estudiantes de una universidad o la cantidad de piezas defectuosas y
no defectuosas producidas en una fábrica un día determinado. La población puede ser finita ó
infinita. Por ejemplo, la población que comprende todas las piezas producidas en un día
determinado en una fábrica es finita, mientras que la población que consta de todos los resultados
posibles (cara o cruz) en lanzamientos sucesivos de una moneda es infinita.
Una variable es un símbolo, como X, H, Y, x o B, que puede tomar cualquiera de los valores de un
conjunto predeterminado llamado dominio de la variable. Si la variable solo toma un valor,
entonces a esta variable se le llama constante.
A una variable que, teóricamente, toma cualquier valor entre dos valores dados, se le llama
variable continua. Si no es así, se denomina variable discreta.
Ejemplo 1
El número N de niños en una familia, que puede tomar cualquiera de los valores 0, 1, 2, 3,
…, pero no 2.5 o 3.842, es una variable discreta.
Ejemplo 2
La altura H de un individuo, que puede ser de 62 pulg., 63.8 pulg. O 65.8341 pulg.,
dependiendo de la exactitud de las mediciones, es una variable continua.
A los datos que se pueden describir mediante una variable discreta o continua se les llama
datos discretos o continuos, respectivamente. El número de hijos en cada una de 1,000 familias es
un ejemplo de datos discretos, mientras que las alturas de 100 estudiantes universitarios son un
ejemplo de datos continuos. En general, las mediciones dan lugar a datos continuos, mientras que
las enumeraciones o los conteos dan lugar a datos discretos.
6. REDONDEO DE DATOS
El resultado de redondear un número, por ejemplo 72.8 a la unidad mas cercana, es 73, ya que
72.8 está mas cerca de 73 que de 72. De manera semejante, 72.8146 redondeado a la centésima
más cercana (o a dos decimales) es 72.81, ya que 72.8146 está más cerca de 72.81 que de 72.82.
Al redondear 72.465 a la centésima más cercana se tiene un dilema, puesto que 72.465
está exactamente igual de lejos de 72.46 que de 72.47. En estos casos se acostumbra redondear al
entero par anterior al 5. De manera que 72.465 se redondea a 72.46, 183.575 se redondea a
183.58, y 116 500 000 redondeado al millón mas cercano es 116 000 000. Esta práctica es
especialmente útil para minimizar errores de redondeo acumulados cuando se tiene un gran
número de operaciones.
7. REPRESENTACION TABULAR
Para que los datos sean útiles, hemos de organizar nuestras observaciones de manera que
podamos seleccionar tendencias y llegar a conclusiones lógicas.
Colección de Datos
• Representar a todos los grupos. Los estadísticos seleccionan sus observaciones de manera que
todos los grupos relevantes estén representados en los datos. Para determinar el mercado
potencial de un nuevo producto, los analistas podrían estudiar a 100 consumidores que viven en
cierta zona geográfica. Y deben cerciorarse de que el grupo contenga una gran diversidad de
personas que representen variables como nivel de ingresos, raza, escolaridad y barrio.
• Utilizar los datos referentes al pasado para tomar decisiones sobre el futuro. Los datos ayudan
a los encargados de la toma de decisiones a hacer conjeturas bien fundamentadas acerca de las
causas y, por tanto, sobre los efectos probables de ciertas características en algunas situaciones.
Ejemplo, si los expedientes del hospital indican que más pacientes usaron los servicios de rayos X
en Junio que en Enero, el departamento de personal habrá de determinar si ese fenómeno se dio
sólo en el presente año o si es una indicación de una tendencia constante. De ser así, habrá de
ajustar su programa de contrataciones y vacaciones para tenerla en cuenta.
Cuando los datos se organizan en forma compacta y útil, los encargados de la toma de
decisiones consiguen información confiable del ambiente y se valen de ella para llegar a decisiones
inteligentes. En la actualidad las computadoras permiten a los estadísticos reunir enormes
volúmenes de observaciones y condensarlas instantáneamente en tablas, gráficas y números. Se
trata de formas compactas y utilizables, pero cabe preguntar, ¿son confiables? No olvide que la
exactitud de los datos que salen de la computadora depende de los que entran en ella; “¡Entra
basura, sale basura!”. Para poder confiar en la interpretación de unos datos cualesquiera, antes se
prueban formulando las siguientes preguntas:
¿Existen datos que ignoramos y que nos harían llegar a una conclusión diferente?
La finalidad de organizar los datos es permitirnos ver rápidamente todas las características
posibles de los datos que hemos recabado. Buscamos cosas como el intervalo (los valores
máximos y mínimos), las tendencias notorias, aquello en torno a lo cual los datos tienden a
agruparse, que valores aparecen con mayor frecuencia y otros aspectos. Cuanto mas abundante
sea la información de este tipo que obtengamos de la muestra, mejor conoceremos la población
de donde proviene y mejores serán las decisiones que tomemos.
II) DISTRIBUCIONES DE FRECUENCIA
1. DEFINICION
Datos Sueltos. Se les llama Datos Sueltos a los datos que no han sido organizados
numéricamente. Un ejemplo es el conjunto de estaturas de 100 estudiantes hombres, obtenidas
del registro universitario, que está ordenado en forma alfabética.
2. ORDENAMIENTO DE DATOS
|Estatura |Número de |
|(pulg) |Estudiantes |
|60-62 |5 |
|63-65 |18 |
|66-68 |42 |
|69-71 |27 |
|72-74 |8 |
| |Total 100 |
La primera clase (o categoría), por ejemplo, comprende las estaturas entre 60 y 62 pulg y
se indica en el rango 60-62. Como hay cinco estudiantes en esta clase, la correspondiente
frecuencia de clase es 5.
El símbolo que define una clase, como el 60-62 de la tabla 2-1, se llama intervalo de clase.
A los números 60 y 62 se les conoce como límites de clase; el número más pequeño (60) es el
límite inferior de clase, mientras que el número más grande (62) es el límite superior de clase. Se
acostumbra usar los términos clase e intervalo de clase indistintamente, aunque el intervalo de
clase es en realidad un símbolo de la clase.
b) Fronteras de Clase
Si se miden estaturas con exactitud de 1 pulg, en teoría el intervalo de clase 60-62 incluye
todas las medidas desde 59.5000 hasta 62.5000. Estos números, indicados brevemente por los
números exactos 59.5 y 62.5 se llaman fronteras de clase o límites verdaderos de clase, el número
menor (59.5) es la frontera inferior de clase y el número mayor (62.5), la frontera superior de
clase.
d) Marca de Clase
La marca de clase, que es el punto medio del intervalo de clase, se obtiene promediando
los límites inferior y superior de clase. De este modo, la marca de clase del intervalo 60-62 es
(60+62)/2=61. A la marca de clase también se le denomina punto medio de la clase.
• Determinar el número mayor y el menor en los datos sueltos con el fin de especificar el
rango (la diferencia entre ambos).
• Dividir el rango en un número adecuado de intervalos de clase del mismo tamaño. Si esto
no es posible, usar intervalos de clase de distintos tamaños o intervalos de clase abiertos. Se
suelen tomar entre 5 y 20 intervalos de clase, según los datos. Los intervalos de clase se eligen
también de modo tal que las marcas de clase (o puntos medios) coincidan con los datos realmente
observados.
La frecuencia total de todos los valores menores que la frontera de clase superior de un
intervalo de clase dado se conoce como frecuencia acumulada hasta ese intervalo de clase,
inclusive. Por ejemplo, la frecuencia acumulada, incluyendo hasta el intervalo de clase 66-68 de la
tabla 2-1, es 5+18+42=65, lo que significa que 65 estudiantes tienen estaturas por debajo de 68.5
pulg.
Una tabla que presenta tales frecuencias acumuladas se llama distribución de frecuencias
acumuladas, tabla de frecuencias acumuladas o, brevemente, una distribución acumulada.
a) Construcción de Histogramas
Los histogramas y los polígonos de frecuencias son dos representaciones gráficas de las
distribuciones de frecuencias.
Un polígono de frecuencia es una gráfica de línea de las frecuencias de clase dibujada con
respecto a la marca de clase. Puede obtenerse uniendo los puntos medios de las partes superiores
de los rectángulos del histograma.
[pic]
Figura 2-1
Una gráfica que recoja las frecuencias acumuladas por debajo de cualquiera de las
fronteras de clase superiores respecto de dicha frontera es denominada un polígono de
frecuencias acumuladas u ojiva; en la figura 2-2 se ilustra esta gráfica para la distribución de
estaturas de los estudiantes de la tabla 2-1.
[pic]
Figura 2-2
7. OTROS GRAFICOS
a) De Pastel
[pic]
b) Piramidal
[pic]
[pic]
Igual que los promedios, las medidas de tendencia central nos indican el punto medio o
típico de datos que cabe esperar. También reciben el nombre de medidas de localización.
Notación de índices
Denotemos por [pic] (léase “X sub j”) cualquiera de los [pic] valores [pic] que toma una
variable [pic]. La letra j en [pic], que puede valer 1, 2, 3,… N se llama subíndice.
Notación de sumatoria
El símbolo [pic]denota la suma de todos los [pic] desde j=1 hasta j=N, por definición,
[pic]
2. Media Aritmética
[pic] (1)
Ejemplo 1
[pic]
Si los números [pic] ocurren [pic] veces, respectivamente (es decir, con frecuencias [pic]),
la media aritmética es
[pic] (2)
Ejemplo 2
[pic]
Cuando los datos se presentan en una distribución de frecuencias, todos los valores que caen
dentro de un intervalo de clase dado se consideran iguales a la marca de clase, o punto medio del
intervalo.
3. Media Geométrica
[pic]
Ejemplo 3
La Mediana
Ejemplo 4
Ejemplo 5
[pic]
Para datos agrupados, la mediana obtenida por interpolación, está dada por
[pic]
donde:
|[pic] |frontera inferior de la clase de la mediana (es decir, la clase que contiene a la
mediana) |
La Moda
La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir,
el valor más frecuente. La moda puede no existir e incluso no ser única.
Ejemplo 6
Ejemplo 7
Ejemplo 8
En el caso de datos agrupados donde se haya construido una curva de frecuencias, para
ajustar los datos, la moda será(n) el (los) valor(es) de X correspondiente(s) al(os) máximo(s) de la
curva. Ese valor de X se denota por [pic].
donde:
|[pic] |Frontera inferior de la clase de la clase modal (clase que contiene a la moda)
|
De forma similar los valores que dividen los datos en 10 partes iguales son llamados
deciles, los cuales se denotan por [pic], mientras que los valores que dividen a los datos en 100
partes iguales se conocen como percentiles y se indican con [pic]. El quinto decil y el 50º percentil
coinciden con la mediana.
1. Dispersión o Variación
La dispersión o variación de los datos es el grado en que los datos numéricos tienden a
esparcirse alrededor de un valor promedio.
2. El Rango
Ejemplo1
3. La Desviación Media
[pic] (1)
donde [pic] es la media aritmética de los números y [pic] es el valor absoluto de la desviación de
[pic] respecto de [pic]. (El valor absoluto de un número es el número sin el signo asociado y se
indica con dos líneas verticales colocadas a los lados del número; así [pic], [pic], [pic] y [pic]).
Ejemplo 2
[pic]
Si [pic] ocurren con frecuencias [pic] respectivamente, la desviación media puede
expresarse
[pic] (2)
donde [pic]. Esta forma es útil para datos agrupados, donde las [pic] representan las marcas de
clase y las [pic] son las frecuencias de clase correspondientes.
4. Desviación Cuartílica
[pic] (3)
donde [pic] y [pic] son el primer y el tercer cuartiles de los datos. Algunas veces se usa el rango
intercuartilar [pic], aunque el rango semiintercuartilar es más común como medida de dispersión.
6. La Desviación Estándar
[pic] (5)
donde [pic] representa las desviaciones de cada uno de los números [pic], respecto de la [pic]. Por
lo tanto [pic] es la media cuadrática de las desviaciones en relación con la media o, como se le
llama en forma común, desviación de la media cuadrática.
[pic] (6)
Algunas veces la desviación estándar de los datos de una muestra se define con (N-1),
reemplazando N en los denominadores de las expresiones de las ecuaciones (5) y (6), ya que el
valor resultante representa un mejor estimado de la desviación estándar de la población original.
Para los valores grandes de N (de modo preciso N>30), prácticamente no existe diferencia entre
las dos definiciones. Además cuando se necesita el mejor estimado, siempre podemos obtenerlo
multiplicando la desviación estándar, calculada de acuerdo con la primera definición, por [pic]. Por
lo tanto, se usarán las formas (5) y (6).
7. La Varianza
La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar,
por lo tanto, se representa como [pic] en las ecuaciones (5) y (6). Cuando es necesario distinguir la
desviación estándar de una población de la desviación estándar de una muestra obtenida de dicha
población, con frecuencia se utiliza el símbolo [pic] para esta última y [pic] (sigma griega
minúscula) para la primera. Por lo tanto [pic] y [pic] representan la varianza de una muestra y la
varianza de una población, respectivamente.
Las ecuaciones (5) y (6) pueden expresarse, respectivamente, en las formas equivalentes:
[pic] (7)
[pic] (8)
donde [pic] denota la media de los cuadrados de los distintos valores de [pic], mientras que [pic]
denota el cuadrado de la media de los distintos valores de [pic].
Si [pic] son las desviaciones de [pic] con respecto a una constante arbitraria [pic], los
resultados de (7) y (8) se convierten, respectivamente en
[pic] (9)
[pic] (10)
[pic] (11)
Esta fórmula ofrece un método muy breve para calcular la desviación estándar y debe utilizarse
siempre para datos agrupados cuando el tamaño de los intervalos de clase sea igual.
[pic]
donde [pic] es un promedio cercano a la media aritmética. De todas las desviaciones estándar, la
mínima es aquella en que [pic], esta propiedad proporciona una razón importante para definir la
desviación estándar como se hizo antes.
B. En distribuciones normales:
a) 68.27% de los casos están incluidos entre [pic] y [pic] (es decir, una desviación estándar a
cada lado de la media)
b) 95.45% de los casos están incluidos entre [pic] y [pic] (es decir, dos desviaciones estándar a
cada lado de la media)
c) 99.73% de los casos están incluidos entre [pic] y [pic] (es decir, tres desviaciones estándar a
cada lado de la media)
[pic]
C. Suponga que dos conjuntos con [pic] y [pic] números (o dos distribuciones de frecuencia con
frecuencias totales [pic] y [pic]) tiene varianzas dadas por [pic] y [pic], respectivamente, y la misma
media [pic]. Entonces la varianza combinada de ambos conjuntos (o dos distribuciones de
frecuencias) estará dada por
[pic]
Obsérvese que se trata de una media aritmética ponderada de las varianzas. El resultado
puede generalizarse a tres o más conjuntos.
[pic]
que por lo general se expresa en forma de porcentaje. Obsérvese que el coeficiente de variación
es independiente de las unidades usadas. Por este motivo es útil para comparar distribuciones con
unidades diferentes. Una desventaja del coeficiente de variación es que no sirve cuando la media
es cercana a cero.
1. Momentos
llamada el r-ésimo momento. El primer momento con [pic] es la media aritmética [pic]. El r-ésimo
momento respecto de la media [pic], se define como:
[pic] (2)
Si [pic] entonces [pic]; si [pic], entonces [pic] es la varianza. El r-ésimo momento respecto de
cualquier origen A se define como:
[pic] (3)
donde [pic] son las desviaciones de [pic] respecto de [pic]. Si [pic], la ecuación (3) se reduce a la
ecuación (1). Por eso la ecuación (1) se le llama el r-ésimo momento con respecto a cero.
Si [pic] ocurren con las frecuencias [pic], respectivamente, los momentos anteriores están
dados por
[pic] (4)
[pic] (5)
[pic] (6)
donde [pic]. Las fórmulas son adecuadas para calcular momentos a partir de datos agrupados.
3. Asimetría
[pic]
4. Curtosis
La curtosis mide que tan puntiaguda es una distribución, por lo general, comparada con
una distribución normal. Una distribución con un pico relativamente alto, se denomina
leptocúrtica, mientras que la curva que es achatada, recibe el nombre de platocúrtica. La
distribución normal que no es muy picuda ni muy achatada, se define como mesocúrtica.
[pic]
Una medida de la curtosis utiliza el cuarto momento con respecto a la media, expresado
en forma adimensional y está dado por
Cuando se requiere distinguir los momentos, las medidas de asimetría y las medidas de
curtosis de una muestra, para determinada población, con frecuencia se acostumbra usar
símbolos latinos para las muestras y símbolos griegos para las poblaciones. Así, si los momentos se
denotan como [pic] y [pic], los símbolos griegos correspondientes serían [pic] y [pic]. Los
subíndices siempre son símbolos latinos.
-----------------------
Sesgada a la derecha
(sesgo positivo)
Sesgada a la izquierda
(sesgo negativo)
En forma de J
En forma de J invertida
En forma de U
Bimodal
68.27%
[pic]
[pic]
[pic]
[pic]
95.45%
[pic]
[pic]
99.73%
a) Mesocúrtica
a) Platocúrtica
a) Leptocúrtica
REPRESENTACIÓN GRÁFICA DE DATOS
Las tablas estadísticas representan toda la información de modo esquemático y están preparadas para los cálc
estadísticos nos transmiten esa información de modo más expresivo, nos van a permitir, con un sólo golpe de
observar sus caracteícticas más importantes, incluso sacar alguna conclusión sobre el comportamiento de la m
estudio.
Los gráficos estadísticos son muy útiles para comparar distintas tablas de frecuencia.
DIAGRAMA DE BARRAS.
Se utiliza para la representación de variables cuantitativas discretas, cada valor de la variable se representa
sobre él se dibuja una barra de longitud igual o proporcinal a su frecuencia absoluta. Si la frecuencia absolut
diagrama de barras que se obtiene es: diagrama de barras acumulativo
HISTOGRAMA.
Se utiliza para la representación de variables cuantitativas continuas, cada intervalo se representa sobre el e
rectángulo que se dibuja sobre él con altura igual o proporcional a su frecuencia absoluta. Como los intervalo
quedan adosados. Si se utilizarán rectángulos de amplitud diferente, el área del rectángulo es la que tendría qu
absoluta correspondiente a ese intervalo. Histograma acumulativo, si se utiliza la frecuencia absoluta acumu
POLÍGONO DE FRECUENCIAS.
Para una variable discreta, el polígono de frecuencias se obtiene uniendo por una poligonal, los extremos sup
Para una variable continua, el poligono de fecuencias se obtiene uniendo por una poligonal los puntos medios
del histograma.
Las escalas utilizadas para representar los polígonos de frecuencias influyen mucho por el impacto visual de
DIAGRAMA DE SECTORES.
Se utiliza para todo tipo de variable estadística, cuantitativa o cualitativa. Consiste en dibujar sectores sobr
los sectores proporcional a su frecuencia absoluta, cada sector se rellena con un color diferente.
El cálculo de la amplitud en grados sexagesimales del sector correspondiente se realiza así: ángulo = frecuen
Ejemplo 2.- Hemos preguntado a 20 personas por el número medio de días que practican deporte a la seman
respuestas:
Con el pulsador de "gráfico" puedes, al variar su valor, elegir diferente representación gráfica: 1 para d
polígono de frecuencia y 3 para el diaframa de sectores.
Puedes cambiar los valores de las frecuencias absolutas y observar su imfluencia en el correspondiente grá
Ejemplo 3.- En un preconocimiento médico realizado a 30 niños, uno de los datos que se han tomado ha
uno, los resultados obtenidos se reflejan en la siguiente tabla:
Con el pulsador de "gráfico" puedes, al variar su valor, elegir diferente representación gráfica: 1 para H
frecuencia y 3 para el diaframa de sectores.
Puedes cambiar los valores de las frecuencias absolutas y observar su imfluencia en el correspondiente gráfi
Actividad 4.- Un aparato de radar instalado a la entrada de una población (velocidad máxima permitida, 60K
" estadística" de infracciones.
De más de 60 a 70 Km./h ................................... 30 vehículos
Entre 70 y 80 Km./h ........................................... 40 "
Entre 80 y 90 Km./h ........................................... 90 "
Entre 90 y 100 Km./h ........................................... 80 "
Entre 100 y 110 Km./h ........................................... 60 "
Entre 110 y 120 Km./h ........................................... 10 "
Actividad 5.- Utilizando la encuesta que has realizado en la actividad 2, construye la tabla de frecuencias, p
considerado, y representa la correspondiente tabla de frecuencias, en el gráfico más adecuado.
Análisis descriptivo.
Cuando se dispone de datos de una población, y antes de abordar análisis estadísticos más complejos,
un primer paso consiste en presentar esa información de forma que ésta se pueda visualizar de una
manera más sistemática y resumida. Los datos que nos interesan dependen, en cada caso, del tipo de
variables que estemos manejando2.
Para variables categóricas3, como el sexo, estadio TNM, profesión, etc., se quiere conocer la
frecuencia y el porcentaje del total de casos que "caen" en cada categoría. Una forma muy sencilla de
representar gráficamente estos resultados es mediante diagramas de barras o diagramas de sectores.
En losgráficos de sectores, también conocidos como diagramas de "tartas", se divide un círculo en
tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de
círculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la Figura 1. Como
se puede observar, la información que se debe mostrar en cada sector hace referencia al número de
casos dentro de cada categoría y al porcentaje del total que estos representan. Si el número de
categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo
suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres categorías. En
este caso se pueden apreciar con claridad dichos subgrupos.
Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa
corporal, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se
divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada
intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de
cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de
los datos en cada intervalo y el área de los rectángulos. Como ejemplo, la Tabla I muestra la
distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 y 42 años. Si se
divide este rango en intervalos de dos años, el primer tramo está comprendido entre los 18 y 19 años,
entre los que se encuentra el 4/100=4% del total. Por lo tanto, la primera barra tendrá altura
proporcional a 4. Procediendo así sucesivamente, se construye el histograma que se muestra en
la Figura 3. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene
una imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más
simple, en qué rangos se encuentra la mayor parte de los datos. Un ejemplo, utilizando los datos
anteriores, se presenta en la Figura 4.
Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de
percentiles, mediante diagramas de cajas4,5. LaFigura 5 muestra un gráfico de cajas correspondiente
a los datos de la Tabla I. La caja central indica el rango en el que se concentra el 50% central de los
datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en la caja
es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la
caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central
de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen
también representar aquellas observaciones que caen fuera de este rango (outliers o valores
extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros
datos. En general, los diagramas de cajas resultan más apropiados para representar variables que
presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan
además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.
Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para posteriores
análisis, comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un
diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de un modo
puramente visual, la simetría y el "apuntamiento" de la distribución de una variable y, por lo tanto,
valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este propósito,
como son los gráficos P-P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de
una variable con las de una distribución normal. Si la variable seleccionada coincide con la distribución
de prueba, los puntos se concentran en torno a una línea recta. Los gráficos Q-Q se obtienen de modo
análogo, esta vez representando los cuantiles de distribución de la variable respecto a los cuantiles de
la distribución normal. En la Figura 6se muestra el gráfico P-P correspondientes a los datos de
la Tabla I que sugiere, al igual que el correspondiente histograma y el diagrama de cajas, que la
distribución de la variable se aleja de la normalidad.
Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos una vez
más el método estadístico a utilizar, así como los gráficos apropiados para visualizar esa relación,
dependen del tipo de variables que estemos manejando.
Por otro lado, la comparación de variables continuas en dos o más grupos se realiza
habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la varianza
o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico utilizado. En este
caso resulta muy útil undiagrama de barras de error, como en la Figura 8. En él se compara el
índice de masa corporal en una muestra de hombres y mujeres. Para cada grupo, se representa su
valor medio, junto con su 95% intervalo de confianza. Conviene recordar que el hecho de que dichos
intervalos no se solapen, no implica necesariamente que la diferencia entre ambos grupos pueda ser
estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así
mismo, para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno para
cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si existe o no
diferencia entre los grupos, sino que además nos permiten comprobar la normalidad y la variabilidad
de cada una de las distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad
son condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos.
Por último, señalar que también en esta situación pueden utilizarse los ya conocidos gráficos de
barras, representando aquí como altura de cada barra el valor medio de la variable de interés.
Los gráficos de líneas pueden resultar también especialmente interesantes, sobre todo cuando
interesa estudiar tendencias a lo largo del tiempo (Figura 9). No son más que una serie de puntos
conectados entre sí mediante rectas, donde cada punto puede representar distintas cosas según lo
que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una
categoría, el valor máximo en cada grupo, etc).
Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de análisis
adecuado es el estudio de la correlación. Los coeficientes de correlación (Pearson, Spearman, etc.)
valoran hasta qué punto el valor de una de las variables aumenta o disminuye cuando crece el valor
de la otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, gráficamente, si
existe una correlación alta, es mediante diagramas de dispersión, donde se confronta, en el eje
horizontal, el valor de una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de
variables altamente correlacionados es la relación entre el peso y la talla de un sujeto. Partiendo de
una muestra arbitraria, podemos construir el diagrama de dispersión de laFigura 10. En él puede
observarse claramente como existe una relación directa entre ambas variables, y valorar hasta qué
punto dicha relación puede modelizarse por la ecuación de una recta. Este tipo de gráficos son, por lo
tanto, especialmente útiles en la etapa de selección de variables cuando se ajusta un modelo de
regresión lineal.
Otros gráficos.
Los tipos de gráficos mostrados hasta aquí son los más sencillos que podemos manejar, pero ofrecen
grandes posibilidades para la representación de datos y pueden ser utilizados en múltiples situaciones,
incluso para representar los resultados obtenidos por métodos de análisis más complicados. Podemos
utilizar, por ejemplo, dos diagramas de líneas superpuestos para visualizar los resultados de un
análisis de la varianza con dos factores (Figura 11). Un diagrama de dispersión es el método adecuado
para valorar el resultado de un modelo de regresión logística (Figura 12). Existen incluso algunos
análisis concretos que están basados completamente en la representación gráfica. En particular, la
elaboración de curvas ROC (Figura 13) y el cálculo del área bajo la curva constituyen el método más
apropiado para valorar la exactitud de una prueba diagnóstica.
Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas pueden
alcanzar en el proceso de análisis de datos. La mayoría de los textos estadísticos y
epidemiológicos4 hacen hincapié en los distintos tipos de gráficos que se pueden crear, como una
herramienta imprescindible en la presentación de resultados y el proceso de análisis estadístico. No
obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que una tabla. Más bien
podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La
creciente utilización de distintos programas informáticos hace especialmente sencillo la obtención de
las mismas. La mayoría de los paquetes estadísticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...)
ofrecen grandes posibilidades en este sentido. Además de los gráficos vistos, es posible elaborar otros
gráficos, incluso tridimensionales, permitiendo grandes cambios en su apariencia y facilidad de
exportación a otros programas para presentar finalmente los resultados del estudio.
Edad Nº de pacientes
18 1
19 3
20 4
21 7
22 5
23 8
24 10
25 8
26 9
27 6
28 6
29 4
30 3
31 4
32 5
33 3
34 2
35 3
36 1
37 2
38 3
39 1
41 1
42 1
1. Lang TA, Secic M. How to report statistics in medicine. Annotated Guidelines for
authors, Editors, and reviewers. Philadelphia: Port City Press; 1997.
2. Altman DG, Bland JM. Statistics Notes: Presentation of numerical data. BMJ 1996;
312: 572. [Medline] [Texto completo]
3. Singer PA, Feinstein AR. Graphical display of categorical data. J Clin Epidemiol 1993;
46(3): 231-6. [Medline]
4. Simpson RJ, Johnson TA, Amara IA. The box-plot: an exploratory analysis for
biomedical publications. Am Heart J 1988; 116 (6 Part 1): 1663-5. [Medline]
5. Williamson DF, Parker RA, Kendrick JS. The box plot: a simple visual method to
interpret data. Ann Intern Med 1989; 110 (11): 916-21. [Medline]
6. Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London:
Chapman & Hall; 1997.