Urso de Estadística: Guía de Estudio. 6. Estadística Aplicada (I) La Calidad Analítica

C URSO
M a yo , 20 0 8
Vo lum en 2 , Nmero 5
DE
ESTADSTICA
Sociedad Espaola Sociedad Espaola de Bioqumica Clnica y Patologa Molecular (SEQC),
Calle Padilla 268, despacho 68, 08025-Barcelona, http://www.seqc.es
E Gua de estudio. 6. Estadstica aplicada (I) La

calidad analtica
1
Nombres propios: Harold Jeffreys (1891-1989) 6
Tests de significacin para el coeficiente de
correlacin
7
Problemas
11
Introduccin a
Bibliografa
: Regresin en R (1)
16
Gua de estudio. 6.
Estadstica aplicada
(I) La calidad analtica
En el contexto general del laboratorio clnico, la
calidad ha sido y ser cada vez ms un item
primordial. El contenido estadstico es, no
obstante, poco complejo: la estadstica
descriptiva ha sido siempre una pieza
emblemtica y la estadstica inferencia se limita
a sencillos problemas de evaluacin de medidas
de centralizacin y dispersin.
Sin embargo destacan dos aspectos concretos: la
validacin y la comparacin de mtodos
analticos tienen en el laboratorio clnico una
larga tradicin y extensa literatura, por lo que se
comentarn
a
continuacin
de
forma
independiente.
Conocimientos previos
Estadstica descriptiva: diagramas.

Estadstica Inferencial: comparacin
varianzas...
Regresin
ANOVA
de
Contenidos
Necesidad de la poltica de la calidad en el

mbito de las ciencias de la salud. Desde el
control final del producto a la gestin
integral de la calidad. Exigencias estadsticas
para la regulacin de la calidad: desde las
autorizaciones
administrativas
a
la
acreditacin.
Tipos de mtodos y errores analticos.
Experimentos para poner de manifiesto estos
errores.
Estadstica descriptiva aplicable: grficos de

dispersin, diagramas de LevyJennings,
diagramas de Pareto, diagramas causa
efecto...
Estadstica inferencial aplicable: test t,
ANOVA, regresin...
La bibliografa manejada para el estudio de la

estadstica descriptiva e inferencial es suficiente.
En los textos de ciencias del laboratorio clnico
suelen
contener
captulos
completos
(y
exhaustivos) sobre calidad con un apartado sobre
los aspectos estadsticos que suele ser suficiente.
Burtis CA, Ashwood ER. Tietz Fundamentals of
clinical chemistry. 5 ed. New York: Saunders,
2002.
Si se desea profundizar en este punto es
conveniente buscar una buena publicacin de
quimiometra (disciplina que conjuga la qumica
analtica con la estadstica). Algunas referencias
tiles son:
Miller JN, Miller JC. Estadstica y quimiometra
para qumica analtica. Pearson Prentice Hall,
2002.
Massart DL, Vandeginste B, Buydens L, De Jong
S, Lewi P, Smeyers-Verbeke J. Handbook of
chemometrics and qualimetrics, Amsterdam:
Elsevier, Vol 20 A 1997 y 20 B 1998
Finalmente, existen algunos libros dedicados
monogrficamente al estudio de la calidad con un
notable y detallado contenido estadstico:
Feigenbaum AV. Total quality control. 4 ed.
New York:McGraw Hill. (Prevista para 2009)
Montgomery DC. Introduction to statistical
quality control. 5 ed. New York: Wiley. 2005.
Burr IW. Statistical quality control methods.
New York: Marcel Dekker, 1976
Mullins E. Statistics for the quality control
chemistry laboratory. SRC: Cambridge, 2003
Validacin de mtodos analticos

Introduccin
Para saber si los resultados de un procedimiento
analtico son correctos, esto es precisos, exactos y
robustos, es esencial saber si el mtodo analtico
ha sido validado. La validacin consiste en estimar
Curso de estadstica
y juzgar si es aceptable la incertidumbre que
acompaa a toda medicin. Incertidumbre en la
medicin y trazabilidad son dos conceptos que
acompaan a la validacin.
En el contexto de la gestin de la calidad,
cuando se pretende un servicio de excelencia, la
validacin de los mtodos analticos constituye
una pieza clave en los procesos de certificacin
y, especialmente, de acreditacin. Cuando el
mtodo analtico se requiere adems, con
finalidad oficial (formando parte de la
documentacin para registrar un medicamento)
forense, etc. su validacin est regulada por
estrictas normas de procedimiento.
W.A. Wallis defini la estadstica como una
coleccin de mtodos para realizar decisiones
inteligentes cuando se afronta una situacin
incierta. La utilizacin de conceptos y
procedimientos estadsticos para la validacin de
mtodos analticos est justificada desde el
momento que se admite la necesidad de tratar
con incertidumbre en las observaciones. Esta
parte est estrechamente relacionada adems
con el diseo experimental, el anlisis
multivariado y los procedimientos estadsticos de
control de la calidad.
Objetivos
Al terminar esta parte del curso, los
participantes deben ser capaces de
Definir errores mdicamente aceptables
describir
las
prestaciones
y
caractersticas claves de los mtodos
analticos, estimando el tamao del error
analtico de un mtodo.
Distinguir entre cualificacin, validacin,
revalidacin y verificacin de un
procedimiento analtico.
Juzgar la aceptabilidad de un mtodo en
base a los errores observados.
Definir la calidad requerida para una
prueba de laboratorio.
Definir los requisitos de un mtodo
analtico, de acuerdo con las normas y
procedimientos estndar internacionales.
Comprender claramente los parmetros
de validacin y sus definiciones.
Identificar factores significativos para
que los resultados sean vlidos.
Identificar los requisitos reguladores y de
acreditacin para evaluar un mtodo.
Describir el proceso de validacin de un
mtodo analtico.
Disear,
planificar
organizar
y
seleccionar un estudio de validacin de
un mtodo.
Estimar el tamao muestral.
Recoger la cantidad de datos necesaria
para cada experimento.
Vol. 2, nm. 5, Pg. 2
Analizar, calcular e interpretar, mediante

las pruebas estadsticas apropiadas, las
prestaciones cuantitativas que presenta un
mtodo analtico.
Presentar los resultados de la validacin
de un mtodo analtico documentando la
sistemtica utilizada para realizar la
validacin del procedimiento analtico.
Redactar un procedimiento normalizado de
trabajo sobre validacin de mtodos en el
laboratorio clnico con el objeto de
acreditar un procedimiento analtico segn
la norma ISO 15189.
Aplicar las caractersticas de validacin y
cualificacin a los instrumentos de
laboratorio.
Contenidos
Necesidad de la validacin
Caractersticas claves del rendimiento de un
procedimiento analtico
Diseo de un estudio de validacin
Utilizacin de los datos del comparaciones
interlaboratorios laboratorio en la validacin
del procedimiento analtico
Utilizacin de los datos obtenidos en la
validacin de un procedimiento analtico
La incertidumbre de los procedimientos
analticos
Determinacin de la selectividad
Determinacin de la sensibilidad
Determinacin de la linealidad y del intervalo
dinmico
Determinacin de la detectabilidad: lmites de
deteccin y de cuantificacin
Determinacin de la imprecisin
Determinacin de la inexactitud
Robustez (rutgeness, robustness) y adecuacin
(suitability)
Bibliografa acerca de la validacin de
Curso de estadstica
critical investigation of its practice. Clin Chem.
2002;48(5):799-801;
author
reply
801-2.
http://www.clinchem.org/cgi/reprint/48/5/799
Krouwer JS. Setting performance goals and
evaluating total analytical error for diagnostic
assays. Clin Chem. 2002;48(6 Pt 1):919-27.
Linnet K. Necessary sample size for method
comparison studies based on regression analysis.
Clin
Chem.
1999;45(6
Pt
1):882-94.
Linnet K. Limitations of the paired t-test for
evaluation of method comparison data. Clin
Chem.
1999;45(2):314-5.
Marquis P. Comparison of analytical methods in
Clinical
Chemistry.
http://www.multiqc.com/MethodComparison.pd
f
Martin RF. General deming regression for
estimating systematic bias and its confidence
interval in method-comparison studies. Clin
Chem.
2000;46(1):100-4.
Mazzo DJ, Connolly M. Analytical method
comparison based upon statistical power
calculations. Pharm Res. 1992;9(5):601-6.
Parvin CA. A direct comparison of two slopeestimation techniques used in methodcomparison studies. Clin Chem. 1984;30(5):7514.
http://www.clinchem.org/cgi/reprint/30/5/751.
pdf
Petersen PH, Stockl D, Blaabjerg O, Pedersen B,
Birkemose E, Thienpont L, et al. Graphical
interpretation
of
analytical
data
from
comparison of a field method with reference
method by use of difference plots. Clin Chem.
1997;43(11):2039-46.
39
Stockl D, Dewitte K, Thienpont LM. Validity of
linear regression in method comparison studies:
is it limited by the statistical model or the
quality of the analytical input data? Clin Chem.
1998;44(11):2340-6.
40
Westgard JO. Points of care in using statistics in
method comparison studies. Clin Chem.
1998;44(11):2240-2.
40
Westgard JO. Use and interpretation of common
statistical tests in method comparison studies.
Clin
Chem.
2008;54(3):612.
Vol. 2, nm. 5, Pg. 4
Curso de estadstica
critical investigation of its practice. Clin Chem.
2002;48(5):799-801;
author
reply
801-2.
Krouwer JS. Setting performance goals and
evaluating total analytical error for diagnostic
assays. Clin Chem. 2002;48(6 Pt 1):919-27.
Linnet K. Necessary sample size for method
comparison studies based on regression analysis.
Clin
Chem.
1999;45(6
Pt
1):882-94.
Linnet K. Limitations of the paired t-test for
evaluation of method comparison data. Clin
Chem.
1999;45(2):314-5.
Marquis P. Comparison of analytical methods in
Clinical
Chemistry.
http://www.multiqc.com/MethodComparison.pd
f
Martin RF. General deming regression for
estimating systematic bias and its confidence
interval in method-comparison studies. Clin
Chem.
2000;46(1):100-4.
Mazzo DJ, Connolly M. Analytical method
comparison based upon statistical power
calculations. Pharm Res. 1992;9(5):601-6.
Parvin CA. A direct comparison of two slopeestimation techniques used in methodcomparison studies. Clin Chem. 1984;30(5):7514.
http://www.clinchem.org/cgi/reprint/30/5/751.
pdf
Petersen PH, Stockl D, Blaabjerg O, Pedersen B,
Birkemose E, Thienpont L, et al. Graphical
interpretation
of
analytical
data
from
comparison of a field method with reference
method by use of difference plots. Clin Chem.
1997;43(11):2039-46.
39
Stockl D, Dewitte K, Thienpont LM. Validity of
linear regression in method comparison studies:
is it limited by the statistical model or the
quality of the analytical input data? Clin Chem.
1998;44(11):2340-6.
40
Westgard JO. Points of care in using statistics in
method comparison studies. Clin Chem.
1998;44(11):2240-2.
40
Westgard JO. Use and interpretation of common
statistical tests in method comparison studies.
Clin
Chem.
2008;54(3):612.
Vol. 2, nm. 5, Pg. 4
Curso de estadstica
Vol. 2, nm. 5, Pg. 5
MODULO 1
MODULO 2
ANALISIS DATOS CUALITATIVOS
ANALISIS DATOS CUALITATIVOS ejercicios resueltos
MODULO 3
MODULO 4
ANALISIS DATOS CUALITATIVOS notas
ANOVA
ANOVA notas
BONDAD DE AJUSTE
BONDAD DE AJUSTE notas
CONTRASTES VARIABLES
CUANTITATIVAS
CONTRASTES VAR CUANTITATIVAS ejercicios

CONTRASTES VAR CUANTITATIVAS notas
ESTADISTICA INFERENCIAL
ESTADISTICA INFERENCIAL ejercicios propuestos

ESTADISTICA INFERENCIAL ejercicios resueltos
ESTADISTICA INFERENCIAL notas
ESTADISTICA ROBUSTA
ESTADISTICA ROBUSTA notas
MUESTREO
MUESTREO BIBLIOGRAFIA
PRESENTACIONES
ANOVA presentacin
ESTADISTICA NO PARAMETRICA presentacin
INFERENCIA presentacin
MUESTREO presentacin
REGRESION Y CORRELACION presentacin
TAMAO MUESTRAL presentacin
SPSS
SPSS
SPSS ANOVA
SPSS INFERENCIA
TAMAO MUESTRAL
TAMAO MUESTRAL ejercicios propuestos

TAMAO MUESTRAL ejercicios resueltos
TAMAO MUESTRAL notas
Curso de estadstica
Nombres propios:
Harold Jeffreys (1891-1989)
Matemtico, fsico y estadstico ingls reconocido

por sus contribuciones a mltiples reas de la
ciencia. A los 12 aos le fue concedida una beca
para estudiar en el Rutherford College de
Newcastle upon - Tyne. En 1907 estudi en el
Armstrong College, entonces parte de la
Universidad de Durham, pero que que ms tarde
sera la Universidad de Newcastle, para estudiar
matemticas, fsica, qumica y geologa. En 1914
gan una de las cuatro becas para estudiar
matemticas en Cambridge, en el St. Johns
College, institucin a la que estara vinculado el
resto de su vida. Durante la primera guerra
mundial trabaj en el Laboratorio Cavendish y al
final de la guerra en el Servicio Metereolgico,
ocupado en problemas de hidrodinamia. En 1922
regres a Cambridge para ensear matemticas
hasta 1932 en que pas a dar clases de geofsica
y desde 1946 de astronoma y filosofa
experimental como Pumian Professor, aunque
parece ser que como profesor era ms bien
penoso. De carcter tmido aunque sociable,
afectuoso y campechano fue muy respetado y
apreciado por sus impresionantes habilidades
matemticas y profundos conocimientos. Hasta
sus noventa aos cumplidos fue un empedernido
fumador y ciclista.
Su produccin cientfica fue notable desde el
punto de vista cuantitativo (alcanz los 400
artculos) y de la variedad de temas (mecnica
celestial, dinmica de fluidos, meteorologia,
geofsica i probabilidad). En 1953 fue nombrado
caballero y la Royal Society de Londres le
distingui en 1948 con la Royal Medal en
reconocimiento por sus trabajos geofsicos y
sobre astronoma del sistema solar. En 1960 se le
Vol. 2, nm. 5, Pg. 6

concedi la Copley Medal en reconocimiento de
sus trabajos, incluyendo ahora los de la teora de
la probabilidad. Como astrnomo estudi el
origen del sistema solar, los planetas exteriores y
su estructura y en 1924 public otra obra
notable, The earth: Its origin, history and
physical constitution, obra que tuvo reediciones
hasta los aos ochenta. Como geofsico estudi la
circulacin en la atmsfera y los terremotos y
fue de los primeros cientficos en proponer que
el centro de la tierrra era de consistencia
lquida. En 1935 public Earthquakes and
mountains. Como matemtico, su obra ms
notable, escrita en colaboracin con su esposa
Bertha Swirles Jeffreys y publicada en 1946 es
Methods of mathematical physics en que
desarrolla las parte de las matemticas puras
que se requeriran con mayor frecuencia en
fsica. La mayor parte de sus artculos sobre
estadstica estn en el volumen 6, Mathematics,
probability & miscellaneous other science de sus
obras completas.
Sus aportaciones a la teora de la probabilidad y
estadstica se resumen en su libro Theory of
probability publicado en 1939 y en la veitena de
artculos relacionados con este tema publicados
entre 1930 y 1964. Su filosofa es claramente
Bayesiana (que el denominaba probabilidad
inversa) y su intencin, la aplicacin de la
estadstica a la fsica. En su juventud, en 1914,
la lectura de la obra de Karl Pearson Grammar of
Science tuvo una notable influencia sobre su
pensamiento acerca de las bases probabilsticas
del razonamiento inferencial en ciencia. Sus
nuevas ideas bayesianas le grangearon la
enemistad
de
Sir
Ronald
A.
Fisher,
probablemente el estadstico ms influyente del
siglo XX, con quien mantuvo unas relaciones con
Ronald A. Fisher no precisamente cordiales. Sus
conceptos de la probabilidad (Fisher fue un
frecuentista convencido y beligerante) les
apartaron diametralmente. Fisher en su famosa
obra Statistical methods for research workers ni
tan slo menciona los mtodos bayesianos. Con
el tiempo parece ser que el antagonismo se
apacigu y deriv en una cierta tolerancia
mutua. Algunos artculos en que se puede
rastrear las duras descalificaciones que se
hicieron son:
Fisher RA. Inverse probability and the use of
likelihood. Proc Cambridge Phil Soc, 1932;
28: 257-61.
Jeffreys H. On the theory of errors and least
squares. Proc Cambridge Phil Soc A, 1932;
138: 48-55.
Jeffreys H. On the prior probability in the
theory of sampling. Proc Cambridge Phil Soc,
1933; 29: 83-7.
Fisher RA. The concepts of inverse
probability and fiducial probability referring
Curso de estadstica
to unknown parameters. Proc Royal Soci,
1933; 139: 343-8.
Jeffreys H. Probability, statistics, and the
theory of errors. Proc Royal Soc A, 1933;
140: 523-35.
Fisher RA. Probability, likelihood and the
quantity of information in the logic of
uncertain inference, Proc Royal Soc A, 1934;
146: 1-8.
Jeffreys H. Probability and scientific method,
Proc Royal Soci A, 1934; 146: 9-16.
Aunque en Cambridge coincidi con conocidos
filsofos especialistas en lgica, como J. M.
Keynes, no est probado que les tratara
asiduamente. Lo que si parece cierto es una
cierta influencia de Jeffreys sobre A. Turing,
como parece dedurcirse del pensamiento de este
limo.
Bibliografa
Aldrich J. The statistical education of Harold
Jeffreys. Int Stat Rev, 2005; 73: 289-308.
Bolt BA. Sir Harold Jeffreys and geophysical
inverse problems. Chance, 1991; 4: 15-7.
Brush SG. Discovery of the earths core. Am J
Phys, 1980; 48: 705-24.
Cook AH. Sir Harold Jeffreys, biographical
memoirs of fellows of the Royal Society. 1991;
37: 303-31.
Geisser S. The contributions of Sir Harold
Jeffreys to bayesian inference. En: Zellner A,
ed.: Bayesian analysis in econometrics and
statistics: Essays in honor of Harold Jeffreys.
Amsterdam: North-Holland. 1980, 13-20.
Good IJ. The contributions of Jeffreys to
bayesian statistics. En: Zellner A, ed.: Bayesian
analysis in econometrics and statistics: Essays in
honor of Harold Jeffreys. Amsterdam: NorthHolland. 1980, 21-34.
Howie D. Interpreting probability: controversies
and developments in the early twentieth
century, New York: Cambridge University Press,
2002.
Lapwood ER. Contributions of Sir Harold Jeffreys
to theoretical geophysics. Math. Scien, 1982; 7:
69-84.
Lindley DV. Jeffreys's contribution to modern
statistical thought. En: Zellner A, ed.: Bayesian
analysis in econometrics and statistics: essays in
honor of Harold Jeffreys. Amsterdam: NorthHolland. 1980: 35-40.
Lindley DV. Sir Harold Jeffreys. Encyclopedia of
biostatistics. Vol. 3. Chichester: Wiley. 1998:
2124-5.
Lindley DV. Sir Harold Jeffreys. Chance, 1991; 4:
10-14 , 21.
Swirles B, Lady Jeffreys. Harold Jeffreys: some
reminiscences. Chance, 1991; 4; 22-6.
Vol. 2, nm. 5, Pg. 7

Zellner A. Jeffreys, Sir Harold (1891-1989)
International encyclopedia of the social and
behavioral
sciences.
Kidlington,
Oxford:
Pergamon. 2001: 7960-3.
Tests de significacin para

el coeficiente de correlacin
1. Test t para el coeficiente de
correlacin
Objetivo
Comprobar si el coeficiente de correlacin
muestral r es estadsticamente diferente de
cero.
Limitaciones
Las variables X y Y cuyos valores muestrales
( x , y ) originan el coeficiente de correlacin r
poseen una distribucin bivariada normal y la
relacin ente ambas es lineal.
Hiptesis
Las hiptesis nulas y alternativas son:
H 0 : r = 0
H1: r 0
Sea una muestra de tamao n de valores
{( x , y ) , ( x
1
, y 2 ) , , ( x n , y n )
Procedimiento
Sea una muestra de tamao n de valores
{( x , y ) , ( x
, y 2 ) , , ( x n , y n )
El coeficiente de correlacin r se estima como:
1
Curso de estadstica
n
r =
(y
x)
( y
i =1
( x
i =1
Vol. 2, nm. 5, Pg. 8
y)
n
i =1
y)
donde:
n
x =
x
i =1
n
n
y =
y
i =1
Estadstico
El estadstico a calcular es,
t =
r
1 r 2
n2
Este estadstico seguir una distribucin t de

Student con
Curso de estadstica
Vol. 2, nm. 5, Pg. 11
Problemas
1. El servicio de extracciones a pacientes externos de un Laboratorio est organizado de modo que se
cita a dichos pacientes para un da determinado dejando a su eleccin la hora en que deben
presentarse. El responsable de esta rea ha anotado el nmero de pacientes que acude cada hora en
que se presta el servicio. El resultado de estas observaciones se resume en la tabla I.
Se supone que el nmero de pacientes que acude en las diferentes horas es mutuamente
independiente y que se desconoce la forma en que se distribuyen tales cantidades.
El responsable del Laboratorio desea obtener una estimacin del nmero de extracciones que se
realiza al da con un margen de confianza no inferior al 80 %.
media
desviacin tpica
56
221
259
110
9
8
6
7
7.00 a 8.00
8.01 a 9.00
9.01 a 10.00
10.01 a 11.00
Solucin
La estimacin puntual de la media de extracciones diaria ser:
p = x1 + x 2 + x 3 + x 4
56 + 221 + 259 + 110 = 646

Por tratarse de grupos independientes, la estimacin de la desviacin tpica diaria ser:
p2 = s12 + s 22 + s 32 + s 42
9 2 + 8 2 + 6 2 + 7 2 = 230
p =
p2 = 15,166
Por la acotacin de Tchebychev se tiene que
1
= 0,80
k2
1
k =
= 2, 236
0, 20
Por tanto, el intervalo de pacientes que acudir al servicio de extracciones, con una probabilidad mayor
del 80 %, ser:
Pr x ( p k p , + k p ) 0,80
Pr ( x ( 646 2, 236 15,166 , 646 + 2, 236 15,166 ) ) 0,80

Pr ( x ( 612 , 680 ) ) 0,80
Es decir, el responsable de las extracciones del Laboratorio puede esperar recibir cada da entre 612 y 680
pacientes, con una alta (80 %) probabilidad.
Curso de estadstica
Vol. 2, nm. 5, Pg. 10
Decisin: nivel de significacin

Si el valor de Z es superior al valor crtico
(tabulado en la tabla de la distribucin normal)
se rechaza la hiptesis nula con la
correspondiente probabilidad .
Ejemplo
Se han medido las concentraciones catalticas de
GGT en dos hospitales. Se desea comparar los
coeficientes de correlacin obtenidos entre estas
concentraciones catalticas y la edad del
paciente.
Hospital 1
27
0, 65
n
r
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Hospital 2
24
0, 74
1 + 0, 65
1 + 0, 74
Z ln
= 1,551 ln
= 1,901
1 0, 65
1 0, 74
z=
23
n-2
1483,2
suma
59,3
media
-0,076
r
-0,365
t
t crtica 1,714
15
24
12
22
17
21
19
13
15
13
16
9
21
25
19
22
15
14
13
25
26
21
25
14
27
463
18,5
-8,96
4,25
7,28
5,22
-6,63
1,93
-10,13
9,37
-7,23
-0,57
4,45
-0,54
0,94
-6,15
-4,51
7,15
-6,12
-2,51
-2,28
9,95
-2,83
4,50
-5,09
14,86
-6,35
1,551 1,901
= 1,17
0, 299
Ya que el valor crtico
z ( 0, 05 ) =1,96 es
superior al valor hallado, no se rechaza la

hiptesis nula.
El ejemplo se resolvera en Excel de la siguiente
forma:
Y
X
GGT- media edad-media
GGT edad
50,4
63,6
66,6
64,6
52,7
61,3
49,2
68,7
52,1
58,8
63,8
58,8
60,3
53,2
54,8
66,5
53,2
56,8
57,0
69,3
56,5
63,8
54,2
74,2
53,0
1
1
+
= 0, 299
27 3 24 3
-3,52
5,48
-6,52
3,48
-1,52
2,48
0,48
-5,52
-3,52
-5,52
-2,52
-9,52
2,48
6,48
0,48
3,48
-3,52
-4,52
-5,52
6,48
7,48
2,48
6,48
-4,52
8,48
(GGT-media) x
(edad-media)
31,538
23,277
-47,477
18,181
10,082
4,788
-4,861
-51,715
25,464
3,163
-11,210
5,161
2,335
-39,865
-2,163
24,896
21,543
11,341
12,571
64,453
-21,182
11,170
-32,988
-67,159
-53,850
(GGT(edadmedia)2 media)2
80,274
18,043
53,024
27,294
43,998
3,727
102,549
87,772
52,331
0,328
19,790
0,294
0,886
37,847
20,300
51,181
37,457
6,296
5,187
98,931
8,019
20,286
25,916
220,764
40,326
12,390
30,030
42,510
12,110
2,310
6,150
0,230
30,470
12,390
30,470
6,350
90,630
6,150
41,990
0,230
12,110
12,390
20,430
30,470
41,990
55,950
6,150
41,990
20,430
71,910
-62,5058 1062,8188 638,2400
Curso de estadstica
Vol. 2, nm. 5, Pg. 11
Problemas
1. El servicio de extracciones a pacientes externos de un Laboratorio est organizado de modo que se
cita a dichos pacientes para un da determinado dejando a su eleccin la hora en que deben
presentarse. El responsable de esta rea ha anotado el nmero de pacientes que acude cada hora en
que se presta el servicio. El resultado de estas observaciones se resume en la tabla I.
Se supone que el nmero de pacientes que acude en las diferentes horas es mutuamente
independiente y que se desconoce la forma en que se distribuyen tales cantidades.
El responsable del Laboratorio desea obtener una estimacin del nmero de extracciones que se
realiza al da con un margen de confianza no inferior al 80 %.
media
desviacin tpica
56
221
259
110
9
8
6
7
7.00 a 8.00
8.01 a 9.00
9.01 a 10.00
10.01 a 11.00
Solucin
La estimacin puntual de la media de extracciones diaria ser:
p = x1 + x 2 + x 3 + x 4
56 + 221 + 259 + 110 = 646

Por tratarse de grupos independientes, la estimacin de la desviacin tpica diaria ser:
p2 = s12 + s 22 + s 32 + s 42
9 2 + 8 2 + 6 2 + 7 2 = 230
p =
p2 = 15,166
Por la acotacin de Tchebychev se tiene que
1
= 0,80
k2
1
k =
= 2, 236
0, 20
Por tanto, el intervalo de pacientes que acudir al servicio de extracciones, con una probabilidad mayor
del 80 %, ser:
Pr x ( p k p , + k p ) 0,80
Pr ( x ( 646 2, 236 15,166 , 646 + 2, 236 15,166 ) ) 0,80

Pr ( x ( 612 , 680 ) ) 0,80
Es decir, el responsable de las extracciones del Laboratorio puede esperar recibir cada da entre 612 y 680
pacientes, con una alta (80 %) probabilidad.
Curso de estadstica
Vol. 2, nm. 5, Pg. 12
2. Si a cada uno de los pacientes del problema anterior se le practica una media de m = 14,3
determinaciones diferentes, cul ser la productividad del Laboratorio (expresada como un intervalo
del nmero de determinaciones diarias) con una seguridad no inferior al 80 %
Solucin
La estimacin de la media de determinaciones diarias es
d = p m
d = 646 14,3 = 9237,8

Es decir, el laboratorio puede esperar, con una probabilidad del 80 %, realizar unas 9238 determinaciones
diarias. La desviacin tpica ser:
d2 = p2 m 2
d2 = 230 204, 49 = 47032, 7
d = 216,87
Por tanto, el intervalo de determinaciones que realizar el laboratorio, una probabilidad no inferior al 80
%, ser:
Pr d ( d k d , d + k d ) 0,80
Pr ( d ( 9237,8 2, 236 216,87 , 9237,8 + 2, 236 216,87 ) ) 0,80

Pr ( d ( 8752,9 , 9722, 7 ) ) 0,80
Es decir, el responsable de operaciones del Laboratorio puede esperar realizar cada da entre 8753 y 9723
determinaciones, con una alta (80 %) probabilidad.
Comentarios
Para resolver este problema deben utilizarse los conceptos de esperanza matemtica (media o valor
esperado) de una variable aleatoria continua y de desigualdad de Tchebychev2. La desigualdad de
Tchebychev permite establecer una acotacin inferior a la probabilidad de que el valor de una variable
aleatoria continua de varianza no infinita est a cierta distancia de la media, y una acotacin superior a la
probabilidad de que caiga fuera de esta distancia respecto de la media. Para demostrar la desigualdad de
Tchebychev se debe previamente conocer el teorema de la desigualdad de Markov3.
Conceptos previos
Variable aleatoria es una funcin X que relaciona cada elemento s de un espacio muestral asociado
a un experimento E , ( s ) , un nmero real x s .
Variable aleatoria continua es la variable aleatoria X que adquiere un nmero infinito, no numerable,
de posibles valores.
Funcin densidad de probabilidad de una variable aleatoria continua X es una funcin f ( x ) que
verifica las siguientes propiedades:
(a) f ( x ) 0
(b)
f ( x) d x = 1
Funcin distribucin de una variable aleatoria continua X es una funcin F ( x ) que asigna a todo
nmero real x la probabilidad de que X sea igual o menor que x :
2
En honor al matemtico ruso Pafnuty Lvovich Tchebychev (o Chebyshev) (1821-1894). Ocasionalmente se denomina desigualdad o
acotacin de Bienaym-Tchebychev, asociando el nombre de su amigo, traductor y colega francs Irnne-Jules Bienaym (Pars,
1796-1878)
3
En honor al matemtico ruso Andrei Andreyevich Markov (1856-1922).
Curso de estadstica
Vol. 2, nm. 5, Pg. 13

F ( x ) = Pr ( X x ) =
f (t ) d t
que verifica las siguientes propiedades:

(a) F ( ) = lim F ( x ) = 0
x
(b) F ( + ) = lim F ( x ) = 1
x+
(c) F ( x ) es una funcin no decreciente

(d) Pr ( a X b ) = F ( b ) F ( a )
(e) Si F ( x ) es derivable, entonces f ( x ) =
d F ( x)
dx
Esperanza matemtica (valor esperado, media aritmtica) de una variable aleatoria continua X cuya
funcin densidad de probabilidad f ( x ) es:
E( X ) = =
x f ( x) d x
que verifica, entre otras, las siguientes propiedades:

(a) la esperanza matemtica de la suma de dos o ms funciones de una variable aleatoria es la suma de
los valores esperados de las funciones:
E ( f ( X ) g ( X ) h ( X )) = E ( f ( X )) + E ( g ( X )) + E ( h ( X ))
(a) la esperanza matemtica de una constante es esta constante
E(k ) = k
(b) la esperanza matemtica del producto de una constante por los valores de variable es igual al
producto de esta constante por la esperanza de los valores de la variable:
E ( k f ( X )) = k E ( f ( X ))
si la variable aleatoria continua se expresa mediante otra funcin: Y = g ( X ) , se puede expresar la

esperanza matemtica de Y utilizando X :
E (Y ) = = E ( g ( X ) ) =
g ( x) f ( x) d x
y h( y) d y
Momento centrado de segundo orden de la variable aleatoria continua X o varianza, var ( X ) , es:
var ( X ) = E x E ( X )
)=
(x)
f ( x) d x
Teorema y desigualdad de Markov

Dada una variable aleatoria continua X cuya funcin densidad de probabilidad es f ( x ) y una funcin no
negativa de esta variable g ( x ) sea cual sea el valor de x (esto se expresa formalmente como
g ( x ) 0 x ), se verifica, para cualquier valor k , que la probabilidad de que el valor de g ( x ) sea

igual o mayor a k es inferior a 1
del valor medio de X :
Pr ( g ( x ) k )
1
E ( g ( x ))
k
Curso de estadstica
Vol. 2, nm. 5, Pg. 14
Demostracin
Supngase que la funcin g ( x ) es la siguiente:
g(x)
Y se define un valor k , e modo que los valores de g ( x ) k definen un dominio W definido por la zona
sombreada:
g(x)
W
La esperanza matemtica de la funcin g ( x ) es, segn se vio anteriormente:
E ( g ( x )) =
y la del dominio W :
E (W ) =
Es evidente que:
g ( x) f ( x) d x
g ( x) f ( x) d x
W
E ( g ( x ) ) E (W )
Teniendo
presente
la
g ( x) f ( x) d x
propiedad
de
la
g ( x) f ( x) d x
funcin
de
distribucin
mencionada
anteriormente
f ( x ) d x = 1 y la definicin del dominio W como aquellos valores de la distribucin que superan a
f ( x ) d x = Pr ( g ( x ) k ) , resulta
E ( g ( x )) = g ( x ) f ( x ) d x g ( x ) f ( x ) d x
k , es decir
k f ( x) d x k f ( x) d x
W
k Pr ( g ( x ) k )
Curso de estadstica
Vol. 2, nm. 5, Pg. 15
Es decir,
Pr ( g ( x ) k )
y de forma simtrica, su complementario:
1
E ( g ( x ))
k
Pr ( g ( x ) < k ) 1
E ( g ( x ))
k
expresin que se conoce como desigualdad de Markov.
Desigualdad de Tchebychev
Se demuestra a partir del resultado del teorema de Markov. Se define
(a) la variable aleatoria
g ( x ) = ( x E ( x )) = ( x )
2
que obviamente satisface la condicin del teorema de Markov de ser una funcin no negativa; y
(c) la constante k
x2
para expresar la desigualdad de Markov descrita anteriormente:
Pr ( x ) < k
La expresin E
2
x
) 1
E (x)
k 2 x2
(( x ) ) se ha definido antes como el segundo momento centrado de la distribucin de

2
la variable aleatoria continua:
E (x)
y por tanto:
E (x)
Por tanto quedar:
k 2 x2
)=
2
x
x2
1
= 1 2 2 = 1 2
k x
k
Pr ( x ) < k 2 x2 1
2
o:
Pr ( ( x ) < k x ) 1
expresin que se denomina desigualdad de Tchebychev.
Ms operativas son las expresiones siguientes:
1
k2
1
k2
Pr ( x < k x2 ) = Pr ( k x2 < x < k x2 ) =

Pr ( k x2 < x < + k x2 )
=
2
2
Pr ( x k x < < x + k x )
La primera de estas dos ltimas expresiones representa la acotacin mnima para la probabilidad de que la
variable ase encuentra dentro de los valores de un intervalo centrado en la media, y la segunda la
probabilidad mnima de que la media se encuentre dentro de un intervalo centrado.
Esta expresin es la que se ha utilizado para resolver el problema. Es importante para poder realizar
inferencias sobre la media de la poblacin de una variable aleatoria continua de varianza
cuando se desconoce su distribucin
x2 conocida,
Curso de estadstica
Vol. 2, nm. 5, Pg. 16
Conclusin
La media y la varianza de una muestra extrada de una poblacin de distribucin desconocida permiten
obtener un intervalo alrededor de la media que contiene una fraccin de las observaciones, exactamente
un 100 1 1
k2
%. Resultado que permite objetivar la intuicin de que las observaciones ms alejadas
de la media son menos probables de aparecer. Adems permite establecer de modo cuantitativo una
acotacin de esta probabilidad.
Cuestin adicional
Es posible utilizar la desigualdad de Tchebychev para disear una prueba de deteccin de datos
extremos?
Introduccin a
: Regresin en R (1)
Es posible que R no sea el programa informtico de estadstica ms sencillo de utilizar pero no cabe duda
que es uno de los ms potentes y econmico. Tambin en lo que hace referencia al anlisis estadstico de
dos variables ofrece numerosas posibilidades.
Funciones lm( ) y glm( )

Las funciones bsicas para el clculo de los coeficientes de regresin en R son lm( ) que corresponde a
linear model y glm( ) que corresponde a generalized linear model. Su sintaxis incluye los siguientes
argumentos (con los valores por defecto) es:
glm(formula, family = gaussian, data, weights, subset, na.action, start = NULL,
etastart, mustart, offset, control = glm.control(...), model = TRUE, method =
"glm.fit", x = FALSE, y = TRUE, contrasts = NULL, ...)
Los principales argumentos u opciones que se requieren son:
data
family
formula
method
na.action
Marco de datos (data frame) opcional que contiene las variables del modelo. Si stas
no estn en data, R las tomar de environment(formula), que habitualmente
es el entorno donde se est realizando el procedimiento glm
Descripcin de la distribucin del error y funcin de enlace que se desea usar en el
modelo. Puede ser referido como un vector de caracteres, una funcin o el resultado de
llamar a una funcin de familia
Para realizar diferentes tipos de regresin en R, la sintaxis ser:
logstica
family = binomial
de Poisson
family = poisson
normal
family = gaussian
gamma
family = Gamma
normal inversa
family = inverse.gaussian
Objeto de la clase "formula": descripcin simblica del modelo a ajustar.
Mtodo de ajuste. Por defecto (glm.fit) utiliza el procedimiento de los mnimos
cuadrados compensado iterativamente (IWLS, iteratively reweighted least squares4). Por
ahora slo existe la alternativa model.frame que no realiza realizar ajuste
este argumento permite diferentes opciones para tratar los datos ausentes (NAs). Por
defecto utiliza el valor na.omit ( ) Si se omite este argumento, R toma
el valor que el usuario fij (si lo hizo) en options (por defecto, na.fail).
Otros valores posibles son: NULL (no hacer nada), o na.exclude.
4
Se trata de un algoritmo robusto, esto es, resistente a la presencia moderada- de elementos extremos. Pueden obtenerse ms
detalles en http://sepwww.stanford.edu/public/docs/sep103/antoine2/paper_html/index.html
Curso de estadstica
subset
...
weights
Vol. 2, nm. 5, Pg. 17
vector opcional que especifica un subconjunto de observaciones a ser utilizadas en el

ajuste
argumentos proporcionados por, o para, otra funcin
vector numrico (o NULL) opcional de ponderaciones que puede ser utilizado en el
proceso de ajuste
Ejemplo de utilizacin
1. Datos
Supngase los datos (simulados) que se han utilizado anteriormente:
Curso de estadstica
Vol. 2, nm. 5, Pg. 18
Para revertir el proceso se utilizar la funcin dettach( ) que libera el archivo de su condicin de
defecto.
3. Regresin
Para calcular los parmetros de la regresin se utiliza la funcin lm( ) (modelo lineal):
que proporciona el resultado siguiente
De hecho es un caso particular del moelo lineal generalizado que se obtiene mediante la funcin glm( ):
o, simplemente:
que produce un resultado ms completo:
4. Almacenamiento del resultado

Estos resultados se presentan de forma efmera. Con seguridad se desear tenerlos almacenados en algn
sitio para no tener que reproducir continuamente dicho clculo. Para ello basta con asignarle un objeto:
o
Mediante esta instruccin, se ha asignado al objeto lm.lineal o glm.lineal el resultado de calcular la
regresin de FAL sobre GGT. Observese que no se produce ninguna salida. Para visualizar el resultado
debe pedirse
o
O, simplemente,
Obtenindose los respectivos resultados anteriores.
El haber creado el objeto gml.lineal tiene utilidades adicionales:
5. Informacin adicional
La funcin summary( ) (ateriormente aplicada a una variable, FAL, proporcionaba un resumen descriptivo
de FAL), cuando se aplica a un objeto de esta clase:
Curso de estadstica
Vol. 2, nm. 5, Pg. 19
A su vez, aplicandola al resultado del modelo general

proporciona la informacin adicional sobre la regresin:
6. Residuales
An se puede sacar ms partido a esta clase de objetos, por ejemplo, en el estudio de los residuales.
Aplicando la funcin residuals( ) se obtienen los residuales:
que produce la siguiente presentacin de resultados:
Lgicamente este resultado es idntico al obtenido en el modelo generalizado:
Obviamente de trata de una presentacin poco informativa: unicamente el residual debajo del nmero de
observacin correspondiente en la lista de datos. Sin embargo, esta informacin (tambin efmera) puede
reconvertirse en un objeto (en este caso una variable) de la misma forma que la salida de la funcin glm( )
se haba convertido en el objeto glm.lineal:
o para hacerlo ms sencillo,
Curso de estadstica
Vol. 2, nm. 5, Pg. 20
La variable res puede ser entonces sujeto de diversas funciones como por ejemplo un grfico de dispersin
o
-10
-5
res
10
15
que producen el siguiente diagrama:
10
15
20
25
Index
Un diagrama de cajas se puede obtener con las funciones:
-10
-5
10
15
O un histograma, con:
o
4
3
2
1
0
Frequency
Histogram of res
-15
-10
-5
0
res
10
15
Curso de estadstica
Vol. 2, nm. 5, Pg. 21
7. Valores ajustados
La funcin fitted.values() aplicada a la salida de glm( ), en el ejemplo glm.lineal, permite
hallar los valores ajustados por la regresin, y que ahora ya se almacenern en una nueva variable, por
ejemplo, de nombre pred:
que contienen tales valores:
-10
-5
res
10
15
Esta nueva variable permitir, por ejemplo dibujar un diagrama de dispersin de los valores residuales
frente a los ajustados, informativo acerca de la linearidad y heteroscedasticidad de las distribuciones o de
la presencia de valores extremos:
59.25
59.30
59.35
59.40
pred
8. Consideraciones finales
No hay que olvidar que R es en realida un lenguaje de programacin y el resultado de la funcin glm es
ms que un resultado de clculo (de ah el nombre objeto) sino el conjunto de varios subojetos que a
su vez pueden ser operados. Por ejemplo, el primer elemento del objeto glm.linear es otro objeto que
contiene los coeficientes de regresin que peueden ser presentados de forma convencional:
Y si slo se desea referenciar, por ejemplo, la interceptacin de la ordenada:
o la pendiente:
Informacin que, a su vez, puede ser introducida en una variable que a su vez puede ser sujeta a clculos
como cualquier otro valor en R:

Urso de Estadística: Guía de Estudio. 6. Estadística Aplicada (I) La Calidad Analítica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Urso de Estadística: Guía de Estudio. 6. Estadística Aplicada (I) La Calidad Analítica

Caricato da

Copyright:

Formati disponibili

C URSO

E Gua de estudio. 6. Estadstica aplicada (I) La

Estadstica descriptiva: diagramas.

Necesidad de la poltica de la calidad en el

Estadstica descriptiva aplicable: grficos de

La bibliografa manejada para el estudio de la

Validacin de mtodos analticos

Vol. 2, nm. 5, Pg. 2

Analizar, calcular e interpretar, mediante

Bibliografa acerca de la validacin de

Vol. 2, nm. 5, Pg. 4

Vol. 2, nm. 5, Pg. 4

Vol. 2, nm. 5, Pg. 5

 ANALISIS DATOS CUALITATIVOS

 ANALISIS DATOS CUALITATIVOS ejercicios resueltos

 ANALISIS DATOS CUALITATIVOS notas

 BONDAD DE AJUSTE notas

 CONTRASTES VAR CUANTITATIVAS ejercicios

 ESTADISTICA INFERENCIAL ejercicios propuestos

 ESTADISTICA ROBUSTA notas

 TAMAO MUESTRAL ejercicios propuestos

Matemtico, fsico y estadstico ingls reconocido

Vol. 2, nm. 5, Pg. 6

Vol. 2, nm. 5, Pg. 7

Tests de significacin para

Vol. 2, nm. 5, Pg. 8

Este estadstico seguir una distribucin t de

Vol. 2, nm. 5, Pg. 11

56 + 221 + 259 + 110 = 646

Por la acotacin de Tchebychev se tiene que

Pr ( x ( 646 2, 236 15,166 , 646 + 2, 236 15,166 ) ) 0,80

Vol. 2, nm. 5, Pg. 10

Decisin: nivel de significacin

Ya que el valor crtico

superior al valor hallado, no se rechaza la

-62,5058 1062,8188 638,2400

Vol. 2, nm. 5, Pg. 11

56 + 221 + 259 + 110 = 646

Por la acotacin de Tchebychev se tiene que

Pr ( x ( 646 2, 236 15,166 , 646 + 2, 236 15,166 ) ) 0,80

Vol. 2, nm. 5, Pg. 12

d = 646 14,3 = 9237,8

Pr ( d ( 9237,8 2, 236 216,87 , 9237,8 + 2, 236 216,87 ) ) 0,80

a un experimento E , ( s ) , un nmero real x s .

Vol. 2, nm. 5, Pg. 13

que verifica las siguientes propiedades:

(c) F ( x ) es una funcin no decreciente

que verifica, entre otras, las siguientes propiedades:

(a) la esperanza matemtica de una constante es esta constante

si la variable aleatoria continua se expresa mediante otra funcin: Y = g ( X ) , se puede expresar la

Teorema y desigualdad de Markov

g ( x ) 0 x ), se verifica, para cualquier valor k , que la probabilidad de que el valor de g ( x ) sea

del valor medio de X :

Vol. 2, nm. 5, Pg. 14

La esperanza matemtica de la funcin g ( x ) es, segn se vio anteriormente:

f ( x ) d x = 1 y la definicin del dominio W como aquellos valores de la distribucin que superan a

Vol. 2, nm. 5, Pg. 15

expresin que se conoce como desigualdad de Markov.

para expresar la desigualdad de Markov descrita anteriormente:

(( x ) ) se ha definido antes como el segundo momento centrado de la distribucin de

la variable aleatoria continua:

Por tanto quedar:

Pr ( x < k x2 ) = Pr ( k x2 < x < k x2 ) =

ANALISIS DATOS CUALITATIVOS

ANALISIS DATOS CUALITATIVOS ejercicios resueltos

ANALISIS DATOS CUALITATIVOS notas

BONDAD DE AJUSTE notas

CONTRASTES VAR CUANTITATIVAS ejercicios

ESTADISTICA INFERENCIAL ejercicios propuestos

ESTADISTICA ROBUSTA notas

TAMAO MUESTRAL ejercicios propuestos