Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
M a yo , 20 0 8
Vo lum en 2 , Nmero 5
DE
ESTADSTICA
Sociedad Espaola Sociedad Espaola de Bioqumica Clnica y Patologa Molecular (SEQC),
Calle Padilla 268, despacho 68, 08025-Barcelona, http://www.seqc.es
Introduccin a
Bibliografa
: Regresin en R (1)
16
Gua de estudio. 6.
Estadstica aplicada
(I) La calidad analtica
En el contexto general del laboratorio clnico, la
calidad ha sido y ser cada vez ms un item
primordial. El contenido estadstico es, no
obstante, poco complejo: la estadstica
descriptiva ha sido siempre una pieza
emblemtica y la estadstica inferencia se limita
a sencillos problemas de evaluacin de medidas
de centralizacin y dispersin.
Sin embargo destacan dos aspectos concretos: la
validacin y la comparacin de mtodos
analticos tienen en el laboratorio clnico una
larga tradicin y extensa literatura, por lo que se
comentarn
a
continuacin
de
forma
independiente.
Conocimientos previos
de
Contenidos
Curso de estadstica
y juzgar si es aceptable la incertidumbre que
acompaa a toda medicin. Incertidumbre en la
medicin y trazabilidad son dos conceptos que
acompaan a la validacin.
En el contexto de la gestin de la calidad,
cuando se pretende un servicio de excelencia, la
validacin de los mtodos analticos constituye
una pieza clave en los procesos de certificacin
y, especialmente, de acreditacin. Cuando el
mtodo analtico se requiere adems, con
finalidad oficial (formando parte de la
documentacin para registrar un medicamento)
forense, etc. su validacin est regulada por
estrictas normas de procedimiento.
W.A. Wallis defini la estadstica como una
coleccin de mtodos para realizar decisiones
inteligentes cuando se afronta una situacin
incierta. La utilizacin de conceptos y
procedimientos estadsticos para la validacin de
mtodos analticos est justificada desde el
momento que se admite la necesidad de tratar
con incertidumbre en las observaciones. Esta
parte est estrechamente relacionada adems
con el diseo experimental, el anlisis
multivariado y los procedimientos estadsticos de
control de la calidad.
Objetivos
Al terminar esta parte del curso, los
participantes deben ser capaces de
Definir errores mdicamente aceptables
describir
las
prestaciones
y
caractersticas claves de los mtodos
analticos, estimando el tamao del error
analtico de un mtodo.
Distinguir entre cualificacin, validacin,
revalidacin y verificacin de un
procedimiento analtico.
Juzgar la aceptabilidad de un mtodo en
base a los errores observados.
Definir la calidad requerida para una
prueba de laboratorio.
Definir los requisitos de un mtodo
analtico, de acuerdo con las normas y
procedimientos estndar internacionales.
Comprender claramente los parmetros
de validacin y sus definiciones.
Identificar factores significativos para
que los resultados sean vlidos.
Identificar los requisitos reguladores y de
acreditacin para evaluar un mtodo.
Describir el proceso de validacin de un
mtodo analtico.
Disear,
planificar
organizar
y
seleccionar un estudio de validacin de
un mtodo.
Estimar el tamao muestral.
Recoger la cantidad de datos necesaria
para cada experimento.
Contenidos
Necesidad de la validacin
Caractersticas claves del rendimiento de un
procedimiento analtico
Diseo de un estudio de validacin
Utilizacin de los datos del comparaciones
interlaboratorios laboratorio en la validacin
del procedimiento analtico
Utilizacin de los datos obtenidos en la
validacin de un procedimiento analtico
La incertidumbre de los procedimientos
analticos
Determinacin de la selectividad
Determinacin de la sensibilidad
Determinacin de la linealidad y del intervalo
dinmico
Determinacin de la detectabilidad: lmites de
deteccin y de cuantificacin
Determinacin de la imprecisin
Determinacin de la inexactitud
Robustez (rutgeness, robustness) y adecuacin
(suitability)
Curso de estadstica
critical investigation of its practice. Clin Chem.
2002;48(5):799-801;
author
reply
801-2.
http://www.clinchem.org/cgi/reprint/48/5/799
Krouwer JS. Setting performance goals and
evaluating total analytical error for diagnostic
assays. Clin Chem. 2002;48(6 Pt 1):919-27.
http://www.clinchem.org/cgi/reprint/48/6/919
Linnet K. Necessary sample size for method
comparison studies based on regression analysis.
Clin
Chem.
1999;45(6
Pt
1):882-94.
http://www.clinchem.org/cgi/reprint/45/6/882
Linnet K. Limitations of the paired t-test for
evaluation of method comparison data. Clin
Chem.
1999;45(2):314-5.
http://www.clinchem.org/cgi/reprint/45/2/314
Marquis P. Comparison of analytical methods in
Clinical
Chemistry.
http://www.multiqc.com/MethodComparison.pd
f
Martin RF. General deming regression for
estimating systematic bias and its confidence
interval in method-comparison studies. Clin
Chem.
2000;46(1):100-4.
http://www.clinchem.org/cgi/reprint/46/1/100
Mazzo DJ, Connolly M. Analytical method
comparison based upon statistical power
calculations. Pharm Res. 1992;9(5):601-6.
Parvin CA. A direct comparison of two slopeestimation techniques used in methodcomparison studies. Clin Chem. 1984;30(5):7514.
http://www.clinchem.org/cgi/reprint/30/5/751.
pdf
Petersen PH, Stockl D, Blaabjerg O, Pedersen B,
Birkemose E, Thienpont L, et al. Graphical
interpretation
of
analytical
data
from
comparison of a field method with reference
method by use of difference plots. Clin Chem.
1997;43(11):2039-46.
http://www.clinchem.org/cgi/reprint/43/11/20
39
Stockl D, Dewitte K, Thienpont LM. Validity of
linear regression in method comparison studies:
is it limited by the statistical model or the
quality of the analytical input data? Clin Chem.
1998;44(11):2340-6.
http://www.clinchem.org/cgi/reprint/44/11/23
40
Westgard JO. Points of care in using statistics in
method comparison studies. Clin Chem.
1998;44(11):2240-2.
http://www.clinchem.org/cgi/reprint/44/11/22
40
Westgard JO. Use and interpretation of common
statistical tests in method comparison studies.
Clin
Chem.
2008;54(3):612.
http://www.clinchem.org/cgi/reprint/54/3/612
Curso de estadstica
critical investigation of its practice. Clin Chem.
2002;48(5):799-801;
author
reply
801-2.
http://www.clinchem.org/cgi/reprint/48/5/799
Krouwer JS. Setting performance goals and
evaluating total analytical error for diagnostic
assays. Clin Chem. 2002;48(6 Pt 1):919-27.
http://www.clinchem.org/cgi/reprint/48/6/919
Linnet K. Necessary sample size for method
comparison studies based on regression analysis.
Clin
Chem.
1999;45(6
Pt
1):882-94.
http://www.clinchem.org/cgi/reprint/45/6/882
Linnet K. Limitations of the paired t-test for
evaluation of method comparison data. Clin
Chem.
1999;45(2):314-5.
http://www.clinchem.org/cgi/reprint/45/2/314
Marquis P. Comparison of analytical methods in
Clinical
Chemistry.
http://www.multiqc.com/MethodComparison.pd
f
Martin RF. General deming regression for
estimating systematic bias and its confidence
interval in method-comparison studies. Clin
Chem.
2000;46(1):100-4.
http://www.clinchem.org/cgi/reprint/46/1/100
Mazzo DJ, Connolly M. Analytical method
comparison based upon statistical power
calculations. Pharm Res. 1992;9(5):601-6.
Parvin CA. A direct comparison of two slopeestimation techniques used in methodcomparison studies. Clin Chem. 1984;30(5):7514.
http://www.clinchem.org/cgi/reprint/30/5/751.
pdf
Petersen PH, Stockl D, Blaabjerg O, Pedersen B,
Birkemose E, Thienpont L, et al. Graphical
interpretation
of
analytical
data
from
comparison of a field method with reference
method by use of difference plots. Clin Chem.
1997;43(11):2039-46.
http://www.clinchem.org/cgi/reprint/43/11/20
39
Stockl D, Dewitte K, Thienpont LM. Validity of
linear regression in method comparison studies:
is it limited by the statistical model or the
quality of the analytical input data? Clin Chem.
1998;44(11):2340-6.
http://www.clinchem.org/cgi/reprint/44/11/23
40
Westgard JO. Points of care in using statistics in
method comparison studies. Clin Chem.
1998;44(11):2240-2.
http://www.clinchem.org/cgi/reprint/44/11/22
40
Westgard JO. Use and interpretation of common
statistical tests in method comparison studies.
Clin
Chem.
2008;54(3):612.
http://www.clinchem.org/cgi/reprint/54/3/612
Curso de estadstica
MODULO 1
MODULO 2
MODULO 3
MODULO 4
ANOVA
ANOVA notas
BONDAD DE AJUSTE
CONTRASTES VARIABLES
CUANTITATIVAS
ESTADISTICA INFERENCIAL
ESTADISTICA ROBUSTA
MUESTREO
MUESTREO BIBLIOGRAFIA
PRESENTACIONES
ANOVA presentacin
ESTADISTICA NO PARAMETRICA presentacin
INFERENCIA presentacin
MUESTREO presentacin
REGRESION Y CORRELACION presentacin
TAMAO MUESTRAL presentacin
SPSS
SPSS
SPSS ANOVA
SPSS INFERENCIA
TAMAO MUESTRAL
Curso de estadstica
Nombres propios:
Harold Jeffreys (1891-1989)
Curso de estadstica
to unknown parameters. Proc Royal Soci,
1933; 139: 343-8.
Jeffreys H. Probability, statistics, and the
theory of errors. Proc Royal Soc A, 1933;
140: 523-35.
Fisher RA. Probability, likelihood and the
quantity of information in the logic of
uncertain inference, Proc Royal Soc A, 1934;
146: 1-8.
Jeffreys H. Probability and scientific method,
Proc Royal Soci A, 1934; 146: 9-16.
Aunque en Cambridge coincidi con conocidos
filsofos especialistas en lgica, como J. M.
Keynes, no est probado que les tratara
asiduamente. Lo que si parece cierto es una
cierta influencia de Jeffreys sobre A. Turing,
como parece dedurcirse del pensamiento de este
limo.
Bibliografa
Aldrich J. The statistical education of Harold
Jeffreys. Int Stat Rev, 2005; 73: 289-308.
Bolt BA. Sir Harold Jeffreys and geophysical
inverse problems. Chance, 1991; 4: 15-7.
Brush SG. Discovery of the earths core. Am J
Phys, 1980; 48: 705-24.
Cook AH. Sir Harold Jeffreys, biographical
memoirs of fellows of the Royal Society. 1991;
37: 303-31.
Geisser S. The contributions of Sir Harold
Jeffreys to bayesian inference. En: Zellner A,
ed.: Bayesian analysis in econometrics and
statistics: Essays in honor of Harold Jeffreys.
Amsterdam: North-Holland. 1980, 13-20.
Good IJ. The contributions of Jeffreys to
bayesian statistics. En: Zellner A, ed.: Bayesian
analysis in econometrics and statistics: Essays in
honor of Harold Jeffreys. Amsterdam: NorthHolland. 1980, 21-34.
Howie D. Interpreting probability: controversies
and developments in the early twentieth
century, New York: Cambridge University Press,
2002.
Lapwood ER. Contributions of Sir Harold Jeffreys
to theoretical geophysics. Math. Scien, 1982; 7:
69-84.
Lindley DV. Jeffreys's contribution to modern
statistical thought. En: Zellner A, ed.: Bayesian
analysis in econometrics and statistics: essays in
honor of Harold Jeffreys. Amsterdam: NorthHolland. 1980: 35-40.
Lindley DV. Sir Harold Jeffreys. Encyclopedia of
biostatistics. Vol. 3. Chichester: Wiley. 1998:
2124-5.
Lindley DV. Sir Harold Jeffreys. Chance, 1991; 4:
10-14 , 21.
Swirles B, Lady Jeffreys. Harold Jeffreys: some
reminiscences. Chance, 1991; 4; 22-6.
Limitaciones
Las variables X y Y cuyos valores muestrales
( x , y ) originan el coeficiente de correlacin r
poseen una distribucin bivariada normal y la
relacin ente ambas es lineal.
Hiptesis
Las hiptesis nulas y alternativas son:
H 0 : r = 0
H1: r 0
Sea una muestra de tamao n de valores
{( x , y ) , ( x
1
, y 2 ) , , ( x n , y n )
Procedimiento
Sea una muestra de tamao n de valores
{( x , y ) , ( x
, y 2 ) , , ( x n , y n )
El coeficiente de correlacin r se estima como:
1
Curso de estadstica
n
r =
(y
x)
( y
i =1
( x
i =1
y)
n
i =1
y)
donde:
n
x =
x
i =1
n
n
y =
y
i =1
Estadstico
El estadstico a calcular es,
t =
r
1 r 2
n2
Curso de estadstica
Problemas
1. El servicio de extracciones a pacientes externos de un Laboratorio est organizado de modo que se
cita a dichos pacientes para un da determinado dejando a su eleccin la hora en que deben
presentarse. El responsable de esta rea ha anotado el nmero de pacientes que acude cada hora en
que se presta el servicio. El resultado de estas observaciones se resume en la tabla I.
Se supone que el nmero de pacientes que acude en las diferentes horas es mutuamente
independiente y que se desconoce la forma en que se distribuyen tales cantidades.
El responsable del Laboratorio desea obtener una estimacin del nmero de extracciones que se
realiza al da con un margen de confianza no inferior al 80 %.
media
desviacin tpica
56
221
259
110
9
8
6
7
7.00 a 8.00
8.01 a 9.00
9.01 a 10.00
10.01 a 11.00
Solucin
La estimacin puntual de la media de extracciones diaria ser:
p = x1 + x 2 + x 3 + x 4
p2 = s12 + s 22 + s 32 + s 42
9 2 + 8 2 + 6 2 + 7 2 = 230
p =
p2 = 15,166
1
= 0,80
k2
1
k =
= 2, 236
0, 20
Por tanto, el intervalo de pacientes que acudir al servicio de extracciones, con una probabilidad mayor
del 80 %, ser:
Pr x ( p k p , + k p ) 0,80
Curso de estadstica
Hospital 1
27
0, 65
n
r
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Hospital 2
24
0, 74
1 + 0, 65
1 + 0, 74
Z ln
= 1,551 ln
= 1,901
1 0, 65
1 0, 74
z=
23
n-2
1483,2
suma
59,3
media
-0,076
r
-0,365
t
t crtica 1,714
15
24
12
22
17
21
19
13
15
13
16
9
21
25
19
22
15
14
13
25
26
21
25
14
27
463
18,5
-8,96
4,25
7,28
5,22
-6,63
1,93
-10,13
9,37
-7,23
-0,57
4,45
-0,54
0,94
-6,15
-4,51
7,15
-6,12
-2,51
-2,28
9,95
-2,83
4,50
-5,09
14,86
-6,35
1,551 1,901
= 1,17
0, 299
z ( 0, 05 ) =1,96 es
Y
X
GGT- media edad-media
GGT edad
50,4
63,6
66,6
64,6
52,7
61,3
49,2
68,7
52,1
58,8
63,8
58,8
60,3
53,2
54,8
66,5
53,2
56,8
57,0
69,3
56,5
63,8
54,2
74,2
53,0
1
1
+
= 0, 299
27 3 24 3
-3,52
5,48
-6,52
3,48
-1,52
2,48
0,48
-5,52
-3,52
-5,52
-2,52
-9,52
2,48
6,48
0,48
3,48
-3,52
-4,52
-5,52
6,48
7,48
2,48
6,48
-4,52
8,48
(GGT-media) x
(edad-media)
31,538
23,277
-47,477
18,181
10,082
4,788
-4,861
-51,715
25,464
3,163
-11,210
5,161
2,335
-39,865
-2,163
24,896
21,543
11,341
12,571
64,453
-21,182
11,170
-32,988
-67,159
-53,850
(GGT(edadmedia)2 media)2
80,274
18,043
53,024
27,294
43,998
3,727
102,549
87,772
52,331
0,328
19,790
0,294
0,886
37,847
20,300
51,181
37,457
6,296
5,187
98,931
8,019
20,286
25,916
220,764
40,326
12,390
30,030
42,510
12,110
2,310
6,150
0,230
30,470
12,390
30,470
6,350
90,630
6,150
41,990
0,230
12,110
12,390
20,430
30,470
41,990
55,950
6,150
41,990
20,430
71,910
Curso de estadstica
Problemas
1. El servicio de extracciones a pacientes externos de un Laboratorio est organizado de modo que se
cita a dichos pacientes para un da determinado dejando a su eleccin la hora en que deben
presentarse. El responsable de esta rea ha anotado el nmero de pacientes que acude cada hora en
que se presta el servicio. El resultado de estas observaciones se resume en la tabla I.
Se supone que el nmero de pacientes que acude en las diferentes horas es mutuamente
independiente y que se desconoce la forma en que se distribuyen tales cantidades.
El responsable del Laboratorio desea obtener una estimacin del nmero de extracciones que se
realiza al da con un margen de confianza no inferior al 80 %.
media
desviacin tpica
56
221
259
110
9
8
6
7
7.00 a 8.00
8.01 a 9.00
9.01 a 10.00
10.01 a 11.00
Solucin
La estimacin puntual de la media de extracciones diaria ser:
p = x1 + x 2 + x 3 + x 4
p2 = s12 + s 22 + s 32 + s 42
9 2 + 8 2 + 6 2 + 7 2 = 230
p =
p2 = 15,166
1
= 0,80
k2
1
k =
= 2, 236
0, 20
Por tanto, el intervalo de pacientes que acudir al servicio de extracciones, con una probabilidad mayor
del 80 %, ser:
Pr x ( p k p , + k p ) 0,80
Curso de estadstica
2. Si a cada uno de los pacientes del problema anterior se le practica una media de m = 14,3
determinaciones diferentes, cul ser la productividad del Laboratorio (expresada como un intervalo
del nmero de determinaciones diarias) con una seguridad no inferior al 80 %
Solucin
La estimacin de la media de determinaciones diarias es
d = p m
d2 = p2 m 2
d2 = 230 204, 49 = 47032, 7
d = 216,87
Por tanto, el intervalo de determinaciones que realizar el laboratorio, una probabilidad no inferior al 80
%, ser:
Pr d ( d k d , d + k d ) 0,80
Comentarios
Para resolver este problema deben utilizarse los conceptos de esperanza matemtica (media o valor
esperado) de una variable aleatoria continua y de desigualdad de Tchebychev2. La desigualdad de
Tchebychev permite establecer una acotacin inferior a la probabilidad de que el valor de una variable
aleatoria continua de varianza no infinita est a cierta distancia de la media, y una acotacin superior a la
probabilidad de que caiga fuera de esta distancia respecto de la media. Para demostrar la desigualdad de
Tchebychev se debe previamente conocer el teorema de la desigualdad de Markov3.
Conceptos previos
Variable aleatoria es una funcin X que relaciona cada elemento s de un espacio muestral asociado
Variable aleatoria continua es la variable aleatoria X que adquiere un nmero infinito, no numerable,
de posibles valores.
Funcin densidad de probabilidad de una variable aleatoria continua X es una funcin f ( x ) que
verifica las siguientes propiedades:
(a) f ( x ) 0
(b)
f ( x) d x = 1
Funcin distribucin de una variable aleatoria continua X es una funcin F ( x ) que asigna a todo
nmero real x la probabilidad de que X sea igual o menor que x :
2
En honor al matemtico ruso Pafnuty Lvovich Tchebychev (o Chebyshev) (1821-1894). Ocasionalmente se denomina desigualdad o
acotacin de Bienaym-Tchebychev, asociando el nombre de su amigo, traductor y colega francs Irnne-Jules Bienaym (Pars,
1796-1878)
3
En honor al matemtico ruso Andrei Andreyevich Markov (1856-1922).
Curso de estadstica
f (t ) d t
(b) F ( + ) = lim F ( x ) = 1
x+
d F ( x)
dx
Esperanza matemtica (valor esperado, media aritmtica) de una variable aleatoria continua X cuya
funcin densidad de probabilidad f ( x ) es:
E( X ) = =
x f ( x) d x
E ( f ( X ) g ( X ) h ( X )) = E ( f ( X )) + E ( g ( X )) + E ( h ( X ))
E(k ) = k
(b) la esperanza matemtica del producto de una constante por los valores de variable es igual al
producto de esta constante por la esperanza de los valores de la variable:
E ( k f ( X )) = k E ( f ( X ))
E (Y ) = = E ( g ( X ) ) =
g ( x) f ( x) d x
y h( y) d y
Momento centrado de segundo orden de la variable aleatoria continua X o varianza, var ( X ) , es:
var ( X ) = E x E ( X )
)=
(x)
f ( x) d x
Pr ( g ( x ) k )
1
E ( g ( x ))
k
Curso de estadstica
Demostracin
Supngase que la funcin g ( x ) es la siguiente:
g(x)
Y se define un valor k , e modo que los valores de g ( x ) k definen un dominio W definido por la zona
sombreada:
g(x)
W
E ( g ( x )) =
y la del dominio W :
E (W ) =
Es evidente que:
g ( x) f ( x) d x
g ( x) f ( x) d x
W
E ( g ( x ) ) E (W )
Teniendo
presente
la
g ( x) f ( x) d x
propiedad
de
la
g ( x) f ( x) d x
funcin
de
distribucin
mencionada
anteriormente
f ( x ) d x = Pr ( g ( x ) k ) , resulta
E ( g ( x )) = g ( x ) f ( x ) d x g ( x ) f ( x ) d x
k , es decir
k f ( x) d x k f ( x) d x
W
k Pr ( g ( x ) k )
Curso de estadstica
Es decir,
Pr ( g ( x ) k )
y de forma simtrica, su complementario:
1
E ( g ( x ))
k
Pr ( g ( x ) < k ) 1
E ( g ( x ))
k
Desigualdad de Tchebychev
Se demuestra a partir del resultado del teorema de Markov. Se define
(a) la variable aleatoria
g ( x ) = ( x E ( x )) = ( x )
2
que obviamente satisface la condicin del teorema de Markov de ser una funcin no negativa; y
(c) la constante k
x2
Pr ( x ) < k
La expresin E
2
x
) 1
E (x)
k 2 x2
E (x)
y por tanto:
E (x)
k 2 x2
)=
2
x
x2
1
= 1 2 2 = 1 2
k x
k
Pr ( x ) < k 2 x2 1
2
o:
Pr ( ( x ) < k x ) 1
expresin que se denomina desigualdad de Tchebychev.
Ms operativas son las expresiones siguientes:
1
k2
1
k2
=
2
2
Pr ( x k x < < x + k x )
La primera de estas dos ltimas expresiones representa la acotacin mnima para la probabilidad de que la
variable ase encuentra dentro de los valores de un intervalo centrado en la media, y la segunda la
probabilidad mnima de que la media se encuentre dentro de un intervalo centrado.
Esta expresin es la que se ha utilizado para resolver el problema. Es importante para poder realizar
inferencias sobre la media de la poblacin de una variable aleatoria continua de varianza
cuando se desconoce su distribucin
x2 conocida,
Curso de estadstica
Conclusin
La media y la varianza de una muestra extrada de una poblacin de distribucin desconocida permiten
obtener un intervalo alrededor de la media que contiene una fraccin de las observaciones, exactamente
un 100 1 1
k2
de la media son menos probables de aparecer. Adems permite establecer de modo cuantitativo una
acotacin de esta probabilidad.
Cuestin adicional
Es posible utilizar la desigualdad de Tchebychev para disear una prueba de deteccin de datos
extremos?
Introduccin a
: Regresin en R (1)
Es posible que R no sea el programa informtico de estadstica ms sencillo de utilizar pero no cabe duda
que es uno de los ms potentes y econmico. Tambin en lo que hace referencia al anlisis estadstico de
dos variables ofrece numerosas posibilidades.
family
formula
method
na.action
Marco de datos (data frame) opcional que contiene las variables del modelo. Si stas
no estn en data, R las tomar de environment(formula), que habitualmente
es el entorno donde se est realizando el procedimiento glm
Descripcin de la distribucin del error y funcin de enlace que se desea usar en el
modelo. Puede ser referido como un vector de caracteres, una funcin o el resultado de
llamar a una funcin de familia
Para realizar diferentes tipos de regresin en R, la sintaxis ser:
logstica
family = binomial
de Poisson
family = poisson
normal
family = gaussian
gamma
family = Gamma
normal inversa
family = inverse.gaussian
Objeto de la clase "formula": descripcin simblica del modelo a ajustar.
Mtodo de ajuste. Por defecto (glm.fit) utiliza el procedimiento de los mnimos
cuadrados compensado iterativamente (IWLS, iteratively reweighted least squares4). Por
ahora slo existe la alternativa model.frame que no realiza realizar ajuste
este argumento permite diferentes opciones para tratar los datos ausentes (NAs). Por
defecto utiliza el valor na.omit ( ) Si se omite este argumento, R toma
el valor que el usuario fij (si lo hizo) en options (por defecto, na.fail).
Otros valores posibles son: NULL (no hacer nada), o na.exclude.
4
Se trata de un algoritmo robusto, esto es, resistente a la presencia moderada- de elementos extremos. Pueden obtenerse ms
detalles en http://sepwww.stanford.edu/public/docs/sep103/antoine2/paper_html/index.html
Curso de estadstica
subset
...
weights
Ejemplo de utilizacin
1. Datos
Supngase los datos (simulados) que se han utilizado anteriormente:
Curso de estadstica
Para revertir el proceso se utilizar la funcin dettach( ) que libera el archivo de su condicin de
defecto.
3. Regresin
Para calcular los parmetros de la regresin se utiliza la funcin lm( ) (modelo lineal):
que proporciona el resultado siguiente
De hecho es un caso particular del moelo lineal generalizado que se obtiene mediante la funcin glm( ):
o, simplemente:
que produce un resultado ms completo:
5. Informacin adicional
La funcin summary( ) (ateriormente aplicada a una variable, FAL, proporcionaba un resumen descriptivo
de FAL), cuando se aplica a un objeto de esta clase:
Curso de estadstica
6. Residuales
An se puede sacar ms partido a esta clase de objetos, por ejemplo, en el estudio de los residuales.
Aplicando la funcin residuals( ) se obtienen los residuales:
Obviamente de trata de una presentacin poco informativa: unicamente el residual debajo del nmero de
observacin correspondiente en la lista de datos. Sin embargo, esta informacin (tambin efmera) puede
reconvertirse en un objeto (en este caso una variable) de la misma forma que la salida de la funcin glm( )
se haba convertido en el objeto glm.lineal:
o para hacerlo ms sencillo,
Curso de estadstica
La variable res puede ser entonces sujeto de diversas funciones como por ejemplo un grfico de dispersin
o
-10
-5
res
10
15
10
15
20
25
Index
-10
-5
10
15
O un histograma, con:
o
4
3
2
1
0
Frequency
Histogram of res
-15
-10
-5
0
res
10
15
Curso de estadstica
7. Valores ajustados
La funcin fitted.values() aplicada a la salida de glm( ), en el ejemplo glm.lineal, permite
hallar los valores ajustados por la regresin, y que ahora ya se almacenern en una nueva variable, por
ejemplo, de nombre pred:
-10
-5
res
10
15
Esta nueva variable permitir, por ejemplo dibujar un diagrama de dispersin de los valores residuales
frente a los ajustados, informativo acerca de la linearidad y heteroscedasticidad de las distribuciones o de
la presencia de valores extremos:
59.25
59.30
59.35
59.40
pred
8. Consideraciones finales
No hay que olvidar que R es en realida un lenguaje de programacin y el resultado de la funcin glm es
ms que un resultado de clculo (de ah el nombre objeto) sino el conjunto de varios subojetos que a
su vez pueden ser operados. Por ejemplo, el primer elemento del objeto glm.linear es otro objeto que
contiene los coeficientes de regresin que peueden ser presentados de forma convencional:
o la pendiente:
Informacin que, a su vez, puede ser introducida en una variable que a su vez puede ser sujeta a clculos
como cualquier otro valor en R: