Sei sulla pagina 1di 10

TutorialsinQuantitativeMethodsforPsychology

2008,Vol.4(2),p.5160.

IntroducccinalBootstrap.
Desarrollodeunejemploacompaadodesoftwaredeaplicacin

RubnLedesma
CONICET/UniversidadNacionaldeMardelPlata,Argentina

El bootstrap es un tipo de tcnica de remuestreo de datos que permite resolver


problemas relacionados con la estimacin de intervalos de confianza o la prueba de
significacinestadstica.Esteenfoquepuederesultardeintersparalosinvestigadores
en Psicologa, no solo porque es menos restrictivo que el enfoque estadstico clsico,
sinotambinporqueesmsgeneralensuformulacinymssimpledecomprender
enloreferentealprocedimientobsicoquesubyacealmtodo.Enlugardefrmulaso
modelos matemticos abstractos, el bootstrap simplemente requiere un ordenador
capazdesimularunprocesodemuestreoaleatoriodelosdatos.Sinembargo,ydebido
quizsalaescasadifusindelatcnica,losinvestigadoresannohanincorporadoel
bootstrap al repertorio habitual de herramientas de anlisis de datos. En este trabajo
realizamosunapresentacinconceptualdelbootstrap,ilustramoslatcnicamediante
un ejemplo y revisamos algunas opciones disponibles en materia de software
estadstico. El trabajo incluye adems un programa para correr el ejemplo dentro de
ViStaTheVisualStatisticsSystem,unsistemaestadsticogratuitoyabierto.
The Bootstrap is a data resampling technique that can be used to aid in different
problems related to confidence intervals (CI) estimation and significance hypothesis
testing.ThisapproachcanbeofinterestforresearchersinPsychology;thisisbecause
thebootstrapislessrestrictivethantheclassicstatisticalapproach,butalsobecausethe
underlying procedure is more general and easier to understand. In fact, instead of
complex formulas and mathematical models, bootstrap simply requires a personal
computer capable of simulating a random sampling process. Nevertheless, the
bootstrapisnotincorporatedyetasadataanalysistoolinPsychology,perhapsdueto
the little diffusion of this technique. This paper: a) briefly introduces the basis of the
bootstrap,b)presentsaheuristicexamplethatillustratesthebootstrapprocedure,and
c)describessomestatisticalsoftwareusefulincarryingoutbootstrapapplications.We
also include a bootstrap computer module that can be used to run the example into
ViStaTheVisualStatisticsSystem,afreeandopenstatisticalsystem.

Las computadoras modernas han hecho posible ciertas


formas de manipulacin y anlisis de datos antes
inconcebibles. La visualizacin dinmica de datos, las
tcnicas de minera, la simulacin y los mtodos de
remuestreo son algunos ejemplos de enfoques que,
apoyadosenlascapacidadesdelosordenadoresmodernos,

han enriquecido el trabajo de exploracin y anlisis


estadsticodedatos.Larelacinentreordenadoresyanlisis
dedatosespatenteparaelcasodelasllamadastcnicasde
remuestreo de datos (data resampling), entre las que
encontramos el Jacknife, los test de aleatorizacin y
permutacin,lavalidacincruzadayelbootstrap(Yu,2003).
51


Estassebasan,justamente,enelusointensivodelclculoo
cmputo por ordenador como estrategia para resolver
problemas de anlisis estadstico. En cierta forma, el
remuestreo es un enfoque revolucionario, ya que
aprovechando las capacidades de las nuevas tecnologas
ofrece al investigador una alternativa sustancialmente
diferente al enfoque estadstico clsico y, adems, conlleva
algunas ventajas comparativas que comentaremos ms
adelante.
No obstante, estas nuevas tcnicas son an poco
conocidas y utilizadas en la prctica, en parte debido a su
escasadifusinytambinaquelaformacinestadsticade
los investigadores sigue centrada mayormente en la
estadsticaclsica.Esteeselcasodelbootstrap(Efron,1979;
Efron y Tibshirani, 1993), el mtodo de remuestreo ms
prototpico y general, as como el ms desarrollado y
estudiado por los expertos, aunque an escasamente
utilizadoporelinvestigadorenPsicologa.Enestecontexto,
el presente trabajo se propone: a) realizar una presentacin
conceptual del mtodo bootstrap como tcnica de
remuestreo de datos y analizar sus posibles ventajas en el
contextodelainvestigacinpsicolgica,b)ilustrarlalgica
y funcionamiento general del mtodo mediante una
aplicacinconcreta:laestimacindeintervalosdeconfianza
paraelcoeficientedecorrelacinrdePearson,yc)mostrar
como este tipo de anlisis puede realizarse mediante dos
programas gratuitos: Resampling (Howell, 2001) y ViSta
(Young,1996).Enelltimocaso,setratadeunsoftwareque
hemosdesarrolladoespecficamenteparaestetrabajoyque
funcionacomomdulodelsistemalibreygratuitoViSta.La
presentacin carece de referencias matemticas o analticas,
en su lugar, enfatizamos los conceptos bsicos subyacentes
al enfoque y su aplicacin mediante la asistencia de
programasdeclculoapropiadosparaestefin.
IntroduccinConceptualalBootstrap
El bootstrap como mtodo fue conceptualizado y
descrito sistemticamente por Efron (1979) y Efron y
Tibshirani (1993), aunque seha sealado que algunas ideas
bsicasrelacionadasconestemtodopuedenencontrarseen
trabajosdeautoresprevios(Hall,2003).Setratamsquede
una tcnica o modelo especfico, de un mtodo general a
partir del cual pueden cubrirse diferentes objetivos de
anlisisdedatos,incluyendolaestimacindeintervalosde
confianza (IC) o el Test de significacin estadstica. En
esencia, veremos que el mtodo permite aproximar la
distribucin de muestreo de un estadstico y de sus
propiedadesmedianteunprocedimientomuysimple:Crear
un gran nmero de muestras con reposicin de los datos
observados.Recordemosqueladistribucindemuestreode
un estadstico es clave a la hora de realizar tareas de
inferencia estadstica. Por ejemplo, para crear un IC

52
alrededor de un parmetro poblacional, como la media, es
necesariodisponerdeunaestimacindelerrortpico,quees
unapropiedaddesudistribucindemuestreo.Puesbien,el
bootstrap permite estimar estas propiedades aproximando
empricamenteladistribucindemuestreodelestadsticoen
cuestin.Estacapacidadgeneraldelenfoquehademostrado
ser eficiente en una gran variedad de situaciones, en temas
tan diversos como el anlisis de correlacin y regresin, el
anlisis factorial exploratorio y confirmatorio, el anlisis
discriminante y el anlisis de propiedades de pruebas e
items, entre otros (Fan, 2003). Adems, tambin se ha
sugeridoqueelmismoprocedimientoposeeutilidadsisolo
se persiguen propsitos descriptivos o exploratorios
(Thompson, 1995).
A nivel conceptual, el bootstrap puede incluirse dentro
del enfoque mayor del remuestreo de datos o resampling, el
cualcomprendeunavariedaddetcnicasqueimplementan
procesos de simulacin por computadora para estimar
probabilidades empricas a partir de experimentos con los
propiosdatos(RudneryShafer,1992).Ladenominacinde
remuetreosedebeaquelosmtodossebasan,esencialmente,
en la extraccin de un gran nmero de muestras repetidas
de los propios datos, y sobre esta base se realizan
posteriormente descripciones e inferencias estadsticas. Se
trata pues, de una estrategia general para resolver
problemas de probabilidad y estadstica aplicada (Simon,
1997), dentro del cual se pueden diferenciarse algunos
mtodos o procedimientos ms especficos, entre los cuales
elbootstrapresultaelmsestudiadoyextendido.
En efecto, el bootstrap comparte con otras tcnicas de
remuestreo el procedimiento esencial de usar simulacin
por computadora o cmputo intensivo como medio para
responderpreguntasdeanlisisdedatos,loquediferenciaa
este tipo de tcnicas de los procedimientos estadsticos
clsicos que encuentran su apoyo en modelos tericos
desarrolladosdeformaanaltica.Porello,algunosautoresse
refierenaestastcnicascomomtodosintensivosdecmputoy
las incluyan dentro un enfoque estadstico moderno, en
oposicin al enfoque matemtico clsico (Simon, 1997). Por
otro lado, en espaol tambin se suele utilizar la expresin
mtodos autosuficientes de estimacin. Justamente, la
expresineninglspulloneselfupbyonesbootstraps,de
donde se toma el trmino bootstrap, quiere significar el
hechodesaliradelantesinayudaoserautosuficiente.En
el contexto de anlisis de datos esta expresin alude a que
solo se utiliza la informacin disponible en los propios
datos, prescindiendo de la ayuda externa de modelos o
supuestostericos.
Como hemos mencionado, el bootstrap puede ser
aplicado en la prctica para estimar IC y realizar Test de
Hiptesis, aunque tambin con fines exploratorios y
descriptivos, como diagnosticar modelos o evaluar la


replicabilidad de los resultados de un estudio. En general,
podemos decir que los problemas que pueden resolverse
medianteestenuevoenfoquesonsimilaresalosquepueden
tratarse mediante los mtodos convencionales, aunque
varios autores coinciden en sealar algunas ventajas
comparativas del primero (Hesterberg, Monaghan, Moore,
Clipson, y Epstein, 2003; Rudner y Shafer, 1992; Simon,
1997). Entre los beneficios comparativos hay acuerdo en
sealar que el bootstrap es ms general en su formulacin,
resultamsaccesibleysimpledecomprender,yrequieremenos
supuestosquelosmtodosclsicos.
Efectivamente, la generalidad es una de las principales
ventajas del enfoque bootstrap, ya que la misma
metodologa bsica puede usarse en una gran variedad de
situaciones,sinnecesidaddeacudiramodelos,expresiones
o frmulas especficas para cada problema (Efron y
Tibshirani, 1993; Hesterberg, Monaghan, Moore, Clipson y
Epstein, 2003; Simon, 1997). En el prximo apartado
daremos una descripcin ms detallada del procedimiento,
pero a modo de introduccin podemos decir que, mas all
de la aplicacin concreta de que se trate, el procedimiento
bsico resultasiempre el mismo. Partiendode una muestra
de datos paraloscualessecalcula un estadsticode inters
(porejemplo,unamediaouncoeficientedecorrelacin),el
mtodo consiste en: 1) crear un gran nmero de sub
muestras con reposicin de los mismos datos, por ejemplo,
2000muestras,y2)calcularparacadamuestraresultanteel
valor del estadstico en cuestin. Se obtiene as una
aproximacinaladistribucindemuestreodelestadstico,a
partir de la cual podemos construir un IC para dicho
estadstico o realizar una prueba de significacin. Como se
observa, el procedimiento es relativamente sencillo y
proporciona una estrategia bastante general para enfrentar
diferentestiposdesituaciones,independientementedeltipo
dedatosyvariablesquesonobjetodeanlisis.
Por otro lado, el procedimiento bootstrap resulta
relativamente simple de comprender, aspecto que se ha
sealado como otra ventaja importante de las tcnicas de
remuestreo,especialmenteenelmbitodeladocencia.Entre
otros autores, Braun (1995), Hesterberg (1998), Ricketts y
Berry (1994), Simon (1997), Wood (2005) y Yu (2003) han
planteadoqueesteenfoquepuederesultarbeneficiosoenel
contextodelaenseanza,yaquelosestudiantespareceran
comprender mejor ciertos conceptos si se utiliza esta
perspectiva en lugar del mtodo clsico. Esto se explicara
porque la descripcin de los mtodos no requiere
fundamentos ni expresiones matemticos que pueden
resultar complejos o abstractos para muchos estudiantes,
simplemente se necesita poder simular un proceso de
remuestreodedatos,loqueenlaactualidadpuedehacerse
fcilmente mediante un software apropiado. En sntesis,
podemosdecirqueelremuestreoproporcionaunaanaloga

53
ms concreta de los conceptos estadsticos y favorece un
aprendizaje ms activo, ya que los estudiantes pueden
controlaryexperimentarporellosmismoslosresultadosde
lasimulacin(Wood,2005).
Por ltimo, el boostrap no es exigente en cuanto al
cumplimientodesupuestostericosparasuaplicacinyes,
en este sentido, menos restrictivo que las tcnicas
convencionales. Para empezar, es posible prescindir de
supuestos relativos a las distribuciones, ya que en vez de
asumir a priori una determinada distribucin terica, se
utilizalamuestraoriginalysegeneranungrannmerode
submuestras que sirven de base para estimar
inductivamente la forma de la distribucin muestral de los
estadsticos. De esta manera, pueden analizarse datos
provenientes de distribuciones desconocidas o incluso
abordarse problemas complejos, frente a los cuales no hay
una solucin analtica conocida (Efron y Tibshirani, 1993).
Esto ltimo sucede, por ejemplo, cuando trabajamos con
estadsticos para los cuales no se conoce la forma de su
distribucin muestral, como puede ser el caso de la
diferencia entre dos medianas. La derivacin analtica de
frmulas para estos casos resulta muy compleja, por eso,
comosealanEfronyTibshirani(1993),laestadsticaclsica
se ha desarrollado principalmente para estadsticos simples
yparaunconjuntolimitadodedistribuciones.Elbootstrap,
en cambio, reemplaza el trabajo analtico por un
procedimiento emprico, de modo que ofrece soluciones al
investigador cuando no hay frmulas disponibles para
resolverunproblema.
En cuanto al las tcnicas noparamtricas, que podran
serunaalternativacuandonosecumplenciertossupuestos,
hay que sealar que estas generalmente requieren reducir
las variables en sus niveles de medida por ejemplo,
puntuaciones de test a posiciones o rangos , perdiendo as
una parte de la informacin disponible en los datos (Gil
Flores,2005).Estareduccindeltipodeescalademedidano
es necesaria en el bootstrap. Adems, tambin es
conveniente mencionar que no hay alternativas no
paramtricas desarrolladas para todos los correspondientes
modelosparamtricos.
Sehasealadoquelavalidezdelbootstrapsebasaenun
nicosupuestooprincipioquesubyacentealprocedimiento
ensmismo.Puestoqueelenfoqueseapoyaenlacapacidad
de la muestra para reflejar o representar los aspectos
relevantesdelapoblacindelacualfueextrada,lacalidad
delamuestraresultacrucial,seaporquenohasidoextrada
por medio de un procedimiento que asegure cierta
representatividad o sea porque su tamao es demasiado
pequeo (GilFlores, 2005). En estas situaciones, puede ser
dudosoquelainformacinofrecidaporlamuestrapermita
estimar las propiedades desconocidas de la poblacin. No
obstante, estas limitaciones son igualmente aplicables a las


tcnicas clsicas, ya que tambin se basan en la idea de
seleccin aleatoria y dependen en su eficiencia del tamao
de la muestra. As, se ha afirmado que los mtodos
bootstrappermitiranextraerlomximoapartirdelapoca
informacin disponible (Chernick, 1999, p. 149, en Gil
Flores,2005).
Algunasbarrerasylimitacionesenelusodelbootstrap
Las razones esgrimidas en favor del bootstrap hacen
suponer que se tratara de un enfoque potencialmente til
para el anlisis de datos en Psicologa, as como para la
enseanza de la estadstica en el rea. Sin embargo, esta
metodologanohasidoincorporadaentodasuextensinal
repertoriodeherramientasqueseaplicanenlainvestigacin
psicolgica (Fan, 2003). Una razn de este hecho sera el
escaso conocimiento que los investigadores tienen de las
tcnicas de remuestreo, puesto que a pesar de su relativa
simplicidad,noseincluyencomocontenidoenlaformacin
degradooposgrado.Porotrolado,suusotampocohasido
impulsado por las asociaciones o las normas editoriales de
nivel internacional, como si ha sucedido con otras
metodologas.Porejemplo,elesfuerzorealizadoporlaAPA
para incentivar la inclusin de medidas del tamao de
efecto en todas las publicaciones psicolgicas (Wilkinson y
APA,1999).
Otra barrera aadida pareciera ser que las tcnicas
bootstrap no estn incorporadas de forma accesible a los
programas estadsticos ms populares en Psicologa (Fan,
2003), como SPSS. En esto nos sumamos a la opinin de
SnchezBruno y Borges del Rosal (2005), quienes han
manifestadoquelonoestenSPSSparecenoexistirpara
elinvestigadorenPsicologa.Aqu,esbuenosealarqueen
algunosaspectoselsoftwarelibreygratuitopuederesultar
superior a los programas de origen comercial (Ledesma,
2004). Para el caso del bootstrap veremos en el prximo
apartado que existe software de este tipo que puede
utilizarsepararealizarlosanlisisdeformaeficiente.
Por otro lado, Yu (2003) manifiesta que adems de los
factores mencionados, existira una dosis de
conservadurismo metodolgico por el cual los
investigadores preferiran los mtodos clsicos, an incluso
existiendo evidencia en favor de la superioridad de las
nuevas tcnicas. Este autor entiende que los investigadores
semuestranreticentesaaplicarprocedimientosquepueden
resultar marginales y agrega: Traditional procedures are
perceived as founded on solid theoretical justification and
empiricalsubstantiation,whilenewertechniquesfaceharsh
criticisms and seem to be lacking theoretical support (Yu,
2003,s.p).
En todo caso, parece conveniente insistir en la difusin
de este tipode tcnicas y remarcan sus posibles beneficios
enlainvestigacinpsicolgica.Asimismo,entendemosque

54
esnecesariofacilitarelaccesoalastecnologasinformticas
que pueden asistirnos en su aplicacin, bien sea con fines
cientficosoeducativos.
DesarrolloDeUnEjemplo
Para aclarar mejor el funcionamiento del mtodo de
bootstrap plantearemos un ejemplo tomando del propio
manual de Efron y Tibshirani (1993), comentaremos los
pasos en la aplicacin del procedimiento y mostraremos
como puede resolverse el caso mediante dos programas
gratuitosdiferentes:ResamplingyViSta.
PlanteodelCaso:ICparaunCoeficientedeCorrelacin
ElcoeficientedecorrelacinlinealrdePearsonesunade
las medidas ms utilizadas en las investigaciones
psicolgicas, sin embargo, son muy pocos los trabajos que
informan IC para este coeficiente, an cuando las normas
editoriales y las recomendaciones de la APA lo plantean
como una necesidad (SnchezBruno y Borges del Rosal,
2005). Esto se debe en parte a que el clculo no es muy
directo, y adems, a que programas como SPSS no lo
incluyencomounaopcindeanlisis.Tomaremosentonces
este caso particular para ilustrar como puede usarse
bootstrapparaestimarempricamenteunIC.
Supongamosquetenemoslosdatosquesepresentanen
la Tabla 1 (The law school data [Efron y Tibshirani, 1993,
p.19]) y que tambin representamos grficamente en la
Figura1.Setratadeunamuestrade15estudiantesdeLeyes
obtenidos de una poblacin de 82 estudiantes de USA. Se
disponededosmedidas:LSAT,querepresentapuntajesen
un test nacional de leyes, y GPA, que es una medida de
promedio acadmico general (average undergraduate
GradePointAverage).
En esta muestra, el coeficiente de correlacin arroja un
valorde0,776,indicandounarelacinfuerteypositivaentre
las variables LSAT y GPA. Si se asume la normalidad
bivariada de los datos y se aplica la transformacin Z de
FishersepuedeobtenerunICusandoelenfoqueestadstico
clsico (para ms detalles, ver BeaulieuPrevst, 2006).
Siguiendo este procedimiento se obtiene que los lmites
inferior y superior al 95 % son 0,44 y 0,92 respectivamente,
lo que se interpreta como un rango de valores plausibles
para el coeficiente de correlacin en la poblacin. Podemos
alternativamente interpretar este resultado en trminos del
test de hiptesis convencional, diciendo que el valor
observado es estadsticamente significativo, puesto que el
ICnoincluyeelvalor0.
Una primera cuestin prctica con el procedimiento
anterioresquelaobtencindelICnoestandirectacomoen
otros casos, por ejemplo el IC para un promedio, ya que
requiere una serie de transformaciones que se aplican a los
valoresdelcoeficientedecorrelacin.Sibienesteclculono

Tabla 1. Law school data. Tomados de


EfronyTibshirani,1993,p.19.
Sujeto
LSAT
GPA
1
576
3.39
2
635
3.3
3
558
2.81
4
578
3.03
5
666
3.44
6
580
3.07
7
555
3.0
8
661
3.43
9
651
3.36
10
605
3.13
11
653
3.12
12
575
2.74
13
545
2.76
14
572
2.88
15
594
2.96
es computacionalmente complejo, se trata de un
procedimiento que no est incluido en la mayora de los
programas, incluyendo SPSS. En nuestro caso hemos
utilizado ViSta para desarrollar una funcin de clculo que
sepuedeintegraralsistema.
No obstante, tambin es verdad que no hay frmulas
para crear IC para todos los casos e incluso an si las hay,
los programas solo proporcionan un conjunto limitado de
opciones. En esta lnea, Efron y Tibshirani (1993) sealan
como limitacin del enfoque tradicional la dificultad
intrnseca del trabajo analtico necesario para derivar este
tipo desoluciones, locual esespecialmente difcilcuado se
tratadeestadsticosmscomplejoodedistribucionesmenos
tratables que la distribucin normal. Desde luego, otra
limitacin importante concierne a los supuestos sobre los
quesebasanestasfrmulas.Enelcasoanterior,elsupuesto
de distribucin normal bivariada, sobre el cual se apoya el
mtodo.Algunosautoreshanestudiadoelcomportamiento
de la transformacin Z de Fisher y han expresado que el
investigador tiene que asegurarse que se respetan las
condiciones de normalidad, en caso contrario no debera
emplearse (SnchezBruno y Borges del Rosal, 2005). As,
cuandonohayfrmulasdisponiblesolossupuestossobre
los que se basan los procedimientos son poco realistas, el

55
bootstrapseplanteacomounaalternativa.Entonces,cmo
funciona la alternativa del bootstrap en este caso?, cmo
puedeestimarseporestemediounICparar?
ICBootstrapparaelCoeficientedeCorrelacin
La Figura 2 muestra esquemticamente cual es el
procedimiento general y cmo se aplica en este caso. Se
parte de los datos muestrales, representados para nuestro
ejemplo mediante el diagrama de dispersin en la parte
superiordelesquema.Elbootstraptrataaestosdatoscomo
sifueranlapoblacinyprocedeextrayendoungrannmero
de muestras con reposicin de los mismos datos (por
ejemplo,1000o2000muestras).Losdiagramasdedispersin
en el segundo nivel del esquema representan ejemplos de
muestrasconreposicindelosdatosoriginales.Enestetipo
de muestras un individuo puede ser seleccionado varias
veces, puesto que luego de cada extraccin aleatoria el
elementoesreincorporado.Lospuntosdemayorvolumen
en estos diagramas representan individuos que han sido
seleccionadosmsdeunavezenlamismamuestra.
Acontinuacin,secalculaparacadaunadelasmuestras
resultantes el valor del estadstico de inters; en nuestro
ejemplo,seobtieneelcoeficientedecorrelacinrdePearson
para cada caso. Tomando las muestras del ejemplo, estos
valoresson0.92,0.73,0.60(...)y0.99.Comoresultadodeeste
procesosedisponedeungrannmerodevaloresder,que
constituyen la distribucin emprica bootstrap del
estadstico y que se usa como una aproximacin a la
verdadera distribucin de probabilidad. En el esquema, el
histograma ubicado en la parte inferior muestra dicha
distribucin. Se observa que la media de estos valores es
0.766,conunerrorestndarde0.133.
Por ltimo, en el esquema tambin se informan los
percentiles2.5y97.5deladistribucin,queseutilizancomo
una aproximacin a los lmites superior e inferior del IC al
95% para el estadstico en cuestin. Este es en realidad el
mtodo ms simple de estimacin de un IC y se denomina
mtodo percentilar, ya que se basa justamente en tomar los
valores que caen en determinadas posiciones de la
distribucin.Ennuestrocaso,tenemosentoncesqueel95%
de los valores caen entre los valores 0.46 0.96; lo que
constituyeelICbuscadoparaelcoeficienter.

Figura1.Diagramadedispersindelosdatosdelejemploygrficosdeprobabilidadnormalparacadavariable.

56

Figura2.RepresentacinesquemticadelprocedimientobootstrapparaobtenerelICenelcasodelcoeficientedecorrelacinr
dePearson.

SolucindelejemplomedianteResamplingyViSta

Resampling

Obviamente,sinunordenadoryunsoftwareapropiado
resultara prcticamente imposible realizar este tipo de
anlisis.Acontinuacin,ilustraremoslaresolucindelcaso
mediante los programas Resampling y ViSta. En la seccin
finaldelartculosecomentanyanalizancomparativamente
otrasopcionesdisponiblesdesoftwarecapazderealizarun
anlisisbootstrap.

Resampling es un programa gratuito desarrollado por


Howell (2001), resulta sencillo de utilizar y proporciona
varios mtodos de remuestreo, incluyendo bootstrap y
tcnicasdealeatorizacindedatos.Elsoftwareincluyeentre
sus opciones la posibilidad de crear IC para un coeficiente
de correlacin. La Figura 3 muestra una imagen de cmo
deben definirse los datos del ejemplo para ser analizados
con este programa. Luego de definir y guardar los datos,
simplemente basta con ejecutar la opcin del men

Figura3.Definicindelosdatosdeentradaenelprograma
Resampling.
denominada Bootstraping Correlation. Esta opcin abre la
ventana que aparece en la Figura 4. Obsrvese que el
usuario puede definir los parmetros de la simulacin,
correr el anlisis y visualizarlos resultadosobtenidos en la
mismaventana,loquesimplificalaejecucindelbootstrapy
lainterpretacindelasalida.Ennuestrocaso,podemosver
que el programa informa el coeficiente de correlacin
observado (Obtained r); los lmites inferior y superior del
ICobtenidosporelmtodopercentilar(LowerCon.Limit
y Uupper Conf. Limit) y el Error Estndar de la
distribucin(St.Error).Losvaloresobtenidosencadacaso
se corresponden con los que hemos descrito en el apartado
anterior.

57
correspondiente al mdulo bootstrap que estamos
describiendo.Elcuadrotambinpermiteadvertirquepuede
aplicarseelmismoprocedimientoalcasodelcoeficienteRho
de Spearman. Aunque aqu no nos ocupemos del tema,
mencionaremos que el procedimiento bootstrap es
esencialmente el mismo, salvo porque para cada muestra
generadasecalculaelestadsticoRhoenlugarder.
Luegodecorrerelanlisis,ycomoespropiodetodoslos
mtodos de ViSta, los resultados pueden presentarse en
formatodetexto(verFigura6)omedianteunavisualizacin
mltiple (ver Figura 7). Estas salidas pueden seleccionarse
desde la opcin Model del men principal de ViSta
(comandosReportModelyVisualizeModel).

Lavisualizacinproporciona,simultneamenteyenuna
misma ventana, varios grficos especficos para explorar la
aplicacin bootstrap. Los tres grficos de la parte superior
son representaciones de los datos empricos; se incluye un
diagrama de dispersin y dos histogramas que representan
ladistribucindefrecuenciasdecadavariableenelanlisis.
Por otro lado, los tres grficos en la parte inferior de la
visualizacin ofrecen representaciones del resultado
bootstrap. El grfico ubicado abajo y a la izquierda de la
ventanamuestraelvalordelcoeficienterobtenidoatravs
delasdiferentesmuestrasbootstrap.Lalneacentraleneste
diagrama representa la media de todos los valores y las
lneasporencimaypordebajoindicanloslmitessuperiore
inferior del IC (es decir los valores correspondientes a los
percentiles2,5y97,5).Elsiguientegrfico,abajoyalcentro
de la visualizacin, tambin es una representacin del
proceso bootstrap, pero tiene un sentido ms evolutivo.

ViStaTheVisualStatisticsSystem
El mismo anlisis puede realizarse utilizando otro
software que se caracteriza por su sencillez y capacidad
grfica: el programa ViSta. ViSta tambin es un sistema
estadstico gratuito, pero adems es abierto, de modo que
los usuarios avanzados pueden modificar, extender o
adaptar el programa a sus necesidades. Esto es en buena
medidaposiblegraciasaLispStat(Tierney,1990),ellenguaje
deprogramacinestadsticaenquesebasaViSta.Mediante
LispStat, pueden programarse e implementarse mtodos o
modelosestadsticoscomplejosy,especialmente,desarrollar
poderosasherramientasdevisualizacindedatos(Ledesma,
Molina,YoungyValeroMora,2007;Young,ValeroMoray
Friendly, 2006). En nuestro caso hemos aprovechado estas
capacidades para crear un nuevo mdulo bootstrap dentro
deViStaconlacapacidaddeobtenerunICbootstrapparael
coeficientedecorrelacinrdeformasimpleydirecta.
Lafigura5muestraunaimagendeViStaconlaplanilla
dedatosendondesehandefinidolasvariablesdelejemplo
y el cuadro de dilogo de la opcin de anlisis

Figura 4. Interfaz grfica del comando Bootstraping


Correlation del programa Resampling. Permite al usuario
definir los parmetros de la simulacin y visualizar los
resultadosenlamismaventana.

58

Figura5.ImagendeViStaycuadrodedilogodelmdulobootsrapparaelcoeficientedecorrelacin.
Muestra el cambio en la media de ladistribucin bootstrap
en la medida en que aumenta el nmero de muestras
acumuladas en la simulacin. Permite inspeccionar la
estabilidad de la solucin final y alerta sobre la eventual
necesidad de aumentar el nmero de muestras en el
bootstrap. En nuestro ejemplo, se observa que l nmero
parece ser suficiente, ya que la estimacin final se ha
estabilizado en torno a un valor que prcticamente no
presentafluctuaciones.Porltimo,elgrficoubicadoabajoa
laderechadelavisualizacinmuestraelhistogramaconla
distribucin de remuestreo del estadstico r. En conjunto,
estos grficos pueden ser de utilidad para el investigador
que aplica el mtodo, pero tambin para el docente que
desee introducir a sus estudiantes en la metodologa
bootstrap. En este sentido, la visualizacin puede ser un
apoyo importante al momento de lograr una comprensin
msintuitivadeestetipodemtodos.
Disponibilidaddelprograma
El sistema ViSta (versin 6.4) pueden obtenerse
gratuitamente
accediendo
a
la
pgina
URL:
www.mdp.edu.ar/psicologia/vista/ El interesado debe
instalarViSta6.4enprimerlugar,yluegoinstalarelplugin
ViStaCoorBoot.exequeanexamosaestetrabajoyqueaade
elmdulobootstrapalprograma.

ComentariosFinales
El bootstrap es una tcnica de remuestreo que puede
resultar de gran inters en Psicologa, tanto por sus
capacidadescomoenfoquedeanlisisdedatoscomoporsu
potencial en el mbito de la enseanza. Como herramienta
de anlisis estadstico, proporciona un enfoque general que
permite afrontar problemas diversos, sin la necesidad de
asumir supuestos tericos que pueden resultar poco
realistas, como supuestos relativos a la distribucin de los
datos. En su lugar, el bootstrap usa la informacin de la
muestra para estimar, mediante remuestreo de los propios
datos, propiedades de los estimadores estadsticos y as
poderrealizartareastalescomocrearunICorealizaruntest
de hiptesis. Obviamente, la validez del enfoque depende
fundamentalmentedelacalidadocapacidaddelamuestra
para contener o representar apropiadamente las
caractersticasdelapoblacin.
Por su sencillez y generalidad, el enfoque tambin
resultaatractivoparaserimplementadoenladocencia.Este
mtodoparecemsfcildecomprenderquelastcnicasde
inferencia clsica, ya que en lugar de explicaciones o
formulaciones matemticas que pueden resultar abstractas
para los estudiantes de Psicologa, se utiliza una
metodologabasadaprincipalmenteenrealizarexperiencias

Figura6.InformedelasalidaderesultadosdelbootstrapenViSta.
directas con los datos. En lo fundamental, podemos decir
que este enfoque solo requiere que el estudiante sea capaz
de comprender y aplicar nociones bsicas de estadstica
descriptiva, tales como distribuciones de frecuencias,
histogramas,promedios,varianzasypercentiles.
No obstante las posibilidades de este mtodo en el
contexto de nuestra disciplina, su utilizacin en la prctica
es casi inexistente, y reservada mayormente a los
especialistas en metodologa o anlisis de datos. Esta
situacinsehaatribuidoalaescasadifusindelastcnicas
bootstrap y a cierto conservadurismo por parte de los
investigadores, quienes se mostraran reticentes a
incorporannuevastcnicaspararealizartareasquepueden
llevar a cabo mediante los procedimientos estadsticos
convencionales. Asimismo, tambin se ha mencionado que
elsoftwaredeusopopularnoincluyeopcionesbootstrapal
usuario. Noobstante,como hemos puestode manifiesto en
estetrabajo,existesoftwareestadsticoalternativoyeficiente
para realizar este tipo de aplicaciones. En nuestro caso,
hemos ilustrado la resolucin del ejemplo mediante
Resampling y ViSta, pero existen otros programas de
distribucin libre y comercial que pueden utilizarse para
realizar aplicaciones bootstrap similares o incluso ms
complejas.
Un programa ms general, pero de distribucin
comercial, es Resampling Stats (Simon y Bruce, 1991), que
originalmente funcionaba como un software autnomo y
actualmente se ha diseado como addin del programa
Excel. Este programa est bien documentado y se relaciona
conlosvariostrabajosdelosautoresenelrea.Encuantoa
los paquetes estadsticos generales, los sistemas Stata,
Statistica y SimStat incluyen opciones bootstrap entre sus
anlisis. Este ltimo es relativamente accesible y
proporcionavariosmtodosderemuestreointegradosalos
comandos tradicionales. Asimismo, existen algunos macros
elaborados para SPSS, aunque hay que decir que el uso de
macros no siempre resulta tan simple para los usuarios
familiarizados con el uso de programas con interfaces
completamentegrficas.Porotrolado,otraopcinlaofrecen

59
losmdulosbootstrapdesarrolladosenlenguajescomoRo
LispStat. Estos proporcionan la opcin ms avanzada y
flexible, aunque no resulten tan amigables en trminos de
interaccin de usuario. Una ventaja de los desarrollos en
LispStat es que pueden acoplarse a la interfaz grfica de
ViSta. Nosotros hemos aplicado este enfoque para integrar
opciones bootstrap al sistema, entre las que se cuenta un
mdulo general para estimar IC para un rango importante
de estadsticos univariados. Este mdulo resulta simple de
usar y, como es caracterstico de ViSta, incluyen tcnicas
graficasparavisualizarlosresultadosdelosanlisis.
Esperamos que el presente trabajo contribuya a un
mayor conocimiento y difusin del bootstrap en la
investigacin psicolgica. Asimismo, confiamos en que el
softwareanexoaesteartculopuedaalentaralosdocentesy
estudiantes a experimentar con el mtodo en el aula, sea
para replicar el ejemplo o para experimentar con nuevos

Figura7.Estructuradegrficosdinmicosparavisualizarlos
resultadosdelbootstrapenViSta.
datos. Por ltimo, es importante aclarar que esta
introduccinnohacontempladoalgunostemasimportantes
quedeberanserprofundizadosporellectorinteresado.Por
ejemplo, existen formas alternativas de obtener IC que
puedensermseficientesenciertoscasos(comoelmtodo
BCa). Por otro lado, tambin debemos mencionar que
cuandosetratadeestructurasdedatosmscomplejas,como
medidas correlacionadas o datos basados en muestras
estratificadas,puedesernecesarioadaptarelprocedimiento
bootstrap bsico, ya que el muestreo con reposicin debe
realizarse respetando otras exigencias de la informacin y
del problema que se est analizando. Un ejemplo de este
tipo, es el bootstrap de bloques mviles, ms apropiado
cuandosetrabajacondatosomodelosdeseriestemporales.
Adems, tambin existen algunas formas de modificacin
delesquemademuestreodestinadasamejorarlaeficiencia
del mtodo es sus aspectos computacionales ( p.e., el

bootstrap equilibrado o balanced bootstrap que fuerza a


que cada observacin sea seleccionada un determinado
nmerodevecesentodoelprocesobootstrap).Todasestas
cuestionespuedenrevisarseyprofundizarseconsultandoel
manual de Efron y Tibshirani (1993). Alternativamente,
Davison y Hinkley (1999) y Manly (1997) proporcionan
textos con revisiones de estos temas. Recomendamos
tambinelmanualdeSimon(1997),unmaterialsumamente
claro y orientado a la docencia disponible a travs de
Internet.
Referencias
BeaulieuPrevst, D. (2006) Confidence Intervals: from test
of statistical significance to confidence intervals, range
hypotheses and substantial effects. Tutorials in
QuantitativeMethodsforPsychology,2,1119
Braun, W. J. (1995) An Illustration of Bootstrapping Using
Video Lottery Terminal Data. Journal of Statistics
Education,
3,
2.
Disponible:
www.amstat.org/publications/jse/v3n2/datasets.braun.ht
ml
Davison,A.C.,yHinkley,D.V.(1999).BootstrapMethodsand
their Applications. Cambridge, Inglaterra: Cambridge
UniversityPress.
Efron, B. (1979). Bootstrap methods: Another look at the
jackknife.TheAnnalsofStatistics,7,126.
Efron, B., y Tibshirani, R. (1993) An Introduction to the
Bootstrap.ChapmanandHall,NewYork,London.
Fan, X. (2003) Using commonly available software for
bootstrapping in both substantive and measurement analyses.
Educational and Psychological Measurement, 63, 24-50
Fisher, R.A. (1915). Frequency distributionof the values of
thecorrelationcoefficientinsamplesfromanindefinitely
largepopulation.Biometrika,10,507521
GilFlores, J. (2005) Aplicacin del mtodo Bootstrap al
contraste de hiptesis en la investigacin educativa.
RevistadeEducacin,336,251265.
Hall,P.(2003)AShortPrehistoryoftheBootstrap.Statistical
Science,18,158167
Hesterberg, T. C. (1998). Simulation and Bootstrapping for
Teaching Statistics. Proceedings of the Statistical Education
Section,AmericanStatisticalAssociation,4452.
Howell, D. (2001) Resampling [programa informtico].
Disponible:
http://www.uvm.edu/~dhowell/StatPages/Resampling/R
esampling.html
Ledesma, R. (2004). Sistemas estadsticos de propsitos

60
mltiples: una revisin de programas gratuitos.
MetodologadeEncuestas,6,2,105117
Ledesma,R.,Molina,G.,Young,F.,yValeroMora,P.(2007)
Desarrollo de tcnicas de visualizacin mltiple en el
programa ViSta: ejemplo de aplicacin al Anlisis de
ComponentesPrincipales.Psicothema,19,3,497505
Manly,B.(1997)Randomization,Bootstrap,andMonteCarlo
Methods in Biology (2nd edition). London: Chapman &
Hall.
Ricketts, C., y Berry, J. (1994). Teaching statistics through
resampling.TeachingStatistics,16(2),414.
Rudner, L. M., y Shafer, M. M. (1992). Resampling: a
marriage of computers and statistics. Practical
Assessment, Research & Evaluation, [Online], 3(5).
Disponible:http://PAREonline.net/getvn.asp?v=3&n=5.
SnchezBruno, A y Borges del Rosal, A. (2005)
Transformacin Z de Fisher para la determinacin de
intervalosdeconfianzadelcoeficientedecorrelacinde
Pearson.Psicothema,17,148153
Simon, J. (1997) Resampling: The New Statistics. Arlington,
VA:
Resampling
Stats,
Inc.Disponible:
www.resample.com
Simon, J. L., y Bruce, P. (1991) Resampling: A Tool for Everyday
Statistical Work, Chance, 4, 2232.
R Developer Core Team (2002). R1.7.1 [programa
informtico] [en lnea], Disponible: URL: http://www.r
project.org/
Tierney, L. (1990). LispStat An ObjectOriented Environment
for Statistical Computing and Dynamic Graphics. NY: John
Wiley&Sons.
Wood, M. (2005) The Role of Simulation Approaches in
Statistics.JournalofStatisticsEducation,13,3.Disponible:
www.amstat.org/publications/jse/v13n3/wood.html
Young, F. W., ValeroMora, P. M., y Friendly, M. (2006).
Visual statistic: Seeing data with dynamic interactive
graphics.Hoboken,NJ:JohnWiley&Sons.
Young, F.W. (2003). ViSta The Visual Statistics System.
[programa informtico] [en lnea] Available: URL:
http://forrest.psych.unc.edu/research/index.html
Yu, Ch. H. (2003). Resampling methods: Concepts,
Applications, and Justification. Practical Assessment,
Research & Evaluation, [Online] 8 (19). Disponible:
http://PAREonline.net/getvn.asp?v=8&n=19

ManuscriptreceivedJanuary17th,2008
ManuscriptacceptedMarch20th,2008

Potrebbero piacerti anche