Sei sulla pagina 1di 16

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 1 de 16

DEPARTAMENTO DE LENGUAJES, SISTEMAS E INGENIERA DEL


SOFTWARE

Facultad de Informtica
Universidad Politcnica de Madrid

RESUMEN DEL TRABAJO DE INVESTIGACIN


(Programa de doctorado)

Cmputo de los logros de un sitio web mediante el


anlisis de las sesiones de sus usuarios

Autor: Esther Hochsztain


Tutora: Ernestina Menasalvas Ruiz
Fecha: Septiembre, 2002

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 2 de 16

Indice
Indice.............................................................................................................................................................2
Resumen del trabajo de investigacin...........................................................................................................2
1. Algoritmo de evaluacin de los logros de un sitio web mediante el cmputo del valor de las
sesiones de usuarios...................................................................................................................................2
2. Metodologa para la estimacin de la utilidad de una pgina web..................................................10
Bibliografa analizada..................................................................................................................................15
Publicaciones que el trabajo ha generado....................................................................................................16

Resumen del trabajo de investigacin


Los trabajos realizados se refieren a Web Mining. Se han desarrollado en dos reas temticas:
1- Algoritmo para la determinacin del valor de una sesin en un sitio web, presentado en los artculos
[1], [3] [4] [5]
2- Metodologa para la estimacin de la utilidad de una pgina web, presentado en el artculo [2]
A continuacin se presentan los conceptos fundamentales de los trabajos realizados.

1.
1.1)

Algoritmo de evaluacin de los logros de un sitio web mediante el


cmputo del valor de las sesiones de usuarios
Resumen

La exitosa aplicacin de tcnicas de minera de datos en la Web requiere que stas se adapten a los
cambios continuos en los objetivos de los sitios web. Unadelasrazonesporlascualeshafalladola
aplicacindetcnicasdedescubrimientodeconocimientoendatosextradosdelawebesque,enla
mayoradeloscasos,elanlisissehaconcentradoexclusivamenteenanlisisdepginasycaminosms
visitadossintenerencuentalosobjetivosdelsitioweb.Sinembargo,sisequierenextraerpatronestiles
einteresantes,losdatosdelawebsedeberanenriquecerconinformacinrelacionadaconelnegocio.
Seproponeunalgoritmoparadeterminar el valor deunasesindeunusuarioenlaweb.Dicho
algoritmo,tieneencuentalasmetasdelsitioweb,elcomportamientoyperfildelusuarioyloscambiosen
laspolticasyobjetivosmarcadosporlosadministradoresdelsitioweb.Lasolucinqueseproponees
innovadoraenelsentidoenquepermite,tenerencuentapuntosdevistadedistintosusuarios,eintegrarla
informacindelsitiowebconlasmetasdelnegocio.
Laentradadelalgoritmoesunamatrizdevaloresenlaquecadacasillarepresentaelvalorquetiene
avanzar desdeunadeterminadapginaaotra.Elartculopresentatambinresultadosexperimentales
basadosen2400sesionesanalizadasatendiendoacuatrodiferentesmatrices.
PalabrasClaves:Mineradedatosenlaweb,anlisisbasadoengrafos,valoracindesesionesdeusuario

1.2)

Introduccin

El continuo crecimiento del World Wide Web, unido al entorno competitivo en el cual se mueven las
organizaciones modernas, ha hecho necesario disear los sitios web teniendo en cuenta, como aspecto
fundamental, el conocimiento que se puede extraer de las navegaciones de los usuarios que lo utilizan.
Una de las formas de conocimiento ms frecuentemente utilizadas consiste en descubrir cules son los
caminos de usuario ms frecuentes. Sin embargo, esto no es suficiente, hacindose necesario integrar, por
ejemplo, minera de datos con los objetivos del sitio web, con el propsito de conseguir que cada sitio
web sea el ms atractivo y como consecuencia el ms competitivo.
Lamayoradelasorganizacionesqueexploranelcomportamientodesususuariosenlawebutilizan,
exclusivamente,datosdelassecuenciasvisitadas(clickstream).
Hastaelmomento,unodelosprincipalesproblemasenlaaplicacindetcnicasdedataminignendatos
delawebtienequeverconlaetapadepreprocesamientodedatos.
Losservidoreswebregistran,comnmente,unaentradaporcadaaccesoenelarchivolog.Entrelos
datosqueserecogenseincluyeladireccinIP,eltiempodeacceso,elmtodopedido,elURLdela
pginasolicitadaelprotocolodetransmisin,uncdigoderetornoyelnmerodebytestransmitido.El
servidorlogcontiene,noobstante,muchasentradasquesonirrelevantesoredundantesparalatareade

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 3 de 16

minera y que se requiere limpiar antes del preprocesamiento. Despus de la limpieza, es necesario
identificaryagruparlosdatosensesionessignificativas[12]
Lastcnicasinteligentesdewebmining(intelligentwebmining)puedenaprovecharlosdatosdel
clickstream una vez preprocesados para extraer conocimiento relacionado con la interaccin de los
usuariosconlaWeb[1][2],quesepuedeutilizarparatomardecisionescrticasdenegocio.
Sinembargo,estosdatossedebenenriquecerconinformacinrelativaalnegociosiloqueseesperaes
ofreceralasorganizacionesconocimientointeresanteytilsobreelmismoysobresusclientesdeforma
quelespermitacompetir.Deacuerdocon[3]hoyenda,amenosquesepuedaobtenerydemostrar
ganancia,nosepodrsobrevivir.
En este sentido, en este artculo se propone un algoritmo que a la vez que tiene en cuenta la
informacinregistradaenelservidorlogmejoraelanlisistradicional,puestoqueintegrainformacin
delnegocio.Elenfoquepropuestotieneencuenta,paraelclculodelosvaloresdeunenlace,losdatos
almacenadosenelarchivologdelservidor,losobjetivosdelnegocioyelconocimientodisponiblesobre
elreaocontextodelnegocio.
Elalgoritmopermitecalcularlosvaloresacumulados,duranteunasesin,teniendoencuenta,tantoel
anlisisdelcomportamientodelosusuarioscomolasmetascambiantesdelnegocio.
Laideabsicasubyacentealalgoritmoesmuysimilaralprocesodecorreccindeunapruebade
evaluacindelosestudiantes.Enelcasodelosexmenes,dependiendodesusrespuestaslosalumnos
sumanorestanpuntosasucalificacin.Haciendounaanaloga,laspginasvisitadasporunvisitantelo
puedenalejaroacercaralametapropuestaporlaorganizacin.Cuandosteseacercaalameta,mientras
visitalaspginas,seaadenpuntos;cuandosealejaserestan.
Lasolucinqueseproponeenesteartculoesinnovadoraporqueconsideradiferentescaminosde
evaluacinapartirdelpuntodevistadediferentesusuariosintegrandolainformacinprovenientedela
webcon losobjetivosdel negocio.De estamanera, seofrece unmarco conceptual para analizar la
evolucindelassesionesasignndolesunvalor.Elenfoquepropuestofacilitatambinladeteccinde
patronesdeevolucinapartirdesesionesdediferentevalor.
Elenfoquederepresentacinutilizadosebasaenungrafodirigidocomoelpropuestoen[4]y[5]yen
laspginaswebadaptativas propuestasen[6][7]y[8].Elvalordelcambioenlaconductadelos
usuarios es til para tomar decisiones sobre lanecesidad de adaptar las pginas web ysobre cmo
hacerlo. Por otra parte, sta propuesta se relaciona tambin con el descubrimiento de secuencias
propuestoen[9][10].
Elalgoritmo,requieredeunafasedepreparacinexhaustivadelosdatosparaidentificarsesionesy
usuariostalycomoseproponeen[11].
Elrestodelapresentepropuestaestorganizadadelasiguienteforma.Enlaseccin1.3sepresentan
losconceptosbsicosrelacionadosconelenfoquepropuesto.Enlaseccin1.4,sedescribeelalgoritmo
paracalcularlaevolucindelvalordelassesiones.Enlaseccin1.5sepresentanalgunoscriteriospara
analizarelvalordesesionesjuntoconunejemplodeaplicacin.Laseccin1.6presentalosresultados
experimentales obtenidos al aplicar el algoritmo sobre un conjunto de 2400 diferentes sesiones.
Finalmente,enlaseccin1.7sepresentanlasconclusionesylasfuturastareas deinvestigacinque
surgendelenfoquepropuesto

1.3)

Conceptosbsicos

En esta seccin se presentan algunos de los conceptos bsicos en los cuales se apoya el algoritmo
propuesto:
SitioWeb:Comoen[13]unsitiowebsedefinecomounconjuntofinitodepginasweb.
SeaWunsitiowebyseaunconjuntofinitorepresentandolaspginascontenidasenW.Cadapgina
tiene asignado un identificador nico, de manera que un sitio web consistiendo de m pginas se
representacomo={1,...,m}.(i)representaeliseimoelementoopgina.
Dospginasespeciales,quesedenotancomo 0 y ,correspondenalapginadesdelacualel
usuarioentraalsitiowebylaquevisitaantesdesalirdelasesin,respectivamente[14]
Representaciondeunsitioweb:unsitiowebseconsideraungrafodirigido,definidocomo(N,E),
dondeNesunconjuntodenodosyEesunconjuntodearcos.Unnodosecorrespondeconunapgina
webyunarcoconunenlace.
Pginas objetivo: Las pginas objetivo son los nodos que se desean alcanzar. La forma de
determinarlasformapartedelalgoritmo.Estassedefinendeacuerdoconlasmetasdenegocio,elperfil
delnavegadorysuhistoriaocomportamientopasado.Deestamanera,esposible,queunapginasea

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 4 de 16

pginaobjetivoenunavisitadeunusuarioalsitiowebynoseapartedelconjuntodepginasobjetivoen
unaposteriorvisitadelusuarioalmismositioweb.
Enlace:Unenlaceesunarcoconorigenenlapgina i ydestinoenlapgina j.Losenlacesse
representanpormediodelpar(i,j).
Valordeunenlace:Laprincipalaccindelusuarioesseleccionarunenlaceparaobtenerlasiguiente
pgina(oterminarlasesin).Estaaccintomadiferentesvaloresdependiendodeladistanciaocercanaa
lapginaoconjuntodepginasobjetivo.
Elvalordelenlace(i,j)serepresentapormediodeunnmerorealvij(vijfor0i,jn):
Sivij>0,consideramosqueelnavegante,yendodelnodoialnodoj,estmscercadelas
pginasobjetivo.
(Sivij>0,vil>0,vij>vilentonces,seconsideraqueesmejorirdelapginaialajque
irdelapginaialal)
Sivij<0seconsideraqueelnavegante,quevadelapginaialaj,seestalejandode
laspginasobjetivo.(Sivij<0,vil<0,vij<vilentoncesespeorirdelapginaialapginai
queirdelaialak)
SiIvij=0consideramosqueelenlacenorepresentaniunaventajaniunadesventajaenla
bsquedadelobjetivo.
Sesin:esunasecuenciadepginasvisitadasporunusuario.Elarchivoderegistrodeaccesosalsitio
webcontieneinformacinrelacionadaconlaidentificacindelusuario(direccinIP),URLdelapgina
solicitada y fecha y tiempo de la solicitud. Con esta informacin se puede reconstruir la sesin
representadacomounvectordepginasrecorridas:S[1],S[2],....,S[n].
LassesionessedenotanporSsiendo |S|sulongitud(nmerodepginasvisitadas).Lassesionesse
representancomovectoresdemaneraqueS[i]representalaisimapginavisitadaS[i]1in.,con,
|S|=n.
Esimportantedestacarquelaspginasdelsitiowebvisitadasduranteunasesinsepuedenrepetir.Por
ejemplo,silaprimeraysextapginasvisitadassonlapgina3,S[1]=S[6]=3.Sinembargo,laspginas
contenidasenelsitioweb1,...,mnoserepitendadoqueconformanunconjunto.
Secuenciainicialdelongitudk:(kpginasiniciales S[1],S[2],....,S[k]):lasprimeraskpginas
recorridasduranteunasesinrepresentanunasecuenciadelosk1enlacesinicialesdelasesin.
Valor deunasecuenciainicialdelongitudk: S[1],S[2],....,S[k)]:estevalorsecalculacomola
suma de cada uno de los valores de las pginas S[k] a las cuales llega el usuario recorriendo los
enlaces(S[1],S[2]),(S[2],S[3]),....,(S[k1],S[k])ysedenotaporAV(k).
AV(k)=vS[1],S[2]+vS[2],S[3]+...+vS[k1],S[k]2kn
Elvaloracumuladodeunasecuenciainicialsepuededefinircomo:
AV(k)=AV(k1)+vS[k1],S[k]
ValordeSesin:Secalculacomolasumadelosvaloresdelosenlacesrecorridosduranteunasesin
completa(pginasvisitadas)ysedenotaporVA(n),donde
AV(n)=vS[1],S[2]+vS[2],S[3]+...+vS[n1],S[n].n2
Valorpromediodeunasesin:sterepresentaelvalorpromediodecadaenlacerecorridodurante
unasesin.DenotadoporAAV(n),sedefinecomoelvalortotaldelasesindivididoporelnmerototal
deenlacesrecorridos.Elnmerodeenlacesrecorridosesn1,alfinaldeunasesinenlacualsehan
recorridonpginas.
AAV(n)=AV(n)/(n1)
InterpretacindelValorpromedioacumuladodeunasecuenciainicialdelongitudk(AAV(k)):Este
valorofrecealadministradordelsitiowebelvalorpromediogeneradoparacadaunodelosenlaces
recorridoshastaalcanzarlapginaksima.Siejecutramoselalgoritmoduranteunasesin(entiempo
real)obtendramosunamedidatilqueesindependientedelnmerodeenlacesrecorridos.Porejemplo,
sitenemospginaswebadaptativas(tienenencuentadiferentesparmetros)podramosofertarproductos
y/opginasmsatractivasaaquellosusuariosconunbajoValorAcumuladoenunasecuenciainicialde
longitudk.Deestamanera,sepodraincrementarelvalorpromedioacumuladodecadausuarioenuna
sesin.
Si el nmero depginas recorridas (k) seincrementa, el Valor Acumulado de unasecuencia inicial
promedioenlaskpginasiniciales(AAV(k)),sepuede:
Incrementar,loquesignificaquelasesinseacercalameta.
Decrementar:cuandolasesinsealejadelameta
Permanecerconstante:cuandolasesinniseacercanialejadelameta

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 5 de 16

1.4) Algoritmoparaelclculodelvalordeunasesin
Elalgoritmotieneporobjetivoconocerlocercanoqueestelcomportamientodeunusuariodelsitio
webdelosobjetivosdelaorganizacin.Medimosladistanciadelosobjetivosutilizandoelvalordelos
enlacesrecorridos.Elalgoritmodeclculodeevolucindelvalordeunasesinsebasaenelrecorridode
ungrafo.
LaentradaesunamatrizdevaloresV[m,m]quecontieneelvalordelosenlacesenunsitioweb,que
sedeterminanenbasealosprocesosdenegociosdelaorganizacinylosobjetivosdelsitioweb. El
anlisisdelosprocesosdenegociosbrindaunmarcoconceptualparadeterminarelvalordelosenlaces,
enfuncindecuantoacercan(oalejan)alusuariodelaspginasestablecidascomoobjetivodelsitioweb.
Lasmatricesdevaloracionesson,enconsecuencia,determinadasporlosdirectivosdenegociosdela
organizacin.Esdedestacarquepuedensercalculadasparacadaperfildeusuarioyportantohacen
posibleadaptarlosobjetivosempresarialesdeacuerdoalcomportamientodelosusuarios.
Comoconsecuencia,lasmatricesdevaloracionesVsonadaptablesendosaspectos:
Losobjetivosempresarialesnosonfijosninicos,puedenmodificarseoserconsideradosdesde
diferentespuntosdevista.Porejemplomarketing,ventas,auditoriayrelacionespblicaspuedenanalizar
unamismasesindesdesuspuntosdevista.Parareflejardiferentespuntosdevistaelalgoritmodeber
ejecutarsecondiferentesmatricesdevaloracionescomoinput.
Porotrolado,laentradadelalgoritmopuedeincorporar(ademsdelamatrizdevaloracionesM)
laidentificacindelusuario.Lamatrizdevaloresdelosenlacespuedeadaptarseenfuncindelperfildel
usuario,definidoporejemploenunprocesopreviodesegmentacindelosusuarios.
Lassalidas del algoritmosonlaevolucin del valoracumulado ydel valoracumulado promedio
durantelasesin.
Pseudocdigodelalgoritmo
Input: Value links matrix V[m,m]
Initializacin
AV=0
//Added Value=0
AAV=0
//Average added value=0
k=1
//number of nodes=1
read S[k] //read the first traversed page in the Web site S[1]
Pseudocode:
While new pages are traversed
k = k +1 //compute the traversed
page sequential number
read S[k] // read the next
traversed page
/* the selected link is
(S[k-1],S[k])
1S[k-1]m-1 1S[k] m
2kn */
AV = AV + V(S[k-11],S[k])
// Add link traversed value to
accumulated value
AAV = AV / k-1
// Compute average link
traversed value
Plot values
// needs the previous value to be stored
Output: Final Accumulated Value and Final Average Accumulated Value
/* or Accumulated Value and Average Accumulated Value evolution if all values
are stored. */

Resumen de Mritos de Investigacin

1.5)

-Esther Hochsztain-

Septiembre 2002 - Pgina 6 de 16

ValordeunaSesin

Laprincipalventajadelalgoritmopropuestoeselclculodelaevolucindelvalordeunasesin.,que
constituyeunelementorelevanteenlaadopcindedecisionesdediseorelativasasitiosypginasweb.
Unaempresapuedebeneficiarseconestosresultadosaldetectarlanecesidaddeincorporarnuevas
pginas,realizarofertasonlineoefectuarventascruzadas.Frecuentemente,losejecutivosnocomprenden
cmousarlatecnologayqutipodeanlisisefecta[3].Nuestrapropuestasugiereadaptarlatecnologa
a las mtricas de los ejecutivos. Su principal ventaja es que no requiere de grandes esfuerzos para
entenderlayportantoelesfuerzorequeridoparautilizarlaseminimiza.
Acontinuacinpresentamosejemplosdeanlisisdelvalordeunasesinseguidosdeunejemploque
ilustraelcomportamientodelalgoritmo.

1.6)

Anlisisdelaevolucindelvalordeunasesin

Para analizar la evolucin del valor de una sesin se presenta una grfica en la cual las abcisas
representanlacantidaddeenlacesrecorridosylasordenadaselvaloracumuladohastaelltimoenlace
recorrido.
EnlaFigura1.1semuestralaevolucindelvalordeunasesin,quedisminuyealcomienzoyque
luegoaumenta.Duranteestasesinelusuariosefuealejandodelobjetivoyposteriormentevolvial.

Figura 1.1 Evolucin del valor acumulado de una sesin


LasFiguras1.2y1.3describentressesionesquetienensimilarevolucindevalor.Deestamaneraes
posibleencontrardospatronesenlasseissesiones.

session1
session2
session3

Figura 1.2- Evolucin del valor acumulado (sesiones 1 a 3).

session4
session5
session6

Figura 1.3-Evolucin del valor acumulado (sesiones 4 a 6)

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 7 de 16

A partir de las sesiones 1 a 6 que aparecen en la Figura 1.4 se pueden obtener dos patrones
interesantes.
session1
session2
session3
session4
session5
session6

Figura 1.4 - Evolucin del valor acumulado (sesiones 1 a 6)


Combinandoelanlisisdelaevolucindelvalorconlascaractersticasdelaspginasdelsitiowebes
posibleidentificarlaspginasquellevanasecuenciasascendentesodescendentesconrespectoalvalor
delasesin.Enparticular,estaspginasseranlaspreviasoinicialesdeciclosdevaloresdescendentes.
Estopuedepermitirdetectaraspectosamodificarenlasmismas.

1.7)

Clculodelvalordeunasesin

Enestaseccinsepresentaunejemplodeclculodelvalordeunasesin.Elejemplopermiteobservar
labajacomplejidaddelalgoritmopropuesto.Enlugardeconstituirunalimitacin,susimplicidadpuede
serconsideradaunelementopositivo,porquefacilitalacomprensindesusresultadosporpartedelos
administradoresdeunsitioweb.
La entrada del algoritmo es la siguiente matriz de valores de los enlaces V[4,4]
Origen(i)
Destino(j)
1
2
3 4
3
2
3
6
1
4
1
2
2
2
5
1
1 1
3
6
2
3 1
4
EnlaFigura1.5semuestraelgrafoconlaasignacindevaloresalosarcosasociadaalamatriz
anterior.Esfcilobservarqueenelgrafoexistendosnodosobjetivo(1y2),porquelosarcosde
entradaaestosnodossonpositivosylosarcosquesalenhaciaelrestodelosnodos(3y 4)toman
valoresnegativos.
3

2
1

2
4
-1

-2

3 -5
6

2
-1

-6
-1

-1

-3

Figura 1.5- Grafo con los valores de los enlaces


Los enlaces que coinciden en origen y destino, que se observan en la diagonal de la matriz de
valoracionesyenelgrafocorrespondiente,representanlaaccindereload(volveracargar)unapgina.

1.8)

ResultadosExperimentales

Elanlisisylaspruebassehicieroncondatosde2400sesionesdeusuarioprovenientesdeunsitio
webdecomercioelectrnico.Losdatosfueronprocesadosteniendoencuenta4matricesdiferentes.Se
descartaronlassesionesquerecorran10pginasomenos,dadoquelapropuestanoresultainteresante
paraanalizarsesionescortas.

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 8 de 16

Losvaloresdelascuatromatricesutilizadaspremianlossiguientesaspectos:
1. rea de noticias ,
2. pgina principal
3. registro de usuarios
4. realizacin de compras .
Enlafigura1.6semuestraquealanalizarlosvaloresdelosacumuladosporsesinconlascuatro
matricesseobservanpatronesclaramentedefinidos.Seutilizaunamatrizdediagramasdedispersin,que
muestratodaslascombinacionesposiblesdelosvaloresacumuladosporsesinobtenidosconlascuatro
matricesconsideradas.Laprimerafilaylaprimeracolumnapresentanclculosobtenidosconlamatriz1,
lasegundafilaylasegundacolumnalosobtenidosconlamatriz2,yassucesivamente.
Enelcrucedelaprimerafilaylasegundacolumnasepresentaelgrficoquevinculavaloresdesesin
obtenidosconlasmatrices1y2.Enelcrucedelasegundafilaylaprimeracolumnasepresenta(conlos
ejesinvertidos)elanlisisdelasmismasmatrices.Nosecruzanlosvaloresobtenidosconunamatriz,
consigomisma,dadoquesiempreelgrficoestarformadoporpuntosubicadosenladiagonalprincipal.
Alanalizarelgrfico,seobservaporejemplocomolosvaloresobtenidosconlasmatrices1y2
muestransontotalmenteopuestas.

AV1

AV2

AV3

AV4

Figura1.6Valoresacumuladosconlas4matricesconsideradas.
EnlaFigura1.7semuestranlosvalorespromedioobtenidosconlascuatromatricesconsideradas.Se
observaelmismopatrnqueparalosvaloresacumulados.

AAV1

AAV2

AAV3

AAV4

Figura 7 - Valores promedio con las 4 matrices consideradas


Conelobjetivoderesumirlosvalorespromediodecadaenlacerecorridoenunasesinobtenidoscon
lascuatromatrices,calculamosmediaydesviacinestndar,quesepresentanenlaTabla1.1.
El valor positivo +4,8048 muestra que las sesiones son favorables al ser analizadas con el criterio
subyacente a la matriz 2. Sin embargo, el valor promedio --3.3382 muestra una evaluacin desfavorable
si se analizan las sesiones con el criterio que brinda la matriz1. Al observar los valores de resumen para el
valor promedio al final de la sesin, se observa que los caminos, en promedio, se adecuan a los objetivos
reflejados en la matriz 2 y no se adecuan a los planteados en los objetivos reflejados en la matriz 1

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 9 de 16

Matriz Media Desviacin


Estandar
1
-3,3382 2,1435
2
4,8048
2,8445
3
-,8720
1,2446
4
,1187
,3767
Tabla 1.1 - Media y desviacin estndar del valor acumulado promedio
Porltimo,unejemplodelospatronesqueseobtienenconlasdiferentesmatricessepresentanenla
Figura1.8

Figura 1.8 Valores obtenidos con datos experimentales.

1.8.1. Conclusiones y trabajo futuro


Sehapresentadounenfoqueparacalcularelvalordeunasesindeusuarioenunsitiowebteniendo
encuentatantosucomportamientocomolasmetasestablecidasporeladministradordelsitioweb.El
enfoquepropuestohasidoprobadocondatosrealesydemuestrasertilparaseguirelcomportamiento
delosusuariosmientrasnaveganenunsitio.Porotraparte,delanlisisaposterioridelassesiones,es
posibleidentificarsesionessimilaresinclusocuandonoseaccedealasmismaspginas.Asimismo,la
posibilidad de definir distintos tipos de matrices, de acuerdo a distintos criterios posibilita el poder
realizaranlisisbajodiferentespuntosdevista.Elmayorproblemadelalgoritmoradicaenelhechode
queserequierenlasmatricesdevaloracindeentradaydemomentostassecalculanmanualmente.
Estamostrabajandoenlaactualidadenunprototipoparaelclculodeestasmatricesaplicandotcnicas
de data mining. Otro problema del algoritmo propuesto es que no tiene en cuenta los tiempos de
permanencia del usuariowebenunapgina.Enlasiguienteversindel algoritmoestprevistauna
modificacinparatenerencuentaestostiempos.

1.9)

Bibliografa

[1]B.Mobasher,N.Jain,E.Han,andJ.Srivastava.(1997)"Webmining:PatterndiscoveryfromWWWtransaction".
InIntConferenceonToolswithArtificialIntelligence,pages558567,Newport.
[2]J.Han,M."Kamber.DataMining:ConceptsandTechniques".AcademicPressUSA2001
[3]G.PiatetskyShapiro"InterviewwithJesusMena,CEOofWebMiner,authorofDataMiningyourWebsite"Date:
June24,2001http://www.kdnuggets.com/news/2001/n13/13i.html
[4]J.BorgesandM.Levene."Miningnavigationpatternswithhypertextprobabilisticgrammars" ResearchNote
RN/99/08,DepartmentofComputerScienceUniversityCollegeLondon,1999.
[5]J.BorgesandM.Levene."Dataminingofusernavigationpatterns". WebUsageMining,inLectureNotesin
ArtificialIntelligence(LNAI1836)B.MasandandM.Spliliopoulou,editors,.SpringerVerlag,Berlin,2000.
[6]M.PerkowitzandO.Etzioni"AdaptiveWebSites:AutomaticallySynthesizingWebPages".InProceedingsof
AAAI98.
[7]M.PerkowitzandOEtzioni."Adaptivewebsites:Conceptualclustermining".InSixteenthInternationalJoint
ConferenceonArticialIntelligence,Stockholm,Sweden,1999.
[8]M.PerkowitzandO.Etzioni."TowardsadaptiveWebsites:Conceptualframeworkandcasestudy".In Artificial
Intelligences118,2000.
[9]M.Spiliopoulou,L.Faulstich,andK.Wilkler."Adatamineranalyzingthenavigationalbehaviourofwebusers".
InProc.OftheWorkshoponMachineLearninginUserModellingoftheACAI99,Greece.
[10]M.Spiliopoulou,C.Pohle,andL.Faulstich."Improvingtheeffectivenessofawebsitewithwebusagemining".
InProceedingsWEBKDD99.
[11]R.Cooley,B.Mobasher,andJ.Srivastava."Datapreparationforminingworldwidewebbrowsingpatterns".
KnowledgeandInformationSystems,1(1),February1999.

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 10 de 16

[12]E.Menasalvas,S.Milln,J.M.Pea,M.Hadjimichael,O.Marbn"Subssesions:Agranularapproachtoclick
pathanalysis"InProceedingsWCCI2002
[13]C.Shalabi,F.BanaeiKashaani,J.FaruqueandA.Faisal.(2001)"Featurematrices:AmodelforeEcientand
anonymouswebusagemining".InProceedingsofECWeb2001,Germany,September
[14]E.Menasalvas,O.Marbn,S.Milln,andJ.M.Pea"IntelligentWebMining"inIntelligentExplorationof
theWeb seriesStudiesinFuzzinessandSoftComputing,. SpringerVerlag 2002 P.S.Szczepaniak, J.Segovia,J.
Kacprzyk,L.A.Zadeheditors

2.
2.1)

Metodologa para la estimacin de la utilidad de una pgina web


Resumen

Lossitioswebnecesitansermuyatractivosparalosvisitantes,debidoaqueseubicanenunentorno
sumamentecompetitivo.Proponemosenunenfoqueparaanalizarydeterminarelniveldeagradodelos
usuariosdeunsitiowebquetiendaaasegurarlasatisfaccindesususuarios,enbaseasutipodepginas
yeltipodeusuarios.
Proponemosunenfoquegranularbasadoenlaideadequeunapginapuedeserconsideradacomoun
conjuntodecaractersticas ofactores y cadaunodeellospuede percibirse endiferentes niveles de
granularidad.Elenfoquepropuestopermiteestimarunamedidadelautilidadquebrindaaunusuario
cadaniveldecadafactorenparticular.Enunapginaenparticular,cadafactortomauncierto.Lamedida
globaldeutilidadporunaciertapginasedeterminaconsiderandoconjuntamentelosnivelesquepresenta
dichapginaencadafactordediseo.
Palabras clave: minera de datos, minera de la web, enfoque granular, factores de diseo, utilidad de una
pgina

2.2)

Introduccin

Paradisearpginaswebatractivasunodelosprincipalesdesafosesencontrarlosfactoresquedeben
tenerseencuenta.Cuandoseresuelveesteproblemaelsegundodesafoesencontrarunmodelopara
cuantificarsurelevancia.Elproblemarequiereunmodeloqueconsiderelosatributosysucuantificacin
ycomotengaencuentadiferentesperfilesdeusuariosytiposdepginas.Considerandoqueenlaweb
pueden distinguirse diferentes dominios (i.e. educacionales, empresariales, administrativos,
gubernamentales),lametodologapropuestaincluyeaspectoscomunesatodoslossitiosweb.
Eldiseadordesitioswebdebeactuarenfuncindeldominiodetrabajo.Portanto,haydecisionesde
diseoquenopuedendefinirsedeunaformagenrica. Enestesentido,debemosdistinguirtiposde
pginas(i.e.comercioelectrnico,informacin)yperfilesdeusuariosycaractersticas(i.e.habilidaden
el uso de computadoras, sensibilidad y formacin artstica). El principal objetivo de este trabajo es
brindaralosadministradoresdeunsitiounametodologaparadeterminarelgradodeafabilidaddeun
sitioweb,queenellargoplazo,puedaayudarlosadisearpginasysitiosatractivos.Unarespuestaala
pregunta "qu paginas atraen ms la atencin de los usuarios?" facilitar el diseo de sitios web
adaptativosyapredecirelcomportamientodelosvisitantesdelsitiodeacuerdoasusperfilesyalas
pginasquehanvisitadoenlasesin.Hartambinposiblevinculareldiseodelaspginasconlos
objetivosempresarialesdelsitioweb.
Paraidentificarcaractersticasqueaumentanelagradoporlaspginasnecesariamentedebenincluirse
factoresusualmentetomadosencuentaeneldiseodesitiosweb.Perotambinsernincluidosaspectos
nuncausadosoconsideradosantesirrelevantes.Estoultimoseguramenteayudaramejorarlacalidadde
lossitiosconsiderandoquediferentesusuariostienendiferentesgustos,preferenciasydesagrados,yla
utilidad de una pgina puede asociarse a los perfiles de usuarios (i.e. educacin, gnero, edad,
pasatiempos,religin).Portantolametodologapropuesta requiere considerar usuariosobjetivopara
adaptarelhallazgodenuevosatributosdediseoalosperfilesdelosusuarios.Elanlisisdepatronesde
usodelawebpuedeserrelevanteparaidentificaratributosqueatraenalosusuarios.Suponemosquelos
usuariosvistanconmayorfrecuenciaaquellaspginasquelosatraenmsporqueporsudiseooporla
informacinquecontienen.Nuestratareaesdescubrirelvalorqueelusuarioasignaaunsitioweby/oa
unapgina.
Proponemos un enfoque granular para descubrir el valor que un usuario asigna a una pgina,
cuantificando cada unade los factores de diseo utilizando un enfoque que descompone suvalor o
utilidad.Laprincipalideaquesubyacelametodologapropuestaeslasiguiente:unvisitanteevalael
valordeunapginacombinandolosvaloresindividualesqueasignainconscientementealosatributosde

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 11 de 16

dichapgina.Lautilidaddeunapginawebdelpuntodevistadelusuarioesunjuiciosubjetivoque.
representeunapreferenciaglobalporlapginaweb.Estapreferenciadelusuarioesunmarcoconceptual
paracuantificarelvalordeunapginaweb.
En nuestra propuesta, suponemos que el valor (utilidad) de una pgina se basa en los valores
individuales asignadosa cada factor de diseo.Yagregando losvalores individualesde cada factor
obtendremoslautilidadconjuntadelapgina.Laspginasconmayorutilidadsernconsideradasms
atractivasysupondremosquetienenmayorprobabilidaddeserelegidas.
La propuesta se estructura de la siguiente forma: En la Seccin 2.3 se presenta la metodologa
propuesta para calcular la utilidad de pginas web. En la Seccin 2.4 se muestra un ejemplo de
utilizacindelametodologapropuesta.

2.3)

Metodologa para calcular la utilidad de pginas web

Proponemosunenfoquemetodolgicobasadoenlaestimacinlautilidadqueposeeunapginapara
unciertousuario.Nuestrapropuestautilizaelanlisisconjuntomultivariado[HA+98][GC+89]parala
construccindelmodeloyparaestimarsusparmetros.Debenefectuarsevariosajustesparaadaptarla
metodologaexistentealdiseonoexperimentalusado..
Enelmodeloparaexplicarelcomportamientodelosusuarioslavariabledependiente(y)eseltiempo
queunusuariopermaneceenunapgina.Asumimosqueexisteunarelacindirectaentreeltiempode
permanenciayelagradoporlapgina,demodoquecuantomspermaneceelusuarioenunapginams
leagrada.Asumimosqueeltiempodepermanenciadependetantodelasalternativasdediseocomode
loscontenidosdelapgina.Queremosdescubrir comodisearpginasquehagan queeltiempode
permanenciaaumente.
Consideramosfactoresdediseoaaquelloselementosquepuedenmodificarsealdisearlapgina.
Cadafactordediseopuedeserimplementadoendiferentesniveles.Entrelosfactoresquepodranser
tenidosencuentaconsideramos:
El tipo de imgenes que contiene la pgina: esttica (nivel 1), dinmica (nivel 2)
El color de fondo: suave (nivel 1), fuerte (nivel 2)
El tipo de lenguaje utilizado: tcnico (nivel 1), coloquial (nivel 2)
El tamao de letra: grande (nivel 1), pequeo (nivel 2)
Sibienenloanteriorslosesugierendosnivelesparacadafactor,podranconsiderarsems.Se
requiere que se asigne un nico nivel a cada factor en cada pgina utilizada en el experimento.
Construimosunmodeloqueexplicaeltiempodepermanenciaenfuncindelosfactoresdediseo.
Elvalorpromedio( )deltiempodepermanenciapuedeaumentarodisminuirenfuncindelos
niveles considerados para cada factor (ab ). Por tanto, los parmetros tienen dos subndices: el
primeroidentificaelfactoryelsegundoelniveldedichofactor..Tambinseconsiderauntrminode
error().Siconsideramostresfactoresdediseoelmodeloresultantees:yijk=+1i+2j+3k+ijk
Paradeterminareltiempodepermanenciaseestimanlosparmetrosdelmodelo,1i,2j,3ka

travsdelosestimadores , 1i , 2 j , 3k respectivamente, donde.i,j,kvaranentre 1yla

cantidaddenivelesdelosfactores1,2,3respectivamente.Losvaloresde 1i , 2 j , 3k paracada
nivel se utilizan para estimar si el tiempo de permanencia aumenta o disminuye en funcin de las
alternativasdediseoutilizadasencadapgina.
Elprocedimientodeestimacinpuedesermtricoonomtricoenfuncindesielmtodoutilizado
paratransformarlavariabledependienteeslinealomontono.Laestimacindelosparmetrospuede
requeririteraciones,dependiendodelmodeloespecificado.
Lautilidaddeunapginasedeterminaenfuncindelniveldecadaunodelosfactoresqueinfluyeen
sudiseo(nivelesdelosatributos).Seproponeunafuncinquedeterminalautilidaddeunapginaen
funcindediferentescombinacionesdeatributos.Comoconsecuencia,laspginasconmayorutilidad
sonmsatractivasyportantotendrnmayorprobabilidaddeserelegidas.
Obtencin de los datos
Analizarelcomportamientodelosvisitantesdeunsitio,yenparticularlasdecisionesqueadoptanal
visitarunapgina,permiteobtenerinformacinrelativaalarelevanciadecadafactordediseodedicha
pgina. Por tanto, cada pgina puede evaluarse tomando en cuenta diferentes atributos (factores) de
diseoysusrespectivosniveles(valores).Lametodologatradicionaldelanlisisconjunto[HA+98]se
basaenundiseoexperimental.Sepresentan aunapersona diferentes opcionesdediseoqueson

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 12 de 16

combinacionesdeatributos(factores)condiferentesniveles.Elusuariomanifiestasupreferenciaglobal
para cada una de las opciones presentadas. Nuestra propuesta se basa en esta metodologa pero, en
nuestrocaso,enlugardedisearunexperimentopara consultaral usuario,seanalizan loslogsdel
servidorweb.
Debido a que en nuestra propuesta no se usan variables independientes ni existe una persona
controlandoalosusuarios,estamosenpresenciadeundiseonoexperimental.Constituyeundiseo
"expostfacto"(luegoqueloshechosocurrieron)debidoprincipalmenteaqueseobservaalusuarioy
luegosedeterminaelpresuntofactorcausal.
Identificacin de atributos
Paradeterminarlosatributosrelevantesdeunapginawebpuedenutilizarselossiguientesmtodos:
1. Juicio de expertos
2. Mtodos cualitativos, generalmente en base a un pequeo nmero de personas entrevistadas. Pueden
basarse en grupos motivacionales o entrevistas en profundidad.
3. Identificacin experimental. Utilizamos este ltimo. Primero utilizamos la tcnica propuesta
considerando todos los factores de diseo posibles de una pgina web con el objetivo de identificar
los ms relevantes. En segundo lugar, solamente los atributos considerados relevantes en la etapa
anterior se tendrn en cuenta. Para aplicar este mtodo se requiere que el sitio web considerado
contenga pginas con diferentes criterios de diseo. Este procedimiento propuesto se detalla a
continuacin:
Determinacin de las variables independientes:
1. Identificar de factores de diseo.
2. Describir los niveles considerados de cada factor de diseo.
3. Describir las pginas web en funcin de los factores y niveles identificados anteriormente. En
resumen, cada pgina se caracterizar como una lista de vares de valores de la forma:
(factor1-nivel1x, factor2-nivel2y, , , factork-nivelky)
Identificacin de la o las variable Dependiente
Laolasvariablesdependientesconsistenenlasmedidasquenosinteresaconsiderarrespuestaalas
alternativasdediseodeunapgina.Porejemplo,eltiempodepermanenciaenlapgina,elnmerode
clicks,etc.puedenserconsideradasvariablesdependientes.
Proceso de estimacin
Consiste en estimar la utilidad de todos los niveles en todos los factores para el usuario. Estas
estimacionesparcialesdelosnivelesindividualesdelosfactoresseusanparadeterminarlaestimacin
globaldelautilidaddeunapgina.Losconceptospreliminaresconsideradosenelexperimentoson:
Poblacin objetivo: los usuarios de las pginas consideradas
Unidad experimental: una visita de un usuario a una pgina.
Parmetros: atributos de la pgina(tipo de pgina, objetivo principal, habilidades requeridas).
Variables de respuesta (variables dependientes): la utilidad de una pgina.
Factores (variables independientes): caractersticas que afectan a las variables dependientes. Un
factor es un atributo de diseo (i.e. tipo de imgenes en la pgina, tamao de letra). Estamos
interesados en identificar el impacto de estos factores, definidos como la utilidad de los atributos de
diseo. Las opciones para identificar los factores se han mencionado previamente.
Niveles: diferentes valores que puede tomar una variable independiente (i.e. las imgenes en una
pgina pueden ser estticas o dinmicas, el tamao de letra puede ser grande o chica).

2.4)

Ejemplo

Acontinuacinsepresentaunejemplodeestimacindeparmetrosydeanlisisdesusresultados.
Los factores de diseo de una pgina (variables independientes del modelo) y sus correspondientes
nivelessepresentanenlatabla2.1.
1
2
3.

FACTOR
Tipo de imgenes
Tamao de letra
Color de fondo

Nivel 1
11 = estticas
21 = grande
31 = suave

Nivel 2
12 = dinmicas
22 = pequea
32 = fuerte

Tabla 2.1. - Ejemplo de factores y sus niveles.


Presentamoslossiguientesdatosrelacionadosconlautilidad(tiempodepermanencia)queunusuario
asignaadiferentescombinacionesdelostresfactoresdediseoconsiderados.
Tipodeimgenes

Tamaodeletra

Colordefondo

Tiempo

Resumen de Mritos de Investigacin


estticas
estticas
estticas
estticas
dinmicas
dinmicas
dinmicas
dinmicas

-Esther Hochsztain-

grande
grande
pequea
pequea
grande
grande
pequea
pequea

Septiembre 2002 - Pgina 13 de 16


Suave
Fuerte
Suave
Fuerte
Suave
Fuerte
Suave
Fuerte

15
12
12
8
18
16
18
14

Tabla 2.2 - Datos del ejemplo


Losparmetrosdeyijk= +1i+2j+3k+ijkseestimanconsiderandolassiguientesrestricciones
11+12= 21+22=31+32=0.queindicanquelasumautilidadesdelosnivelesdecadaatributo
debesernula.Eltrminodeerroresijk.Elanlisisconjuntomtricoutilizadocreaunamatrizdediseo
deefectoprincipalparalasvariablesespecificadas.
Enesteejemplo,.R2=0.94436yR2Corregido=0.9026.LaTabla2.3presentalarelevanciaestimada
decada factor., sepuede apreciar que el tipode imagenpredominante es el factor ms importante,
seguidodelcolordefondo,siendoeltamaodeletraelfactorconmenorrelevanciaestimada.Debe
tenerseencuentaquelatablaANOVAbrinda,enestecaso,slounaaproximacinalajustedelmodelo
conjunto,debidoaquelossupuestosdenormalidadeindependencianosecumplen.
FACTOR
1
2
3.

Tipo de imgenes
Tamao de letra
Color de fondo

IMPORTANCIA
46.342%
21.951%
31.707%

Tabla 2.3- Estimaciones de la importancia de los factores


LasestimacionesdeutilidadpresentadasenlaTabla4permitenidentificarlosnivelespreferidosde
cada atributo. Los niveles con utilidad positiva se prefieren a aquellos con utilidad negativa. Las
estimacionesdelautilidaddecadaunodelosnivelesdetodoslosfactoresconsideradossepresentaenla
Tabla2.4.
FACTOR
Nivel1
Utilidad
Nivel2
Utilidad
Estimada
Estimada
1
2
3.

Tipo de
imgenes
Tamao
de letra

11 = estticas

11 =2.375

12 = dinmicas

12 =+2.375

21 = grande

21 =+1.12

22 = pequea

22 =1.125

Color de
fondo

31 = suave

32 = fuerte

11 =1.625

31 =+1.62
5

Tabla 2.4- Utilidad estimada de los niveles de factores de diseo

Elvalorpositivo 12 =+2.375delniveldinmicasdelfactortipodeimgenesmuestrapreferencia

porestetipodeimgenesencontrasteconelvalornegativo 11 =2.375delasimgenesestticas.
Procediendodelamismaformaconlosrestantesatributospodemosdecirquelosnivelespreferidosde
lostresfactoresconsideradossonimgenesdinmicas,letragrandeycolordefondosuave.
Laestimacindellamediageneral es14.250.ParalacombinacinpreferidadeTipodeimgenes,

TamaodeletrayColordefondolautilidadestimadaes y =14,125+2,375+1,125+1,625=19,25,
siendoelvalorobservadodelapreferenciadedichacombinaciny=18. Paralacombinacinmenos
preferida la utilidad estimada y el valor observado de la preferencia son respectivamente 14,125+

2,375+1,125+1,625=925= y
ey=8.
Lautilidadpuedeserconsideradacomolosvaloresquesepredicenenunmodeloderegresin.El
coeficientededeterminacin entrelautilidaddecadacombinacinyeltiempoobservadoesR2.Los
factoresquepresentanmayorutilidadseconsideranlosmsrelevantesenladeterminacindelostiempos
depermanenciaestimados.

2.5)

Conclusiones

Lametodologapresentadapermiteestimarlautilidaddeunapginaenfuncindesudiseo.Se
suponequelosusuariospermanecernmstiempoenaquellaspginasquelesresultanmsinteresantes.

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 14 de 16

Elprincipalresultadodenuestroenfoqueesquelaspginaswebpuedenserparametrizadasenfuncin
dediferentesfactoresdediseoypodrandisearsedinmicamenteconelobjetivodeadaptarsealas
preferencias de los usuarios (estimadas durante el transcurso de la sesin de dicho usuario). Por
consiguiente,elenfoquepropuestopermitequelosdiseadoresdepginaswebtomendecisionesporal
poseerinformacindelacontribucinrelativasdecadafactordediseodelapginaysusrespectivos
nivelesenelagrado(outilidad)quelapginagenera.Eldiseadorpuedeestimarlamejorcombinacin
deatributos(laquegeneramayorutilidad)paracadapginaenparticular.
Elenfoque tambinconsidera informacin relativa alosperfilesdelosusuariosenrelacin asu
preferenciaporciertotipodepginas.Estopermiteeldiseodepginasparagrupospredefinidosde
usuarios, si los diseadores saben con anticipacin los segmentos de usuarios que sern potenciales
visitantesdelapgina.Porconsiguiente,lapreferenciadelosusuariosporunapginapuedesertomada
encuentaenalgoritmosdewebminingadaptativo.

2.6)

Referencias

[AGJ00]AndersenJ.,GiversenA.,JensenA.LarseR.,BachT.,SkytJ.Analysingclickstreamsusingsubsessions.
Proc.DOLAPOO,pp.2532,2000
[BM00]BorgesJ.,LeveneM.Afinegrainedheuristictocapturewebnavigationpatterns.SIGKDDExploration,2(1)
pp4050,2000.
[CY00]ChangWeiLun,YuanSoeTsyr.AsynthesizedLearningApproachforWebBasedCRM.WorkingNotes
ofWorkshoponWebMiningforEcommerce:ChallengesandOpportunities.August20,2002BostonUSApp.
4359
[GS00]GaulWolfang,SchmidtThiemeLars.Miningwebnavigationpathfragments.WorkshoponWebMiningfor
ECommerceChallengesandOpportunities.Workingnotespp.105110.Kdd2000,August20,2000,Boston,
MA.
[Ga01]JohnGajanRajakulendran.PersonalisedElectronicCustomerRelationships:ImprovingTheQualityofData
WithinWebClickstreams IndividualProject(MSc)NewcastleUniversity(UK)&UniversidadPolitecnica
MadridSupervisor:E.Menasalvas(UPM)
[GA96]IldefonsoGrande,ElenaAbascalFundamentosyTcnicasdeInvestigacinComercialESICEspaa
1996
[GC+89] Paul E. Green, Frank J. Carmone, JR. Scott M. Smith Multidimensional Scaling Concepts and
applicationsAllynandBaconADivisionofSimon&Schuster,USA1989.
[HK01]HanJ.,KamberM.DataMining:ConceptsnadTechniques.Acadc.Press,USA2001
[HA+98]JosephF.Hair,Jr,RolphE.Anderson,RonaldL.Tathan,WilliamC.BlackMultivariateDataAnalysis
PrenticeHallUSA1988
[HM02]HochztainE.,MenasalvasE.Sessionsvalueasmeasureofwebsitegoalachievement. TechnicalReport.
UniversidadPolitcnicadeMadrid,2002
[KNY00]KatoH.,NakayamaT.,YamaneY.NavigationAnalysisToolbasedontheCorrelationbetweenContents
Distributionand AccessPatterns.WorkshoponWebMiningforECommerceChallengesandOpportunities
Kdd2000,August20,2000,Boston,MA
[LAR00]LinWeiyang,AlvarezSergio,RuizCarolina. CollaborativeRecommendationviaAdaptativeAssociation
RuleMining. WorkingNotesofWorkshoponWebMiningforEcommerce:ChallengesandOpportunities.
August20,2002BostonUSApp.3541
[MB+97]SalvadorMiquel,EnriqueBign,JeanPierreLvy,AntonioCarlosCuenca,MJosMiguelInvestigacin
deMercadosMcGrawHill/InteramericanadeEspaa1997
[MJHS97]MobasherB.,JainN.,Han,EH.,SrivastavaJ.WebMining:PatternDiscoveryfromWorldWideWeb
Transactions.InInternationalConferenceonToolswithArtificialIntelligence,pp.558567,NewPort1997
[MMP+02]]MenasalvasE.,MillnS.,PeaJ.,HadjimichaelM.,MarbnO. Subsessions:agranularapproachto
clickpathanalysis.InProc.WICI02
[PM01]From:GregoryPiatetskyShapiro2001:InterviewwithJesusMena,(WebMiner)
[SFBF00]ShahabiC.,FaisalA.,BanaeiF.,FaruqueJ.INSITE:AtoolforrealtimeknowledgeDiscoveryfromusers
webnavigation.InProc.VLDB2000,2000.
[SFKFF01]ShahabiCyrus,FarnoushBanaieiKashaani,JaabedFaruque,AdilFaisal.FeatureMatrices:Amodelfor
eEcientandanonymouswebusagemining.Proc.ofECWeb2001.

Bibliografa analizada
AndersenJ.,GiversenA.,JensenA.LarseR.,BachT.,SkytJ.Analysingclickstreamsusingsubsessions.Proc.
DOLAPOO,pp.2532,2000
BorgesJ.,LeveneM.Afinegrainedheuristictocapturewebnavigationpatterns.SIGKDDExploration,2(1)pp40
50,2000.

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 15 de 16

J.BorgesandM.Levene."Miningnavigationpatternswithhypertextprobabilisticgrammars"ResearchNote
RN/99/08,DepartmentofComputerScienceUniversityCollegeLondon,1999.
J.BorgesandM.Levene."Dataminingofusernavigationpatterns".WebUsageMining,inLectureNotesin
ArtificialIntelligence(LNAI1836)B.MasandandM.Spliliopoulou,editors,.SpringerVerlag,Berlin,2000.
ChangWeiLun,YuanSoeTsyr.AsynthesizedLearningApproachforWebBasedCRM.WorkingNotesof
WorkshoponWebMiningforEcommerce:ChallengesandOpportunities.August20,2002BostonUSApp.4359
R.Cooley,B.Mobasher,andJ.Srivastava."Datapreparationforminingworldwidewebbrowsingpatterns".
KnowledgeandInformationSystems,1(1),February1999.
GaulWolfang,SchmidtThiemeLars.Miningwebnavigationpathfragments.WorkshoponWebMiningforE
CommerceChallengesandOpportunities.Workingnotespp.105110.Kdd2000,August20,2000,Boston,MA.
JohnGajanRajakulendran.PersonalisedElectronicCustomerRelationships:ImprovingTheQualityofDataWithin
WebClickstreamsIndividualProject(MSc)NewcastleUniversity(UK)&UniversidadPolitecnicaMadrid
Supervisor:E.Menasalvas(UPM)
IldefonsoGrande,ElenaAbascalFundamentosyTcnicasdeInvestigacinComercialESICEspaa1996
PaulE.Green,FrankJ.Carmone,JR.ScottM.SmithMultidimensionalScalingConceptsandapplicationsAllyn
andBaconADivisionofSimon&Schuster,USA1989.
HanJ.,KamberM.DataMining:ConceptsnadTechniques.Acadc.Press,USA2001
JosephF.Hair,Jr,RolphE.Anderson,RonaldL.Tathan,WilliamC.BlackMultivariateDataAnalysisPrentice
HallUSA1988
HochztainE.,MenasalvasE.Sessionsvalueasmeasureofwebsitegoalachievement.TechnicalReport.
UniversidadPolitcnicadeMadrid,2002
KatoH.,NakayamaT.,YamaneY.NavigationAnalysisToolbasedontheCorrelationbetweenContents
DistributionandAccessPatterns.WorkshoponWebMiningforECommerceChallengesandOpportunitiesKdd
2000,August20,2000,Boston,MA
LinWeiyang,AlvarezSergio,RuizCarolina.CollaborativeRecommendationviaAdaptativeAssociationRule
Mining.WorkingNotesofWorkshoponWebMiningforEcommerce:ChallengesandOpportunities.August20,
2002BostonUSApp.3541
SalvadorMiquel,EnriqueBign,JeanPierreLvy,AntonioCarlosCuenca,MJosMiguelInvestigacinde
MercadosMcGrawHill/InteramericanadeEspaa1997
MobasherB.,JainN.,Han,EH.,SrivastavaJ.WebMining:PatternDiscoveryfromWorldWideWebTransactions.
InInternationalConferenceonToolswithArtificialIntelligence,pp.558567,NewPort1997
MenasalvasE.,MillnS.,PeaJ.,HadjimichaelM.,MarbnO.Subsessions:agranularapproachtoclickpath
analysis.InProc.WICI02
E.Menasalvas,O.Marbn,S.Milln,andJ.M.Pea"IntelligentWebMining"inIntelligentExplorationofthe
WebseriesStudiesinFuzzinessandSoftComputing,.SpringerVerlag2002P.S.Szczepaniak,J.Segovia,J.
Kacprzyk,L.A.Zadeheditors
From:GregoryPiatetskyShapiro2001:InterviewwithJesusMena,(WebMiner)
M.PerkowitzandO.Etzioni"AdaptiveWebSites:AutomaticallySynthesizingWebPages".InProceedingsof
AAAI98.
M.PerkowitzandOEtzioni."Adaptivewebsites:Conceptualclustermining".InSixteenthInternationalJoint
ConferenceonArticialIntelligence,Stockholm,Sweden,1999.
M.PerkowitzandO.Etzioni."TowardsadaptiveWebsites:Conceptualframeworkandcasestudy".InArtificial
Intelligences118,2000.
ShahabiC.,FaisalA.,BanaeiF.,FaruqueJ.INSITE:AtoolforrealtimeknowledgeDiscoveryfromusersweb
navigation.InProc.VLDB2000,2000.
ShahabiCyrus,FarnoushBanaieiKashaani,JaabedFaruque,AdilFaisal.FeatureMatrices:AmodelforeEcient
andanonymouswebusagemining.Proc.ofECWeb2001.
M.Spiliopoulou,L.Faulstich,andK.Wilkler."Adatamineranalyzingthenavigationalbehaviourofwebusers".In
Proc.OftheWorkshoponMachineLearninginUserModellingoftheACAI99,Greece.
M.Spiliopoulou,C.Pohle,andL.Faulstich."Improvingtheeffectivenessofawebsitewithwebusagemining".In
ProceedingsWEBKDD99.

Publicaciones que el trabajo ha generado


Durante la etapa de suficiencia investigadora fueron presentados los siguientes artculos en carcter de
coautora:
[1] Sessions Value as measure of web site goal achievement - 3rd ACIS International Conference on
Software Engineering Artificial Intelligence, Networking and Parallel/Distributed Computing - Madrid Espaa- 2002 SPND (aceptado)
[2] A granular approach for analyzing the degree of affability of a web site- The Third International
Conference on Rough Sets and Current Trends in Computing RSCTC'2002 - Pennsylvania - USA Octubre 2002 (aceptado).

Resumen de Mritos de Investigacin

-Esther Hochsztain-

Septiembre 2002 - Pgina 16 de 16

[3] Web Site Goal Achievement Measured by a Sessions Value Algorithm - Web Mining for Usage
Patterns and User Profiles. Edmonton, Alberta, Canada WEBKDD'02 (no aceptado)
[4] Algoritmo de evaluacin de los logros de un sitio web mediante el cmputo del valor de las
sesiones de usuarios. VII Jornadas de Ingeniera del Software y Bases de Datos - El Escorial, Madrid2002 -JISBD2002
[5] Algoritmo de Cmputo del Valor de las Sesiones de Usuarios para Evaluacin de los Logros de
un Sitio Web -Conferencia Latinoamericana de Informtica - Montevideo, Uruguay -CLEI2002

Potrebbero piacerti anche