Sei sulla pagina 1di 22

UNIVERSIDAD NACIONAL DE INGENIERA

FACULTAD DE INGENIERA INDUSTRIAL Y DE


SISTEMAS

APLICACIN DE ALGORITMOS DE ESTILOMETRA PARA LA DETECCIN DE


PLAGIO EN LOS TRABAJOS UNIVERSITARIOS DE PRE-GRADO.
PLAN DE TESIS
PARA OPTAR POR EL TITULO DE INGENIERO DE SISTEMAS
Autor:
-

HUAYCOCHEA BAYTON JESUS ALBERTO

CURSO:
TALLER DE TESIS II

ASESOR:
JUAN CARLOS SOTELO

FECHA:
23 05 - 2016
2016 I

NDICE
1.

RESUMEN.............................................................................................................. 4

2.

PLANTEAMIENTO DEL PROBLEMA..........................................................................5

2.1.

DESCRIPCIN DE LA SITUACION PROBLEMA:.......................................................5

2.2.

FORMULACIN DEL PROBLEMA:.........................................................................6

2.3.

OBJETIVOS......................................................................................................... 6

2.3.1.

OBJETIVO GENERAL:....................................................................................... 6

2.3.2.

OBJETIVOS ESPECFICOS:................................................................................. 6
MATRIZ DE CONSISTENCIA:................................................................................. 6

2.4.
3.

JUSTIFICACIN...................................................................................................... 7

4.

ANTECEDENTES.................................................................................................... 7

4.1.

TEXT MINING APPLIED TO PLAGIARISM DETECTION:............................................7

4.2.

PDLK: PLAGIARISM DETECTION USING LINGUISTIC KNOWLEDGE.........................8

5.

MARCO TERICO................................................................................................... 9

5.1.

PLAGIO:............................................................................................................. 9

5.1.1.

COPIAR Y PEGAR:............................................................................................ 9

5.1.2.

PARAFRASEO INAPROPIADO:.........................................................................10

5.2.
5.2.1.

LA UNIVERSIDAD Y EL PLAGIO:.........................................................................10
LA MOTIVACIN DE LOS ESTUDIANTES:.........................................................10

5.2.1.1.

CAMBIO DE ACTITUDES:............................................................................. 10

5.2.1.2.

EDUCACIN, ENTRENAMIENTO Y APRENDIZAJE..........................................11

ESTUDIANTES:........................................................................................................... 11
MIEMBROS DE LA FACULTAD:..................................................................................... 12
DISEO DEL CURSO:................................................................................................... 13
PERCEPCIN DE JUSTICIA:.......................................................................................... 13
5.2.1.3.

VIDA MODERNA DE LOS ESTUDIANTES:.......................................................14

ESTUDIANTES CON FALTA DE TIEMPO:........................................................................14


PRESION PARA TRIUNFAR:.......................................................................................... 14
USO DE INERNET Y TECNOLOGA:...............................................................................15
5.3.

NATURAL LANGUAGE PROCESSING:..................................................................15

5.3.1.

ESTILOMETRA:............................................................................................. 15

5.3.2.

AUTHORSHIP ATTRIBUTION:..........................................................................16
2

5.4.

TEXT MINING:.................................................................................................. 16

1.1.

TIPO DE INVESTIGACIN:.................................................................................. 17

2.

MARCO METODOLGICO..................................................................................... 17

2.1.

TIPO DE INVESTIGACIN:.................................................................................. 17

2.2.

POBLACIN Y MUESTRA:..................................................................................17

3.
3.1.
4.

PROCEDIMIENTO:................................................................................................ 18
PRE-PROCESAMIENTO:...................................................................................... 18
REFERENCIAS:..................................................................................................... 19

1. RESUMEN

El siguiente trabajo se estructura en 3 partes; la primera, que tratar el marco introductorio


sobre lo que es la minera de datos (Text Mining), sus aplicaciones frecuentes y sus
terminologa bsica.
La segunda parte formular las bases para la propuesta de desarrollo del sistema, explicando
los procedimientos utilizados y el motivo de su eleccin frente a otros algoritmos.
La tercera parte comprender la estructuracin del proceso de desarrollo de la aplicacin con
todo lo que esto implica, as como la creacin de interfaces, el procedimiento de codificacin
la validacin y las pruebas frente documentos sospechosos.

2. PLANTEAMIENTO DEL PROBLEMA


2.1. DESCRIPCIN DE LA SITUACION PROBLEMA:
Las universidades, en el proceso de formacin de sus estudiantes, aplican diversas
herramientas y metodologas de enseanza como medios didcticos de aprendizaje (Herrero,
1995). Las herramientas en su mayora son de carcter tecnolgico, como los sistemas de
bsqueda avanzada dentro de bibliotecas, aulas virtuales, conferencias online, e inclusive las
redes sociales. (Egaa, 2012) Dentro del mbito de las metodologas la ms utilizada es la
investigacin, cuyo objetivo es la generacin de conocimientos y de la validacin de aquellos
que ya forman parte del saber. (Estvez, 2014)
Sin embargo, ya en los aos 90, algunos autores como Blimling hablaban del fenmeno del
plagio en las investigaciones como una creciente epidemia (Epidemic Cheating), y desde el
2011, se apuntaba que el plagio sera un serio problema que pone en juego la integridad y las
aspiraciones de las instituciones acadmicas y de sus miembros. (Park, 2003).
Hoy en el 2016, el plagio ya es un serio problema presente en las instituciones acadmicas
como las universidades. Los alumnos buscan maneras de cumplir con la produccin que se
les exige, haciendo uso de recursos diferentes a su propio esfuerzo y su capacidad intelectual.
Adems, con el acceso inmediato a grandes cantidades de informacin que les brinda el
Internet, resolver una tarea o realizar una investigacin es tan sencillo como colocar el tema
en GOOGLE. (Jacobs, Liu, Marn, Mory, & Mory, 2009)

2.2. FORMULACIN DEL PROBLEMA:


Cmo determinar si un documento (trabajo de investigacin) presenta actividad de plagio,
utilizando algoritmos de estilometra (Text Mining), sin acudir a fuentes externas para su
comparacin?
2.3. OBJETIVOS
2.3.1. OBJETIVO GENERAL:
Determinar si un documento (trabajo de investigacin de pre-grado) presenta plagio
aplicando algoritmos de estilometra (Text mining) y sin acudir a una comparacin
extrnseca del documento.
2.3.2. OBJETIVOS ESPECFICOS:

Alicar algoritmos de Text Mining relacionados al estilo de escritura (Estilometra).


Implementar el sistema utilizando el lenguaje de programacin Python.
Probar el sistema con trabajos universitarios recopilados de la FIIS UNI en el
periodo 2015 2016, para verificar el nivel de exactitud del sistema y de los
algoritmos implementados.

2.4. MATRIZ DE CONSISTENCIA:


PROBLEMA
Cmo determinar si un
documento (trabajo de
investigacin), presenta
plagio, utilizando algoritmos
de estilometra (Text
mining), sin acudir a
fuentes externas para su
comparacin?

OBJETIVO
Determinar si un
documento (trabajo de
investigacin de pre-grado)
presenta plagio, aplicando
algoritmos de estilometra y
sin acudir a una
comparacin extrnseca del
documento.

HIPTESIS
Los algoritmos de
estilometra (Text mining)
son capaces de detectar la
actividad de plagio dentro
de un documento, sin
compararlo con fuentes
externas.
6

3. JUSTIFICACIN
La investigacin est estrechamente ligada al avance de la ciencia, adems, es un proceso
mediante el cual el investigador obtiene y genera conocimientos acerca de la realidad, es por ello
que la investigacin es considerada como un eje principal de la formacin desde el pre-grado.
(Estvez, 2014). Hay que tener en cuenta que la verdadera razn de ser de una Universidad es
pensar para hacer progresar el conocimiento y la sociedad. Esta es una responsabilidad de
profesores y estudiantes. Si plagiamos para no hacer el esfuerzo de pensar, estamos negndonos a
hacer el trabajo propio de la Universidad y como esta somos las personas que la conformamos,
en realidad, la estamos haciendo menos buena de lo que debe ser. (PUCP, 2013) Lo que
conllevara a un bajo nivel de profesionalismo, un bajo nivel de aceptacin en el mercado laboral
y finalmente una mala percepcin de la universidad.
4. ANTECEDENTES
4.1. TEXT MINING APPLIED TO PLAGIARISM DETECTION:
En trminos generales, la tarea de deteccin de plagio de una punto de vista algortmico se
puede dividir en dos estrategias principales, slo informacin dentro del documento
sospechoso, denominada deteccin de plagio intrnseco, y los que comparan el documento
sospechoso en contra de un conjunto de posibles fuentes (lo ideal, pero poco realista, toda la
Web). Los objetivos de deteccin de plagio intrnseca es descubrir el plagio analizando slo
el documento sospechoso, tratar de identificar aquellos segmentos que estn potencialmente
escritos por otra persona. Para ello, los algoritmos actuales suelen utilizar tcnicas de

modelado del estilo de escritura, en busca de variaciones significativas. (Gabriel Oberreuter,


2013)
El principal aporte de esta publicacin est relacionado con el modelamiento del estilo de
escritura de una persona, para poder determinar si presenta variaciones que son potenciales
fuentes de plagio.
4.2. PDLK: PLAGIARISM DETECTION USING LINGUISTIC KNOWLEDGE
El mtodo propuesto se utiliza para detectar el plagio dentro del texto. Incluye tres puntos
importantes. En primer lugar, se trata de un mtodo de plagio integral, que puede detectar
diferentes tipos de plagio como el texto exacto copiado, parafraseo (palabras similares o
sinnimos que sustituyen las palabras originales), transformacin de frases y el cambio de
estructura de las palabras en las oraciones. El segundo punto est relacionado con el
mecanismo de comparacin, donde el mtodo considera tanto la informacin semntica y
sintctica para calcular la medida de similitud entre dos oraciones. El tercer punto indica que
el mtodo puede capturar el significado de frases utilizando la combinacin de la
informacin semntica y sintctica. (Asad Abdi, 2015)

5. MARCO TERICO
5.1. PLAGIO:
Plagio es el acto de robar las ideas o expresiones creativas de otro y representarlas como
propias. Es una forma de copiar y un tipo de deshonestidad acadmica que puede incurrir en
diversas sanciones. (University of Texas at Dallas, 2016)
El agregarle el calificativo de electrnico implicara que esta es la fuente de obtencin; de
este modo, entenderamos por plagio electrnico a los materiales presentados como el fruto
del trabajo personal que en realidad han sido copiados de forma parcial o total mediante
procedimientos informticos, sin mencionar su autora original. El origen de estas fuentes es
mayoritariamente la Internet, aunque tambin es una prctica comn la copia de otros
medios, tales como enciclopedias en CD-ROM, o presentaciones electrnicas de otros
compaeros. (Romero, 2007)
En este sentido, el vocablo ciberplagio, que es un trmino moderno, es un tanto ms objetivo,
aludiendo nicamente a aqul plagio cuya fuente procede de la Internet. (Camargo, 2002)
Existen diversos mtodos para cometer plagio (Rodrguez, 2012), los cuales son:
5.1.1. COPIAR Y PEGAR:
Este es quiz el mtodo ms comn y ms conocido utilizado para realizar plagio Se da al
copiar texto de una fuente y luego pegarlo en un trabajo propio sin citarlo adecuadamente
(Naveed, 2010). La razn de que sea tan comn es que gracias a los editores de texto

actuales y el uso de Internet es muy fcil encontrar informacin para luego copiarla y
usarla en otro trabajo sin hacer referencia a la fuente original de donde se obtuvo.
Especialmente a nivel acadmico es muy comn que los estudiantes utilicen este mtodo
para tratar de obtener mejores calificaciones o terminar de forma ms rpida una
asignacin dada. (Rodrguez, 2012)
5.1.2. PARAFRASEO INAPROPIADO:
Ocurre cuando simplemente se intercambian palabras de una oracin o un prrafo, o
cuando se sigue el mismo estilo dado en la fuente original. (Naveed, 2010)
5.2. LA UNIVERSIDAD Y EL PLAGIO:
El sector de la educacin superior juega un papel importante en mitigar este tipo de
comportamiento, ya que tiene el potencial de influir en el desarrollo de individuos, dotarles
de los conocimientos y habilidades en relacin con un marco tico para la toma de decisiones
racionales. Adems las investigaciones sugieren que los atributos de los graduados, tales
como el razonamiento tico (o falta la de ella) son trasladados al lugar de trabajo profesional,
(Lawson, 2004), (Sarth & Owens Swift, 2001), (M. Graves, Sharron; Austin State University,
2008) destacando an ms la importancia de la educacin superior en el desarrollo de los
estudiantes en este sentido.
5.2.1. LA MOTIVACIN DE LOS ESTUDIANTES:
5.2.1.1.

CAMBIO DE ACTITUDES:

Tal vez la ms preocupante afirmacin en relacin con la falta de honradez acadmica


es que la cultura de los estudiantes es cada vez ms de aceptacin de este tipo de

10

comportamiento, y algunos pueden incluso continuar en la creencia de que esto es


necesario para mantener la igualdad de condiciones con los que lo hacen trampas.
(Kremmer, Brimble, & Stevenson-Clarke, 2007)
Esta creencia se ve agravada por las normas sociales errneas, donde los estudiantes
sobreestiman el grado en que otros estudiantes hacen trampa y la percepcin de que
las trampas, en este contexto; es un crimen sin vctimas. Por otra parte, los estudiantes
no asocian estas materias con la cultura acadmica; sino que los consideran solamente
como un asunto del estudiante involucrado. (Haines, Diekhoff, LaBeff, & Clark,
1986) De hecho, los estudiantes tambin parecen estar dispuestos a ayudar a sus
amigos, incluso si esto constituye ocultar el engao. Esta fue la razn ms comn
identificado por los estudiantes para su engao en los estudios (Kremmer, Brimble, &
Stevenson-Clarke, 2007) "No pens que estaba mal".
Tomados en conjunto, estos puntos indican el punto de partida para el razonamiento y
actitudes frente el acto de plagio en los estudiantes universitarios. Esto puede ser
instructivo en relacin con la evidencia de altas incidencias reportadas sobre la
participacin de los estudiantes en el comportamiento deshonesto, a menudo ms del
50% de los estudiantes. (Berardi, Banzhoff, & Martino, 2011)
5.2.1.2.

EDUCACIN, ENTRENAMIENTO Y APRENDIZAJE

ESTUDIANTES:
Un elemento importante de la gestin de la falta de honradez acadmica es
proporcionar a los estudiantes con la educacin y la formacin pertinente sobre los
comportamientos esperados, incluyendo la forma de evitar inadvertidamente las
11

"trampas" (en particular, el plagio, en trminos de cmo hacer referencias


adecuadamente). (Beasley, 2014)
Esto es comn para los estudiantes de primer ao donde los estudiantes pueden no ser
conscientes de sus responsabilidades y que diferentes disciplinas tienen diferentes
expectativas en relacin a la mala conducta en cuestiones acadmicas. Por lo tanto, un
proceso educativo y de desarrollo (donde los estudiantes reciben formacin sobre
cmo hacer referencia, estndares profesionales esperados, o incluso la tica y el
razonamiento tico) puede ser apropiada para minimizar motivadores inadvertidas de
deshonestidad acadmica. (Kremmer, Brimble, & Stevenson-Clarke, 2007)
MIEMBROS DE LA FACULTAD:
Como se seal anteriormente, en las universidades a menudo no hay educadores
capacitados en el tema de cmo tratar el plagio, teniendo en cuenta esto, y la
importancia del diseo de evaluacin, en la reduccin de las oportunidades del
comportamiento deshonesto; la falta de desarrollo del personal acadmico puede ser
un motivador en s mismo para el comportamiento del estudiante. Este es
particularmente el caso si se manifiesta que, como personal no se esta preparado para
reportar los casos identificados o tomar medidas para mitigar las oportunidades de los
estudiantes (Coren, 2011).
Esto tambin se relaciona con elementos para el diseo de los cursos, que son capaces
de mitigar las trampas del estudiante. Adems, la capacidad del personal para
comunicar las expectativas de los estudiantes y para tomar una decisin sobre los
casos sospechosos se relaciona con la comprensin de la poltica institucional en esta
12

rea. Por lo tanto, la experiencia y la disposicin del personal para tomar medidas en
este mbito se vuelven fundamentales para combatirla. Esto es apoyado por la
evidencia de comportamiento de los estudiantes de

no estar dispuestos a

informar/tomar una decisin sobre los casos sospechosos (Kremmer, Brimble, &
Stevenson-Clarke, 2007)
DISEO DEL CURSO:
El diseo del curso es un componente importante en la creacin de compromiso de
los estudiantes con los planes de estudio y la construccin de relaciones entre
estudiantes y profesores. Si los estudiantes tienen una baja participacin, sienten que
un curso es de poco inters para ellos, o creen que la recompensa por el esfuerzo es
baja, entonces son ms propensos a buscar medios alternativos para pasar el curso de
la forma ms sencilla posible. (Beasley, 2014)
Tambin se sugiere que la evaluacin que es demasiado genrica y/o repetitiva dentro
de las materias hace que sea ms fcil que los estudiantes hagan trampa (fcil de
adquirir online). Esto tambin puede invitar a este tipo de comportamiento, ya que los
estudiantes ven poco valor educativo en la realizacin de la tarea y/o la tentacin es
simplemente demasiado grande si el diseo de la evaluacin lo permite. (Kremmer,
Brimble, & Stevenson-Clarke, 2007)
PERCEPCIN DE JUSTICIA:
Las percepciones de los estudiantes sobre la equidad pueden conducir el
comportamiento en relacin con la falta de honradez acadmica. Adems de un
diseo de curso deficiente o bajo compromiso del personal, otros aspectos del plan de
13

estudios pueden influir en las percepciones de los estudiantes de equidad. Como se


seal anteriormente, si los estudiantes perciben el trabajo de curso (y sus formas de
evaluacin) demasiado difcil o requiere mucho tiempo, son ms propensos a
involucrarse en comportamientos deshonestos (Kremmer, Brimble, & StevensonClarke, 2007).
5.2.1.3.

VIDA MODERNA DE LOS ESTUDIANTES:

ESTUDIANTES CON FALTA DE TIEMPO:


El estudiante moderno tiene tpicamente una serie de compromisos que son externos a
sus estudios y que incluyen trabajo, familia, deportes y la comunidad. (Haines,
Diekhoff, LaBeff, & Clark, 1986)
Los centros de educacin superior tienen tambin la tarea de alentar las actividades
extracurriculares que apoyan la formacin de los estudiantes. Estos compromisos y
actividades, junto con los plazos y horarios de exmenes acadmicos, a menudo
pueden dejar a los estudiantes con baja preparacin debido al bajo orden que le dan a
los estudios en la lista de prioridades. Esto, a su vez, puede dar lugar a los estudiantes
que participan en el comportamiento deshonesto como medio de "supervivencia" con
el fin de equilibrar y mantener estas prioridades. (Owunwanne, Rustagi, & Dada,
2010)
PRESION PARA TRIUNFAR:
Muchos estudiantes se sienten presionados para lograr un grado alto. Esto puede
derivar de presin aplicada personalmente, la presin de los padres, la necesidad de
lograr una calificacin para la entrada en un programa posterior, la necesidad de
14

aplicar para una beca, o la necesidad de obtener un premio. (Koh, Scully, & Woodliff,
2011)
De hecho, la dificultad de la educacin superior puede conducir a la necesidad
percibida de hacer trampa y se apoya en el marco del anlisis costo-beneficio, donde
los estudiantes evalan el rendimiento de la inversin (devolver todo lo invertido en
forma de un ttulo profesional). Para algunos, esto puede crear una mentalidad de
"triunfar a toda costa", lo que lleva a los estudiantes que dependen de la falta de
honradez acadmica para lograr sus resultados. (Beasley, 2014)
USO DE INERNET Y TECNOLOGA:
Tambin se ha argumentado que el tiempo dedicado en Internet puede afectar a las
creencias ticas en lo que se refiere al plagio.
Esta tentacin de plagio tambin puede estar relacionada con la pura disponibilidad
de recursos en Internet y la facilidad con la que los estudiantes pueden tener acceso a
los materiales para su uso en sus trabajos universitarios (y en particular por lo que si
el artculo es genrico y/o repetido como se seal anteriormente). (Molnar &
Klletke, 2012)
5.3. NATURAL LANGUAGE PROCESSING:
Natural Language Processing es el empleo de tcnicas computacionales con el fin de
aprender, comprender y producir contenido propio del lenguaje humano. Los primeros
enfoques computacionales en la investigacin del lenguaje se centraron en la automatizacin
del anlisis lingstico y en el desarrollo de tecnologas bsicas como las maquinas

15

traductoras, anlisis de conversaciones y la sntesis de dilogos. Los investigadores de hoy


profundizan y hacen uso de estas herramientas en aplicaciones del mundo real. (Hirschberg
& Manning, 2015)
5.3.1. ESTILOMETRA:
Estilometra es definido como el anlisis estadstico de las variaciones en el estilo
literario entre un autor y otro. Es una prctica que proviene del Renacimiento y es
usualmente usada para atribuir

la autora a documentos annimos. Las tcnicas de

estilometra han sido tambin aplicadas exitosamente en otros campos como en la msica
y en la pintura. (Vosoughi, Zhou, & Roy, 2015)
5.3.2. AUTHORSHIP ATTRIBUTION:
El campo de la atribucin de autora est relacionada con la vinculacin del autor de un
texto desconocido con uno o un grupo de potenciales candidatos. Usualmente puede ser
visto como una forma de cuantificar el estilo literario o descubrir una huella estilomtrica.
Las aplicaciones ms tradicionales de este campo son las investigaciones literarias pero
tambin puede ser aplicada en el campo de la investigacin forense, inteligencia de
defensa y la deteccin de plagio. (Grant, 2007)
5.4. TEXT MINING:
Text Mining, tambin conocido como Text data mining o Knowledge Discovery en datos
de texto, se refiere generalmente al proceso de extraer interesantes y no triviales patrones o
conocimientos de documentos de texto no estructurados. Puede ser visto como una extensin
del Data mining o el Knowledge Discovery from databases (A.Akilan, 2015).

16

Este campo es indudablemente multidisciplinario, incluye entre otros el recupero de


informacin, anlisis de textos, extraccin de informacin, clustering, categorizacin,
visualizacin, machine learning y minera de datos. (A.Akilan, 2015)
Text mining est compuesto generalmente de 3 pasos: el pre-procesamiento del texto, las
operaciones de Text mining y el post-procesamiento del texto. (Yu Zhang, 2015)
La tarea del pre-procesamiento incluyen las tareas de seleccin de la data, la clasificacin y
la extraccin, generalmente convirtiendo los documentos hacia una forma intermedia
(intermediate form) los cuales deben de adecuarse para cualquier tipo de exploracin. Las
operaciones de Text mining son la parte central de cualquier sistema de Text mining e
incluyen el clustering, las asociaciones de reglas de descubrimiento, anlisis de tendencias,
descubrimiento de patrones y otros algoritmos de descubrimiento del conocimiento
(Knowledge discovery). Las tareas del post-procesamiento buscan manipular los datos o el
conocimiento que proviene del segundo paso, como la evaluacin y seleccin del
conocimiento, interpretacin y la visualizacin del mismo. (Yu Zhang, 2015)
1.1. TIPO DE INVESTIGACIN:
La investigacin a realizar es de carcter experimental, buscando comprobar la efectividad de
los algoritmos de Text mining, para la deteccin de plagios en los trabajos de investigacin
dentro de la universidad; mediante el uso de pruebas aleatorias.
2. MARCO METODOLGICO
2.1. TIPO DE INVESTIGACIN:

17

La investigacin a realizar es de carcter experimental, buscando comprobar la efectividad de


los algoritmos de Text mining, para la deteccin de plagios en los trabajos de investigacin
dentro de la universidad; mediante el uso de pruebas aleatorias.
2.2. POBLACIN Y MUESTRA:
POBLACIN: Trabajos de investigacin de la poblacin estudiantil universitaria.
MUESTRA: Trabajos de investigacin de los estudiantes de la FIIS-UNI del ao 2015.

3. PROCEDIMIENTO:
3.1. PRE-PROCESAMIENTO:
La etapa de pre-procesamiento de textos, engloba la extraccin de datos y el tratamiento de la
data para poder realizar los procesos propios de la etapa intermedia. La primera tarea de esta
involucra la extraccin de data textual desde un archivo .DOCX (extensin propia de MS
WORD) para almacenarla en alguna estructura de datos que nos permita manipularla.
Para lograr esto, se har uso de los archivos XML (ISO/IEC 29500-1:2008) que actualmente
forman parte de la composicin interna de cualquier documento .DOCX y que son el
estndar mundial para la transferencia de datos entre aplicaciones que implican el uso de un
archivo de texto .DOCX. Luego de obtener el archivo .XML (document.xml) se usarn
algoritmos para la extraccin de data textual presente en dicho archivo y se proceder con su
almacenamiento dentro de una estructura de datos (Arrays, List, DataFrame, Series, etc).

18

19

4. REFERENCIAS:
A.Akilan. (2015). Text Mining: Challenges and Future. ICECS, 1679-1683.
Asad Abdi, N. I. (2015). PDLK: Plagiarism detection using linguistic knowledge.
ELSEVIER, 8936-8946.
Beasley, E. (2014). Students Reported for Cheating Explain What They Think Would
Have Stopped Them. Ethics & Behavior, 229-252.
Berardi, R., Banzhoff, C., & Martino, A. (2011). Challenges to academic integrity:
Identifying the factors associated with the cheating chain. Accounting
Education: An International Journal, 247-263.
Camargo, F. D. (2002). Conductas cientficas censurables: una reflexin ante el
plagio. Santiago de Chile: UDLA PUEBLA.
Coren, A. (2011). Turning a blind eye: Faculty who ignore student cheating. Journal
of Academic Ethics, 291-305.
Egaa, T. (2012). Uso de bibliografa y plagio acadmico entre los estudiantes
universitarios. RUSC, 18-30.
Estvez, J. D. (2014). Importancia de la investigacin en la formacin de Pregrado.
Panorama Cuba y Salud, 3-4.
Gabriel Oberreuter, J. D. (2013). Text mining applied to plagiarism detection: The
use of words for detecting deviations in the writing style. ELSEVIER, 37563763.
Grant, T. (2007). Quantifying evidence in forensic authorship analysis. International
journal of speech, language and the law, 1-25.
Haines, V., Diekhoff, G., LaBeff, E., & Clark, R. (1986). College cheating: Immaturity,
lack of commitment, and the neutralizing attitude. Research in Higher
Education, 342-354.
Herrero, J. d. (1995). Introduccin a la enseanza universitaria - Didactica para la
formacin del profesorado. Madrid: DYKINSON, S. L.
Hirschberg, J., & Manning, C. (2015). Advances in natural language processing.
Science, 261-266.
Jacobs, M., Liu, ., Marn, C., Mory, C., & Mory, E. (2009). Factores que propician el
plagio en la elaboracin de trabajos en los alumnos de la Universidad
Peruana de Ciencias Aplicadas. Universidad Peruana de Ciencias Aplicadas .
Lima: Universidad Peruana de Ciencias Aplicadas .
20

Koh, H., Scully, G., & Woodliff, D. (2011). The impact of cumulative pressure on
accounting students propensity to commit plagiarism: An experimental
approach. Accounting and Finance, 985-1005.
Kremmer, M., Brimble, M., & Stevenson-Clarke, P. (2007). Investigating the
probability of student cheating: The relevance of student characteristics,
assessment items, perceptions of prevalence and history of engagement.
International Journal for Educational Integrity, 3-17.
Lawson, R. A. (2004). Is Classroom Cheating Related to Business Students'
Propensity to Cheat in the "Real World"? Journal of Business Ethics, 189-199.
M. Graves, Sharron; Austin State University. (2008). Student Cheating Habits: A
Predictor Of Workplace Deviance. Journal of Diversity Management, 15-22.
Molnar, K., & Klletke, M. (2012). Does the type of cheating influence undergraduate
students perceptions of cheating? Journal of Academic Ethics, 201-212.
Naveed, I. (2010). Electronic Media, Creativity and Plagiarism. SIGCAS Computers
and, 28-32.
Owunwanne, D., Rustagi, N., & Dada, R. (2010). Students perceptions of cheating
and plagiarism in higher institutions. Journal of College Teaching and
Learning, 59-68.
Park, C. (2003). In other (peoples) words: Plagiarism by university students
literature and lessons. Assessment & evaluation in higher education, 471488.
PUCP. (01 de 01 de 2013). Vicerrectorado Academico. Recuperado el 01 de 12 de
2015, de PUCP: www.pucp.edu.pe/documento/pucp/plagio.pdf
RAE. (s.f.). Diccionario de la Real Academia Espaola. Recuperado el 1 de 12 de
2015, de Diccionario de la Real Academia Espaola: http://www.rae.es/
Rodrguez, A. S. (2012). El plagio y su impacto a nivel acadmico y profesional. ECiencias de la Informacin.
Romero, P. P. (2007). El Plagio Electrnico, Necesidad del Alumno Promedio?
Polibits, 3-6.
Sarth, N., & Owens Swift, C. (2001). An Examination of the Relationship Between
Academic Dishonesty and Workplace Dishonesty: A Multicampus
Investigation. Journal of Education for Business, 69-77.
University of Texas at Dallas. (01 de 01 de 2016). What is Plagiarism? Recuperado el
07 de 05 de 2016, de UT-DALLAS Community Standards and Conduct:
https://www.utdallas.edu/conduct/dishonesty/
21

Vosoughi, S., Zhou, H., & Roy, D. (2015). Digital Stylometry: Linking Profiles Across
Social Networks. Social Informatics., 164-77.
Yu Zhang, M. C. (2015). A Review on Text Mining. IEEE International Conference on,
681-685.

22

Potrebbero piacerti anche