Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CURSO:
TALLER DE TESIS II
ASESOR:
JUAN CARLOS SOTELO
FECHA:
23 05 - 2016
2016 I
NDICE
1.
RESUMEN.............................................................................................................. 4
2.
2.1.
2.2.
2.3.
OBJETIVOS......................................................................................................... 6
2.3.1.
OBJETIVO GENERAL:....................................................................................... 6
2.3.2.
OBJETIVOS ESPECFICOS:................................................................................. 6
MATRIZ DE CONSISTENCIA:................................................................................. 6
2.4.
3.
JUSTIFICACIN...................................................................................................... 7
4.
ANTECEDENTES.................................................................................................... 7
4.1.
4.2.
5.
MARCO TERICO................................................................................................... 9
5.1.
PLAGIO:............................................................................................................. 9
5.1.1.
COPIAR Y PEGAR:............................................................................................ 9
5.1.2.
PARAFRASEO INAPROPIADO:.........................................................................10
5.2.
5.2.1.
LA UNIVERSIDAD Y EL PLAGIO:.........................................................................10
LA MOTIVACIN DE LOS ESTUDIANTES:.........................................................10
5.2.1.1.
CAMBIO DE ACTITUDES:............................................................................. 10
5.2.1.2.
ESTUDIANTES:........................................................................................................... 11
MIEMBROS DE LA FACULTAD:..................................................................................... 12
DISEO DEL CURSO:................................................................................................... 13
PERCEPCIN DE JUSTICIA:.......................................................................................... 13
5.2.1.3.
5.3.1.
ESTILOMETRA:............................................................................................. 15
5.3.2.
AUTHORSHIP ATTRIBUTION:..........................................................................16
2
5.4.
TEXT MINING:.................................................................................................. 16
1.1.
TIPO DE INVESTIGACIN:.................................................................................. 17
2.
MARCO METODOLGICO..................................................................................... 17
2.1.
TIPO DE INVESTIGACIN:.................................................................................. 17
2.2.
POBLACIN Y MUESTRA:..................................................................................17
3.
3.1.
4.
PROCEDIMIENTO:................................................................................................ 18
PRE-PROCESAMIENTO:...................................................................................... 18
REFERENCIAS:..................................................................................................... 19
1. RESUMEN
OBJETIVO
Determinar si un
documento (trabajo de
investigacin de pre-grado)
presenta plagio, aplicando
algoritmos de estilometra y
sin acudir a una
comparacin extrnseca del
documento.
HIPTESIS
Los algoritmos de
estilometra (Text mining)
son capaces de detectar la
actividad de plagio dentro
de un documento, sin
compararlo con fuentes
externas.
6
3. JUSTIFICACIN
La investigacin est estrechamente ligada al avance de la ciencia, adems, es un proceso
mediante el cual el investigador obtiene y genera conocimientos acerca de la realidad, es por ello
que la investigacin es considerada como un eje principal de la formacin desde el pre-grado.
(Estvez, 2014). Hay que tener en cuenta que la verdadera razn de ser de una Universidad es
pensar para hacer progresar el conocimiento y la sociedad. Esta es una responsabilidad de
profesores y estudiantes. Si plagiamos para no hacer el esfuerzo de pensar, estamos negndonos a
hacer el trabajo propio de la Universidad y como esta somos las personas que la conformamos,
en realidad, la estamos haciendo menos buena de lo que debe ser. (PUCP, 2013) Lo que
conllevara a un bajo nivel de profesionalismo, un bajo nivel de aceptacin en el mercado laboral
y finalmente una mala percepcin de la universidad.
4. ANTECEDENTES
4.1. TEXT MINING APPLIED TO PLAGIARISM DETECTION:
En trminos generales, la tarea de deteccin de plagio de una punto de vista algortmico se
puede dividir en dos estrategias principales, slo informacin dentro del documento
sospechoso, denominada deteccin de plagio intrnseco, y los que comparan el documento
sospechoso en contra de un conjunto de posibles fuentes (lo ideal, pero poco realista, toda la
Web). Los objetivos de deteccin de plagio intrnseca es descubrir el plagio analizando slo
el documento sospechoso, tratar de identificar aquellos segmentos que estn potencialmente
escritos por otra persona. Para ello, los algoritmos actuales suelen utilizar tcnicas de
5. MARCO TERICO
5.1. PLAGIO:
Plagio es el acto de robar las ideas o expresiones creativas de otro y representarlas como
propias. Es una forma de copiar y un tipo de deshonestidad acadmica que puede incurrir en
diversas sanciones. (University of Texas at Dallas, 2016)
El agregarle el calificativo de electrnico implicara que esta es la fuente de obtencin; de
este modo, entenderamos por plagio electrnico a los materiales presentados como el fruto
del trabajo personal que en realidad han sido copiados de forma parcial o total mediante
procedimientos informticos, sin mencionar su autora original. El origen de estas fuentes es
mayoritariamente la Internet, aunque tambin es una prctica comn la copia de otros
medios, tales como enciclopedias en CD-ROM, o presentaciones electrnicas de otros
compaeros. (Romero, 2007)
En este sentido, el vocablo ciberplagio, que es un trmino moderno, es un tanto ms objetivo,
aludiendo nicamente a aqul plagio cuya fuente procede de la Internet. (Camargo, 2002)
Existen diversos mtodos para cometer plagio (Rodrguez, 2012), los cuales son:
5.1.1. COPIAR Y PEGAR:
Este es quiz el mtodo ms comn y ms conocido utilizado para realizar plagio Se da al
copiar texto de una fuente y luego pegarlo en un trabajo propio sin citarlo adecuadamente
(Naveed, 2010). La razn de que sea tan comn es que gracias a los editores de texto
actuales y el uso de Internet es muy fcil encontrar informacin para luego copiarla y
usarla en otro trabajo sin hacer referencia a la fuente original de donde se obtuvo.
Especialmente a nivel acadmico es muy comn que los estudiantes utilicen este mtodo
para tratar de obtener mejores calificaciones o terminar de forma ms rpida una
asignacin dada. (Rodrguez, 2012)
5.1.2. PARAFRASEO INAPROPIADO:
Ocurre cuando simplemente se intercambian palabras de una oracin o un prrafo, o
cuando se sigue el mismo estilo dado en la fuente original. (Naveed, 2010)
5.2. LA UNIVERSIDAD Y EL PLAGIO:
El sector de la educacin superior juega un papel importante en mitigar este tipo de
comportamiento, ya que tiene el potencial de influir en el desarrollo de individuos, dotarles
de los conocimientos y habilidades en relacin con un marco tico para la toma de decisiones
racionales. Adems las investigaciones sugieren que los atributos de los graduados, tales
como el razonamiento tico (o falta la de ella) son trasladados al lugar de trabajo profesional,
(Lawson, 2004), (Sarth & Owens Swift, 2001), (M. Graves, Sharron; Austin State University,
2008) destacando an ms la importancia de la educacin superior en el desarrollo de los
estudiantes en este sentido.
5.2.1. LA MOTIVACIN DE LOS ESTUDIANTES:
5.2.1.1.
CAMBIO DE ACTITUDES:
10
ESTUDIANTES:
Un elemento importante de la gestin de la falta de honradez acadmica es
proporcionar a los estudiantes con la educacin y la formacin pertinente sobre los
comportamientos esperados, incluyendo la forma de evitar inadvertidamente las
11
rea. Por lo tanto, la experiencia y la disposicin del personal para tomar medidas en
este mbito se vuelven fundamentales para combatirla. Esto es apoyado por la
evidencia de comportamiento de los estudiantes de
no estar dispuestos a
informar/tomar una decisin sobre los casos sospechosos (Kremmer, Brimble, &
Stevenson-Clarke, 2007)
DISEO DEL CURSO:
El diseo del curso es un componente importante en la creacin de compromiso de
los estudiantes con los planes de estudio y la construccin de relaciones entre
estudiantes y profesores. Si los estudiantes tienen una baja participacin, sienten que
un curso es de poco inters para ellos, o creen que la recompensa por el esfuerzo es
baja, entonces son ms propensos a buscar medios alternativos para pasar el curso de
la forma ms sencilla posible. (Beasley, 2014)
Tambin se sugiere que la evaluacin que es demasiado genrica y/o repetitiva dentro
de las materias hace que sea ms fcil que los estudiantes hagan trampa (fcil de
adquirir online). Esto tambin puede invitar a este tipo de comportamiento, ya que los
estudiantes ven poco valor educativo en la realizacin de la tarea y/o la tentacin es
simplemente demasiado grande si el diseo de la evaluacin lo permite. (Kremmer,
Brimble, & Stevenson-Clarke, 2007)
PERCEPCIN DE JUSTICIA:
Las percepciones de los estudiantes sobre la equidad pueden conducir el
comportamiento en relacin con la falta de honradez acadmica. Adems de un
diseo de curso deficiente o bajo compromiso del personal, otros aspectos del plan de
13
aplicar para una beca, o la necesidad de obtener un premio. (Koh, Scully, & Woodliff,
2011)
De hecho, la dificultad de la educacin superior puede conducir a la necesidad
percibida de hacer trampa y se apoya en el marco del anlisis costo-beneficio, donde
los estudiantes evalan el rendimiento de la inversin (devolver todo lo invertido en
forma de un ttulo profesional). Para algunos, esto puede crear una mentalidad de
"triunfar a toda costa", lo que lleva a los estudiantes que dependen de la falta de
honradez acadmica para lograr sus resultados. (Beasley, 2014)
USO DE INERNET Y TECNOLOGA:
Tambin se ha argumentado que el tiempo dedicado en Internet puede afectar a las
creencias ticas en lo que se refiere al plagio.
Esta tentacin de plagio tambin puede estar relacionada con la pura disponibilidad
de recursos en Internet y la facilidad con la que los estudiantes pueden tener acceso a
los materiales para su uso en sus trabajos universitarios (y en particular por lo que si
el artculo es genrico y/o repetido como se seal anteriormente). (Molnar &
Klletke, 2012)
5.3. NATURAL LANGUAGE PROCESSING:
Natural Language Processing es el empleo de tcnicas computacionales con el fin de
aprender, comprender y producir contenido propio del lenguaje humano. Los primeros
enfoques computacionales en la investigacin del lenguaje se centraron en la automatizacin
del anlisis lingstico y en el desarrollo de tecnologas bsicas como las maquinas
15
estilometra han sido tambin aplicadas exitosamente en otros campos como en la msica
y en la pintura. (Vosoughi, Zhou, & Roy, 2015)
5.3.2. AUTHORSHIP ATTRIBUTION:
El campo de la atribucin de autora est relacionada con la vinculacin del autor de un
texto desconocido con uno o un grupo de potenciales candidatos. Usualmente puede ser
visto como una forma de cuantificar el estilo literario o descubrir una huella estilomtrica.
Las aplicaciones ms tradicionales de este campo son las investigaciones literarias pero
tambin puede ser aplicada en el campo de la investigacin forense, inteligencia de
defensa y la deteccin de plagio. (Grant, 2007)
5.4. TEXT MINING:
Text Mining, tambin conocido como Text data mining o Knowledge Discovery en datos
de texto, se refiere generalmente al proceso de extraer interesantes y no triviales patrones o
conocimientos de documentos de texto no estructurados. Puede ser visto como una extensin
del Data mining o el Knowledge Discovery from databases (A.Akilan, 2015).
16
17
3. PROCEDIMIENTO:
3.1. PRE-PROCESAMIENTO:
La etapa de pre-procesamiento de textos, engloba la extraccin de datos y el tratamiento de la
data para poder realizar los procesos propios de la etapa intermedia. La primera tarea de esta
involucra la extraccin de data textual desde un archivo .DOCX (extensin propia de MS
WORD) para almacenarla en alguna estructura de datos que nos permita manipularla.
Para lograr esto, se har uso de los archivos XML (ISO/IEC 29500-1:2008) que actualmente
forman parte de la composicin interna de cualquier documento .DOCX y que son el
estndar mundial para la transferencia de datos entre aplicaciones que implican el uso de un
archivo de texto .DOCX. Luego de obtener el archivo .XML (document.xml) se usarn
algoritmos para la extraccin de data textual presente en dicho archivo y se proceder con su
almacenamiento dentro de una estructura de datos (Arrays, List, DataFrame, Series, etc).
18
19
4. REFERENCIAS:
A.Akilan. (2015). Text Mining: Challenges and Future. ICECS, 1679-1683.
Asad Abdi, N. I. (2015). PDLK: Plagiarism detection using linguistic knowledge.
ELSEVIER, 8936-8946.
Beasley, E. (2014). Students Reported for Cheating Explain What They Think Would
Have Stopped Them. Ethics & Behavior, 229-252.
Berardi, R., Banzhoff, C., & Martino, A. (2011). Challenges to academic integrity:
Identifying the factors associated with the cheating chain. Accounting
Education: An International Journal, 247-263.
Camargo, F. D. (2002). Conductas cientficas censurables: una reflexin ante el
plagio. Santiago de Chile: UDLA PUEBLA.
Coren, A. (2011). Turning a blind eye: Faculty who ignore student cheating. Journal
of Academic Ethics, 291-305.
Egaa, T. (2012). Uso de bibliografa y plagio acadmico entre los estudiantes
universitarios. RUSC, 18-30.
Estvez, J. D. (2014). Importancia de la investigacin en la formacin de Pregrado.
Panorama Cuba y Salud, 3-4.
Gabriel Oberreuter, J. D. (2013). Text mining applied to plagiarism detection: The
use of words for detecting deviations in the writing style. ELSEVIER, 37563763.
Grant, T. (2007). Quantifying evidence in forensic authorship analysis. International
journal of speech, language and the law, 1-25.
Haines, V., Diekhoff, G., LaBeff, E., & Clark, R. (1986). College cheating: Immaturity,
lack of commitment, and the neutralizing attitude. Research in Higher
Education, 342-354.
Herrero, J. d. (1995). Introduccin a la enseanza universitaria - Didactica para la
formacin del profesorado. Madrid: DYKINSON, S. L.
Hirschberg, J., & Manning, C. (2015). Advances in natural language processing.
Science, 261-266.
Jacobs, M., Liu, ., Marn, C., Mory, C., & Mory, E. (2009). Factores que propician el
plagio en la elaboracin de trabajos en los alumnos de la Universidad
Peruana de Ciencias Aplicadas. Universidad Peruana de Ciencias Aplicadas .
Lima: Universidad Peruana de Ciencias Aplicadas .
20
Koh, H., Scully, G., & Woodliff, D. (2011). The impact of cumulative pressure on
accounting students propensity to commit plagiarism: An experimental
approach. Accounting and Finance, 985-1005.
Kremmer, M., Brimble, M., & Stevenson-Clarke, P. (2007). Investigating the
probability of student cheating: The relevance of student characteristics,
assessment items, perceptions of prevalence and history of engagement.
International Journal for Educational Integrity, 3-17.
Lawson, R. A. (2004). Is Classroom Cheating Related to Business Students'
Propensity to Cheat in the "Real World"? Journal of Business Ethics, 189-199.
M. Graves, Sharron; Austin State University. (2008). Student Cheating Habits: A
Predictor Of Workplace Deviance. Journal of Diversity Management, 15-22.
Molnar, K., & Klletke, M. (2012). Does the type of cheating influence undergraduate
students perceptions of cheating? Journal of Academic Ethics, 201-212.
Naveed, I. (2010). Electronic Media, Creativity and Plagiarism. SIGCAS Computers
and, 28-32.
Owunwanne, D., Rustagi, N., & Dada, R. (2010). Students perceptions of cheating
and plagiarism in higher institutions. Journal of College Teaching and
Learning, 59-68.
Park, C. (2003). In other (peoples) words: Plagiarism by university students
literature and lessons. Assessment & evaluation in higher education, 471488.
PUCP. (01 de 01 de 2013). Vicerrectorado Academico. Recuperado el 01 de 12 de
2015, de PUCP: www.pucp.edu.pe/documento/pucp/plagio.pdf
RAE. (s.f.). Diccionario de la Real Academia Espaola. Recuperado el 1 de 12 de
2015, de Diccionario de la Real Academia Espaola: http://www.rae.es/
Rodrguez, A. S. (2012). El plagio y su impacto a nivel acadmico y profesional. ECiencias de la Informacin.
Romero, P. P. (2007). El Plagio Electrnico, Necesidad del Alumno Promedio?
Polibits, 3-6.
Sarth, N., & Owens Swift, C. (2001). An Examination of the Relationship Between
Academic Dishonesty and Workplace Dishonesty: A Multicampus
Investigation. Journal of Education for Business, 69-77.
University of Texas at Dallas. (01 de 01 de 2016). What is Plagiarism? Recuperado el
07 de 05 de 2016, de UT-DALLAS Community Standards and Conduct:
https://www.utdallas.edu/conduct/dishonesty/
21
Vosoughi, S., Zhou, H., & Roy, D. (2015). Digital Stylometry: Linking Profiles Across
Social Networks. Social Informatics., 164-77.
Yu Zhang, M. C. (2015). A Review on Text Mining. IEEE International Conference on,
681-685.
22