Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1 https://www.apertium.org/index.spa.html?dir=epo-eng#translation 2 http://www.freetranslator.com
17
pasaje. La sexta línea hace referencia al nombre del texto, conversión a minúsculas de todos los caracteres de
documento fuente con el que se está comparando el las palabras, obtención de lemas y ordenación alfabética de
documento sospechoso; la séptima al inicio del caracter del los tokens de los n-gramas. Los mejores resultados con este
fragmento que fue objeto de copia; y la octava indica la corpus se lograron segmentado los textos en n-gramas
longitud total del pasaje. contextuales y de contexto cercano con n = 3. La Figura 3
muestra los resultados alcanzados.
10. Experimentación y análisis de resultados
Para realizar los experimentos se utilizaron dos corpus de
prueba: 1) Competencia Internacional de Detección de
Plagio de 2013, para evaluar la componente de detección
de plagio monolingüe del método propuesto. Este corpus
está compuesto por cinco sub-corpus:
1. No-plagio
2. Plagio no ofuscado
3. Plagio con ofuscación
4. Plagio con traducción ofuscado
5. Plagio con resumen ofuscado
2) EUROPARL, que es una colección de documentos del Figura 3. Resultados segmentando los textos en n-gramas
Parlamento Europeo en 2000, los cuales se encuentran en contextuales y de contexto cercano
inglés y español. Este corpus se empleó para determinar la
efectividad del algoritmo, y su principal característica es El sub-corpus de plagio no ofuscado se estructura para
que las traducciones fueron realizadas manualmente. detectar los documentos sospechosos que presentan
fragmentos de texto que son plagio literal de sus
Los resultados de los experimentos se evaluaron con la respectivos documentos fuentes. Por lo que se esperaba
medida plagdet score, que depende de las medidas de detectar estos fragmentos al 100%. Esto no se logró debido
granularidad y F1, utilizadas en el primer corpus para a que la etapa de integración de pasajes, cuando detecta los
evaluar el desempeño de los sistemas detectores de plagio, solapados, solamente toma el de mayor longitud, dejando
cuya fórmula se detalla en la siguiente ecuación. por fuera los pasajes pequeños cuyas longitudes son
𝐹1 mayores que la cota mínima de caracteres establecida para
𝑝𝑙𝑎𝑑𝑔𝑒𝑡(𝑆, 𝑅) = reportarlos como plagio.
log2(1 + 𝑔𝑟𝑎𝑛𝑢𝑙𝑎𝑟𝑖𝑑𝑎𝑑(𝑆, 𝑅))
𝑝𝑟𝑒𝑐(𝑆, 𝑅) 𝑥 𝑟𝑒𝑙(𝑆, 𝑅) 10.2 Experimentación con el corpus multilingüe
𝐹1 = 2x En este experimento se utilizaron los traductores
𝑝𝑟𝑒𝑐(𝑆, 𝑅) + 𝑟𝑒𝑙(𝑆, 𝑅)
Freetranslator y Apertium. Aquí hay que destacar que cada
1 texto perteneciente a cada documento en inglés y español
𝑔𝑟𝑎𝑛𝑢𝑙𝑎𝑟𝑖𝑑𝑎𝑑(𝑆, 𝑅) = ∑ |𝑅𝑠 | del EUROPARL se encuentran alineados. Esta
|𝑆𝑟 |
𝑠є𝑆𝑟
característica permitió construir para cada oración del
Donde S es el conjunto de plagio reportado en el corpus y documento en inglés un archivo fuente, y por cada oración
R el conjunto de plagio detectado por el sistema. del documento en español un archivo sospechoso. Los
experimentos se centraron en determinar si cada archivo
10.1 Experimentación con el corpus monolingüe sospechoso era plagio del fuente correspondiente. Luego
Estos experimentos se utilizan para comprobar la de diversos experimentos se determinó que los mejores
efectividad de la etapa de detección de plagio monolingüe. resultados se lograban cuando los umbrales tomaban
Además, se presentan diferentes comparaciones en cuanto valores de λ = 100 y λ = 170. En este corpus los mejores
a la eficacia del método, atendiendo parámetros tales como resultados fueron logrados segmentando los textos en n-
la longitud de los n-gramas y el umbral de adyacencia. gramas contextuales; no se hizo pre-procesamiento de los
Después de varios experimentos en la búsqueda de textos; se utilizó λ = 170 como umbral de adyacencia y se
umbrales de adyacencia que ofrecieran buenos resultados, empleó el traductor local Apertium.
se determinó que los mejores resultados se obtienen
cuando los umbrales de adyacencia son λ = 170 y λ = 300.
Es importante destacar que en los experimentos no se
trabajó con el sub-corpus de no-plagio. Para los
experimentos, el texto se segmentó en:
1. N-gramas contextuales.
2. N-gramas de contexto cercano.
3. Combinación de n-gramas contextuales y contexto
cercano.
4. Combinación de n-gramas contextuales, contexto
cercano y etiquetas POS.
Además, se utilizó el término pre-procesamiento de texto,
Figura 4. Resultados pre-procesando los textos y utilizando λ =
que involucra los pasos de eliminar palabras auxiliares del
100 como umbral de adyacencia
18
La Figura 4 muestra los resultados cuando los textos son utiliza el traductor local Apertium, no se eliminan palabras
pre-procesados y se fija λ = 100 como umbral de auxiliares y se fija λ = 170como umbral de adyacencia.
adyacencia. El mejor resultado se logró cuando el texto se
Como trabajo futuro, se recomienda: 1) experimentar el
segmenta en 2-gramas y se emplea el traductor
algoritmo en un ambiente en el que existan documentos en
Freetranslator.
inglés y español, de tal manera que las traducciones se
En la Figura 5 se muestra los resultados cuando los textos puedan realizar utilizando traductores automáticos y
son pre-procesados sin eliminar palabras auxiliares y se especializados para comprobar el desempeño del
fija λ = 170 como umbral de adyacencia. El mejor resultado algoritmo. 2) En la fase de integración de pasajes, incluir
se logra cuando el texto se segmenta en bi-gramas y se todos los fragmentos de textos solapados detectados para
utiliza el traductor Apertium. la experimentación. 3) Comprobar por qué con los n-
gramas contextuales y de contexto cercano no se obtienen
mejores resultados en la fase de detección de plagio
multilingüe.
Referencias
[1] RAE. Diccionario de la lengua española. Edición 22.
[2] Bouville, M. (2008). Plagiarism: Words and ideas. Science
and Engineering Ethics 14(3), pp. 311–322.
[3] Iyer, P. & Singh, A. (2005). Document similarity analysis for
a plagiarism detection system. Proceedings 2nd Indian
International Conference on Artificial Intelligence (pp.
2534-2544). Pune, India.
[4] Potthast, M. et al. (2012). Overview of the 4th international
competition on plagiarism detection. Proceedings
Figura 5. Resultados pre-procesando los textos sin eliminar Conference and Labs of the Evaluation Forum (pp. 1-28).
palabras auxiliares y con λ = 170 como umbral de adyacencia Rome, Italy.
[5] Sidorov, G. (2013). Non-linear construction of n-grams in
En los resultados se puede observar que
computational linguistics. México: Sociedad Mexicana de
independientemente de la longitud de los n-gramas, los Inteligencia Artificial.
mejores resultados sin eliminar palabras auxiliares se [6] Sánchez, M., Sidorov, G. & Gelbukh, A. (2014). The winning
alcanzan utilizando el traductor Apertium; mientras que approach to text alignment for text reuse detection at pan
haciendo pre-procesamiento de texto los mejores 2014. Proceedings 5th International Conference of the CLEF
resultados se logran utilizando el traductor Freetranslator. Initiative (pp. 1004–1011). Sheffield, UK.
[7] Rodríguez, D. & Martín, J. (2012). Detailed comparison
11. Conclusiones module in coremo 1.9 plagiarism detector. Proceedings
En este trabajo se diseñó e implementó un algoritmo para Third International Conference of the CLEF Initiative (pp. 1-
la detección automática de plagio multilingüe, 8). Rome, Italy.
específicamente en la tarea de alineación de textos. La [8] Rodríguez, D. & Martín, J. (2013). Text alignment module in
estrategia se basa en traducir uno de los documentos hacia coremo 2.1 plagiarism detector. Proceedings 4th
el idioma base del otro documento que se va a analizar, International Conference of the CLEF Initiative (pp. 1-8).
para luego aplicar técnicas de plagio monolingüe para Valencia, Spain.
[9] Pereira, R., Moreira, V. & Galante, R. (2010). A new approach
detectar todos los fragmentos de textos plagiados de
for cross-language plagiarism analysis. Lecture Notes in
máxima longitud. Computer Science 6360, pp. 15-26.
Para llevar a cabo la detección de plagio, primero se pre- [10] Trifan, I. (2011). Plagiarism detection in a multilingual
procesan los documentos, es decir, se eliminan las palabras environment. Annals of DAAAM 22(1), pp. 831-832.
[11] Schleimer, S., Wilkerson, D. & Aiken, A. (2003). Winnowing:
auxiliares, los caracteres que no sean letras o números, el
local algorithms for document fingerprinting. Proceedings
texto se convierte a minúsculas, se obtienen todos los international conference on Special Interest Group on
lemas, se ordenan alfabéticamente y se crean los n-gramas Management of Data (pp. 76–85). San Diego, USA.
contextuales y los de contexto cercano. El algoritmo se [12] Barrón, L. (2012) On the mono-and cross-language
experimenta con diferentes parámetros, tales como el detection of text-reuse and plagiarism. PhD thesis.
umbral de adyacencia, los textos se pre-procesan sin Universitat Politécnica de Valencia. Spain.
eliminar las palabras auxiliares y se utilizan diferentes [13] Simard, M., Foster, G. & Isabelle, P. (1993). Using cognates
traductores. Para la fase de detección de plagio to align sentences in bilingual corpora. Proceedings of the
monolingüe, los mejores resultados se logran cuando el 1993 conference of the Centre for Advanced Studies on
Collaborative research: Distributed computing (pp. 1071-
texto se segmenta en n-gramas contextuales y de contexto 1082). Toronto, Canada.
cercano, se pre-procesan los textos y se fija λ = 300 como [14] Ceska, Z. Toman, M. & Jezek, K. (2008). Multilingual
umbral de adyacencia. Mientras que, en la fase multilingüe, plagiarism detection. Proceedings 13th international
los mejores indicadores se alcanzan cuando se segmentan conference on Artificial Intelligence: Methodology, Systems,
los textos en n-gramas contextuales de longitud n = 2, se and Applications (pp. 83-92). Varna, Bulgaria.
19