Sei sulla pagina 1di 39

Construcción de CATE

Corpus de Aprendices
Taiwaneses de Español
CATE

 Apoyado por National Science Council, Taiwan


(Research Project)
2  2004.8-2009.7
0  Apoyado por Ministry of Education (Top 100
0
9
University Advancement)
 2006.1-2007.12
 2008.8-2009.7

2
Agradecimientos a:
Profesores
Victoria Tien, Rita He, Ailin Yen, David Pei,
Francisco Moreno, Lucía Lu, Delia Lin, Teresa
2
0 Cheng, Emilia Cheng, Paco He, Víctor Lu, Laura
0 Vela, Edelmira Mao, Cecilica Liu, Eugenio Bora,
9 Sofía Yang, Azucena Lin, Carolina Lin, Camilo
Wang…etc

3
Ayudantes
 Programación  Procesamiento de
 ZhiLiang Chou dato
 WeiNan Chen  María José de Vega,
 Jimmy Lin María Hortensia
2 Contreras, Rita Swade
0  Etro Chen
0
 Paloma Pai, Emilia Lin,
9
Elsa Chen, Serafian
Zhang
 Tammy Chen, Yolanda
Zheng, Manuela Chen,
Evita Guo, Leticia Pan,
Felicia Su, Regina chen,
Amelia Tian, Jean
Huang, Esperanza Lyu,
Flora Lin
4
Objetivo final
Ampliaremos sistemáticamente la cantidad del corpus año
tras año
-- la recogida de 500~ composiciones cada año
2 → conseguir el objetivo final que pretendemos
0 - el CATE sea el primer corpus de aprendices y el más
0 grande construido en Taiwán
9

5
Procesos
Procesos
# Nuestro plan longitudinal de construir el
CATE
↓ recogiendo datos de los aprendices taiwaneses del
español
2 -- procedimiento consistente en
0  recoger
0  introducir
9  corregir
 Etiquetar POS, lema, funciones gramaticales, rasgos
semánticos...
 anotar tipos de errores por aprendizaje de máquina...
 programar
 los datos de las composiciones

7
Recoger
 1. Carta de consentimiento
 2. Información personal

2  3. composiciones
0
0
9

8
Composición entregada

2
0
0
9

9
Datos personales

2
0
0
9

10
Carta de consentimiento
 Con vistas a compartir estos recursos, todos los autores de
las composiciones han
 leído la presentación de investigación
 firmado las cartas de consentimiento,
2  estado de acuerdo en
0  sus composiciones se pudieran estudiar por el público en general en un
futuro
0
9

11
Introducir dato personal

2
0
0
9

12
Editar

2
0
0
9

13
Escribir a máquina
→ archivo electrónico (.doc)

2
0
0
9

Escribir a máquina → check 1 → check 2


14
Editar composición

2
0
0
9

15
Participantes

 1522+396 (S/E) estudiantes (15


Universidades)
2
 459 estudiantes de 2005
0
0  599 estudiantes de 2006
9  395 estudiantes de 2007
 69+396 (S/E) estudiantes de 2008

16
Departamento
 Las fuentes de las que proceden los datos del corpus
consisten en 2 grupos de estudiantes
 (1) los estudiantes del departamento del Español de 4
2 universidades taiwanesas
0  (2) los aprendices de los departamentos de idiomas extranjeros
0 de lenguas extranjeras & de la educación general
9

CATE

DE DLE

U…
FJU TKU PU WTUC NCKU ...etc.

17
Aprendices de Departamento de
Español
 Departamentos de Lengua Española:
 1. Universidad Católica de Fu-Jen.
 2. Universidad de Tamkang.
2
0  3. Universidad de Providencia.
0
9  4. Colegio de Lenguas de Wenzao Ursuline.

18
Aprendices no de departamentos
del español

 2 grupos:
2
0
 1. Cursos específicos de lenguas extranjeras.
0  2. Curso de español incorporado en la
9 educación general del resto de universidades

19
Horas de Aprendizaje
 Debido a la no correspondencia entre los créditos de
cursos de español obligatorios y opcionales entre las
universidades,
 no es adecuado, para ningún estudio, dividir por cursos los niveles
2 de los aprendices de grupos
0  que no pertenezcan a departamentos específicos de lengua española, y
0  por tanto, haremos una división más objetiva de niveles
9 empleando otro criterio,
 el de horas de estudio del español.

•64~1632 horas
20
Longitud de composiciones

2
0
0
9
61 palabras ~ 620 palabras

21
Tipo de texto
 Descriptivo
 Expositivo

2
0
0
9

22
Tema: Títulos/temas de composiciones
2006
2005

Mi habitación La gripe
Mi ciudad Las relaciones de los padres y hijos
2 Mi profesión y mis consejos Los padres son como amigos
0 Un día en la Universidad El mejor viaje que he hecho yo
0 ¿Cómo te fueron las vacaciones del Un viaje inolvidable
9 verano pasado? Una Ocasión especial
Las vacaciones del pasado Un dia especial
verano En mi tiempo libre
El fin de semana pasado Mi infanicia
Mi normal día Mi amiga
Mi último viaje Mi mejor amigo
Mi familia
Autobiografia
Presentación de mí mismo 23
Etiquetar
 Etiquetación de errores
 Etiquetación de POS & lema

2  Etiquetacíón de funicones gramaticales


0
0
9

24
Errores
 Manual
 corrección /&
 anotación
2
0
0
9

25
Corpus Tool de UAM

2
0
0
9

26
Anotación exportada (Corpus Tool) → XML

2
0
0
9

27
Anotación morfositáctica
 FreeLing
 Lemma
 POS
2
0
0
9

28
Programación (Perl y MySQL)
 4 subsistemas
 Interfaz de la colección
2  Construcción del índice
0
0  Pregunta
9
 Sistema de entrada

29
Interfaz de la colección

2
0
0
9

30
Construcción del índice

2
0
0
9

31
Pregunta

2
0
0
9

32
Contraste entre Incorrección y Corrección
 A través de
 la introducción de la versión corregida de los errores
revisados (los hablantes nativos del esp.)
 Obtener las palabras clave/estructuras con las
2 palabras clave específicas,
0  los investigadores/los aprendices están interesados
0
9  Con la recuperación de las palabras clave
 la pantalla del ordenador es dividida en 2 apartados,
 oración original con errores en uno
 oración corregida en el otro

33
añadir la herramienta de contraste de errores y la corrección
 Antes  Después
 los investigadores  los investigadores
pueden solamente  recuperan los datos
usados por los aprendices
2 consultar el CATE del esp.
0 → recuperar los  pueden compararlos con
0 resultados del uso de las formas corregidas
9 los aprendices  los aprendices también
→ preparar los podrán beneficiarse
materiales didácticos  -- las consultas de las
correcciones
 los aprendices tampoco  se corresponden con las
se beneficiarán mucho equivocaciones

de
 la consulta del corpus
original
34
 En los primeros años de la construcción del CATE
 ≈1000 comp. han sido comparadas con
 las formas corregidas (un profesor esp. nativo)
 Señalando y anotando los errores de los aprendices con
2 etiquetas
 ponemos al día las características técnicas del CATE
0
 proporcionamos funciones más avanzadas para la búsqueda en
0 el corpus y el análisis de los errores
9  por parte de los investigadores & de los aprendices.

 ⇒ el número de personas que se pueden beneficiar de este


recurso se ha ampliado notablemente

35
Posibles estudios relacionados
 Temas
 Léxico
 Colocación
2
 Coligación
0
0  Sintaxis
9
 SER-ESAR ADJ/PP
 Clásulas subordinadas
 Cláusula relativa

36
Publicación
 Congresos
 Revistas

2  Los demás
0
0
9

37
En el futuro

 Este corpus principal de los aprendices


taiwaneses de español favorecerá
2
0
investigaciones sistemáticas sobre
0  la lingüística aplicacada
9

38
Gracias

Potrebbero piacerti anche