Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
LINGufSTICA DE CORPUS
y VALENC IA VERBAL
1. Introduction
Las propiedades combinatorias, 0 valencia, de los verbos y otros
eleme ntos lexicos constituyen un problema c1ave para el estudio de las
interrelaciones entre lexico y sintaxis y entre sintaxis y semantica. El
concepto y el termino de valencia proceden de Tesniere ( 1 959), quien
establece una analogfa entre los verbos y los elementos qufmicos,
On peut comparer le verbe a une sorte de atome crochu susceptible de
exercer son attraction sur un nombre plus ou moins eleve d' actants, selon
qu'il comporte un nombre plus ou moins eleve de crochets pour les
maintenir dans sa dependance. Le nombre de crochets que presente un
verbe et par consequent le nombre d'actants qu'il est susceptible de regir,
constitue ce que nous appellerons la valence du verbe (Tesniere 1 959: 238)
30
Chapter Two
31
Belegungsregeln:
[N]A/[by
N]
[V-ing]A
[that-CL]A
Tl
Tl
Dl TI-4
Tl
T3
[against N]p
D2 TS-6 Q
[at N]p
[by
N/SCORE]
[SCORE]
[fromN]
D3
D4 T2.6
DS
TS
T4
Chapter Two
32
strength
of
CCL[=
computer
corpus
linguistics]
(Leech,
1 992: 1 12).
33
34
Chapter Two
todo, tenemos una serie de recursos basados en corpus que incluyen como
parte esencial la sistematizaci6n de las propiedades sintacticas y
semantic as de los verbos y otras unidades lexicas, incluyendo su
descripci6n y clasificaci6n semantic a y sus propiedades combinatorias.
Entre esos recursos destacaremos para el ingles PropB ank (Palmer et al.
2005), FrameNet (Fillmore et al. 2003 . Fillmore 2(07) y Pattern
Dictionary of English Verbs (Hanks and Pustejovsky 2005), y para el
espafiol Spanish FrameNet (Subirats 2009), SenSem (Vazquez et al. 2006)
y el lexico derivado de AnCora (Taule et al. 2008), ademas de ADESSE,
que comentaremos a continuaci6n. Muchos de estos recursos apenas
ofrecen informaci6n sobre frecuencia en el corpus de cada patr6n
sintagmatico, a diferencia de 10 que ofrece VALEX (Korhonen et al.
200 6), un lexic6n con la frecuencia de los patrones de subcategorizaci6n
de 6 397 verbos del ingles. A cambio, tenemos recursos con informaci6n
semantica bastante detallada. Su desarrollo demuestra tambien la
necesidad de anotaci6n sintactica y semantica bien del corpus bien de los
recursos lexicos derivados de corpus de las nociones claves de la valencia
semantica no pueden deducirse de otras mas superficiales, por 10 que la
anotaci6n sintactico-semantica de corpus requiere ineludiblemente
anotaci6n manual, aunque los recursos Iexicos en desarrollo pudieran
servir de base para la automatizaci6n de anotaciones semantic as ulteriores.
Frente al desarrollo de diversos "treebanks" y similares desde los afios 90,
la primera decada del siglo XXI ha visto el desarrollo de varios proyectos
que afiaden a la anotaci6n sintactica tambien informaci6n semantica
relevante. Ademas de los proyectos ya mencionados, destaquemos el
Prague Dependency Treebank (Haj ic 2004) para el checo, y SALSA
(Burchardt et al. 2006), que incorpora informaci6n semantic a de FrameNet
al treebank Tiger del aleman.
2.ADESSE
En la paginas siguientes hablaremos de ADESSE, "Base de datos de
verbos, Altemancias de Diatesis y Esquemas Sintactico-Semanticos del
Espafiol" (http://adesse.uvigo.es/), un proyecto1 de la Universidade de
Vigo cuyo objetivo es disponer de una base de datos con informaci6n
sintactica y semantic a sobre los verbos y chiusulas de un corpus del
espafiol (corpus ARTHUS de 1 ,5 millones de palabras). ADESSE es una
versi6n, ampliada con informaci6n semantica, de BDS, "Base de datos
sintacticos del espafiol" (http://www.bds.usc.es/). un proyecto desarrollado
en la Universidade de Santiago de Compostela en los afios 90 (Roj o 2(0 1 ) .
Una diferencia importante con respecto a los diccionarios de valencias
Lingtiistica de Corpus
y Valencia Verbal
35
25
45
276
472
1 2 10
1672
3433
>1 000
>500
> 1 00
>50
> 10
>5
>0
36
Chapter Two
Tabla
Emisor
Rol
Argl
lndice_arg
Suj
Funci6n sint.
3pl.Suj [-!1]
Concordancia
FN
Categ0 rfa
[hermano]
Nacleo /exico
semantico Animado
I
"
,'
Receptor
Arg3
OInd
3pl.Dat [Ies]
FN
FN
fJ2.ro/2.6sito] fJ2.ersona]
Abstracto
Animado
Mensaje
Arg2
ODir
Lingiiistica de Corpus
y Valencia Verbal
37
Chapter Two
38
39
2 RELACIONAL
3 MATERIAL
4 VERBAL
12
13
21
22
31
32
33
34
Percepci6n
on
Co
Atribuci6n
Ser
Tener
Posesi6n
Ir
Espacio
Cambio
Abrir
Otros hechos Tocar
Conductas
Refr
Decir
.
5 EXISTENCIAL
Haber
6 MODULACION
Hacer-II
425
11
2302
(5 8%)
29.8 1 6
52.082
(33%)
336
1 5 .595
1 1 568
.
161
TO TAL
1 3 .444
158922
40
Chapter Two
41
321)
42
Chapter Two
43
Many arguments are optional, while some adjuncts are (almost) compulsory
(e.g., a how adjunct for worded as in He worded the proposal very well ).
(M anning 2 003: 305)
2 007:
27)
44
Chapter
Two
45
Al : S uj
A2:0Dir
Al : S uj
65
12
A3:0bl ( en )
Al :Suj
Al: Suj
ADESSE
16
34
A3:0Dir
22
A2:0Dir
Al :Suj
A l : Suj
Al: Suj
A2:0Ind
A3:0Dir
Al: Suj
A2:0Ind
A3:0bl(a)
46
Chapter Two
47
48
Chapter Two
DESPERTAR
MEJORAR
AUMENTAR
CAMBIAR
EMPEORAR
CRECER
,
: :
1 09
35
71
222
7
93
49
(esq uemas valenciales de un verbo - esquemas propios de una clase e squemas sintacticos abstractos). En cualquier nivel y vfa de abstracci6n
las re alizaciones posibles muestran una distribuci6n estadistica no
uni forme, de la que obtenemos indicios sobre significados centrales del
es decir, sobre el potencial semiintico del
esquema y posibles extensiones,
.
verbo 0 del esquema .
50
Chapter Two
( 1 0)
a. que ha durado la guerra de tierra tres dfas, que en seguida han vencido
las fuerzas aliadas, y claro, . . .
b. Venus Williams, que la ha vencido dos veces esta temporada . . .
c. Maiiana vence el plazo que tenemos.
Ademas, las busquedas en corpus que tienen anotaci6n morfosintactica
no pueden ser sensibles a diferencias de significado (ni en la colocaci6n ni
en el colocativo) . Una imagen mas elaborada de la combinatoria de las
palabras 10 obtenemos de los "Word Sketches" (Kilgarrif et at. 2004), que
proporciona listas de colocados en diferentes huecos ["slots"] sintacticos
51
GANAR II
" Superar 0 aventaj ar
SUJ
AGT
77
3
por
FN
36
Pro
Anim.
Abstr
75
ODIR
89
anotados
79
ODIR
65
SUJ
10
ODIR
16
OIND
OBL
SUJ
SUJ
Dat (le)
AcID at
D at
7
5
Acus (lo)
AcIDat
13
FN
13
FN
21
Abstr
curiosidad
msomnlO
apatfa
semana_s- 1
chiismo
expansion
SUJ
AGT
L OC
Acus (lo) 6
Ani m
25
25
AD J
Inf
Abstr
25
2
guerra
partido
batalla
carrera
7
4
2
por
FN
39
Pro
35
en
FN
49
FN
Ani m.
68
Animado 52
Abstr.
17
Abstracto 17
Concr.
Concreto
sueiio
4
2
obstaculo 3
cansanci0 2
timidez
tension
nieve
dificultad
jatiga
tanque
Abstracto 2
partido
batalla
52
Chapter Two
.
.
.
.
;
;
;
I
Notes
1
El proyecto se ha benefidado de las ayudas ministeriales de referenda BFF20020 1 197 (2002-2005), HUM2oo5 -0 1 573 (2006-2008) Y FFI2008-0 1 953 (2009-20 1 1 )
References
53
_.
54
Chapter Two
'
'.
".
55
Herbst, Thomas, David Heath, Ian Roe, and Dieter Gotz. A Valency
D ictio na ry of English. A Corpus-Based Dictionary of the
Co mp le mentation Patterns of English Verbs, Nouns and Adjectives.
Berlin/New York: Mouton de Gruyter, 2004 .
Hu n ston, Susan, and Gill Francis. Pattern grammar: a corpus-driven
app roa ch to the lexical " grammar of English. Amsterdam: John
Benj amins, 2000.
Kil garriff, Adam, Pavel Rychly, PaveI Smrz, and David Tugwell. "The
S ke tch Engine. " In Proceedings of the EURALEX Conference, 1 0S1 1 6. Lorient, France: Universite de Bretagne- Sud, 2004 .
Korh onen, Anna, Yuval Krymolowski, and Ted Briscoe. "A Large
S ubc ategorization Lexicon for Natural Language Processing
Applic ations ." Proceedings of the 5th Language Resources and
Evaluation Conference (LREC), May 22-28, 2006, http://www.lrec
conf.org/proceedingsflrec2006/.
Leech, Geoffrey. "Corpora and theories of linguistic performance." In
Directions in corpus linguistics, edited by Jan Svartvik, 1 0S - 1 22.
Berlin and New York: Mouton de Gruyter, 1 992.
Levin, Beth. English Verb Classes and Alternations: a Preliminary
Investigation. Chicago/London: University of Chicago Press, 1 993 .
Luft, Celso P. Dicionario pratico de regencia verbal. Sao PauIo: Editora
Atica, 1 995 .
Manning, Christopher. "Probabilistic Syntax." In Probabilistic Linguistics,
edited by Rens B od, Jennifer Hay, and Stefanie Jannedy, 289 - 34 1 .
Cambridge, MA: MIT Press, 2003 .
Mel' cuk, Igor. Dictionnaire explicatif et combinatoire du franfais
contemporain. Recherches lexico-semantiques I-IV. Montreal: Les
Presses de I 'Universite de Montreal, 1 984- 1 999.
Niznikova, J olana, and Miloslava Sokolova. Valencny slovnfk slovenskjch
slovies (The Valency Dictionary of the Slovak Verbs). Presov:
Filozoficka faculta Presovskej univerzity, 1 998.
Palmer, Martha, Paul Kingsbury, and Dan Gildea. "The Proposition B ank:
An Annotated Corpus of Semantic Roles." Computational Linguistics
3 111 (200S ) : 7 1 - 1 0S .
Polanski, Kazimierz et al. Slownik syntaktyczno-generatywny czasownik6w
polskich. Wroc1aw: Wydawnictwo Polskiej Akademii Nauk, 1 9 801 992.
Roj o, Guillermo. "La explotaci6n de la B ase de Datos Sintcicticos del
espafiol actual." In Lingufstica con corpus, edited by Josse De Kock,
2SS-286. Salamanca: Universidad de Salamanca, 200 1 .
56
, I
Chapter Two
Schulte im Walde, Sabine. "The induction of verb frames and verb classe s
from corpora.." In Corpus Linguistics. An International Handbook.,
edited by Anke Liideling, and Merja KytO, vol. 2, 952-972 . Berlin:
Walter de Gruyter, 2009.
Schumacher, Helmut, Jacqueline Kubczak, Renate Schmidt, and Vera De
Ruiter. VALB U-Valenzworterbuch deutscher Verben. Tiibingen: Narr,
2004.
Sinclair, John. Corpus, concordance, collocation. Oxford: Oxford
University Press, 1 99 1 .
Stefanowitsch, Anatol, and Stefan T. Gries. "Collostructions: Investigating
the interaction of words and constructions." International Journal of
Corpus Linguistics 8/2 (2003) : 209-243 .
-. "Corpora and Grammar." In Corpus Linguistics. An International
Handbook, edited by Anke Liideling, and Merj a KytO, (2) 933-952.
Berlin: Walter de Gruyter, 2009.
Stubbs, Michael. "Collocations and semantic profiles. On the cause of
trouble with quantitative studies." Functions of Language 211 ( 1 995):
23-5 5 .
Subirats, Carlos. "Spanish Framenet: A frame-semantic analysis o f the
Spanish lexicon." In Multilingual FrameNets in Computational
Lexicography. Methods and Applications., edited by Hans B oas, 1 351 62. BerlinlNew York: Mouton de Gruyter, 2009 .
Taule, Mariona" M. Antonia Martf, and Marta Recasens. "Ancora:
Multilevel Annotated Corpora for Catalan and Spanish." Proceedings
of 6th International Conference on Language Resources and
Evaluation (2008) : 96- 1 0 1 .
Tesniere, Lucien. Elements de syntaxe structurale. Paris: Klincksieck,
1 959.
Teubert, Wolfgang. " Sinclair, pattern grammar and the question of
hatred. " International Journal of Corpus Linguistics 1 212 (2007) : 223248 .
Thompson, Sandra A. , and Paul J. Hopper. "Transitivity, clause structure,
and argument structure: evidence from conversation." In Frequency
and the emergence of linguistic structure., edited by Joan Bybee, and
Paul J. Hopper, 27-60. Amsterdam: John Benj amins, 200 1 .
Tognini-Bonelli, Elena. Corpus Linguistics at Work. Amsterdam: John
Benj amins, 200 1 .
Vazquez, Gloria, Laura Alonso, J .A. Capilla, Irene Caste1l6n, and Ana
Fernandez. " SenSem: sentidos verbales, semantica oracional y
anotaci6n de corpus. " Procesamiento del Lenguaje Natural 37 (2006):
1 1 3- 1 20.
'
'
;
,
I:
Lingtii s tica de Corpus y Valencia Verbal
57
Edited by
CAMBRIDGE
SCHOLARS
PUBLISHING