Sei sulla pagina 1di 26

CORPUS DEL ESPAÑOL DEL SIGLO XXI

CORPES XXI

Versión 0.92, beta

Manual de consulta en línea

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 1 de 26
ÍNDICE

Requisitos de uso.................................................................................................................................................... 3
Consulta del corpus ................................................................................................................................................ 3
La ventana de consulta....................................................................................................................................... 3
Concordancias ................................................................................................................................................... 5
Consulta de lemas y formas .......................................................................................................................... 5
Localización de formas verbales con enclíticos .............................................................................................. 6
Consulta de signos de puntuación .................................................................................................................. 6
Uso de los comodines ................................................................................................................................... 7
Criterios lingüísticos ..................................................................................................................................... 7
Análisis de la proximidad entre varias piezas léxicas ..................................................................................... 8
Criterios para la selección de textos (Subcorpus) ........................................................................................... 9
Criterios de ordenación ............................................................................................................................... 10
Combinación de criterios de consulta: criterios lógicos ................................................................................. 11
Combinación de criterios de consulta: consultas de índole gramatical ........................................................... 13
Consulta de la transcripción de textos orales ..................................................................................................... 15
Información estadística .................................................................................................................................... 15
Coapariciones....................................................................................................................................................... 17
Definición y uso .............................................................................................................................................. 17
Parámetros para la obtención de las coapariciones ............................................................................................ 18
Clase de palabra ......................................................................................................................................... 18
Tema.......................................................................................................................................................... 18
Origen ........................................................................................................................................................ 18
Descripción de las medidas estadísticas de asociación ....................................................................................... 18
MI (Mutual information)............................................................................................................................. 18
T-score....................................................................................................................................................... 18
LL simple (Log likelihood) ......................................................................................................................... 19
Obtención de ejemplos a partir de las coapariciones .......................................................................................... 19
Nómina de autores y obras .................................................................................................................................... 21
Configuración ...................................................................................................................................................... 21
Información de contacto ....................................................................................................................................... 21
Cómo citar este corpus.......................................................................................................................................... 21
Apéndice I. Referencia rápida ............................................................................................................................... 23
Apéndice II. Preguntas más frecuentes .................................................................................................................. 24
1) Cómo obtener los ejemplos de uso de un lema o una forma (concordancia) ............................................... 24
2) Cómo ver las combinaciones más frecuentes de una palabra (coapariciones) ............................................. 24
3) Cómo obtener los datos estadísticos de una consulta (estadística) ............................................................. 24
4) Cómo ordenar los ejemplos (ordenar por) ................................................................................................ 24
5) Cómo ver el detalle de un ejemplo y su referencia bibliográfica (concordancia ampliada) ......................... 24
6) Cómo utilizar el asistente para crear consultas complejas ........................................................................ 25
7) Cómo imprimir o guardar en un archivo los resultados de las consultas (imprimir/exportar) ...................... 25
8) Cómo obtener ejemplos en los que figuren dos o más palabras determinadas (proximidad) ..................... 25
9) Cómo localizar ejemplos de una forma gráfica determinada en el corpus (mayúsculas/tildes) .................... 25
10) Cómo emplear los comodines en la consulta ....................................................................................... 26

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 2 de 26
REQUISITOS DE USO

La consulta del corpus precisa de una conexión a la red Internet y de un navegador web estándar que
acepte el lenguaje Javascript, por ejemplo, Microsoft Internet Explorer, Mozilla Firefox, Google Chrome,
Apple Safari etc.

CONSULTA DEL CORPUS

La aplicación de consulta del CORPES en línea permite obtener ejemplos de uso de los lemas y formas
contenidos en él, ver los datos estadísticos más relevantes, comprobar las agrupaciones más frecuentes de
una palabra (coapariciones), obtener la concordancia de palabras cuando aparecen en proximidad, así
como clasificar y filtrar los resultados de la consulta mediante diversos criterios.

La ventana de consulta

La ventana inicial de consulta —denominada Concordancias— proporciona ejemplos de uso de las


palabras contenidas en el corpus.

Fig. I. Ventana inicial del sistema de consulta: concordancia básica

Presenta una interfaz inicial simplificada organizada en tres zonas: en la superior se especifican los
criterios de consulta, en la intermedia se muestran los ejemplos y la inferior sirve para ampliar el contexto
de un ejemplo determinado junto con su referencia bibliográfica completa y los datos de clasificación del
texto en el CORPES, que será diferente para textos escritos y para textos orales.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 3 de 26
Para textos escritos será algo así:

Referencia bibliográfica:

«Los conserjes de San Felipe Neri». Alonso de Santos, José Luis: Los conserjes de San Felipe Neri. Madrid:
Cátedra, 2012.

Clasificación CORPES:

Año: 2011. Criterio: Fecha de escritura. Medio: Escrito. Bloque: Ficción. Soporte: Libro. Tema:
Teatro. País: España. Tipología: Ficción.

Para textos orales será como el ejemplo que se muestra a continuación, ya que se tiene en cuenta, además
de la información del archivo, la información del hablante:

Hablante:

Nombre: Zambrana Marchetti, Fabio . Sexo: hombre. Grupo de edad: 35-54. Nivel de
estudios: medio. Profesión: cantautor. País: Bolivia. Otros datos: Papel: Entrevistado.

Archivo:

BoliviaWebTv: Entrevista a Azul Azul: Fabio Zambrana Anuncia su Despedida. Año y criterio de
clasificación: 2011, Fecha de emisión. Procedencia: Transcripción y codificación CORPES. Medio de
difusión: Internet. Tipología: Entrevista.

Los ejemplos de uso de la palabra consultada se muestran, por defecto, en orden cronológico en el formato
Kwic1, habitualmente utilizado para la presentación de este tipo de datos. En este formato cada línea
corresponde a un ejemplo, que dispone además de un número correlativo de identificación, así como de la
fecha de clasificación y el país (abreviado) de la obra de la que ha sido extraído. Si el ejemplo corresponde a
la transcripción de la lengua hablada de la parte oral alineada del corpus aparece también el símbolo de un
altavoz para indicar la disponibilidad de sonido.

En el texto, aparece resaltada la palabra buscada y, si se sitúa el puntero del ratón sobre la fecha, se
muestra la referencia bibliográfica detallada de la obra. Si se señala cualquier palabra, se obtiene su
análisis lingüístico; en el caso de la palabra pivote (la destacada en azul), se muestra además una pequeña
ampliación del contexto.

En la parte superior de la tabla de resultados, en el ángulo superior derecho, se encuentra la opción para
clasificar los ejemplos y ordenarlos según el criterio que se elija; por defecto, como ya se ha indicado
previamente, está marcado el cronológico.

En el ángulo superior izquierdo de la tabla de resultados se proporciona el número total de casos obtenidos
en la consulta, y el número de documentos seleccionados para la obtención de los ejemplos. Debajo de los

1 Keyword in context (La palabra en su contexto).

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 4 de 26
ejemplos está la opción para pasar de página y continuar viendo los ejemplos, así como los botones para
imprimirlos o exportarlos2.

Cuando se necesita ampliar el contexto de un ejemplo, se debe pulsar con el puntero del ratón sobre la
palabra pivote (resaltada en color azul); se despliega entonces, en la zona inferior de la página, un espacio
donde figura el ejemplo, encabezado por la referencia bibliográfica completa del texto que lo contiene, su
clasificación en el corpus, así como la opción de ampliar el contexto precedente y posterior con los botones
(+). Se dispone además de un botón para Imprimir el ejemplo y de una botonera para la reproducción del
sonido, que solo aparece en el caso de que el ejemplo corresponda a la transcripción de la lengua hablada
de la parte oral alineada del corpus.

Los cambios de color de fondo que se observan en las concordancias sirven para identificar ejemplos
pertenecientes a obras distintas.

Concordancias

Consulta de lemas y formas

Los ejemplos de uso de lemas y formas se obtienen escribiendo la palabra en la casilla correspondiente y
haciendo clic con el ratón en el botón Concordancia. El botón Nueva consulta restaura las condiciones
originales.

Lema

La consulta de Lema recupera todos los ejemplos de la palabra, de modo que, si se escribe en esta casilla la
forma canónica de una palabra, se obtendrán los ejemplos de todas sus variantes (morfológicas, flexivas y
gráficas).

Si se busca el infinitivo andar¸ el sistema proporciona los ejemplos de miles de formas diferentes de este
verbo, como: andaba, andan, anduvo, andáis, anduviese, andemos, etc. Los sustantivos se deben buscar
en singular; por ejemplo, mujer, y se obtendrán las concordancias de mujer, mujeres, mujercita, etc. En
cuanto a los adjetivos, se escribe el masculino singular, como vergonzoso, y se ofrecerán ejemplos de
vergonzoso, vergonzosa, vergonzosos, vergonzosas, etc.

Forma

La búsqueda de una determinada variante debe hacerse en la casilla Forma; seleccione la opción de
Grafía original (descrita más abajo en esta sección) si desea localizar la forma exacta, tal y como figura en
el texto y sin aplicar ningún tipo de regularización.
Puede también emplear los comodines para localizar formas (véase el apartado Uso de los comodines). Por
ejemplo, para buscar los ejemplos de aerostato se puede usar el comodín de la interrogación lanzando la
búsqueda de aer?stato, con lo que se obtendrán las dos grafías admitidas: aerostato y aeróstato (véase el
apartado Uso de los comodines). Incluso puede usarse el asterisco en esta casilla, por ejemplo el prefijo
pre*, para conocer todas las formas que comienzan así.

2 La exportación de ejemplos se ha limitado –por razones operativas– a un máximo de mil casos.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 5 de 26
Lema + forma

La combinación de ambas casillas permite obtener ejemplos de una forma concreta perteneciente a un
lema determinado. Esta opción puede ser útil para buscar solo ciertas formas de un paradigma más amplio
que tengan un uso diferente del resto del paradigma, como por ejemplo ver+viste, que devuelve casos de la
forma como 'apéndice confirmativo'.

Grafía original

Esta casilla reduce la consulta de lemas y formas a su grafía original, sin emplear ningún tipo de
regularización. Es útil para hacer pertinente la diferenciación acentual (esto es, la existencia o no de tilde) y
la ortográfica (mayúscula o minúscula); así, se puede buscar en forma sé para recuperar solo los ejemplos
del verbo saber que estén tildados; o buscar el nombre propio Aurora, en mayúscula, y no el sustantivo
común.

Texto libre

Es posible realizar la consulta de expresiones que contengan hasta cinco palabras. Esta posibilidad es útil
para buscar frases hechas, locuciones, etc. Por ejemplo, si se quiere consultar expresiones como amor
libre, de tal palo tal astilla, de tomo y lomo, etc. basta con escribirlas en la casilla Forma.

Localización de formas verbales con enclíticos

La consulta de formas verbales pronominales puede realizarse de tres maneras:

1. Escribiendo directamente en la casilla Forma la forma verbal pronominal, por ejemplo dígamelo.

2. Tecleando en la casilla Forma la forma verbal separada de los clíticos mediante espacios, por ejemplo
ponér se lo, ponér me la, etc. Este sistema permite combinar clíticos de acuerdo con las necesidades.

3. Mediante la consulta de Proximidad, escribiendo el lema o la forma verbal sin clíticos en la casilla
correspondiente (Lema o Forma), y añadiendo un criterio de proximidad para cada clítico. Esta
modalidad es la más flexible, ya que permite obtener con una sola consulta los ejemplos de todas las
formas de un verbo con determinados clíticos. Así, si escribimos en la casilla Lema el infinitivo del
verbo sentir, y añadimos el clítico me como criterio de proximidad por la derecha, obtendremos
sentirme, sintiéndome, sentíame etc.

Consulta de signos de puntuación

La búsqueda de signos de puntuación se efectúa de dos maneras:

1. Añadiéndolos a la palabra o frase en la casilla Forma, pero separados por espacios. Por ejemplo, si
queremos encontrar formas interrogativas de verdad, escribiremos ¿ verdad ?

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 6 de 26
Nota: Se admite la consulta de signos de puntuación sin necesidad de que vayan acompañados de
texto.

2. Mediante la consulta de Proximidad, escribiendo en la casilla Forma el texto de la consulta y


añadiendo un criterio de proximidad por cada signo de puntuación. La fig. II muestra un ejemplo de
consulta de proximidad para localizar expresiones interrogativas que contengan la palabra verdad.

Fig. II. Ventana de la concordancia: búsqueda de signos de puntuación mediante el


criterio de proximidad

Uso de los comodines

Se admite el uso de comodines en la consulta de lemas y formas. El comodín ? representa una ocurrencia
simple de cualquier carácter en la posición en que se inserta, mientras que el comodín* sustituye a
cualquier número de caracteres (incluyendo ninguno) a partir de la posición en que aparece.

De este modo, se puede buscar el prefijo sub*, y se obtiene, si se lanza la búsqueda en Lema,
subsiguientes, subjetivos, subtropical, subvirante, etc. Si se consulta un sufijo, por ejemplo *mente,
recogerá, entre otras, las siguientes: prácticamente, silenciosamente, actualmente, típicamente, etc.
Si se busca, por ejemplo, la expresión amarill? en Forma, se recuperarán los ejemplos de amarillo y de
amarilla, mientras que amarill* (en Lema o Forma) ofrecerá además de las anteriores, las de
amarillear, amarillento, etc.

Criterios lingüísticos

Se puede reducir la ambigüedad en la consulta de Lema y Forma seleccionando la clase de palabra y su


correspondiente descripción morfosintáctica. Para ello basta con seleccionar una clase de palabra y su
flexión en el desplegable denominado Clase de palabra.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 7 de 26
Ejemplo: Si desea obtener los ejemplos de aviso como primera persona del singular del presente de
indicativo del verbo avisar, ponga en forma aviso y después seleccione, en Clase de palabra, verbo y la
persona, el tiempo y el modo verbal.

Análisis de la proximidad entre varias piezas léxicas

El submenú denominado Proximidad permite consultar en el corpus ejemplos de hasta siete lemas o
formas que ocupan posiciones cercanas (separadas como máximo por diez palabras).

Ejemplo: En la figura que se muestra a continuación se pueden ver ejemplos de la expresión dar cuartel
independientemente de la flexión verbal, de los pronombres enclíticos, etc. Para realizar esta consulta se
escribirá dar en la casilla de Lema y, tras pulsar el botón de Proximidad, se pondrá, en la nueva casilla
de Lema, cuartel, se seleccionará Intervalo 1 por la Derecha, y finalmente se pulsará en
Concordancia.

Fig. III. Ventana de la concordancia: consulta de proximidad

Puede indicarse además la posición en la que deben figurar los lemas o formas (expresada en número de
palabras) respecto del principal, o bien el intervalo máximo que ha de existir entre las palabras (de una a
cinco palabras de distancia). También se puede fijar la situación en la que deben aparecer los lemas o
formas secundarios (es decir, buscar que estén situados a la izquierda o a la derecha del lema principal, o
bien en ambas posiciones).

En el caso de ambigüedad categorial basta con seleccionar la clase de palabra del lema o la forma.
Existe la posibilidad de realizar la consulta de proximidad sustituyendo lemas o formas secundarios por
categorías gramaticales. De ese modo se obtienen ejemplos de uso del lema requerido en combinación con
sustantivos, adjetivos, verbos, etc.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 8 de 26
Criterios para la selección de textos (Subcorpus)

El botón Subcorpus del menú principal de consulta despliega las opciones de selección de textos del
corpus. Es posible establecer filtros3 dinámicos basados en los siguientes elementos:

• Nombre del autor


• Título de la obra
• Año o intervalo temporal en el que se clasifican los textos
• Origen geográfico de las obras (América, España, Filipinas y Guinea Ecuatorial)
• Zonas lingüísticas americanas (Andina, Antillas, Caribe continental, Chilena, Estados Unidos,
México y Centroamérica y Río de la Plata)
• Países
• Medio (escrito, oral)
• Clasificación temática del texto
• Bloque (ficción, no ficción)
• Soporte (internet, libro, miscelánea, prensa)
• Tipología del texto (académico, biografía memoria, divulgación, jurídico administrativo, libro de
texto, etc.)
• Sexo (solo para hablantes de orales)
• Grupo de edad (solo para hablantes de orales)
• Nivel de estudios (solo para hablantes de orales)

Además permite la selección de marcas tipográficas sobre las que buscar, como cursiva, negrita, subrayado
y versalita.

Ejemplo: Para obtener ejemplos de voseo en Argentina, escriba la forma verbal correspondiente en la
casilla Forma, por ejemplo sabés, seleccione la opción de Grafía original, despliegue el menú de
Subcorpus y seleccione Origen (América), Zona lingüística (Rio de la plata) y País (Argentina); pulse
a continuación el botón Concordancia para obtener los ejemplos.

3 Se admite la selección múltiple para los distintos elementos de subcorpus, como el origen, zonas lingüísticas, países,
medio, bloque, … Nota: emplee simultáneamente la tecla Control y el botón izquierdo del ratón para seleccionar más de
un criterio.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 9 de 26
Fig. IV. Ventana de la concordancia (criterios de selección de textos: subcorpus)

Criterios de ordenación

Los ejemplos se presentan, por defecto, en el orden cronológico de clasificación del texto en CORPES. Se
pueden clasificar, además, combinando libremente dos de los siguientes criterios:

Año de clasificación (ascendente o descendente)


Autor4
Título
Origen geográfico (América, España, Filipinas y Guinea Ecuatorial)
Zonas lingüísticas (España, Filipinas, Guinea Ecuatorial, Andina, Antillas, Caribe continental, Chilena,
Estados Unidos, México y Centroamérica y Río de la Plata)
Países
Lema, forma
Clase de palabra del lema o la forma
Lema o forma situado a una distancia de hasta tres palabras a la izquierda o a la derecha del consultado
Clase de palabra del lema o la forma situado a una distancia de hasta tres palabras a la izquierda o a la
derecha del consultado

4 Para facilitar la localización de autores y obras sin necesidad de escribir el nombre completo se admite en estos
apartados la consulta por cualquier palabra del texto. Escriba, por ejemplo, Molina en la casilla de Autor para localizar
los textos de Vicente Molina Foix, Antonio Muñoz Molina, etc.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 10 de 26
Combinación de criterios de consulta: criterios lógicos

Los sistemas de consulta de corpus obligan, por lo general, a conocer con precisión la sintaxis del lenguaje
de interrogación para efectuar consultas complejas. Con el fin de evitar este inconveniente, se ha diseñado
un asistente que facilita la creación de criterios de consulta complejos mediante la combinación de
operadores lógicos. De esta manera, se pueden acotar determinadas formas dentro de un lema amplio
(marcador Y), combinar la búsqueda de dos o más formas o lemas al mismo tiempo (marcador O) o evitar
la aparición de formas o lemas determinados (marcador NO)

Para añadir o eliminar criterios se emplean los botones ‘+’ y ‘-’, situados en la línea inferior del criterio de
consulta.

Mediante el operador lógico Y, es posible delimitar varias características del término buscado. Por ejemplo,
puede realizar la búsqueda combinada de «Lema vivir Y Forma vivo», lo que eliminará todas las formas de
vivo que no sean verbales. También se pueden usar comodines, por ejemplo, «Lema doler y Forma due*»,
que recuperaría todas las formas de este verbo que empiecen por due-.

Fig. V. Ventana de la concordancia (Y lógico)

Mediante O, es posible buscar al tiempo dos o más formas o lemas. La búsqueda «Forma tuit O Forma
tweet» recuperará todos los ejemplos de estos dos términos en el corpus, tanto si aparecen en el mismo
texto como si no.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 11 de 26
Fig. VI. Ventana de la concordancia (O lógico)

Empleando NO, puede limitarse la aparición de cualquier forma dentro de una búsqueda más amplia, lo
que hace posible limitar los datos inútiles o consabidos en una búsqueda. Por ejemplo, en la búsqueda
«Lema perro NO Forma perro*», se recuperan ejemplos de perra, perrito, perrucho, perras etc., pero no
perro ni perros.

Fig. VII. Ventana de la concordancia (NO lógico)

Es posible combinar varios operadores, o emplear varias veces el mismo. Por ejemplo, en la búsqueda de
perfectos acabados en *jeron, se pueden eliminar los casos más repetidos, formulando la búsqueda:
«Forma *jeron NO Forma dijeron», y añadir otra fila más, con «NO Forma trajeron» (o «NO Lema
traer»).

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 12 de 26
Fig. VIII. Ventana de la concordancia (combinación de criterios lógicos)

Combinación de criterios de consulta: consultas de índole gramatical

La consulta del CORPES es, desde la v. 0.82, mucho más rápida y permite el acceso instantáneo sin
limitaciones a cualquier combinación de criterios lingüísticos, formas y lemas con comodines y filtros de
selección de textos. El nuevo motor de búsqueda, desarrollado mediante las últimas tecnologías de big
data y procesamiento paralelo, admite la consulta en tiempo real sin necesidad de establecer restricciones
de formas o lemas. Esta característica elimina buena parte de las barreras que impedían o dificultaban las
investigaciones lingüísticas y supone un salto cualitativo en la evolución de las herramientas de explotación
de corpus.
Si quisiéramos estudiar, por ejemplo, casos del verbo haber con participio pasado, podríamos emplear el
criterio de proximidad del siguiente modo:

Fig. IX. Ventana de la concordancia (ejemplos del verbo haber con participio pasado)
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 13 de 26
También podríamos realizar consultas de rasgos gramaticales sin necesidad de emplear una determinada
forma o lema. Veamos en el ejemplo siguiente casos de sustantivos doblemente adjetivados:

Fig. X. Ventana de la concordancia (sustantivos con doble adjetivación)

Si deseáramos obtener casos de la perífrasis ir a con infinitivos, frecuentemente utilizada para expresar la
futuridad, podríamos utilizar los siguientes criterios de proximidad:

Fig. XI. Ventana de la concordancia (perífrasis verbal ir a seguida de infinitivo)

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 14 de 26
Consulta de la transcripción de textos orales

Se introducen en el CORPES más de 2 000 000 de palabras procedentes de trascripciones de lengua


hablada. Algunos de estos textos disponen de sonido alineado, lo que posibilita escuchar el audio de los
ejemplos seleccionados.

El ejemplo siguiente muestra la concordancia de la palabra video obtenida de las trascripciones de la parte
oral del CORPES que corresponde a grabaciones de la zona andina hablado por una mujer.

Fig. XII. Ventana de la concordancia (sonido alineado con los ejemplos)

Hay otros casos de orales que no tienen el sonido alineado, pero si disponen de sonido, por lo que se puede
oir el audio completo. Y hay otros casos que además disponen de video, por lo que se puede visualizar el
video completo que ha sido transcrito.

Información estadística

El CORPES dispone de un sistema de cálculo dinámico de la información estadística. Los valores que se
ofrecen siempre se refieren a la consulta realizada, de modo que si se establecen filtros o se emplean
criterios de proximidad, los datos estadísticos se recalculan dinámicamente sobre el subcorpus
seleccionado.
Para acceder a la información estadística de cualquier consulta basta con pulsar el botón de Estadística
que figura inmediatamente a la derecha del de Concordancia.
Se muestran en primer lugar tres valores globales relativos a la consulta realizada: la frecuencia absoluta,
que representa el número total de ocurrencias de la consulta, el número de documentos que disponen de
ocurrencias, y la frecuencia normalizada, expresada como “número de ocurrencias por cada millón de

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 15 de 26
palabras”. Hay que tener en cuenta que el número de ocurrencias se calculan sobre cada millón de palabras
sin tener en cuenta los signos de puntuación entre ese millón de palabras.

A continuación se ofrecen tablas y gráficos de frecuencia 5 por zona geográfica, país, período, tema y tipo de
texto. De ese modo se muestra la representación de la consulta en el corpus y se obtiene una primera
indicación acerca del uso en las diferentes zonas geográficas, así como su vigencia a lo largo del tiempo, su
distribución en las diversas áreas temáticas, por tipo de texto, etc.
En la figura siguiente se muestran los datos estadísticos del término informático disquete, cuyo uso
decreciente se puede apreciar claramente en el gráfico de distribución por períodos.

Fig. XIII. Ventana de datos estadísticos (distribución por períodos)

Desde las tablas de información estadística se puede acceder a los ejemplos pulsando con el puntero del
ratón sobre un elemento cualquiera de la tabla o sobre su correspondiente representación gráfica.

Fig. XIV. Ventana de datos estadísticos (ejemplos de uso, en España, de la forma disquete
en el período 2001-2005, obtenidos a partir de la tabla estadística de Distribución por
períodos)

5 Los datos de frecuencia se expresan en dos columnas: frecuencia conjunta (número total de ocurrencias obtenidas para
la consulta realizada), y frecuencia normalizada (número de ocurrencias de la consulta por cada millón de palabras de la
categoría que le corresponde en la distribución).

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 16 de 26
COAPARICIONES

Definición y uso

Las coapariciones (también conocidas en los corpus como colocaciones) son palabras que se combinan con
el lema buscado con una frecuencia mayor de la que sería explicable por el azar. Este sistema de búsqueda
proporciona un primer índice de la concordancia, es decir, da cuenta de qué es lo más llamativo del
comportamiento combinatorio de una voz en este corpus.
En la ventana de Coapariciones se proporcionan tres filtros: el filtro de Clase de palabra, que delimita
el lema en caso de homografía, el de Origen geográfico de los textos, y el de clasificación temática
(Tema). Es posible además ordenar los resultados por clase de palabra, frecuencia, o la medida de
asociación estadística preferida, así como acceder a los ejemplos de cada una de las combinaciones
obtenidas.

El ejemplo siguiente muestra las coapariciones del adjetivo circular ordenadas por la medida de asociación
MI (Mutual Information)6, que es el orden que se aplica por defecto.

Fig. XV. Ventana de coapariciones

6 La ordenación (ascendente o descendente) de las coapariciones se consigue, alternativamente, pulsando sobre el


nombre de la variable estadística que encabeza la columna de la tabla de resultados.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 17 de 26
Parámetros para la obtención de las coapariciones

Clase de palabra

Limita la búsqueda de coapariciones a las clases de palabras seleccionadas.

Tema

Filtra las coapariciones según los criterios de clasificación temática de los textos.

Origen

Selecciona las coapariciones de los textos pertenecientes a determinados orígenes geográficos.

Descripción de las medidas estadísticas de asociación

La fortaleza de la asociación en las coapariciones se puede calcular mediante múltiples procedimientos


estadísticos; cada uno de ellos puede servir para identificar un determinado tipo de asociación.
Para calcular las coapariciones de una palabra en el CORPES se han empleado tres medidas estadísticas de
asociación frecuentemente utilizadas en Lingüística de corpus: LL simple, Mutual information y T-score.
Veamos las características de cada una de ellas:

MI (Mutual information)

Se obtiene comparando la frecuencia de coaparición de dos hechos lingüísticos7, observados en una


muestra, con la frecuencia esperada en virtud de las frecuencias individuales de los elementos en esa
muestra. Su valor expresa el grado de divergencia entre la frecuencia real y la esperada, e indica el grado de
condicionamiento que un elemento ejerce sobre su contexto lingüístico. Se interpreta como un índice de la
potencia de asociación entre los elementos.

T-score

Esta medida, además de cuantificar la divergencia entre las frecuencias reales y esperadas de una
combinación de elementos, toma en consideración la cantidad de evidencia que aporta la muestra para
respaldar esa divergencia. Su valor se interpreta, por tanto, como un índice de la confianza que se puede
atribuir a la potencia de asociación calculada para los elementos.

Teóricamente, se ha señalado que presupone una distribución de los datos ausentes en los textos. En la
práctica, se ha comprobado que favorece las combinaciones de alta frecuencia, por lo que se ha
especializado su aplicación en la detección de patrones muy consistentes.

7 En la aplicación más habitual, se contrastan dos elementos, aunque es posible aumentar ese número. Igualmente, lo
más habitual es contrastar la frecuencia de coaparición de unidades textuales (formas o lemas), pero cualquier hecho
lingüístico (categorías, subcategorías, construcciones, esquemas, coligaciones…) contable en un corpus puede ser
contrastado. Esto vale para cualquiera de las medidas.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 18 de 26
LL simple (Log likelihood)

Del mismo modo que la MI, contrasta frecuencias reales y esperadas, pero tiene en cuenta también la
cantidad de evidencia disponible y su valor es interpretable de acuerdo con una escala normalizada. A
pesar de que esa escala normalizada permite establecer umbrales de tolerancia al error, muchos pares de
alta frecuencia pero débilmente asociados superan incluso el umbral menos restrictivo.

Ejemplo

Las coapariciones del lema germen en el CORPES, obtenidas en una ventana simétrica de cinco posiciones
(excluyendo signos de puntuación), permiten observar algunos de los efectos mencionados en las medidas
estadísticas de asociación: entre los veinte primeros seleccionados por MI se encuentran trigo, patógeno,
cereal, levadura, bacteria o infección, todos ellos perfectamente previsibles. Sin embargo LL, y sobre todo
tScore, priman las combinaciones de alta frecuencia, intercalando en las primeras posiciones
combinaciones de menor interés o sin una asociación léxica tan clara.

Obtención de ejemplos a partir de las coapariciones

Puede resultar útil el acceso a los ejemplos a partir de las coapariciones. Para ello basta con calcularlas 8 y
pulsar con el puntero del ratón sobre cualquier elemento de la tabla de resultados.

9Cuando se accede a las concordancias desde la tabla de coapariciones el número de concordancias mostradas puede no
coincidir con la frecuencia indicada en la tabla. Estas discrepancias son correctas y pueden ser de dos tipos:
1) El número de concordancias es menor que el número de coapariciones cuando existe más de una coaparición en
alguna concordancia.
2) El número de concordancias es mayor que el número de coapariciones cuando la coaparición se corresponde con un
lema que presenta alguna forma ambigua, puesto que al realizar la consulta de las concordancias no se exige que los
ejemplos sean no ambiguos.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 19 de 26
Fig. XVI. Ventana de coapariciones

En la siguiente figura se muestran ejemplos de uso de abrigar esperanza, obtenidos a partir de las
coapariciones de abrigar.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 20 de 26
Fig. XVII. Ventana de la concordancia (ejemplos obtenidos de las coapariciones)

NÓMINA DE AUTORES Y OBRAS

En próximas versiones del CORPES se ofrecerá la posibilidad de consultar selectivamente la nómina de


autores y obras. La consulta ofrecerá la referencia bibliográfica completa de las obras, así como los datos
estadísticos más relevantes de cada texto.

CONFIGURACIÓN

Esta ventana incluirá opciones de configuración que facilitarán el uso del corpus de acuerdo con las
preferencias del consultante. En esta versión (0.92 beta) solo se admite la configuración del número de
ejemplos que se recuperan en la ventana de Concordancias.

INFORMACIÓN DE CONTACTO

Para enviar una sugerencia o consultar cualquier duda o problema respecto al uso de esta aplicación, por
favor, utilice el formulario Sugerencias que figura en el menú principal.

CÓMO CITAR ESTE CORPUS

Si desea citar este corpus, por favor, emplee el siguiente formato:

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 21 de 26
REAL ACADEMIA ESPAÑOLA: Banco de datos (CORPES) [en línea]. Corpus del español del siglo
XXI. <http://www.rae.es> [Fecha de la consulta]

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 22 de 26
APÉNDICE I. REFERENCIA RÁPIDA

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 23 de 26
APÉNDICE II. PREGUNTAS MÁS FRECUENTES

1) Cómo obtener los ejemplos de uso de un lema o una forma (concordancia)

En la ventana principal del sistema de consulta del CORPES seleccione la pestaña de la Concordancias,
escriba el lema (p. e. hombre), la forma (p. e. hombretón) o la combinación de ambas (cada una en su
casilla correspondiente, p. e. lema amor y forma amo) de la palabra que desea consultar en las casillas
correspondientes y pulse la tecla Intro o haga clic con el puntero del ratón sobre el botón Concordancia.

2) Cómo ver las combinaciones más frecuentes de una palabra (coapariciones)

Seleccione la pestaña denominada Coapariciones de la ventana principal, teclee el lema en la casilla


correspondiente (p. e. hombre) y pulse con el ratón sobre el botón Coapariciones. Para ver los ejemplos de
una determinada combinación de palabras, pulse con el ratón sobre el elemento que le corresponda en la
tabla (p. e. enjuto).

3) Cómo obtener los datos estadísticos de una consulta (estadística)

En la ventana principal del sistema de consulta del CORPES seleccione la pestaña de la Concordancias,
teclee la consulta y pulse con el ratón sobre el botón denominado Estadística. Para ver los ejemplos
concretos de una determinada zona, país, período, tema o tipo de texto, pulse con el ratón sobre el
elemento deseado de la tabla o bien sobre su correspondiente gráfico.

4) Cómo ordenar los ejemplos (ordenar por)

Obtenga los ejemplos empleando uno de los procedimientos descritos en los tres primeros apartados de
esta guía rápida (Concordancias, Coapariciones o Estadística) y después despliegue las opciones de
clasificación denominadas Ordenar por que encontrará en la parte derecha de la cabecera de la tabla de
ejemplos (a continuación de los epígrafes Referencia y Concordancia) y seleccione una de ellas (Año
ascendente, Año descendente, Autor, Título, etc.). Los ejemplos se ordenarán automáticamente por el
criterio elegido.

5) Cómo ver el detalle de un ejemplo y su referencia bibliográfica (concordancia


ampliada)

Obtenga los ejemplos empleando uno de los procedimientos (Concordancias, coapariciones o estadística)
descritos en los tres primeros apartados de esta guía rápida y pulse con el puntero del ratón sobre el pivote
(resaltado en azul) del ejemplo concreto que le interese. Comprobará que en la zona inferior de la ventana
de consulta se muestra el ejemplo y la referencia bibliográfica completa. Puede ampliar el contexto del
ejemplo pulsando sobre los botones (+) de ampliación de contexto.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 24 de 26
6) Cómo utilizar el asistente para crear consultas complejas

Seleccione la pestaña denominada Concordancias de la ventana principal y escriba el lema o la forma de la


palabra que desea consultar en la casilla correspondiente; opcionalmente, añada filtros empleando las
opciones desplegables (Clase de palabra, Proximidad y Subcorpus).

Pulse con el ratón sobre el botón (+) situado debajo de la casilla Lema, en la zona superior izquierda de la
ventana para añadir otro criterio y repita el procedimiento descrito en el párrafo anterior.

Cuando haya finalizado la introducción de criterios pulse el botón Concordancia para ejecutar la consulta.
Tenga en cuenta que debe enlazar los criterios empleando los operadores lógicos (Y, O, NO).

7) Cómo imprimir o guardar en un archivo los resultados de las consultas


(imprimir/exportar)

Obtenga los ejemplos empleando uno de los procedimientos descritos en los tres primeros apartados de
esta guía rápida (Concordancias, Coapariciones o Estadística) y pulse con el puntero del ratón sobre el
botón Imprimir que encontrará en la base de la tabla de ejemplos (a su izquierda). Obtendrá los ejemplos
en una nueva página en el formato Html que podrá imprimir o guardar. Si prefiere guardar los ejemplos en
un archivo de texto sin formato, utilice el botón de Exportar situado a la derecha del de Imprimir. El botón
de Exportar TSV saca las concordancias en un formato tabular, más cómodo para un tratamiento
automático posterior, por ejemplo usando una hoja de cálculo.

8) Cómo obtener ejemplos en los que figuren dos o más palabras determinadas
(proximidad)

En la ventana principal del sistema de consulta del CORPES escriba la consulta (p. e. mano) y despliegue el
menú de proximidad pulsando con el puntero del ratón sobre la casilla de opción denominada Proximidad.
Escriba a continuación el lema o la forma de la palabra que debe figurar próxima a la primera (p. e. echar),
pulse la tecla Intro o bien presione con el puntero del ratón sobre el botón Concordancia. Puede añadir
hasta cuatro criterios empleando el botón (+) de la ventana de Proximidad

9) Cómo localizar ejemplos de una forma gráfica determinada en el corpus


(mayúsculas/tildes)

En la ventana principal del sistema de consulta del CORPES escriba la forma exacta de la palabra que
desea consultar en la casilla correspondiente (p.e. para recoger únicamente ejemplos con tilde élite o
período, o concordancias en mayúscula Aurora o Pío), seleccione con el puntero del ratón la opción
denominada grafía original y haga clic sobre el botón Concordancia. Obtendrá únicamente los ejemplos
en los que aparezca la forma gráfica exacta.

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 25 de 26
10) Cómo emplear los comodines en la consulta

En la ventana principal del sistema de consulta del CORPES escriba la expresión con comodines (? *) que
desea consultar en la casilla correspondiente al lema o a la forma y haga clic sobre el botón Concordancia.
Son válidas, por ejemplo, las expresiones: vas*, *miz, des*tar y des??tado.

____________________

Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 26 de 26

Potrebbero piacerti anche