Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CORPES XXI
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 1 de 26
ÍNDICE
Requisitos de uso.................................................................................................................................................... 3
Consulta del corpus ................................................................................................................................................ 3
La ventana de consulta....................................................................................................................................... 3
Concordancias ................................................................................................................................................... 5
Consulta de lemas y formas .......................................................................................................................... 5
Localización de formas verbales con enclíticos .............................................................................................. 6
Consulta de signos de puntuación .................................................................................................................. 6
Uso de los comodines ................................................................................................................................... 7
Criterios lingüísticos ..................................................................................................................................... 7
Análisis de la proximidad entre varias piezas léxicas ..................................................................................... 8
Criterios para la selección de textos (Subcorpus) ........................................................................................... 9
Criterios de ordenación ............................................................................................................................... 10
Combinación de criterios de consulta: criterios lógicos ................................................................................. 11
Combinación de criterios de consulta: consultas de índole gramatical ........................................................... 13
Consulta de la transcripción de textos orales ..................................................................................................... 15
Información estadística .................................................................................................................................... 15
Coapariciones....................................................................................................................................................... 17
Definición y uso .............................................................................................................................................. 17
Parámetros para la obtención de las coapariciones ............................................................................................ 18
Clase de palabra ......................................................................................................................................... 18
Tema.......................................................................................................................................................... 18
Origen ........................................................................................................................................................ 18
Descripción de las medidas estadísticas de asociación ....................................................................................... 18
MI (Mutual information)............................................................................................................................. 18
T-score....................................................................................................................................................... 18
LL simple (Log likelihood) ......................................................................................................................... 19
Obtención de ejemplos a partir de las coapariciones .......................................................................................... 19
Nómina de autores y obras .................................................................................................................................... 21
Configuración ...................................................................................................................................................... 21
Información de contacto ....................................................................................................................................... 21
Cómo citar este corpus.......................................................................................................................................... 21
Apéndice I. Referencia rápida ............................................................................................................................... 23
Apéndice II. Preguntas más frecuentes .................................................................................................................. 24
1) Cómo obtener los ejemplos de uso de un lema o una forma (concordancia) ............................................... 24
2) Cómo ver las combinaciones más frecuentes de una palabra (coapariciones) ............................................. 24
3) Cómo obtener los datos estadísticos de una consulta (estadística) ............................................................. 24
4) Cómo ordenar los ejemplos (ordenar por) ................................................................................................ 24
5) Cómo ver el detalle de un ejemplo y su referencia bibliográfica (concordancia ampliada) ......................... 24
6) Cómo utilizar el asistente para crear consultas complejas ........................................................................ 25
7) Cómo imprimir o guardar en un archivo los resultados de las consultas (imprimir/exportar) ...................... 25
8) Cómo obtener ejemplos en los que figuren dos o más palabras determinadas (proximidad) ..................... 25
9) Cómo localizar ejemplos de una forma gráfica determinada en el corpus (mayúsculas/tildes) .................... 25
10) Cómo emplear los comodines en la consulta ....................................................................................... 26
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 2 de 26
REQUISITOS DE USO
La consulta del corpus precisa de una conexión a la red Internet y de un navegador web estándar que
acepte el lenguaje Javascript, por ejemplo, Microsoft Internet Explorer, Mozilla Firefox, Google Chrome,
Apple Safari etc.
La aplicación de consulta del CORPES en línea permite obtener ejemplos de uso de los lemas y formas
contenidos en él, ver los datos estadísticos más relevantes, comprobar las agrupaciones más frecuentes de
una palabra (coapariciones), obtener la concordancia de palabras cuando aparecen en proximidad, así
como clasificar y filtrar los resultados de la consulta mediante diversos criterios.
La ventana de consulta
Presenta una interfaz inicial simplificada organizada en tres zonas: en la superior se especifican los
criterios de consulta, en la intermedia se muestran los ejemplos y la inferior sirve para ampliar el contexto
de un ejemplo determinado junto con su referencia bibliográfica completa y los datos de clasificación del
texto en el CORPES, que será diferente para textos escritos y para textos orales.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 3 de 26
Para textos escritos será algo así:
Referencia bibliográfica:
«Los conserjes de San Felipe Neri». Alonso de Santos, José Luis: Los conserjes de San Felipe Neri. Madrid:
Cátedra, 2012.
Clasificación CORPES:
Año: 2011. Criterio: Fecha de escritura. Medio: Escrito. Bloque: Ficción. Soporte: Libro. Tema:
Teatro. País: España. Tipología: Ficción.
Para textos orales será como el ejemplo que se muestra a continuación, ya que se tiene en cuenta, además
de la información del archivo, la información del hablante:
Hablante:
Nombre: Zambrana Marchetti, Fabio . Sexo: hombre. Grupo de edad: 35-54. Nivel de
estudios: medio. Profesión: cantautor. País: Bolivia. Otros datos: Papel: Entrevistado.
Archivo:
BoliviaWebTv: Entrevista a Azul Azul: Fabio Zambrana Anuncia su Despedida. Año y criterio de
clasificación: 2011, Fecha de emisión. Procedencia: Transcripción y codificación CORPES. Medio de
difusión: Internet. Tipología: Entrevista.
Los ejemplos de uso de la palabra consultada se muestran, por defecto, en orden cronológico en el formato
Kwic1, habitualmente utilizado para la presentación de este tipo de datos. En este formato cada línea
corresponde a un ejemplo, que dispone además de un número correlativo de identificación, así como de la
fecha de clasificación y el país (abreviado) de la obra de la que ha sido extraído. Si el ejemplo corresponde a
la transcripción de la lengua hablada de la parte oral alineada del corpus aparece también el símbolo de un
altavoz para indicar la disponibilidad de sonido.
En el texto, aparece resaltada la palabra buscada y, si se sitúa el puntero del ratón sobre la fecha, se
muestra la referencia bibliográfica detallada de la obra. Si se señala cualquier palabra, se obtiene su
análisis lingüístico; en el caso de la palabra pivote (la destacada en azul), se muestra además una pequeña
ampliación del contexto.
En la parte superior de la tabla de resultados, en el ángulo superior derecho, se encuentra la opción para
clasificar los ejemplos y ordenarlos según el criterio que se elija; por defecto, como ya se ha indicado
previamente, está marcado el cronológico.
En el ángulo superior izquierdo de la tabla de resultados se proporciona el número total de casos obtenidos
en la consulta, y el número de documentos seleccionados para la obtención de los ejemplos. Debajo de los
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 4 de 26
ejemplos está la opción para pasar de página y continuar viendo los ejemplos, así como los botones para
imprimirlos o exportarlos2.
Cuando se necesita ampliar el contexto de un ejemplo, se debe pulsar con el puntero del ratón sobre la
palabra pivote (resaltada en color azul); se despliega entonces, en la zona inferior de la página, un espacio
donde figura el ejemplo, encabezado por la referencia bibliográfica completa del texto que lo contiene, su
clasificación en el corpus, así como la opción de ampliar el contexto precedente y posterior con los botones
(+). Se dispone además de un botón para Imprimir el ejemplo y de una botonera para la reproducción del
sonido, que solo aparece en el caso de que el ejemplo corresponda a la transcripción de la lengua hablada
de la parte oral alineada del corpus.
Los cambios de color de fondo que se observan en las concordancias sirven para identificar ejemplos
pertenecientes a obras distintas.
Concordancias
Los ejemplos de uso de lemas y formas se obtienen escribiendo la palabra en la casilla correspondiente y
haciendo clic con el ratón en el botón Concordancia. El botón Nueva consulta restaura las condiciones
originales.
Lema
La consulta de Lema recupera todos los ejemplos de la palabra, de modo que, si se escribe en esta casilla la
forma canónica de una palabra, se obtendrán los ejemplos de todas sus variantes (morfológicas, flexivas y
gráficas).
Si se busca el infinitivo andar¸ el sistema proporciona los ejemplos de miles de formas diferentes de este
verbo, como: andaba, andan, anduvo, andáis, anduviese, andemos, etc. Los sustantivos se deben buscar
en singular; por ejemplo, mujer, y se obtendrán las concordancias de mujer, mujeres, mujercita, etc. En
cuanto a los adjetivos, se escribe el masculino singular, como vergonzoso, y se ofrecerán ejemplos de
vergonzoso, vergonzosa, vergonzosos, vergonzosas, etc.
Forma
La búsqueda de una determinada variante debe hacerse en la casilla Forma; seleccione la opción de
Grafía original (descrita más abajo en esta sección) si desea localizar la forma exacta, tal y como figura en
el texto y sin aplicar ningún tipo de regularización.
Puede también emplear los comodines para localizar formas (véase el apartado Uso de los comodines). Por
ejemplo, para buscar los ejemplos de aerostato se puede usar el comodín de la interrogación lanzando la
búsqueda de aer?stato, con lo que se obtendrán las dos grafías admitidas: aerostato y aeróstato (véase el
apartado Uso de los comodines). Incluso puede usarse el asterisco en esta casilla, por ejemplo el prefijo
pre*, para conocer todas las formas que comienzan así.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 5 de 26
Lema + forma
La combinación de ambas casillas permite obtener ejemplos de una forma concreta perteneciente a un
lema determinado. Esta opción puede ser útil para buscar solo ciertas formas de un paradigma más amplio
que tengan un uso diferente del resto del paradigma, como por ejemplo ver+viste, que devuelve casos de la
forma como 'apéndice confirmativo'.
Grafía original
Esta casilla reduce la consulta de lemas y formas a su grafía original, sin emplear ningún tipo de
regularización. Es útil para hacer pertinente la diferenciación acentual (esto es, la existencia o no de tilde) y
la ortográfica (mayúscula o minúscula); así, se puede buscar en forma sé para recuperar solo los ejemplos
del verbo saber que estén tildados; o buscar el nombre propio Aurora, en mayúscula, y no el sustantivo
común.
Texto libre
Es posible realizar la consulta de expresiones que contengan hasta cinco palabras. Esta posibilidad es útil
para buscar frases hechas, locuciones, etc. Por ejemplo, si se quiere consultar expresiones como amor
libre, de tal palo tal astilla, de tomo y lomo, etc. basta con escribirlas en la casilla Forma.
1. Escribiendo directamente en la casilla Forma la forma verbal pronominal, por ejemplo dígamelo.
2. Tecleando en la casilla Forma la forma verbal separada de los clíticos mediante espacios, por ejemplo
ponér se lo, ponér me la, etc. Este sistema permite combinar clíticos de acuerdo con las necesidades.
3. Mediante la consulta de Proximidad, escribiendo el lema o la forma verbal sin clíticos en la casilla
correspondiente (Lema o Forma), y añadiendo un criterio de proximidad para cada clítico. Esta
modalidad es la más flexible, ya que permite obtener con una sola consulta los ejemplos de todas las
formas de un verbo con determinados clíticos. Así, si escribimos en la casilla Lema el infinitivo del
verbo sentir, y añadimos el clítico me como criterio de proximidad por la derecha, obtendremos
sentirme, sintiéndome, sentíame etc.
1. Añadiéndolos a la palabra o frase en la casilla Forma, pero separados por espacios. Por ejemplo, si
queremos encontrar formas interrogativas de verdad, escribiremos ¿ verdad ?
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 6 de 26
Nota: Se admite la consulta de signos de puntuación sin necesidad de que vayan acompañados de
texto.
Se admite el uso de comodines en la consulta de lemas y formas. El comodín ? representa una ocurrencia
simple de cualquier carácter en la posición en que se inserta, mientras que el comodín* sustituye a
cualquier número de caracteres (incluyendo ninguno) a partir de la posición en que aparece.
De este modo, se puede buscar el prefijo sub*, y se obtiene, si se lanza la búsqueda en Lema,
subsiguientes, subjetivos, subtropical, subvirante, etc. Si se consulta un sufijo, por ejemplo *mente,
recogerá, entre otras, las siguientes: prácticamente, silenciosamente, actualmente, típicamente, etc.
Si se busca, por ejemplo, la expresión amarill? en Forma, se recuperarán los ejemplos de amarillo y de
amarilla, mientras que amarill* (en Lema o Forma) ofrecerá además de las anteriores, las de
amarillear, amarillento, etc.
Criterios lingüísticos
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 7 de 26
Ejemplo: Si desea obtener los ejemplos de aviso como primera persona del singular del presente de
indicativo del verbo avisar, ponga en forma aviso y después seleccione, en Clase de palabra, verbo y la
persona, el tiempo y el modo verbal.
El submenú denominado Proximidad permite consultar en el corpus ejemplos de hasta siete lemas o
formas que ocupan posiciones cercanas (separadas como máximo por diez palabras).
Ejemplo: En la figura que se muestra a continuación se pueden ver ejemplos de la expresión dar cuartel
independientemente de la flexión verbal, de los pronombres enclíticos, etc. Para realizar esta consulta se
escribirá dar en la casilla de Lema y, tras pulsar el botón de Proximidad, se pondrá, en la nueva casilla
de Lema, cuartel, se seleccionará Intervalo 1 por la Derecha, y finalmente se pulsará en
Concordancia.
Puede indicarse además la posición en la que deben figurar los lemas o formas (expresada en número de
palabras) respecto del principal, o bien el intervalo máximo que ha de existir entre las palabras (de una a
cinco palabras de distancia). También se puede fijar la situación en la que deben aparecer los lemas o
formas secundarios (es decir, buscar que estén situados a la izquierda o a la derecha del lema principal, o
bien en ambas posiciones).
En el caso de ambigüedad categorial basta con seleccionar la clase de palabra del lema o la forma.
Existe la posibilidad de realizar la consulta de proximidad sustituyendo lemas o formas secundarios por
categorías gramaticales. De ese modo se obtienen ejemplos de uso del lema requerido en combinación con
sustantivos, adjetivos, verbos, etc.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 8 de 26
Criterios para la selección de textos (Subcorpus)
El botón Subcorpus del menú principal de consulta despliega las opciones de selección de textos del
corpus. Es posible establecer filtros3 dinámicos basados en los siguientes elementos:
Además permite la selección de marcas tipográficas sobre las que buscar, como cursiva, negrita, subrayado
y versalita.
Ejemplo: Para obtener ejemplos de voseo en Argentina, escriba la forma verbal correspondiente en la
casilla Forma, por ejemplo sabés, seleccione la opción de Grafía original, despliegue el menú de
Subcorpus y seleccione Origen (América), Zona lingüística (Rio de la plata) y País (Argentina); pulse
a continuación el botón Concordancia para obtener los ejemplos.
3 Se admite la selección múltiple para los distintos elementos de subcorpus, como el origen, zonas lingüísticas, países,
medio, bloque, … Nota: emplee simultáneamente la tecla Control y el botón izquierdo del ratón para seleccionar más de
un criterio.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 9 de 26
Fig. IV. Ventana de la concordancia (criterios de selección de textos: subcorpus)
Criterios de ordenación
Los ejemplos se presentan, por defecto, en el orden cronológico de clasificación del texto en CORPES. Se
pueden clasificar, además, combinando libremente dos de los siguientes criterios:
4 Para facilitar la localización de autores y obras sin necesidad de escribir el nombre completo se admite en estos
apartados la consulta por cualquier palabra del texto. Escriba, por ejemplo, Molina en la casilla de Autor para localizar
los textos de Vicente Molina Foix, Antonio Muñoz Molina, etc.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 10 de 26
Combinación de criterios de consulta: criterios lógicos
Los sistemas de consulta de corpus obligan, por lo general, a conocer con precisión la sintaxis del lenguaje
de interrogación para efectuar consultas complejas. Con el fin de evitar este inconveniente, se ha diseñado
un asistente que facilita la creación de criterios de consulta complejos mediante la combinación de
operadores lógicos. De esta manera, se pueden acotar determinadas formas dentro de un lema amplio
(marcador Y), combinar la búsqueda de dos o más formas o lemas al mismo tiempo (marcador O) o evitar
la aparición de formas o lemas determinados (marcador NO)
Para añadir o eliminar criterios se emplean los botones ‘+’ y ‘-’, situados en la línea inferior del criterio de
consulta.
Mediante el operador lógico Y, es posible delimitar varias características del término buscado. Por ejemplo,
puede realizar la búsqueda combinada de «Lema vivir Y Forma vivo», lo que eliminará todas las formas de
vivo que no sean verbales. También se pueden usar comodines, por ejemplo, «Lema doler y Forma due*»,
que recuperaría todas las formas de este verbo que empiecen por due-.
Mediante O, es posible buscar al tiempo dos o más formas o lemas. La búsqueda «Forma tuit O Forma
tweet» recuperará todos los ejemplos de estos dos términos en el corpus, tanto si aparecen en el mismo
texto como si no.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 11 de 26
Fig. VI. Ventana de la concordancia (O lógico)
Empleando NO, puede limitarse la aparición de cualquier forma dentro de una búsqueda más amplia, lo
que hace posible limitar los datos inútiles o consabidos en una búsqueda. Por ejemplo, en la búsqueda
«Lema perro NO Forma perro*», se recuperan ejemplos de perra, perrito, perrucho, perras etc., pero no
perro ni perros.
Es posible combinar varios operadores, o emplear varias veces el mismo. Por ejemplo, en la búsqueda de
perfectos acabados en *jeron, se pueden eliminar los casos más repetidos, formulando la búsqueda:
«Forma *jeron NO Forma dijeron», y añadir otra fila más, con «NO Forma trajeron» (o «NO Lema
traer»).
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 12 de 26
Fig. VIII. Ventana de la concordancia (combinación de criterios lógicos)
La consulta del CORPES es, desde la v. 0.82, mucho más rápida y permite el acceso instantáneo sin
limitaciones a cualquier combinación de criterios lingüísticos, formas y lemas con comodines y filtros de
selección de textos. El nuevo motor de búsqueda, desarrollado mediante las últimas tecnologías de big
data y procesamiento paralelo, admite la consulta en tiempo real sin necesidad de establecer restricciones
de formas o lemas. Esta característica elimina buena parte de las barreras que impedían o dificultaban las
investigaciones lingüísticas y supone un salto cualitativo en la evolución de las herramientas de explotación
de corpus.
Si quisiéramos estudiar, por ejemplo, casos del verbo haber con participio pasado, podríamos emplear el
criterio de proximidad del siguiente modo:
Fig. IX. Ventana de la concordancia (ejemplos del verbo haber con participio pasado)
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 13 de 26
También podríamos realizar consultas de rasgos gramaticales sin necesidad de emplear una determinada
forma o lema. Veamos en el ejemplo siguiente casos de sustantivos doblemente adjetivados:
Si deseáramos obtener casos de la perífrasis ir a con infinitivos, frecuentemente utilizada para expresar la
futuridad, podríamos utilizar los siguientes criterios de proximidad:
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 14 de 26
Consulta de la transcripción de textos orales
El ejemplo siguiente muestra la concordancia de la palabra video obtenida de las trascripciones de la parte
oral del CORPES que corresponde a grabaciones de la zona andina hablado por una mujer.
Hay otros casos de orales que no tienen el sonido alineado, pero si disponen de sonido, por lo que se puede
oir el audio completo. Y hay otros casos que además disponen de video, por lo que se puede visualizar el
video completo que ha sido transcrito.
Información estadística
El CORPES dispone de un sistema de cálculo dinámico de la información estadística. Los valores que se
ofrecen siempre se refieren a la consulta realizada, de modo que si se establecen filtros o se emplean
criterios de proximidad, los datos estadísticos se recalculan dinámicamente sobre el subcorpus
seleccionado.
Para acceder a la información estadística de cualquier consulta basta con pulsar el botón de Estadística
que figura inmediatamente a la derecha del de Concordancia.
Se muestran en primer lugar tres valores globales relativos a la consulta realizada: la frecuencia absoluta,
que representa el número total de ocurrencias de la consulta, el número de documentos que disponen de
ocurrencias, y la frecuencia normalizada, expresada como “número de ocurrencias por cada millón de
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 15 de 26
palabras”. Hay que tener en cuenta que el número de ocurrencias se calculan sobre cada millón de palabras
sin tener en cuenta los signos de puntuación entre ese millón de palabras.
A continuación se ofrecen tablas y gráficos de frecuencia 5 por zona geográfica, país, período, tema y tipo de
texto. De ese modo se muestra la representación de la consulta en el corpus y se obtiene una primera
indicación acerca del uso en las diferentes zonas geográficas, así como su vigencia a lo largo del tiempo, su
distribución en las diversas áreas temáticas, por tipo de texto, etc.
En la figura siguiente se muestran los datos estadísticos del término informático disquete, cuyo uso
decreciente se puede apreciar claramente en el gráfico de distribución por períodos.
Desde las tablas de información estadística se puede acceder a los ejemplos pulsando con el puntero del
ratón sobre un elemento cualquiera de la tabla o sobre su correspondiente representación gráfica.
Fig. XIV. Ventana de datos estadísticos (ejemplos de uso, en España, de la forma disquete
en el período 2001-2005, obtenidos a partir de la tabla estadística de Distribución por
períodos)
5 Los datos de frecuencia se expresan en dos columnas: frecuencia conjunta (número total de ocurrencias obtenidas para
la consulta realizada), y frecuencia normalizada (número de ocurrencias de la consulta por cada millón de palabras de la
categoría que le corresponde en la distribución).
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 16 de 26
COAPARICIONES
Definición y uso
Las coapariciones (también conocidas en los corpus como colocaciones) son palabras que se combinan con
el lema buscado con una frecuencia mayor de la que sería explicable por el azar. Este sistema de búsqueda
proporciona un primer índice de la concordancia, es decir, da cuenta de qué es lo más llamativo del
comportamiento combinatorio de una voz en este corpus.
En la ventana de Coapariciones se proporcionan tres filtros: el filtro de Clase de palabra, que delimita
el lema en caso de homografía, el de Origen geográfico de los textos, y el de clasificación temática
(Tema). Es posible además ordenar los resultados por clase de palabra, frecuencia, o la medida de
asociación estadística preferida, así como acceder a los ejemplos de cada una de las combinaciones
obtenidas.
El ejemplo siguiente muestra las coapariciones del adjetivo circular ordenadas por la medida de asociación
MI (Mutual Information)6, que es el orden que se aplica por defecto.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 17 de 26
Parámetros para la obtención de las coapariciones
Clase de palabra
Tema
Filtra las coapariciones según los criterios de clasificación temática de los textos.
Origen
MI (Mutual information)
T-score
Esta medida, además de cuantificar la divergencia entre las frecuencias reales y esperadas de una
combinación de elementos, toma en consideración la cantidad de evidencia que aporta la muestra para
respaldar esa divergencia. Su valor se interpreta, por tanto, como un índice de la confianza que se puede
atribuir a la potencia de asociación calculada para los elementos.
Teóricamente, se ha señalado que presupone una distribución de los datos ausentes en los textos. En la
práctica, se ha comprobado que favorece las combinaciones de alta frecuencia, por lo que se ha
especializado su aplicación en la detección de patrones muy consistentes.
7 En la aplicación más habitual, se contrastan dos elementos, aunque es posible aumentar ese número. Igualmente, lo
más habitual es contrastar la frecuencia de coaparición de unidades textuales (formas o lemas), pero cualquier hecho
lingüístico (categorías, subcategorías, construcciones, esquemas, coligaciones…) contable en un corpus puede ser
contrastado. Esto vale para cualquiera de las medidas.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 18 de 26
LL simple (Log likelihood)
Del mismo modo que la MI, contrasta frecuencias reales y esperadas, pero tiene en cuenta también la
cantidad de evidencia disponible y su valor es interpretable de acuerdo con una escala normalizada. A
pesar de que esa escala normalizada permite establecer umbrales de tolerancia al error, muchos pares de
alta frecuencia pero débilmente asociados superan incluso el umbral menos restrictivo.
Ejemplo
Las coapariciones del lema germen en el CORPES, obtenidas en una ventana simétrica de cinco posiciones
(excluyendo signos de puntuación), permiten observar algunos de los efectos mencionados en las medidas
estadísticas de asociación: entre los veinte primeros seleccionados por MI se encuentran trigo, patógeno,
cereal, levadura, bacteria o infección, todos ellos perfectamente previsibles. Sin embargo LL, y sobre todo
tScore, priman las combinaciones de alta frecuencia, intercalando en las primeras posiciones
combinaciones de menor interés o sin una asociación léxica tan clara.
Puede resultar útil el acceso a los ejemplos a partir de las coapariciones. Para ello basta con calcularlas 8 y
pulsar con el puntero del ratón sobre cualquier elemento de la tabla de resultados.
9Cuando se accede a las concordancias desde la tabla de coapariciones el número de concordancias mostradas puede no
coincidir con la frecuencia indicada en la tabla. Estas discrepancias son correctas y pueden ser de dos tipos:
1) El número de concordancias es menor que el número de coapariciones cuando existe más de una coaparición en
alguna concordancia.
2) El número de concordancias es mayor que el número de coapariciones cuando la coaparición se corresponde con un
lema que presenta alguna forma ambigua, puesto que al realizar la consulta de las concordancias no se exige que los
ejemplos sean no ambiguos.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 19 de 26
Fig. XVI. Ventana de coapariciones
En la siguiente figura se muestran ejemplos de uso de abrigar esperanza, obtenidos a partir de las
coapariciones de abrigar.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 20 de 26
Fig. XVII. Ventana de la concordancia (ejemplos obtenidos de las coapariciones)
CONFIGURACIÓN
Esta ventana incluirá opciones de configuración que facilitarán el uso del corpus de acuerdo con las
preferencias del consultante. En esta versión (0.92 beta) solo se admite la configuración del número de
ejemplos que se recuperan en la ventana de Concordancias.
INFORMACIÓN DE CONTACTO
Para enviar una sugerencia o consultar cualquier duda o problema respecto al uso de esta aplicación, por
favor, utilice el formulario Sugerencias que figura en el menú principal.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 21 de 26
REAL ACADEMIA ESPAÑOLA: Banco de datos (CORPES) [en línea]. Corpus del español del siglo
XXI. <http://www.rae.es> [Fecha de la consulta]
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 22 de 26
APÉNDICE I. REFERENCIA RÁPIDA
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 23 de 26
APÉNDICE II. PREGUNTAS MÁS FRECUENTES
En la ventana principal del sistema de consulta del CORPES seleccione la pestaña de la Concordancias,
escriba el lema (p. e. hombre), la forma (p. e. hombretón) o la combinación de ambas (cada una en su
casilla correspondiente, p. e. lema amor y forma amo) de la palabra que desea consultar en las casillas
correspondientes y pulse la tecla Intro o haga clic con el puntero del ratón sobre el botón Concordancia.
En la ventana principal del sistema de consulta del CORPES seleccione la pestaña de la Concordancias,
teclee la consulta y pulse con el ratón sobre el botón denominado Estadística. Para ver los ejemplos
concretos de una determinada zona, país, período, tema o tipo de texto, pulse con el ratón sobre el
elemento deseado de la tabla o bien sobre su correspondiente gráfico.
Obtenga los ejemplos empleando uno de los procedimientos descritos en los tres primeros apartados de
esta guía rápida (Concordancias, Coapariciones o Estadística) y después despliegue las opciones de
clasificación denominadas Ordenar por que encontrará en la parte derecha de la cabecera de la tabla de
ejemplos (a continuación de los epígrafes Referencia y Concordancia) y seleccione una de ellas (Año
ascendente, Año descendente, Autor, Título, etc.). Los ejemplos se ordenarán automáticamente por el
criterio elegido.
Obtenga los ejemplos empleando uno de los procedimientos (Concordancias, coapariciones o estadística)
descritos en los tres primeros apartados de esta guía rápida y pulse con el puntero del ratón sobre el pivote
(resaltado en azul) del ejemplo concreto que le interese. Comprobará que en la zona inferior de la ventana
de consulta se muestra el ejemplo y la referencia bibliográfica completa. Puede ampliar el contexto del
ejemplo pulsando sobre los botones (+) de ampliación de contexto.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 24 de 26
6) Cómo utilizar el asistente para crear consultas complejas
Pulse con el ratón sobre el botón (+) situado debajo de la casilla Lema, en la zona superior izquierda de la
ventana para añadir otro criterio y repita el procedimiento descrito en el párrafo anterior.
Cuando haya finalizado la introducción de criterios pulse el botón Concordancia para ejecutar la consulta.
Tenga en cuenta que debe enlazar los criterios empleando los operadores lógicos (Y, O, NO).
Obtenga los ejemplos empleando uno de los procedimientos descritos en los tres primeros apartados de
esta guía rápida (Concordancias, Coapariciones o Estadística) y pulse con el puntero del ratón sobre el
botón Imprimir que encontrará en la base de la tabla de ejemplos (a su izquierda). Obtendrá los ejemplos
en una nueva página en el formato Html que podrá imprimir o guardar. Si prefiere guardar los ejemplos en
un archivo de texto sin formato, utilice el botón de Exportar situado a la derecha del de Imprimir. El botón
de Exportar TSV saca las concordancias en un formato tabular, más cómodo para un tratamiento
automático posterior, por ejemplo usando una hoja de cálculo.
8) Cómo obtener ejemplos en los que figuren dos o más palabras determinadas
(proximidad)
En la ventana principal del sistema de consulta del CORPES escriba la consulta (p. e. mano) y despliegue el
menú de proximidad pulsando con el puntero del ratón sobre la casilla de opción denominada Proximidad.
Escriba a continuación el lema o la forma de la palabra que debe figurar próxima a la primera (p. e. echar),
pulse la tecla Intro o bien presione con el puntero del ratón sobre el botón Concordancia. Puede añadir
hasta cuatro criterios empleando el botón (+) de la ventana de Proximidad
En la ventana principal del sistema de consulta del CORPES escriba la forma exacta de la palabra que
desea consultar en la casilla correspondiente (p.e. para recoger únicamente ejemplos con tilde élite o
período, o concordancias en mayúscula Aurora o Pío), seleccione con el puntero del ratón la opción
denominada grafía original y haga clic sobre el botón Concordancia. Obtendrá únicamente los ejemplos
en los que aparezca la forma gráfica exacta.
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 25 de 26
10) Cómo emplear los comodines en la consulta
En la ventana principal del sistema de consulta del CORPES escriba la expresión con comodines (? *) que
desea consultar en la casilla correspondiente al lema o a la forma y haga clic sobre el botón Concordancia.
Son válidas, por ejemplo, las expresiones: vas*, *miz, des*tar y des??tado.
____________________
Corpus del español del siglo XXI. Manual de consulta en línea (v 0.92 beta). Página 26 de 26