La RAE actualiza su 'corpus' con más de 10 millones de formas

Edificio de la Real Academia Española de la Lengua, RAE
EUROPA PRESS - Archivo
Actualizado: jueves, 27 diciembre 2018 13:10

MADRID, 27 Dic. (EUROPA PRESS) -

La Real Academia Española (RAE) y la Asociación de Academias de la Lengua Española (ASALE) han publicado una nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI) que incluye más de 10.000 formas respecto al anterior.

El CORPES XXI es un corpus de referencia. En lingüística, se llama corpus a un conjunto formado por miles o cientos de miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones o discursos) y cientos o miles de millones de formas.

Los corpus son empleados habitualmente para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia.

Dirigido por el académico Guillermo Rojo, el CORPES XXI --disponible gratuitamente en el portal web académico gracias al apoyo del Santander-- cuenta en la actualidad con más 285.000 documentos que suman alrededor de 286 millones de formas, procedentes de textos escritos y de transcripciones de textos orales.

Con respecto a la versión anterior, publicada en julio de 2018, supone un incremento de 10 millones de formas. Aproximadamente cuatro millones están constituidos por textos orales y se ofrece, en una parte de ellos, el sonido alineado correspondiente a la transcripción. Además, en bastantes casos es posible la descarga del archivo de audio o la visualización del vídeo del documento fuente.

Los textos procedentes de libros suponen más de 140 millones de formas. Por lo que respecta al bloque de ficción (novelas, guiones, relatos, obras de teatro) las formas del CORPES XII sobrepasan los 81 millones, mientras que las contenidas en textos de libros de no ficción (ciencias sociales, salud, política, artes, tecnología) se acercan a los 207 millones.

Por otro lado, la prensa está representada con aproximadamente 142 millones de formas. Cinco millones más provienen de blogs, entrevistas digitales y miscelánea.