Abstract

The present article describes the advances of the Instituto Caro y Cuervo Spoken Corpus Project. The investigation aims to stored and systematize electronically a spoken corpus composed of the audio files of three investigations of the Institute: The Atlas Linguistico-Etnografico de Colombia (ALEC), the Habla Culta de Bogota (HCB) and the Espanol Hablado en Bogota (EHB). This text presents the foundations of corpus linguistics and oral corpora; the parameters and methodology of the three investigations in which the oral samples were collected and their importance; the design process, data restructuring and corpus construction; the difficulties during its development; and the future perspectives.

Highlights

  • ­investigations of the Institute: The Atlas Lingüístico-Etnográfico de Colombia (ALEC), the Habla Culta de Bogotá (HCB) and the Español Hablado en Bogotá (EHB)

  • The present article describes the advances of the Instituto Caro y Cuervo Spoken Corpus Project

  • This text presents the foundations of corpus linguistics and oral corpora; the parameters and methodology of the three investigations in which the oral samples were collected and their importance; the design process, data restructuring and corpus construction; the difficulties during its development; and the future perspectives

Read more

Summary

Introducción

El grupo de investigación de Lingüística de Corpus y Computacional del Instituto Caro y Cuervo (LICC) emprendió, en el año 2013, la tarea de desarrollar un corpus oral que permitiera la sistematización, conservación y divulgación de los archivos de audio de tres investigaciones del Instituto Caro y Cuervo (ICC): el Atlas Lingüístico-Etnográfico de Colombia (ALEC), el Habla Culta de Bogotá (HCB) y el Español Hablado en Bogotá (EHB). Estos principios metodológicos son base para la recolección, almacenamiento, Rubio y Bernal Corpus Oral del Instituto Caro y Cuervo 197 organización y explotación de muestras de la lengua en uso. La LC constituye una guía para mudar de un formato de investigación a otro, lo que facilitará la reestructuración, la sistematización, la conservación y la divulgación de los materiales de las investigaciones mencionadas. Se expone el proceso de reestructuración de los datos y las muestras, la sistematización, y los procesos de construcción del corpus.

Lingüística de corpus y corpus orales
Contextualización de las investigaciones
Diseño y reestructuración de los datos
Subcorpus del Atlas lingüístico-etnográfico de Colombia – ALEC
Dificultades para el desarrollo del corpus y necesidades actuales
Perspectivas futuras
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.