Abstract

Our main purpose is to present our experience working on a free spoken-language corpus in Spanish. As part of my doctoral thesis project, concerned with rephrasing used in spoken interaction, I decided to study this phenomenon by analyzing the data available in the PRESEEA corpus. In order to annotate a part of this corpus, we created a TextGrid file on PRAAT associated with each audio file. Then, we imported those files onto ELAN to start the annotation process, with categories related to five language levels relevant for our research: prosodic, syntactic, macrosyntactic, interactional and rephrasing phenomena. In addition to sharing our methodological work experience, we would like to emphasize the importance of free spoken corpora for the development of the research in linguistics.

Highlights

  • Sin duda esenciales para las ciencias del lenguaje, el desarrollo y la utilización de corpus supone imperativos metodológicos particulares cuando se trata del estudio de la lengua hablada (Traverso, 2008)

  • Este artículo se inscribe tanto en el trabajo de tesis de la autora1, como en los estudios adelantados en el proyecto ANR SegCor2

  • Los equipos de las universidades que componen el proyecto tiene un margen de decisión respecto al material utilizado en la captura del audio y en la gestión de la entrevista, margen que hemos podido constatar al consultar los audios disponibles

Read more

Summary

Corpus PRESEEA

Entre los corpus libres y en línea disponibles en español, hemos escogido PRESEEA (Corpus del Proyecto para el estudio sociolingüístico del español de España y de América) por dos razones centrales: la posibilidad de descargar los archivos (audio en formato Waveform Audio Format y transcripción en formato texto simple) y la diversidad de variedades dialectales presentes en el corpus. En nuestro proyecto de tesis deseamos explorar diversas variedades dialectales del mundo hispánico y, desafortunadamente, una buena parte de los otros corpus presentan pocas variedades. Los equipos de las universidades que componen el proyecto tiene un margen de decisión respecto al material utilizado en la captura del audio y en la gestión de la entrevista, margen que hemos podido constatar al consultar los audios disponibles. Dos ciudades nos resultaron satisfactorias para el estudio piloto: México D.F. y La Habana

Tratamiento informático y análisis de datos en PRAAT y ELAN
Alineación entre la transcripción y el audio en PRAAT
Segmentación y anotación en ELAN
Perspectivas de estudio
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call