Abstract

En este artículo se describe el protocolo que se ha seguido para la construcción del corpus Ameresco (América Español Coloquial). La recopilación de un corpus multidialectal presenta una serie de retos. Por una parte, la gestión de un gran número de equipos externos requiere un proyecto que metodológicamente sea sólido. Por otra parte, la metodología debe ser coherente con los objetivos del proyecto y con los parámetros esenciales en el diseño de corpus como es establecer las características de las grabaciones, el sistema de transcripción y etiquetado y aspectos relacionados con la anonimización de datos sensibles. Todas estas cuestiones deben provenir de una decisión razonada que garantice que el corpus cumpla con unos estándares de calidad aceptables por la comunidad científica.

Highlights

  • This paper describes the protocol used to build the Ameresco corpus (America Colloquial Spanish)

  • Hay una mayor presencia de corpus escritos, dado que son más sencillos y rápidos de recopilar (Briz, 2012)

  • Actualmente los materiales de Ameresco se pueden consultar en línea por medio de dos métodos: 1) A través del motor de búsqueda Permite realizar consultas de formas concretas

Read more

Summary

INTRODUCCIÓN1

Este artículo describe el protocolo de trabajo para la construcción del corpus Ameresco (América Español Coloquial). El proyecto Ameresco (Briz, 2016) tiene como objetivo estudiar la variedad coloquial de todos los dialectos del español, tanto de América como de España; en ese sentido, el corpus Ameresco (Albelda y Estellés, en línea) es una de las iniciativas para recopilar el material lingüístico necesario para llevar a cabo el proyecto. Con el corpus Ameresco se pretende, así, completar el panorama panhispánico de corpus orales con un conjunto de conversaciones espontáneas, un género discursivo escasamente representado, como han señalado los trabajos de Barcala et alii (2018), Briz (2012), Briz y Carcelén (2019), Albelda y Briz (2009) o Recalde y Vázquez (2009), entre otros. En el apartado 5, consideraciones finales, se exponen de los principales retos que la construcción de este corpus multidialectal ha debido enfrentar

Origen de la iniciativa Ameresco
Grupos participantes
DISEÑO DEL CORPUS3
Selección de hablantes
26-55 V 4 M 4
Las grabaciones
Ficha técnica
Transcripción y alineado
Transcripción ancha del equipo local
A: Intervención de hablante identificado como A
Transcripción alineada por parte del equipo central
Validación de etiquetas
La anonimización de los datos
Identificación de los archivos
LA RECUPERACIÓN DE LA INFORMACIÓN
CONSIDERACIONES FINALES
BIBLIOGRAFÍA
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call