Abstract

The paper presents the IPIC extension to a Spanish mini-corpus, conceived and tagged according to the L-AcT criteria and comparable with the Italian and the Brazilian Portuguese mini corpora already stored in the Data Base. IPIC was created by the LABLITA team for grounding the cross-linguistic comparison of Information Structure in spontaneous speech and can be applied to corpora, collected according to a similar corpus design and size (approx. 5000 reference units). The reference units of speech analysis (utterance, stanza) are identifying through terminal prosodic breaks and aligned to the corresponding sound. In turn, reference units are segmented through non-terminal prosodic breaks in information units that are tagged according to the L-AcT repertory of information functions. The paper shows typical Spanish examples of each information unit type, detailing in the case also their specific terminology. The corpus informationally tagged allows to carry out a solid and deep analysis also at the grammatical and lexical levels of spoken Spanish.

Highlights

  • The paper presents the IPIC extension to a Spanish mini-corpus, conceived and tagged according to the L-AcT criteria and comparable with the Italian and the Brazilian Portuguese mini corpora already stored in the Data Base

  • El objetivo de este artículo es describir el contenido y la utilización del Minicorpus del español oral, que está recogido en la base de datos DB-IPIC junto a los Mini-corpus del italiano (Panunzi & Gregori 2012) y del portugués brasileño (Panunzi & Mittmann, 2014; Raso & Mello 2010, 2012; Mittmann & Raso 2012)

  • (13) *LOU: entonces /DCT pues al cabo del año /TOP que se puso ya robusta y grande /PAR se hicieron las fotos oficiales de casados //COM [efamdl07-8]

Read more

Summary

Introducción

El objetivo de este artículo es describir el contenido y la utilización del Minicorpus del español oral, que está recogido en la base de datos DB-IPIC junto a los Mini-corpus del italiano (Panunzi & Gregori 2012) y del portugués brasileño (Panunzi & Mittmann, 2014; Raso & Mello 2010, 2012; Mittmann & Raso 2012). Estos tres corpus están estructurados del mismo modo para realizar estudios comparativos entre estas tres lenguas orales espontáneas. Cada uno de estos minicorpus está etiquetado separando las unidades prosódicas y atribuyendo a cada una de ellas la unidad informativa correspondiente. Estas etiquetas y el análisis de PoS de todos los textos transcritos y alineados con la voz completan un corpus interrogable para el estudio paradigmático y sintagmático de las unidades. Los resultados de las búsquedas se presentan mostrando los enunciados -transcritos y etiquetados- junto al audio correspondiente

Marco teórico
Unidades referenciales
Unidades de la articulación de la información
Unidades informativas textuales nucleares
Unidades informativas textuales no nucleares
Unidades informativas dialógicas
Unidades no informativas
Estructura y características del mini-corpus
Interfaz de BD-IPIC
Ejemplos prácticos: utilidad de las búsquedas
Reflexiones finales

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.