Abstract

We here describe the Rhapsodie resource, a syntactic and prosodic treebank of spoken French, composed of 57 short samples of spoken French (5 minutes long on average, amounting to 3 hours of speech and 33000 words), and an orthographic transcription. The transcription and the annotations are all aligned on the speech signal : phonemes, syllables, words, speakers, overlaps. The main objective of the Rhapsodie project is to define rich, explicit, and reproducible schemes for the annotation of prosody and syntax in different genres (± spontaneous, ± planned, face-to-face interviews vs. broadcast, etc.), in order to study the prosody/syntax/discourse interface in spoken French, and their roles in the segmentation of speech into discourse units. This resource is freely available at www.projet-rhapsodie.fr. The sound samples (wav/mp3), the acoustic analysis (original F0 curve manually corrected and automatic stylized F0, pitch format), the orthographic transcriptions (txt), the macrosyntactic annotations (txt), the prosodic annotations (xml, textgrid), and the metadata (xml and html) can be freely downloaded under the terms of the Creative Commons licence Attribution - Noncommercial - Share Alike 3.0 France. The metadata are encoded in the IMDI-CMFI format and can be parsed on line.

Highlights

  • L’objet de notre communication est de présenter la ressource Rhapsodie, un Treebank annoté en syntaxe et en prosodie pour l’analyse du discours en français parlé

  • L’objectif majeur du projet, conduit dans le cadre de l’ANR corpus, données et outils de la recherche en sciences humaines et sociales, a été de définir des schémas d’annotation explicites et reproductibles en prosodie et en syntaxe, permettant l’étude approfondie de l’interface discours/prosodie/syntaxe, plus spécifiquement le rôle respectif de la syntaxe et de la prosodie dans la segmentation du discours en unités élémentaires dans différents genres discursifs (Lacheret et al à paraître)

  • Au cœur du projet Rhapsodie : (i) l’objectif de modéliser l’interface intonosyntaxique sur un jeu de constructions annotées en prosodie et en syntaxe, suffisamment vaste pour permettre les généralisations descriptives sur différents genres de discours, (ii) l’hypothèse selon laquelle il existe une relation étroite entre les caractéristiques typologiques d’un texte, i.e. les patrons textuels définis sur les bases de critères strictement formels et le genre dont il est issu, i.e. les traits situationnels qui le caractérisent(tableau 1)2

Read more

Summary

Introduction

L’objet de notre communication est de présenter la ressource Rhapsodie, un Treebank annoté en syntaxe et en prosodie pour l’analyse du discours en français parlé. Dans le sillage du corpus C-Oral-Rom (Cresti et Moneglia 2005), une annotation macrosyntaxique est couplée de façon innovante à l’annotation syntaxique standard que l’on trouve dans les Treebanks actuels. La ressource est téléchargeable librement (www.projet-rhapsodie.fr): les enregistrements (wav/mp3), les analyses acoustiques (F0 brutes nettoyées manuellement et F0 stylisées automatiquement, format pitch), la transcription orthographique (txt), l’annotation macrosyntaxique (txt et format tabulaire), l’annotation microsyntaxique (format tabulaire), l’annotation et la segmentation prosodique (textgrid, xml, format tabulaire), et les metadonnées (xml, html) sont téléchargeables selon les termes de la licence Creative. L’objet de cette communication est de présenter en les justifiant les choix effectués pour l’établissement des métadonnées et les schémas d’annotation retenus en syntaxe et en prosodie

Corpus design et métadonnées
Corpus design
Métadonnées
Annotation syntaxique
Annotation macrosyntaxique
Annotation microsyntaxique
D I QuCl Pro X
Annotation prosodique
Annotation manuelle : proéminences et disfluences
Génération automatique de la structure prosodique
Annotation tonale
Conclusion
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call