Abstract

Les parties orales de corpus de référence tels que le British National Corpus (BNC) et le Corpus of American Contemporary American (COCA) sont de plus en plus utilisées pour l’enseignement de l’anglais. Cependant, la composition de ces deux corpus est rarement évoquée, et les chercheurs semblent généralement supposer qu’ils sont de même nature. Dans la mesure où sa partie orale représente 20% de l’ensemble du corpus, le COCA semble à cet égard avoir un avantage sur le BNC, dont la composante orale ne représente que 10% des 101 millions - corpus de mots. Cependant, alors que la partie orale du BNC contient plus de 4 millions de mots consistant en des transcriptions d’entretiens avec des locuteurs britanniques, le COCA est exclusivement composé de «transcriptions de conversations non scénarisées provenant de plus de 150 émissions de télévision et de radio» (Davies, 2010). Nous décrivons en premier lieu la composition des deux principaux corpus susmentionnés et soulignons les différences entre le contenu de leurs parties orales, puis nous comparons le BNC et le COCA en termes de fréquence pour l’utilisation combinée de marqueurs de vague language tels que «you know », «I mean » ou «sort of like». Nous décrivons enfin l’utilisation du corpus ENCOW16 pour l’étude de la structure syntaxique d’apparition récente «so not» en tant qu’indicé de la langue orale. Nos résultats démontrent que l’utilisation de corpus extraits de la Toile en lieu et place de corpus de plus faible taille (dans lesquels celle de la partie orale n’est pas suffisante pour refléter fidèlement les usages rares ou d’apparition récente) constitue une voie intéressante pour l’étude du genre du discours oral.

Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call