La collection AuCo (Audio Corpora) regroupe des documents linguistiques sonores de langues du Vietnam et des pays voisins, y compris dans des langues "rares" particulièrement peu dotées au plan informatique. AuCo est un acronyme pour “Audio Corpora”: corpus audio. C’est également une référence à la fée ÂuCơ, qui mit au monde une grande poche d'où sortirent cents œufs qui donnèrent naissance aux Cent Peuples (Bách Việt), ancêtres légendaires des Vietnamiens et de la multitude de groupes ethniques de la région. Les points ronds qui composent le logo de la collection AuCo/ÂuCơ sont une allusion à ces cent œufs, symbole de la diversité culturelle et linguistique que reflète la collection. Le but de la collection AuCo est de recueillir les documents recueillis par les chercheurs au fil de leur activité de recherche. Elle remplit par là une fonction importante: inscrire la collecte de données orales dans une perspective cumulative. La préparation, la réalisation et l'annotation d’enregistrements sont des tâches gourmandes en temps; au prix d’un léger surcroît de travail, il est possible de préparer les données de façon à ce qu’elles puissent être réutilisées par d’autres, pour des finalités variées (notamment: analyse phonétique/phonologique, traitement automatique de la parole, mais aussi didactique des langues/projets de revitalisation de langues en danger). La collection AuCo a vocation à contribuer à la documentation du patrimoine humain que représentent les langues du monde; elle a aussi vocation à faciliter les travaux de recherche interdisciplinaires associant ingénieurs et linguistes, autour de techniques communes. Il est prévu de verser à la collection des documents de types très divers, et de valeur patrimoniale très inégale: des récits traditionnels aux documents lus, en passant par les dialogues et les enquêtes de vocabulaire; des collections uniques datant de plusieurs décennies, et concernant des parlers aujourd'hui en voie de disparition, jusqu'au tout-venant des enregistrements de langues nationales (réalisés ponctuellement pour les besoins d'études phonétiques/phonologiques ou d'outils de traitement automatique). Les utilisations nouvelles et créatives des données sont rarement prévisibles; d’où le choix de ne fermer la collection AuCo à aucun type de données. Les documents de la collection AuCo ont été enregistrés et transcrits/annotés par des chercheurs d'horizons très variés, dont les membres du département "Parole et Communication" de l'Institut de recherche international MICA (HUST – CNRS/UMI-2954 – Grenoble INP, Hanoi University of Science and Technology). Leur préparation pour archivage et diffusion en ligne est assuré par des membres du département “Parole et Communication” de l'Institut de recherche international MICA. Archivage pérenne et diffusion en ligne sont assurés par la grille de services de la Très Grande Infrastructure de Recherche Huma-Num (en partenariat avec le CINES et l’IN2P3); la préparation des documents en vue de leur dépôt s'effectue avec le concours des deux services versants pour les données orales, collection Pangloss / réservoir de données CoCoON (CNRS-LACITO) et Speech and Language Data Repository: SLDR (CNRS-LPL).
AuCo: corpus audio de langues du Vietnam et des pays voisins
Image
Type de publication
Base de données
Date de parution