Numérisation du patrimoine linguistique arménien (DALiH) : Corpus multivariationnel arménien et traitement des données

Le projet Numérisation du patrimoine linguistique arménien (DALiH) : Corpus multivariationnel d’arménien et traitement des données vise à construire pour la première fois une plate-forme linguistique numérique unifiée en libre accès et open-source couvrant l’ensemble du spectre variationnel variantes de la langue arménienne

avec des corpus annotés pour :

1) l'arménien classique ;
2) l'arménien occidental moderne ;
3) un corpus pilote de l'arménien moyen ;
4) trois corpus pilotes des dialectes, et
5) un corpus mis à jour de l'arménien oriental moderne sur la base du corpus EANC (Eastern Armenian National Corpus).

Des recherches seront menées dans une perspectives linguistique et de Traitement automatique des langues (TAL) afin de fournir des modèles d'annotation grammaticale complète ainsi que de reconnaissance automatique de la parole (ASR) pour les variétés arméniennes cibles. Plusieurs nouvelles approches d’apprentissage machine et de systèmes à règles seront mises au point afin de traiter les bases de données écrites et orales et de tester leur validité en vue d’un élargissement ultérieur du corpus, dans un contexte de variation linguistique multi-paramétres pour une langue sous-dotée.

Des recherches en linguistiques informatique, visant notamment à l'identification automatique de la langue, au calcul de la distance entre variétés, à la désambiguïsation lexicale et morphologique, seront conduites en vue de revisiter l’état de l’art et introduire de nouvelles problématiques de recherche soutenues par les données écrites et orales rendues disponibles par le projet.

Source : Inalco

Image
Digitizing Armenian Linguistic Héritage - DALiH © DALiH‎
Publication type
Base de données
Publication date