DDL - UMR 5596
ISH - Bat C
14 avenue Berthelot
69007 Lyon
Tél : 04 72 72 64 12
Fax : 04 72 72 65 90
Contact

Description, Typologie, Terrain

Thèmes et actions

 Vous êtes ici : Accueil /  Recherche /  DTT /  Thèmes et actions  / Action

Webmaster de l'axe : Anetta KOPECKA

Projet DoReCo


  Personne à contacter
Matthew Stave , Francois PELLEGRINO

Cadre de l'étude et objectifs

L'étude du débit de parole et des pauses ouvre une fenêtre d'accès aux mécanismes neurocognitives et physio-articulatoires de la production de parole humaine, mais on ignore encore beaucoup sur les variations interlinguistiques dans ce domaine. Le projet DoReCo contribue à combler ce manque en menant des études comparatives de parole spontanée dans un échantillon varié de 50 langues. A cette fin, nous constituons un corpus multilingue de référence rassemblant des données collectées dans un but de documentation des langues, comprenant des enregistrements audio annotés et sauvegardés sur des archives institutionnelles telles que The Language Archive (TLA). DoReCo compile des données déjà transcrites et traduites dans une langue de travail courante et disposant d'un alignement temporel des fichiers audios au niveau des unités de discours.

Dans le cadre du projet, un alignement temporel au niveau phonémique est réalisé. Le corpus final comprendra 50 langues, voire plus, disposant de corpus d'au moins 10 000 mots et, pour un sous ensemble d'au moins 30 d'entre elles, une segmentation morhpémique sera fournie. Dans DoReCo, les sous corpus et leurs annotations constitutent des éléments que l'on peut citer, car identifiables par un identifiant unique et sous licence CC BY 4.0. Ainsi, au-delà des objectifs propres du projet, DoReCo aura un impact à plus long terme en tant que portail donnant accès à plus d'un million de mots de corpus annoté issu de plus de 50 langues. Il s'agit d'une contribution majeure et inédite au service d'une approche scientifique ouverte et reproductible sur la diversité et le patrimoine linguistiques et culturels. Les objectifs scientifiques propres à DoReCo portent quant à eux sur la caractérisation de contraintes universelles sur le langage humain selon deux axes :

Tout d'abord, l'étude de l'allongement phonétique, avec l'objectif de démêler les contraintes universelles des aspects liés à chaque langue sur

  • les degrés de variation de durées des segments en fonction de leur type (voyelles, divers types des consonnes, etc.), en partie déterminés par les contraintes de production et de perception
  • l'allongement final des mots comme indicateur de limites prosodiques majeures et mineures - reflétant les contraintes cognitives pour la planification et signalant potentiellement des unités de discours.
Deuxièmement, nous étudions les modèles universels vs. spécifiques aux langues dans la distribution temporelle des morphèmes concernant :
  • le débit d'information en termes de morphèmes par seconde et
  • le nombre de morphèmes dans les unités inter-pausales
Le projet est mené par une équipe interdisciplinaire réunissant des experts en documentation des langues, phonétique, typologie et linguistique quantitative, avec un fort soutien institutionnel de deux centres de recherche de premier plan en Allemagne (Leibniz-Zentrum Allgemeine Sprachwissenschaft) et en France (Dynamique du Langage), dans le cadre d'un soutien de l'ANR (ANR-18-FRAL-0010) et de la DFG (Deutsche Forschungsgemeinschaft).

  Financements
  • Programme franco-allemand en Sciences Humaines et Sociales
    Cross-linguistic phonetics and morphology using a time-aligned multilingual reference corpus built from documentations of 50 languages: Big data on small languages
    DFG-ANR
    2019-2022

ASLAN -  Université de Lyon -  CNRS -  Université Lumière Lyon 2 -  MSH-LSE -  IXXI -  DDL :  Contact |  Mentions légales |