Problématique, actions en cours, actions prévues en 2006

 



La France dispose d'une richesse linguistique fondée sur la diversité. A côté du français, langue nationale, présent sur les cinq continents, les langues de France constituent un patrimoine culturel unique. Une grande diversité les caractérise : langues romanes, langues germaniques, breton (celtique), basque (non indo-européen) dans l’Hexagone ; créoles, langues amérindiennes, polynésiennes, austronésiennes, bantoue outre-mer ; elles sont parlées par un nombre très variable de citoyens : si l’arabe compte 3 ou 4 millions de locuteurs en France, le neku ou l’arhâ n’en comptent que quelques dizaines, en Nouvelle-Calédonie. Entre les deux, les différents créoles, ou le berbère, sont parlés par près de 2 millions de Français.

Ce patrimoine est méconnu, et si des archives sonores existent pour la quasi-totalité de ces langues, force est de reconnaitre que cette richesse, constituée du français parlé et de la diversité des langues de France, n'est accessible ni à l'ensemble de la communauté scientifique, ni au grand public. Plus grave encore, de nombreux documents sonores uniques, conservés sur des supports physiques en fin de vie (bandes magnétiques), sont voués à disparaitre à tout jamais dans un délai très bref. Il s'agit souvent des derniers et seuls documents sur des langues de France (langues de Guyane, de Nouvelle-Calédonie…), et même sur le français (la DGLFLF a numérisé les seuls enregistrements de français constitués par des linguistes dans les années 70). La numérisation offre non seulement la possibilité de sauver ces documents, mais aussi de les valoriser en les transformant en de véritables ressources linguistiques numériques, assurant ainsi la vitalité de cette diversité.

Un corpus oral n’est pas en effet une simple collection d’enregistrements de la parole humaine, mais un objet “construit”, (enregistrements + catalogage, indexation, transcription, synchronisation du son et de la transcription...) : ce sont la numérisation, la transcription, l’élaboration de métadonnées... qui permettent de passer d’un simple enregistrement à un objet patrimonial pouvant faire l’objet de recherche et de valorisation (par exemple, s’agissant de la parole, il est techniquement impossible de faire de la recherche d’occurrences sur du son, ce n’est possible que sur une transcription).

Ainsi, le développement des corpus oraux (collections ordonnées d'enregistrements de productions linguistiques orales, et multi-modales du type LSF) de français et des langues parlées en France est actuellement un enjeu capital pour la politique linguistique de la France. Alors que la plupart des langues européennes disposent de corpus oraux accessibles en ligne, et souvent gratuitement, un tel outil n'existe pas dans notre pays, ce qui a des conséquences néfastes pour la visibilité et la vitalité du français et des langues de France. C'est un enjeu pour la recherche linguistique et pour le développement de l'ingénierie linguistique (reconnaissance et synthèse de la parole, traitement automatique des langues), c’est un enjeu aussi pour l'enseignement de ces langues, pour la sauvegarde et la diffusion du patrimoine oral.

 

 

La DGLFLF s’efforce de mettre en œuvre une action en faveur de la conservation, la numérisation, la mise à disposition, la diffusion et la valorisation des corpus oraux. Cette action, après quelques aides ponctuelles (et modestes) à des projets isolés, s’est traduite par :

  • Le Guide des bonnes pratiques :
    La création d’un groupe de travail comprenant des linguistes (CNRS et Université), des juristes et des conservateurs (BnF, INA, Archives), pour réfléchir sur les questions théoriques et méthodologiques relatives à la numérisation et à l'exploitation des corpus oraux, a abouti à la rédaction d’un “Guide des bonnes pratiques”, à la fois juridique, éthique et technique, à paraitre en mars 2006 aux éditions du CNRS. Ce Guide a donné lieu à une journée d'étude en mai 2005 à la BnF et sa version provisoire, fort bien accueillie par les chercheurs et les conservateurs, fait déjà office de référence en la matière.

  • Un soutien à la recherche (constitution et exploitation de ressources linguistiques sonores),
    partenariat avec les fédérations des laboratoires de recherche en linguistique du CNRS (Institut de linguistique française, ILF-FR 2393, et Typologie et Universaux Linguistiques, TUL-FR 2559) pour la sauvegarde et le développement des corpus oraux. Ce partenariat s’est traduit par une aide globale de 69 000 € à ces deux fédérations en 2004, et de 40 000 en 2005. Ces sommes, à la mesure des moyens de la DGLFLF, sont modestes, pour ne pas dire symboliques, au regard des besoins ; mais cette action a permis de motiver très fortement les différents acteurs et d'orienter la recherche vers un objectif de mise à disposition de données représentant la diversité du patrimoine linguistique.

  • La numérisation d'archives linguistiques sonores.
    Dans le cadre du plan de numérisation piloté par la MRT (Mission pour la Recherche et la Technologie) du ministère, la DGLFLF a présenté un programme consistant à numériser des fonds sonores du français et des langues parlées en France (numérisation des fonds fragiles dont les supports analogiques sont dans un état de détérioration ; numérisation de fonds plus récents pour permettre leur intégration dans une base de données ; indexation, catalogage et établissement de normes d'inter-opérabilité), à les valoriser par la création d'un site portail présentant les corpus de français et de langues de France, et à intégrer dans ce site une base de données regroupant une riche collection de corpus desdites langues. Cette base de données permettra une mise à disposition de ressources représentant la diversité des pratiques linguistiques en France. La demande initiale était de 200 000 € pour l'année 2005 ; le projet a été retenu à hauteur de 85 000 €, ce qui permet de lancer la première tranche du projet.

 

Ce programme doit permettre de pallier le retard de la France dans la diffusion du patrimoine linguistique numérique national, mais surtout de proposer une initiative, unique en Europe et au niveau international, de numérisation du patrimoine dans le respect des nouvelles technologies de conservation, mais aussi d'enseignement et de traitement automatique des langues, et d'assurer ainsi la vitalité du français et des langues de France, véritable source de diversité culturelle.

 

Actions prévues (2006 et moyen terme): suite du programme "Corpus de la Parole" (avec CNRS ou universités)

  • Inventaire des corpus en langues de France (fonds à sauvegarder, numérisation)
  • Suite de la base de données "Corpus de la Parole"
  • Suite du site portail "Corpus de la Parole"
  • Rédaction d'un Guide technique pour la numérisation et la valorisation de corpus (Guide technique, complémentaire du Guide des bonnes pratiques)
  • Suite du projet "interopérabilité des corpus oraux"
  • Soutien à des projets de recherche de constitution, d'exploitation et de diffusion des corpus oraux).