| |
Problématique,
actions en cours, actions prévues en 2006

La France dispose d'une richesse linguistique fondée sur la diversité.
A côté du français, langue nationale, présent
sur les cinq continents, les langues de France constituent un patrimoine
culturel unique. Une grande diversité les caractérise :
langues romanes, langues germaniques, breton (celtique), basque (non indo-européen)
dans l’Hexagone ; créoles, langues amérindiennes,
polynésiennes, austronésiennes, bantoue outre-mer ; elles
sont parlées par un nombre très variable de citoyens : si
l’arabe compte 3 ou 4 millions de locuteurs en France, le neku ou
l’arhâ n’en comptent que quelques dizaines, en Nouvelle-Calédonie.
Entre les deux, les différents créoles, ou le berbère,
sont parlés par près de 2 millions de Français.
Ce patrimoine est méconnu, et si des
archives sonores existent pour la quasi-totalité de ces langues,
force est de reconnaitre que cette richesse, constituée du français
parlé et de la diversité des langues de France, n'est accessible
ni à l'ensemble de la communauté scientifique, ni au grand
public. Plus grave encore, de nombreux documents sonores uniques, conservés
sur des supports physiques en fin de vie (bandes magnétiques),
sont voués à disparaitre à tout jamais dans un délai
très bref. Il s'agit souvent des derniers et seuls documents sur
des langues de France (langues de Guyane, de Nouvelle-Calédonie…),
et même sur le français (la DGLFLF a numérisé
les seuls enregistrements de français constitués par des
linguistes dans les années 70). La numérisation offre non
seulement la possibilité de sauver ces documents, mais aussi de
les valoriser en les transformant en de véritables ressources linguistiques
numériques, assurant ainsi la vitalité de cette diversité.
Un corpus oral n’est pas en effet une
simple collection d’enregistrements de la parole humaine, mais un
objet “construit”, (enregistrements + catalogage, indexation,
transcription, synchronisation du son et de la transcription...) : ce
sont la numérisation, la transcription, l’élaboration
de métadonnées... qui permettent de passer d’un simple
enregistrement à un objet patrimonial pouvant faire l’objet
de recherche et de valorisation (par exemple, s’agissant de la parole,
il est techniquement impossible de faire de la recherche d’occurrences
sur du son, ce n’est possible que sur une transcription).
Ainsi, le développement des corpus
oraux (collections ordonnées d'enregistrements de productions linguistiques
orales, et multi-modales du type LSF) de français et des langues
parlées en France est actuellement un enjeu capital pour la politique
linguistique de la France. Alors que la plupart des langues européennes
disposent de corpus oraux accessibles en ligne, et souvent gratuitement,
un tel outil n'existe pas dans notre pays, ce qui a des conséquences
néfastes pour la visibilité et la vitalité du français
et des langues de France. C'est un enjeu pour la recherche linguistique
et pour le développement de l'ingénierie linguistique (reconnaissance
et synthèse de la parole, traitement automatique des langues),
c’est un enjeu aussi pour l'enseignement de ces langues, pour la
sauvegarde et la diffusion du patrimoine oral.

La DGLFLF s’efforce de mettre en œuvre
une action en faveur de la conservation, la numérisation, la mise
à disposition, la diffusion et la valorisation des corpus oraux.
Cette action, après quelques aides ponctuelles (et modestes) à
des projets isolés, s’est traduite par :
- Le Guide des bonnes pratiques :
La création d’un groupe de travail comprenant
des linguistes (CNRS et Université), des juristes et des conservateurs
(BnF, INA, Archives), pour réfléchir sur les questions
théoriques et méthodologiques relatives à la numérisation
et à l'exploitation des corpus oraux, a abouti à la rédaction
d’un “Guide des bonnes pratiques”, à la fois
juridique, éthique et technique, à paraitre en mars 2006
aux éditions du CNRS. Ce Guide a donné lieu à une
journée d'étude en mai 2005 à la BnF et sa version
provisoire, fort bien accueillie par les chercheurs et les conservateurs,
fait déjà office de référence en la matière.
- Un soutien à la recherche (constitution
et exploitation de ressources linguistiques sonores),
partenariat avec les fédérations des laboratoires de recherche
en linguistique du CNRS (Institut de linguistique française,
ILF-FR 2393, et Typologie et Universaux Linguistiques, TUL-FR 2559)
pour la sauvegarde et le développement des corpus oraux. Ce partenariat
s’est traduit par une aide globale de 69 000 € à ces
deux fédérations en 2004, et de 40 000 en 2005. Ces sommes,
à la mesure des moyens de la DGLFLF, sont modestes, pour ne pas
dire symboliques, au regard des besoins ; mais cette action a permis
de motiver très fortement les différents acteurs et d'orienter
la recherche vers un objectif de mise à disposition de données
représentant la diversité du patrimoine linguistique.
- La numérisation d'archives linguistiques
sonores.
Dans le cadre du plan de numérisation piloté par la MRT
(Mission pour la Recherche et la Technologie) du ministère, la
DGLFLF a présenté un programme consistant à numériser
des fonds sonores du français et des langues parlées en
France (numérisation des fonds fragiles dont les supports analogiques
sont dans un état de détérioration ; numérisation
de fonds plus récents pour permettre leur intégration
dans une base de données ; indexation, catalogage et établissement
de normes d'inter-opérabilité), à les valoriser
par la création d'un site portail présentant les corpus
de français et de langues de France, et à intégrer
dans ce site une base de données regroupant une riche collection
de corpus desdites langues. Cette base de données permettra une
mise à disposition de ressources représentant la diversité
des pratiques linguistiques en France. La demande initiale était
de 200 000 € pour l'année 2005 ; le projet a été
retenu à hauteur de 85 000 €, ce qui permet de lancer la
première tranche du projet.
Ce programme doit permettre de pallier le retard de la
France dans la diffusion du patrimoine linguistique numérique national,
mais surtout de proposer une initiative, unique en Europe et au niveau
international, de numérisation du patrimoine dans le respect des
nouvelles technologies de conservation, mais aussi d'enseignement et de
traitement automatique des langues, et d'assurer ainsi la vitalité
du français et des langues de France, véritable source de
diversité culturelle.
Actions prévues (2006 et moyen
terme): suite du programme "Corpus de la Parole" (avec CNRS
ou universités)
- Inventaire des corpus en langues de France (fonds
à sauvegarder, numérisation)
- Suite de la base de données "Corpus
de la Parole"
- Suite du site portail "Corpus de la Parole"
- Rédaction d'un Guide technique pour la numérisation
et la valorisation de corpus (Guide technique, complémentaire
du Guide des bonnes pratiques)
- Suite du projet "interopérabilité
des corpus oraux"
- Soutien à des projets de recherche de constitution,
d'exploitation et de diffusion des corpus oraux).
|