ENSEA
École Nationale Supérieure d'Électronique et de ses Applications
Cergy-Pontoise (Paris)


ALGORITHMES D'ACQUISITION, COMPRESSION ET RESTITUTION DE LA PAROLE À VITESSE VARIABLE.
ÉTUDE ET MISE EN PLACE

José Hernández Orallo

Avril 1995

(rapport  complet en PDF)

ECS: Équipe Commande des Systèmes.
Dirigé par: M. Pascal GOUREAU.


Stage effectué au laboratoire ECS-ENSEA comme projet de fin d'études de la Licence d'Informatique avec le programme ERASMUS d'échanges universitaires réalisé entre l' ENSEA et l' UPV (Universidad Politécnica de Valencia, Espagne).

Avant-Propos

Le traitement de la parole s'at déroulé pendant les dernières décades dans le domaine des télécommunications. Des avances importantes ont été réussites sur le traitement analogique et, fondamentalement, numérique sur des techniques comme le filtrage, les transformées, les analyses spectrales, les paramètrisations et les algorithmes de compression.

Aujourd'hui, cependant, les applications du traitement de la parole vont changer ses buts vers l'utilisateur quotidien dans les appareilles de son numériques, les nouvelles autoroutes de l'information et le monde multimédia. Tout cela vient accru par la croissance de la puissance des processeurs et des ordinateurs actuels. L'existence des DSP (Digital Signal Processors), très rapides et efficaces, permettent réaliser des appareilles concrets pour des applications les plus diverses avec des algorithmes et facilités jamais pensées il fait quelques années. Encore, les ordinateurs multimédias fournis avec des cartes de son chaque jour plus élaborées permettent un traitement et stockage de la parole par tous les outils disponibles sur les ordinateurs personnels. Dans cette nouvelle étape, la qualité du son est une nouvelle requise installée déjà dans les appareilles d'audio numériques que tout le monde a dans la maison (comme les disques compactes, les cassettes numériques, etc.).

Ce travail présente un résumé des techniques et algorithmes qui sont et vont être les plus utilisées dans l'avenir. On commence par une brève exposition des procédures de numérisation, filtrage, fenêtres, transformées et analyse spectrale en général. Après on introduit des compressions de bonne qualité, des nouvelles algorithmes de vitess variable et de la comparasion de sons.

Tout cela est concretisé par deux implantations : Primo, un outil multimédia de simulation pour P.C. qui sert à montrer les disponibilités de traitement de la parole qui aura un utilisateur habituel avec une requise d'équipe et de connaissances minimales. Secundo, une implantation sur DSP ou ASIC montre l'aisé de réalisation d'un appareil spécifique de coût réduit pour une application concrète (dans notre cas, l'apprentissage des langues).
 

Objectifs:

L'objectif de ce travail est de faire diverses études et essais d'algorithmes d'acquisition, de compression et de restitution de signaux de parole. L'évolution des vitesses des processeurs actuels permet essayer quelques nouveaux traitements de complexité supérieure.

Une simulation par ordinateur des tous ces essais est assez facile et économique car il est facile de changer les paramètres et les conditions à examiner. Ceci est possible parce que le traitement est principalement numérique.

Quoique celui-ci soit une étude générale, il se situe en étroite collaboration avec la société BARTHE. Il s'agit concrètement d'un système électronique qui facilite l'apprentissage individuel des langues étrangères, appelé LALI (Laboratoire Autonome de Langues Individuelle). Ce système réalise les fonctions suivantes:

  • Détection du son et du silence. Ceci permet l'arrêt automatique de l'enregistrement.
  • Compression/décompression du son pour l'enregistrement de la plus grande durée avec la plus petite quantité de mémoire possible.
  • Restitution de durée et vitesse variables de l'enregistrement.
  • Les algorithmes de compression à étudier vont de la représentation directe (codeurs de l'onde soit dans domaine temporel soit dans le domaine de fréquences) jusqu'à la représentation paramétrique (codeurs de source).

    Il faut veiller à la qualité de restitution à différentes vitesses parce que quand une personne parle vite ou douce ce n'est pas fait également avec tous les phonèmes et formants: il y a quelques phonèmes plus étendus que d'autres. Il semble plus facile d'émuler ce comportement avec des analyses de haut niveau soit de domaine fréquentiel soit par représentation paramétrique.

    En revanche, ceci implique une plus grande complexité et difficulté pour leur implantation en temps réel avec les composants aux fréquences disponibles aujourd'hui, à prix raisonnable, raison qui a fait que l'implantation réalisée par l'ECS1 a dû de se conformer à l'algorithme delta adaptatif (ADM).

    Trouver de nouveaux algorithmes ou ajuster les paramètres des algorithmes traditionnels avec le compromis (économie - qualité) par une analyse de haut niveau mais qui puisse être implantée en temps réel est l'objectif majeur de ce travail.


    Régresser à la pâge principale.