Captation de voix par conduction corporelle et amélioration par Deep Learning génératif.
Eric Bavu  1@  
1 : Conservatoire National des Arts et Métiers [Cnam]  (Cnam)  -  Site web
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
292 Rue Saint-Martin, 75003 Paris -  France

La captation de la parole par conduction corporelle constitue une alternative robuste aux microphones aériens en environnement fortement bruité, au prix d'une bande passante réduite et de perturbations physiologiques.

Cette présentation abordera deux approches complémentaires de réhaussement de la parole captée par ce type de transducteur par apprentissage profond. La première repose sur un modèle génératif adversarial (EBEN) dédié à l'extension de bande passante et à la suppression du bruit. La seconde explore le fine-tuning d'un codec neuronal récent (Mimi), utilisé comme modèle de fondation pour la reconstruction et l'amélioration de la parole issue de capteurs à conduction corporelle.

Les travaux s'appuient sur Vibravox, un jeu de données original conçu et enregistré au laboratoire LMSSC, dédié à la conduction corporelle et intégrant plusieurs types de capteurs non conventionnels de la parole. Ils ont donné lieu à la réalisation d'un démonstrateur temps réel, déployé sur Jetson Nano, permettant une inférence de bout en bout, de la captation vibratoire au réhaussement de la parole. Le code, les modèles et les jeux de données sont mis à disposition en open source, dans une démarche de science ouverte.


Chargement... Chargement...