Segmentation automatique d'un signal audio, application aux données d'archives de l'INA
Marie Tahon  1@  
1 : Laboratoire d'Informatique de l'Université du Mans  (LIUM)  -  Site web
Le Mans Université, Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Avenue Laennec 72085 Le Mans cedex 9 -  France

Les données d'archives des médias montrent notre histoire collective et sont une source extrêmement riche pour l'étude de notre société. A l'heure de l'instantanéité, elles sont des indicateurs essentiels pour replacer des informations prises sur le vif dans un contexte historique. C'est dans ce contexte que l'apport du traitement automatique de la parole est indispensable pour les archivistes (comme l'INA), les producteurs, diffuseurs de contenu et sociologues. Il autorise le traitement de quantités massives de données renforçant par conséquence la robustesse des analyses en humanités numériques 
La segmentation automatique d'un signal audio est donc une tâche essentielle pour de nombreuses technologies vocales, dont la plupart sont basées sur des réseaux neuronaux. Cette tâche consiste à identifier dans un flux audio la présence de parole, de musique, de bruit, ou encore de parole superposée. Afin d'éviter l'apprentissage de plusieurs modèles spécialisés chacun sur un type d'événement sonore, nous proposons un réseau de neurone séquentiel capable de prédire simultanément la présence des différents types d'événements sonores. Ce modèle de segmentation audio basé sur l'apprentissage profond offre des performances similaires à celles des modèles spécialisés dotés d'une architecture semblable et peut être entraîné à l'aide d'annotations partielles et déséquilibrées sur différents ensembles de données. Une pipeline de traitement d'un enregistrement sonore a été mise en place et montre l'intérêt de la méthode pour la détection de parole superposée dans des débats télévisuels. Nous montrerons également que ce modèle peut être adapté à l'aide d'une factorisation matricielle non négative (NMF) pour mieux expliquer les représentations latentes apprises d'un point de vue acoustique.

Chargement... Chargement...