AVERTISSEMENT Ce document est le fruit d'un long travail approuvé par le jury de soutenance et mis à disposition de l'ensemble de la communauté universitaire élargie. Il est soumis à la propriété intellectuelle de l'auteur. Ceci implique une obligation de citation et de référencement lors de l’utilisation de ce document. D'autre part, toute contrefaçon, plagiat, reproduction illicite encourt une poursuite pénale. Contact : [email protected] LIENS Code de la Propriété Intellectuelle. articles L 122. 4 Code de la Propriété Intellectuelle. articles L 335.2- L 335.10 http://www.cfcopies.com/V2/leg/leg_droi.php http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm E´cole doctorale IAEM Lorraine R´eseaux de neurones profonds pour la s´eparation des sources et la reconnaissance robuste de la parole (Deep neural networks for source separation and noise-robust speech recognition) ` THESE pr´esent´ee et soutenue publiquement le 5 d´ecembre 2017 pour l’obtention du Doctorat de l’Universit´e de Lorraine (mention informatique) par Aditya Arie Nugraha Composition du jury Rapporteurs : Christian Jutten Professeur, Universit´e Grenoble Alpes, France Bj¨orn Schuller Reader in Machine Learning, Imperial College London, Royaume-Uni Examinateurs : Stefan Uhlich Principal Engineer, Sony Stuttgart Technology Center, Allemagne Marie-Odile Berger Directeur de recherche, Inria Nancy – Grand Est, France Directeurs de th`ese : Emmanuel Vincent Directeur de recherche, Inria Nancy – Grand Est, France Antoine Liutkus Charg´e de recherche, Inria Sophia Antipolis – M´editerran´ee, France Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503 . Résumé Danscettethèse,noustraitonsleproblèmedelaséparationdesourcesaudio multicanaleparréseauxde neuronesprofonds(deepneuralnetworks,DNNs). Notreapproche sebasesurle cadreclassiquedeséparation paralgorithme espérance-maximisation(EM)basésurunmodèlegaussienmulticanal,dans lequelles sourcessontcaractérisées parleursspectres depuissanceà court termeetleursmatricesdecovariancespatiales. Nousexploronsetoptimisons l’usagedesDNNspourestimercesparamètresspectrauxetspatiaux. Àpartir desparamètresestimés,nouscalculonsunfiltredeWienermulticanalvariant dansletempspourséparerchaquesource. Nousétudionsendétaill’impact deplusieurschoixdeconceptionpourlesDNNsspectrauxetspatiaux. Nous considérons plusieurs fonctions de coût, représentations temps-fréquence, architectures,ettaillesd’ensemblesd’apprentissage. Cesfonctionsdecoût incluentenparticulierunenouvellefonctionliéeàlatâchepourlesDNNs spectraux: lerapportsignal-à-distorsion. Nousprésentonsaussiuneformule d’estimationpondéréedesparamètresspatiaux,quigénéraliselaformulation EMexacte. Surunetâchedeséparationdevoixchantée,nossystèmessont remarquablementprochesdelaméthodedel’étatdel’artactueletaméliorent le rapport source-interférence de 2 dB. Sur une tâche de rehaussement de la parole,nossystèmessurpassentlaformationdevoiesGEV-BANdel’étatde l’artde14%,7%et1%relatifsentermed’améliorationdutauxd’erreursur lesmotssurdesdonnéesà6,4et2canauxrespectivement. Mots-clés: séparationdesourcesaudiomulticanale,modèlegaussienmulti- canal,réseauxdeneuronesprofonds iii Abstract Thisthesisaddresses the problemofmultichannelaudio sourceseparation by exploiting deep neural networks (DNNs). We build upon the classical expectation-maximization(EM)basedsourceseparationframeworkemploy- ingamultichannelGaussianmodel,inwhichthesourcesarecharacterizedby theirpowerspectraldensitiesandtheirsourcespatialcovariancematrices. We exploreandoptimizetheuseofDNNsforestimatingthesespectralandspatial parameters. Employingtheestimatedsourceparameters,wethenderivea time-varying multichannel Wiener filter for the separation of each source. We extensively study the impact of various design choices for the spectral and spatial DNNs. We consider different cost functions, time-frequency representations,architectures,andtrainingdatasizes. Thosecostfunctions notablyincludeanewlyproposedtask-orientedsignal-to-distortionratiocost function for spectral DNNs. Furthermore, we present a weighted spatial parameter estimation formula, which generalizes the corresponding exact EM formulation. On a singing-voice separation task, our systems perform remarkablyclosetothecurrentstate-of-the-artmethodandprovideupto2dB improvement ofthe source-to-interference ratio. Ona speech enhancement task, our systems outperform the state-of-the-art GEV-BAN beamformer by 14%, 7%, and 1% relative word error rate improvement on 6-channel, 4-channel,and2-channeldata,respectively. Keywords: multichannel audio source separation, multichannel Gaussian model,deepneuralnetworks v Acknowledgements First and foremost, I would like to express my sincere gratitude to my supervisors, Emmanuel Vincent and Antoine Liutkus, for all the time and energytheyhaveprovided. Theirthoughts,ideas,andsuggestionsarehighly valuableforthisresearch. Igreatlyappreciatetheirguidance,encouragement, andpatiencethroughouttheresearchprocess. I would also like to thank all the members of MULTISPEECH research teamforprovidingafriendly,supportive,andstimulatingresearchenviron- ment. SpecialthanksgotoImranSheikhandSunitSivasankaranforcountless fruitfuldiscussionsandnumeroustechnicalassistance. Iwouldliketoacknowledgebothdirectandindirectsupportfromvarious fundingagencies. ThisstudywaspartlysupportedbytheFrenchNational ResearchAgency(ANR)aspartsoftheDYCI2project(ANR-14-CE24-0002-01) andtheKAMouloxproject(ANR-15-CE38-0003-01). Experimentspresented in this thesiswere carriedout using the Grid’5000 testbed, supported by a scientific interest group hosted by Inria and including CNRS, RENATER, and several Universities as well as other organizations (see https://www. grid5000.fr). Finally, I would like to express my gratitude to my family. I dedicate this thesis to my parents who always allow and support me to pursue my ambitions. I could not thank my wife enough for her love, patience, and understanding. Ialsoappreciatemydaughterforalwayscheeringmeup. vii Contents Résumé iii Abstract v Acknowledgements vii Contents ix ListofTables xiii ListofFigures xv ListofAbbreviations xvii Résuméétendu 1 A Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 B Notationsetcontexte . . . . . . . . . . . . . . . . . . . . . . . . 2 C EstimationdesparamètresspectrauxavecdesDNNs . . . . . 4 D Surl’améliorationdesmodèlesspectrauxprofonds . . . . . . 7 E EstimationdesparamètresspatiauxavecdesDNNs . . . . . . 9 F Conclusionetperspectives . . . . . . . . . . . . . . . . . . . . . 12 1 Introduction 13 1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1.1 Audiosourceseparation . . . . . . . . . . . . . . . . . . 13 1.1.2 Speechandmusicseparations . . . . . . . . . . . . . . 14 1.1.3 Single-channelandmultichannelseparation . . . . . . 15 1.1.4 Deepneuralnetworks(DNNs) . . . . . . . . . . . . . . 16 1.2 Objectivesandscope . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3 Contributionsandorganizationofthethesis . . . . . . . . . . 18 2 Background 21 2.1 Audiosourceseparation . . . . . . . . . . . . . . . . . . . . . . 21 2.1.1 Sourcesandmixture . . . . . . . . . . . . . . . . . . . . 21 2.1.2 Sourceseparation . . . . . . . . . . . . . . . . . . . . . . 23 ix
Description: