ebook img

An Unsupervised Ensemble Perspective PDF

172 Pages·2017·1.12 MB·English
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview An Unsupervised Ensemble Perspective

On the Improvement of Complexity Time and Detection Rate of Outlier Detectors: An Unsupervised Ensemble Perspective by José Ramón PASILLAS DÍAZ MANUSCRIPT-BASED THESIS PRESENTED TO ÉCOLE DE TECHNOLOGIE SUPÉRIEURE IN PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE DEGREE OF DOCTOR OF PHILOSOPHY Ph. D. MONTREAL, "OCTOBER 24, 2017" ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC JoséRamónPasillasDíaz,2017 This Creative Commons license allows readers to download this work and share it with others as long as the authoriscredited. Thecontentofthisworkcannotbemodifiedinanywayorusedcommercially. BOARDOFEXAMINERS THISTHESISHASBEENEVALUATED BYTHEFOLLOWINGBOARDOFEXAMINERS: Mrs.SylvieRatté,ThesisSupervisor Départementdegénielogicieletdestechnologiesdel’information,Écoledetechnologie supérieure M.MohamedCheriet,PresidentoftheBoardofExaminers Départementdegéniedelaproductionautomatisée,Écoledetechnologiesupérieure Mr.ChristianDesrosiers,Memberofthejury Départementdegénielogicieletdestechnologiesdel’information,Écoledetechnologie supérieure Mrs.LouiseLaforest,ExternalExaminer Départementd’informatique,UniversitéduQuébecàMontréal THISTHESIS WASPRESENTEDANDDEFENDED INTHEPRESENCEOFABOARDOFEXAMINERSANDTHEPUBLIC ON"OCTOBER20,2017" ATÉCOLEDETECHNOLOGIESUPÉRIEURE FOREWORD This Ph.D. thesis was written during the period from winter 2015 until summer 2017. This a thesisbasedonarticlesrequiredfortheculminationofthePh.D.programinengineering(profile appliedresearch). My interest in the field of outlier detection originated due to my participation in Kaggle com- petitions,whichgoalistobuildthebestpossiblemodelforthedatasetathand. Thesourcesof thedatavariedwidelydependingontheapplicationdomain,butwithsomerecurrentproblems like unbalanced data, noisy attributes and presence of outliers; these outliers could represent only noise but also it could be a valid and even interesting observation. After searching in theliteratureforapproachesforoutlierdetection,iobservedthatdespitetheimportanceofthe fieldtherewasalackofthesekindofapproaches,thisscarcitywasmoreevidentintheensem- ble setting. Therefore, i realized that an advancement on this field could provide researchers and practitioners in different domains with faster, more accurate and robust tools to reveal the outlierbehaviorhiddeninthedata. Accordingly,theintentofthisthesisistodesignanensembleapproachforoutlierdetectionthat improves detection rate of a single algorithm while maintaining a lower execution time when comparedwithsimilarapproachespresentintheliterature. Moreover,thisapproachshouldbe abletodetectoutliershiddendeepinsidethedimensionaltyofthedata. This thesis encloses a succinct study of the outlier detection field, besides it addresses the im- pact that different distance measures have on an outlier detection algorithm or on an ensemble of these; based on which it proposes two unsupervised ensemble approaches for the detection ofoutlyingobservations. ACKNOWLEDGEMENTS IexpressmydeepestgratitudetoProf. SylvieRatté,mythesisdirector,whowithexpertiseand patienceguidedmeintotheintricateavenuesofdataminingandmachinelearning. I thank to the board of examiners for accepting to review my thesis and providing me with valuable comments and suggestions. I wish to acknowledge Prof. Christian Desrosiers and Prof. Luc Duong who actively and patiently gave me invaluable feedback either in the form of comments after a presentation or by participating in the different evaluation stages of my studies. I also thank all my colleagues from LINCS: Alpa Shah, Edgar García, Erick Velazquez, Laura Hernandez , Otilia Alejandro, Ruth Reategui and Kuldeep Kumar. Their constant feedback on mywritingprocessleftadeepinfluenceinmyprofessionalwritingstyle. I also express my gratitude to my family: Fabiola Magallanes and Sophie Pasillas. Their supportandcompanywascriticalandallowedmetofocusonmyPh. D.defense. Iwouldalso liketothankmyparentsRamónPasillasandHerlindaDíazbytheir,almostblind,trust. I like to acknowledge the financial support of CONACYT México that made this project pos- sible. Finally, i express my gratitude to the Universidad Autónoma de Zacatecas by their trust andsupportduringtheselastyears. SURL’AMÉLIORATIONDELACOMPLEXITÉTEMPORELLEETDUTAUXDE DÉTECTIONDESDONNÉESABERRANTES:UNEPERSPECTIVE D’UTILISATIONDESMÉTHODESNONSUPERVISÉESFONDÉESSURLES ENSEMBLES JoséRamónPASILLASDÍAZ RÉSUMÉ Cettethèseprésentedeuxalgorithmesnonsuperviséspourdétecterdesdonnéesaberrantesdont le comportement est dissimulé dans des sous-espaces ou ne peut être identifié par l’utilisation d’un seul détecteur. Plus spécifiquement, nous examinons trois aspects : premièrement, la dif- ficulté d’un seul détecteur à identifier différents types de valeurs aberrantes; deuxièmement, la propension des valeurs aberrantes intéressantes à se cacher dans des sous-espaces à faible dimension; troisièmement, l’impact des mesures de distance sur le processus de détection des valeurs aberrantes. Le but de cette thèse est d’améliorer notre compréhension des données dont le comportement aberrant n’est pas apparent, en utilisant des algorithmes simples de dé- tectiondesvaleursaberrantes. Enconséquence,nousavonsabordétroisproblèmesspécifiques. D’abord,nousproposonsuneméthodebaséesurunensemblededifférentstypesdedétecteurs dont les poids sont attribués de manière non supervisée. Ensuite, nous proposons un ensemble de détecteurs permettant d’identifier les observations dont le comportement aberrant est iden- tifiable uniquement dans des sous-espaces spécifiques. Finalement, nous avons développé un schéma permettant de comprendre comment un seul détecteur ou un ensemble de détecteurs est influencé par la sélection d’une métrique de distance et son interaction avec différentes dimensions,taillesdedonnées,paramètresoucomposantsd’ensemble. Il existe de nombreux algorithmes permettant de détecter les valeurs aberrantes. Cependant, les approches fondées sur des ensembles non supervisés sont relativement limitées en nombre et sont principalement axées vers la détection d’un type spécifique de valeurs aberrantes. En conséquence,notrepremierobjectifestdedétecter,demanièrenonsupervisée,untypedistinct d’observationspériphériques. Nousproposonsuneapprochecapabled’utiliserlasortiededif- férents types de détecteurs, en attribuant des poids spécifiques à chaque détecteur en fonction d’uneévaluationinterne(nonsupervisée)delacapacitédechaquealgorithmeàtraiterunesérie de données spécifiques. De plus, cette approche attribue un deuxième poids à chaque obser- vation afin d’augmenter l’écart entre les valeurs aberrantes et les valeurs induites, améliorant ainsiletauxdedétectiondesvaleursaberrantes. Laprincipalecontributiondecetravailestun ensemble de détecteurs, dont les composants peuvent être basés sur des hypothèses adaptées, avecuntauxdedétectiondesvaleursaberrantesamélioréparrapportauxapprochessimilaires pour la détection des valeurs aberrantes. Comme c’est le cas pour plusieurs méthodes dans la littérature, notre approche présente un temps de traitement linéairement dépendant du nombre decomposantesdansl’ensemble. La deuxième partie de cette thèse se concentre sur la détection d’un type complexe de valeurs aberrantes, connu dans la littérature comme des valeurs aberrantes intéressantes; celles-ci ne X sont détectables que dans des sous-espaces spécifiques, contrairement aux valeurs aberrantes simples qui sont détectables dans l’espace complet. Notre première approche précédente étant incapablededétecterenuntempsacceptablecetypedevaleursaberrantes,notredeuxièmeob- jectifconcernedoncladétectiondevaleursaberrantesdedimensionsinférieuresdansuntemps efficaceentermesdecalcul. Nousproposonsiciunensemblenonsupervisébasésurdifférents sous-espaces et sous-échantillons de données qui fournit non seulement un taux de détection plus élevé, mais qui s’avère aussi plus efficace que les approches d’ensemble similaires et, dans certains cas, supérieur au taux de détection des algorithmes spécifiquement adaptés aux données. Les principales contributions de ce travail sont la possibilité de détecter des valeurs aberrantesdedimensionsinférieuresetuntempsdetraitementamélioré. La troisième partie de cette thèse étudie les interactions entre la métrique de distance choisie, les paramètres des algorithmes, la taille des données, la dimensionnalité et le nombre de com- posantes dans l’ensemble. Par conséquent, notre troisième objectif est d’améliorer notre com- préhensiondesmultiplesfacteursinfluençantunalgorithmededétectiondesvaleursaberrantes. Unensembled’expériencesaétéconçupourévalueràlafoisletauxdedétectionetletempsde traitement. Lesexpériencescouvrentunlargeéventaildescénariosdedonnéessynthétiqueset réelles. Nos expériences de données synthétiques permettent des perturbations dans la taille et la dimensionnalité des données, alors que les données réelles permettent d’évaluer et de varier les paramètres d’un algorithme. À notre connaissance, il s’agit de la première évaluation, prenant en compte un ensemble complet de facteurs, principalement les mesures de distance, de l’influence de ces variantes sur l’efficacité d’un détecteur de valeurs aberrantes. Les ré- sultats obtenus dans cette étude peuvent s’avérer une étape clé pour développer de nouvelles approchesfondéessurdesensemblesouencorepoursélectionnerlesparamètresadéquatsdans lesapprochesexistantes. Motsclés: Valeursaberrantes,ensemble,apprentissagenonsupervisé,donnéesnonbalancées

Description:
Intrusion detection system. • Credit card Interesting sensor events. • Manufacturing line fault detection. • Satellite image detection. • Medical diagnosis. • Law enforcement. • Earth science. There are different surveys in outlier detection (Aggarwal, 2013a; Zimek et al., 2012; Hodge
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.