ebook img

Discovery of Ill–Known Motifs in Time Series Data (Technologien für die intelligente Automation, 15) PDF

215 Pages·2021·5.547 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Discovery of Ill–Known Motifs in Time Series Data (Technologien für die intelligente Automation, 15)

Technologien für die intelligente Automation D ep Technologies for Intelligent Automation p e Sahar Deppe Discovery of Ill-Known Motifs in D is c o v e r y o f Time Series Data Ill- K n o w n M o t if s in T im e S e r ie s D a t a ¨ Technologien fur die intelligente Automation Technologies for Intelligent Automation Band 15 Reiheherausgegebenvon inIT-InstitutfürindustrielleInformationstechnik,Lemgo,Deutschland Ziel der Buchreihe ist die Publikation neuer Ansätze in der Automation auf wis- senschaftlichem Niveau, Themen, die heute und in Zukunft entscheidend sind, für die deutsche und internationale Industrie und Forschung. Initiativenwie Industrie 4.0, Indus- trialInternetoderCyber-physicalSystemsmachendiesdeutlich.DieAnwendbarkeitund der industrielle Nutzen als durchgehendes Leitmotiv der Veröffentlichungen stehen dabei imVordergrund.DurchdieseVerankerunginderPraxiswirdsowohldieVerständlichkeit als auch die Relevanz der Beiträge für die Industrie und für die angewandte Forschung gesichert. Diese Buchreihe möchte Lesern eine Orientierung für die neuen Technolo- gien und deren Anwendungen geben und so zur erfolgreichen Umsetzung der Initiativen beitragen. Weitere Bände in der Reihe http://www.springer.com/series/13886 Sahar Deppe Discovery of Ill-Known Motifs in Time Series Data SaharDeppe FraunhoferIOSB-INA Lemgo,Germany Dissertation,FacultyofElectricalEngineering,ComputerScience,andMathematics,Universityof Paderborn,2020 ISSN2522-8579 ISSN2522-8587 (electronic) TechnologienfürdieintelligenteAutomation ISBN978-3-662-64214-6 ISBN978-3-662-64215-3 (eBook) https://doi.org/10.1007/978-3-662-64215-3 ©TheEditor(s)(ifapplicable)andTheAuthor(s),underexclusivelicensetoSpringer-VerlagGmbH,DE,part ofSpringerNature2022 Thisworkissubjecttocopyright.AllrightsaresolelyandexclusivelylicensedbythePublisher,whetherthewhole orpartofthematerialisconcerned,specificallytherightsoftranslation,reprinting,reuseofillustrations,recitation, broadcasting,reproductiononmicrofilmsorinanyotherphysicalway,andtransmissionorinformationstorage andretrieval,electronicadaptation,computersoftware,orbysimilarordissimilarmethodologynowknownor hereafterdeveloped. Theuseofgeneraldescriptivenames,registerednames,trademarks,servicemarks,etc.inthispublicationdoes notimply,evenintheabsenceofaspecificstatement,thatsuchnamesareexemptfromtherelevantprotective lawsandregulationsandthereforefreeforgeneraluse. Thepublisher,theauthorsandtheeditorsaresafetoassumethattheadviceandinformationinthisbookare believedtobetrueandaccurateatthedateofpublication.Neitherthepublishernortheauthorsortheeditorsgive awarranty,expressedorimplied,withrespecttothematerialcontainedhereinorforanyerrorsoromissionsthat mayhavebeenmade.Thepublisherremainsneutralwithregardtojurisdictionalclaimsinpublishedmapsand institutionalaffiliations. ResponsibleEditor:AlexanderGruen ThisSpringerViewegimprintispublishedbytheregisteredcompanySpringer-VerlagGmbH,DEpartofSpringer Nature. Theregisteredcompanyaddressis:HeidelbergerPlatz3,14197Berlin,Germany v Abstract By continuous advancements in several fields of science and technology during the last decades, data mining and machine learning tasks have gained noticeable interest. The goal of these domains is to derive meaningful information from time series data by approaches such as clustering, classification, or motif discovery. Motifdiscoveryidentifiesfrequentunknownrepeatedsequencesinatimeseriesand determines meaningful, new, and unknown information without any prior knowl- edge. Typical objections regarding motif discovery are: defining the length of mo- tifs, large computational complexity, determining a similarity threshold, and motif identification in streaming data. Besides these difficulties, a further challenge is to determine ill-known motifs. Ill-known motifs are previously unknown patterns transformed by mappings such as translation, uniform scaling, reflection, squeeze, andstretch. Additionally,theymaybecoveredwithnoiseorhavevariablelengths. The analysis of state of the art reveals that only a few motif discovery algorithms are able to detect such motifs. This dissertation provides a method which is called ill-Known motIf discovery in TimesEriesData (KITE).KITEdividestheinputdataintosubsequencesofequal and variable lengths and forwards them to a novel representation method in order to approximate the data without losing information. Thus, the Analytic Complex Quad Tree Wavelet Packet Transform (ACQTWP) is proposed to facilitate the detection of motifs that are transformed by translation, stretch, and squeeze map- pings, and also motifs covered with noise. After that, to reduce the size of data and identify motifs with variable lengths and motifs altered by uniform scaling and reflection mapping, feature extraction is performed. KITE assigns six fea- tures, namely, the first four statistical moments and the maximum and minimum value of the phase of the wavelet coefficients. Finally, the similarity between all subsequences is obtained and compared with a similarity threshold to determine motifs. In contrast to other methods, KITE automatically assigns this threshold in its similarity measurement step to reduce the number of false-negatives. From all the detected motifs, KITE excludes the misleading motifs and specifies the representative ones. Besides KITE’s contribution to time series motif discovery, new avenues for the signal and image processing domain are explored and created. The proposed ACQTWP transform applies to motif discovery as well as to several signal and image processing tasks. The efficiency of KITE is demonstrated with data sets from various domains and compared with state-of-the-art algorithms, where KITE yields the best outcomes. vi Kurzfassung DurchkontinuierlicheWeiterentwicklungenindiversenBereichenderWissenschaft und Technik w¨ahrend der letzten Jahrzehnte haben Data Mining und maschinelle LernverfahrendeutlichanInteressegewonnen. ZieldieserDoma¨nenistdieAbleitung von aussagekr¨aftigen Informationen aus Zeitreihendaten durch Ansa¨tze wie Clus- tering, Klassifizierung oder Motif-Erkennung. Die Motif-Entdeckung identifiziert h¨aufige, unbekannte, wiederkehrende Sequenzen in einer Zeitreihe und ermittelt ohne Vorkenntnisse sinnvolle, neue und unbekannte Informationen. Typische Hu¨rden der Motif-Entdeckung sind: die Definition der La¨nge von Motifs, große Rechenkomplexit¨at, Bestimmung einer A¨hnlichkeitsschwelle und die Motif- Identifikation in Streaming-Daten. Zusa¨tzlich zu diesen Hindernissen besteht eine weitere Herausforderung darin, Ill-Known Motifs zu bestimmen. Ill-konwn Mo- tifs sind bisher unbekannte Muster, die durch affine Abbildungen wie Translation, Skalierung,Reflexion,DehnungundStauchungtransformiertwerden. Daru¨berhin- ausk¨onnensiemitRauschenu¨berlagertseinodereinevariableLa¨ngenhaben. Eine AnalysedesStandsderTechnikzeigt,dassnurwenigeMotif-Erkennungsalgorithmen inderLagesind,solcheMotifszuerkennen. IndieserDissertationwirdeineMeth- ode vorgestellt, die als “ill-known motif discovery in time series data” (KITE) bezeichnet wird. KITE unterteilt die Eingabedaten in Teilsequenzen gleicher und variablerLa¨ngeundleitetdieseaneinneuartigesRepr¨asentationsverfahrenweiter, um die Daten ohne Informationsverlust zu approximieren. So wird das Ana- lytic Complex Quad Tree Wavelet Packet Transforms (ACQTWP) vorgeschlagen, um die Erkennung von Motifs zu erleichtern, die durch Translations-, Dehnung - und Stauchungsabbildungen transformiert werden, und auch von Motifs, die mit Rauschen bedeckt sind. Um die Datengr¨oße zu reduzieren, Motifs mit variabler L¨ange und durch Skalierungsmapping vera¨nderte Motifs zu identifizieren, wird an- schließend eine Merkmalsextraktion durchgefu¨hrt. KITE extrahiert sechs Merk- male, die ersten vier statistischen Momente sowie den Maximal- und Minimalwert der Phase der Wavelet-Koeffizienten. Schließlich wird die A¨hnlichkeit zwischen allen Untersequenzen ermittelt und mit einer A¨hnlichkeitsschwelle verglichen, um Motifs zu identifizieren. Im Gegensatz zu anderen Methoden vergibt KITE diesen Schwellenwert automatisch um die Anzahl der Falsch-Negativen zu reduzieren. Basierend auf allen erkannten Motifs, schließt KITE irrefu¨hrende Motifs aus und spezifiziert die repra¨sentativen Motifs. Neben dem Beitrag von KITE zur Entdeckung von Zeitreihenmotifs werden neue Wege auf dem Gebiet der Signal- und Bildverarbeitung erforscht und geschaffen. Die vorgeschlagene ACQTWP-Transformation ist sowohl fu¨r die Motifsuche als auch fu¨r diverse Signal- und Bildverarbeitungsaufgaben anwendbar. Die Effizienz vonKITEwirdanhandvonDatensa¨tzenausverschiedenenDom¨anendemonstriert und mit State-of-the-Art-Algorithmen verglichen, wobei KITE die besten Ergeb- nisse liefert. vii Acknowledgement Many hours and efforts have been invested in this work; nevertheless, it would not be possible without others’ support. I wish to express my sincere appreciation to my supervisor Prof. Dr.-Ing. Volker Lohweg at the Institute Industrial IT (inIT) for many scientific discussions and cooperation resulted in several publications. Without his guides and persistent help, completing this dissertation would not have been realized. Furthermore, I wish to express my deepest gratitude to my supervisor Prof. Dr. rer. nat. Eycke Hu¨llermeier at Paderborn University for his support, prompt feedback and helping me to achieve the goal of this work. I also would like to pay my special regards to Prof. Dr. rer. nat. Helene Do¨rksen and Natalia Moriz for valuable discussions on mathematical problems. I’m deeply indebted to Dr.-Ing. Uwe Mo¨nks for sharing his experiences and giving valuable advice. I’d also like to extend my gratitude to my colleagues and friends in the working group of image processing, pattern recognition, and sensor and information fusion attheresearchinstituteinIT.MyspecialthanksgotoMartynaBator,MarkFunk, AlexaderDicks(allinIT),andEugenGillichatCovernoGmbH,fortheirfriendship, cooperative work, and invaluable assistance during my study. I also thank the International Graduate School of Intelligent Systems in Automa- tionTechnology(ISA),whichisrunbytheFacultyofComputerScience,Electrical Engineering and Mathematics and the Faculty of Mechanical Engineering of the University of Paderborn and the Institute Industrial IT (inIT) of the OWL Uni- versity of Applied Sciences and Arts (TH OWL), for founding this dissertation. Most importantly, none of this could have happened without my parents, brother, and parents-in-law. They kept me going on and this work would not have been possible without their understanding, encouragement, and support. Finally, I wish to thank for the support and great love of my family, my husband, Jan; my son, Theo. I am extremely grateful to their sacrifices and patience that cannot be underestimated. Lemgo,December2020 SaharDeppe Contents Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Acknowledgement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii Nomenclature xii 1 Introduction 1 1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Goals of the Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Scope of the Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 Thesis’ Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2 Preliminaries 9 2.1 Time Series Signals . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Distance and Similarity Measure . . . . . . . . . . . . . . . . . . . . 11 2.3 Time Series Motif. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4 Wavelet Transformations. . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4.1 Dual Tree Complex Wavelet Transform (DTCWT) . . . . . . 14 2.4.1.1 Limitations and Deficiencies . . . . . . . . . . . . . 18 3 General Principles of Time Series Motif Discovery 21 3.1 Time Series Pre-Processing . . . . . . . . . . . . . . . . . . . . . . . 21 3.2 Time Series Representation . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.1 Invariant Transformations . . . . . . . . . . . . . . . . . . . . 23 Translation-Invariant Transformations . . . . . . . . . . . . . 24 Scaling-Invariant Transformations . . . . . . . . . . . . . . . 25 3.3 Time Series Distance and Similarity Measures . . . . . . . . . . . . . 26 3.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4 State of the Art in Time Series Motif Discovery 29 4.1 Motif Discovery Algorithms . . . . . . . . . . . . . . . . . . . . . . . 29 4.1.1 Time Complexity . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.1.2 Detecting Ill-Known Motifs . . . . . . . . . . . . . . . . . . . 39 4.2 Research Gaps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5 Distortion-Invariant Motif Discovery 45 5.1 KITE Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.2 Signal Pre-Processing for Motif Discovery . . . . . . . . . . . . . . . 48 5.2.1 Motif Length Definition . . . . . . . . . . . . . . . . . . . . . 48 ix x Contents 5.3 Invariant Time Series Representation . . . . . . . . . . . . . . . . . . 50 5.3.1 Analytic Complex Quad Tree Wavelet Packet Transform - (ACQTWP). . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5.3.1.1 InverseAnalyticComplexQuadTreeWaveletPacket Transform (IACQTWP). . . . . . . . . . . . . . . . 55 5.3.1.2 Properties and Characteristics . . . . . . . . . . . . 56 5.3.1.3 Selection of the Best Basis . . . . . . . . . . . . . . 61 5.4 Feature Extraction from Variable Scales . . . . . . . . . . . . . . . . 72 5.5 Threshold Determination for Similarity Detection . . . . . . . . . . . 75 5.6 Significant Motif Discovery . . . . . . . . . . . . . . . . . . . . . . . 79 5.6.1 Excluding Misleading Motifs . . . . . . . . . . . . . . . . . . 80 5.6.2 Representative Motifs . . . . . . . . . . . . . . . . . . . . . . 82 5.7 Time Complexity Analysis . . . . . . . . . . . . . . . . . . . . . . . . 83 5.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 6 Evaluation 89 6.1 Validation Principles . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 6.1.1 Feature Selection . . . . . . . . . . . . . . . . . . . . . . . . . 89 6.1.2 Quality Measures . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.2 Design of the Experiments . . . . . . . . . . . . . . . . . . . . . . . . 91 6.2.1 Test Cases. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6.2.1.1 Synthetic Data . . . . . . . . . . . . . . . . . . . . . 92 6.2.1.2 Real-World Data . . . . . . . . . . . . . . . . . . . . 93 6.3 Detection of Equal-Length Motifs . . . . . . . . . . . . . . . . . . . . 94 6.3.1 Equal-Length Motif Discovery on Synthesis Data . . . . . . . 94 6.3.2 Equal-Length Motif Discovery on Real-World Data . . . . . . 102 6.3.3 Equal-Length Motif Discovery Summary . . . . . . . . . . . . 108 6.4 Detection of Variable-Length Motifs . . . . . . . . . . . . . . . . . . 110 6.4.1 Variable-Length Motif Discovery on Synthesis Data . . . . . 110 6.4.2 Variable-Length Motif Discovery on Real-World Data . . . . 116 6.4.3 Variable-Length Motif Discovery Summary . . . . . . . . . . 119 6.5 KITE Robustness Toward Noise. . . . . . . . . . . . . . . . . . . . . 120 6.6 Scalability Experiments . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.7 Case Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 6.7.1 Anomaly Detection via Time Series Motif Discovery . . . . . 124 6.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 7 Conclusion and Outlook 127 7.1 Conclusion and Contributions . . . . . . . . . . . . . . . . . . . . . . 128 7.2 Perspectives and Future Directions . . . . . . . . . . . . . . . . . . . 130 8 Appendix A 133 8.1 Function and Signal Space . . . . . . . . . . . . . . . . . . . . . . . . 133 8.2 Transformations and Representation . . . . . . . . . . . . . . . . . . 133

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.