Datenqualität in Regressionsproblemen TechnischerBericht,Version1.0 WolfgangDoneit1,RalfMikut1,MarkusReischl1 1KarlsruherInstitutfürTechnologie,InstitutfürAngewandteInformatik E-Mail: [email protected],[email protected],[email protected] 1 Motivation DatenbasierteModellemitreellwertigemAusgangwerdenalsStellvertreter-ModelleinOptimierungsprob- 7 lemen, für modellprädiktive Regelungen, Zeitreihenprognosen u.v.m. verwendet. Wir bezeichnen solche 1 0 Modelle als Regressionen bzw. Regressionsmodelle1. Regressionsmodelle werden z.B. mit Hilfe der aus 2 derStatistikbekanntenmultilinearenRegressionoderKünstlichenNeuronalenNetzenerstellt.ZurModell- bildungstehensogenannteDatentupelalsLerndatenzurVerfügung,diejeweilseinemVektormitEingangs- n a dateneinenskalarenWertderZielgrößezuordnen. ZielderRegressionistdieAbbildungdesfunktionalen J ZusammenhangszwischenEingangsgrößenundZielgröße. 6 InderModellbildungwirdeinegeeigneteModellstruktur,bzw. Modellkomplexitätgesucht,undihrefreien 1 Parameter werden an die Daten angepasst. In den meisten Fällen wird dazu die Methode der kleinsten ] Fehlerquadrate verwendet. Außerdem gibt es Erweiterungen der Methode der kleinsten Fehlerquadrate, L um verschiedenen Einschränkungen in der Datenqualität gerecht zu werden. Beispiele für bekannte Ein- M schränkungeninderDatenqualitätinRegressionsproblemensindAusreißer[1],Heteroskedastizität[2,3], . Kollinearität[4,5]undfehlerbehafteteEingangsgrößen[6]. t a t Regressionen werden zunehmend auf Datensätzen angewendet, deren Eingangsvektoren nicht durch eine s statistischeVersuchsplanung[7]festgelegtwurden2.StattdessenwerdendieDatenbeispielsweisedurchdie [ passiveBeobachtungtechnischerSystemegesammelt. DamitbildenbereitsdieEingangsdatenPhänomene 1 desSystemsabundwidersprechenstatistischenVerteilungsannahmen. DieVerteilungderEingangsdaten v hatEinflussaufdieZuverlässigkeiteinesRegressionsmodells. WirstellendeshalbBewertungskriterienfür 2 4 einigetypischePhänomeneinEingangsdatenvonRegressionenvorundzeigenihreFunktionalitätanhand 3 simulierterBenchmarkdatensätze. 4 0 . 1 2 Methoden 0 7 1 2.1 Allgemeines : v i IndenfolgendenAbschnittenwerdenBewertungskriterienvorgestellt,diesichausschließlichaufdieuni- X undbivariatenVerteilungenderEingangsdatenbeziehenundnichtdieZielgrößeberücksichtigen.Siequan- r a tifizierenverschiedenePhänomeneindenEingangsdatenundsinddaheralsErgänzungzurherkömmlichen MerkmalsbewertungfürRegressionsmodellezuverstehen. AufmultivariateVerfahrenwirdaufgrunddes Fluchs der Dimensionalität und zu Gunsten der Interpretierbarkeit der Kriterien verzichtet. Die quan- tifizierten Einschränkungen der Datenqualität sind damit in Histogrammen und Streuwolkendiagrammen zuerkennen. Andersalsdiein[8]vorgestelltensogenannten"‘Scagnostics"’werdenindenhiervorgestell- tenBewertungskriterienkeineMaßeausderGraphentheorieverwendet. AußerdemliegtderSchwerpunkt aufPhänomenen,dieimKontextderRegressionennützlichundinterpretierbarsind. 2.2 BegriffeundSymbole Stehen N Datentupel als Lerndaten zur Verfügung, die jeweils einem p-dimensionalen Eingangsvektor (mitdenAusprägungenfürdieEingangsgrößenx ,...,x )einenskalarenWertderZielgrößeyzuordnen, 1 p 1aufdieBegriffsdefinitionderRegressionwirdindiesemBeitragnichtweitereingegangen,derBegriffdientzunächstlediglich derAbgrenzungzuKlassifikatorenmitnominalskaliertemAusgang. 2DieVersuchsplanungstellteinegleichmäßigeVerteilungderEingangsdatensicher,umalleZuständeeinesbetrachtetenSystems zuerfassen. dann sind die Eingangsdaten gegeben als Datenmatrix XN×p, wobei jede Zeile einem Eingangsvektor xT,i=1,...,N entspricht. i Die Bewertungskriterien liegen zur besseren Interpretierbarkeit im Intervall [0,1]. Ein Wert nahe 0 ist ein Indikator für ein Problem in der Datenqualität. Bewertungskriterien werden mit q bezeichnet und beziehensichgemäßihrerIndizierungaufverschiedenePhänomeneindenDatensowieaufeineeinzelne Eingangsgröße (q ,j = 1,...,p) oder auf eine bivariate Projektion der Daten auf zwei Eingangsgrößen xj (q ,j = 1,...,p;l = 1,...,p;j (cid:54)= l). Zur Gesamtbewertung einer Eingangsgröße oder zur Gesamt- xj,xl bewertung von Datensätzen mit mehr als 2 Eingangsgrößen können die Bewertungen aller einzelner Ein- gangsgrößenundallerbivariaterProjektionenaggregiertwerden. 2.3 Bewertungskriterien 2.3.1 Korrelationen KorrelierenEingangsgrößendesDatensatzes,könnendieeinzelnenEingangsgrößenunivariatgleichverteilt vorliegen, während nur ein kleiner Teil des mehrdimensionalen Eingangsraums mit Daten abgedeckt ist. Eine Korrelation zwischen Eingangsgrößen entspricht einer Redundanz für die Abbildung der Zielgröße, weshalb die Eingangsgrößen für die Modellbildung selektiert oder transformiert und reduziert werden können(PCA-Regression3, PLS-Regression4). AlsHilfsgröße, umDatenqualitätbezüglichKorrelationen (engl. Correlation)zuquantifizieren,nutzenwirdenempirischenKorrelationskoeffizientenr . Daraus xj,xl berechnetsichdasBewertungskriterium q =1−|r |. (1) Corr,xj,xl xj,xl 2.3.2 Cluster LiegendieDateninClusternvor, bietetsichdasBildenvonlokalenTeilmodellenan. DieBewertung, ob undwievieleClusterineinemDatensatzvorliegen,isteinnichttrivialesProblemimData-Mining-Kontext. In [9] wird die Multimodalität der Häufigkeitsverteilung der paarweisen Distanzen zwischen den Daten- tupeln als visuelles Kriterium verwendet. Wir quantifizieren die Multimodalität mit Hilfe des Hartigans DIP Test of Unimodality [10]. Der DIP Test liefert einen DIP-Index v und einen p-Wert p , die als DIP DIP IndikatorenfürBimodalität,respektivedasVorliegenvonClustern,verwendetwerden[11]. WirstellendasBewertungskriterium q =max(q ,q ) (2) Cluster,xj,xl vDIP,xj,xl pDIP,xj,xl mit 1 q =1− (3) vDIP,xj,xl 1+exp(cid:0)−a (v −τ )(cid:1) 1 DIP,xj,xl Cluster,1 und 1 q = (4) pDIP,xj,xl 1+exp(cid:0)−a (p −τ )(cid:1) 2 DIP,xj,xl Cluster,2 vor.τ undτ sindfreiparametrierbar.AusdenRandbedingungenq (v =0)≈1 Cluster,1 Cluster,2 vDIP,xj,xl DIP,xj,xl undq (p =0)≈0leitenwirdieParameter pDIP,xj,xl DIP,xj,xl ln|99| ln|99| a = und a = (5) 1 τ 2 τ Cluster,1 Cluster,2 ab. Bild1zeigtdenVerlaufvonq undq fürverschiedeneWertevonτ undτ . vDIP,xj,xl pDIP,xj,xl Cluster,1 Cluster,2 Als Standardwertewerden τ = 0.025 und τ = 0.5 vorgeschlagen. Die Sigmoidalfunktionen Cluster,1 Cluster,2 werdenverwendet,umdasBewertungskriteriumindasinterpretierbareEinheitsintervallzuüberführen. 3PCA=Hauptkomponentenanalyse 4PLS=PartialLeastSquares 1 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 0 0.02 0.04 0.06 0.08 0 0.5 1 1.5 (a) (b) Bild1: VerlaufderSigmoidalfunktionenfürdasBewertungskriteriumfürCluster 2.3.3 Konfigurationen EingangsgrößeneinesDatensatzeskönnensichdarinunterscheiden,wievieleunterschiedlicheAusprägun- genvonihnenvorliegen. DurchsehrwenigeAusprägungeneinerEingangsgrößeimVerhältniszuanderen entstehenCluster. Seic dieAnzahlunterschiedlicherAusprägungenvonx ,dannberechnetsichdasBewertungskriterium j j c q = j ,l=1,...,p. (6) Config,xj max c l l EinWertnahe0kannaufordinal-odernominalskalierteEingangsgrößenhinweisen. Gleichmäßigwenige AusprägungenallerEingangsgrößenlassenaufeinestatistischeVersuchsplanungschließenundsindnicht alsEinschränkunginderDatenqualitätzubewerten. DaherwirddasBewertungskriteriuminAbhängigkeit zumMaximalwertunivariaterAusprägungen(max c )berechnet. l l 2.3.4 Outlier HebelpunktewerdenDatentupelgenannt,dieaufgrundihrerLageimEingangsraumeinengroßenEinfluss auf die Modellbildung haben. Es handelt sich dabei um sogenannte Ausreißer (engl. Outlier). Generell werdenAusreißeralsDatentupelbeschrieben,diesichvomGroßteilderanderenDatentupeleinesDaten- satzesdeutlichunterscheiden. DieDetektionvonAusreißernistabhängigvonderjeweiligenAnwendung. Eine Übersicht über gängige Ansätze findet sich in [12, 13]. Bei Ausreißerdetektionen stellt sich anwen- dungsspezifischdieFrage,abwanneinDatentupeleinAusreißerist,undobGruppenvonDatentupeln,die entsprechendweitentferntvomGroßteilderDatenliegen,eineGruppevonAusreißerndarstelltoderbere- its ein Datencluster, das nicht von der Modellbildung auszuschließen ist. Für die Bewertung hinsichtlich Ausreißer beinhalte dN×1 die Distanz jedes Datentupels zu seinem k-ten nächsten Nachbarn unter k-NN,xj,xl Berücksichtigung der Eingangsgrößen x und x . Der Parameter k bestimmt, wie viele Datentupel eine j l GruppevonAusreißernbeinhaltenkann,damitsiealssolcheerkanntwird. Weiterhinseid das k-NN,xj,xl,0.9 0.9-Quantilvond . DasQuantillässtsichalsmaximalzulässigerAnteilderDatentupelverstehen, k-NN,xj,xl deralsAusreißererkanntwerdenkann. WirquantifizierenAusreißeranhanddermaximalenDistanzeines Datentupelszuseinemk-tenNachbard :Seiν = dk-NN,xj,xl,max,dannwirdν k-NN,xj,xl,max Outlier,xj,xl dk-NN,xj,xl,0.9 Outlier,xj,xl miteinerSigmoidalfunktiongemäß 1 q =1− ,τ >1 (7) Outlier,xj,xl 1+exp−a (ν −τ ) Outlier 3 Outlier,xj,xl Outlier in ein Bewertungskriterium überführt. τ ist frei parametrierbar und bestimmt wie empfindlich die Outlier Ausreißerdetektionist.AusderRandbedingungq (ν =1)≈1leitenwirdenParameter Outlier,xj,xl Outlier,xj,xl ln99 a =− (8) 3 1−τ Outlier 1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 Bild2: VerlaufderSigmoidalfunktionfürdasBewertungskriteriumfürAusreißer ab. Bild 2 zeigt den Verlauf der Gütefunktion für verschiedene Werte von τ . Als Standardwert wird Outlier τ = 4 vorgeschlagen. Die Sigmoidalfunktion wird verwendet, um das Bewertungskriterium in das Outlier interpretierbareEinheitsintervallzuüberführen. 2.3.5 Orthogonalität Orthogonalität beschreibt das Gegenteil von Korrelationen, wodurch für Regressionen keine Daten vor- liegen, die Wechselwirkungen zweier Eingangsgrößen auf die Zielgröße beschreiben. Bild 3 veran- schaulichtStreuwolkendiagrammemitverschiedenerAusprägungvonOrthogonalität. BeistarkerOrthog- onalitätistnureingeringerTeildeszweidimensionalenEingangsraumsmitDatenabgedeckt,obwohlHis- togramme beider Eingangsgrößen auf eine ganzheitliche Abdeckung schließen lassen. Da bisher keine KenngrößenOrthogonalitätzuverlässigerkennenkönnen,wirdimfolgendenAbschnitteinBewertungskri- terienvorgestellt,ummiteinigenHilfsgrößeneinMaßfürOrthogonalitätbereitzustellen. q =0.01 q =0.62646 q =0.92634 Ortho Ortho Ortho 1 1 1 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0 0 0 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 (a) (b) (c) Bild3: StreuwolkendiagrammemitabnehmenderOrthogonalität MitdenIndexmengen I ={1,...,N}, (9) X I ={i∈I |x ∈[c−τ ,c+τ ]}und In X i,l Ortho Ortho I =I \I Out X In ergebensichdiemittlerenabsolutenAbweichungen (cid:118) (cid:117) (cid:32) (cid:33) (cid:117) 1 (cid:88) 1 (cid:88) eOut,j =(cid:116)|I | xi,j − |I | xz,j und (10) Out Out i∈IOut z∈IOut (cid:118) (cid:117) (cid:32) (cid:33) (cid:117) 1 (cid:88) 1 (cid:88) eIn,j =(cid:116)|I | xi,j − |I | xz,j In In i∈IIn z∈IIn unddasBewertungskriterium e q =min Out,j. (11) Ortho,xj,xl c eIn,j τ ist ein empirisch zu wählender Parameter, der die Empfindlichkeit des Bewertungskriteriums bes- ortho timmt. FürdiefolgendenBeispieleseiτ =0.1. Bild4veranschaulichtdieParameterundKenngrößen ortho c,τ ,e unde . Ortho Out,j In,j e out,1 e in,1 c τ Ortho Bild4: KenngrößenzurBerechnungdesBewertungskriteriumsfürOrthogonalität 3 Beispiele WirhabenBenchmark-Datensätzeerstellt,umdieEinschränkungenderDatenqualitätzusimulieren. Bild 5zeigtdiesechsBenchmark-DatensätzemitjeweilszweiEingangsgrößenx undx . 1 2 1 1 1 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0 0 0 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 (a)Vollständigkeit (b)Korrelation (c)Cluster 1 1 1 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0 0 0 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 (d)Konfiguration (e)Ausreißer (f)Orthogonalität Bild5: SimulierteBenchmark-Datensätze Tabelle1zeigtdieBewertungskriterienfürdieBenchmark-Datensätze. DieunterschiedlichenPhänomene werden getrennt voneinander identifiziert. Lediglich Korrelationen werden auch in zwei anderen Daten- sätzendetektiert. DasKriteriumq indiziertaußerdemClusterinX , waszuerwartenwar. Cluster Configurations KonfigurationensindauchalsClusterinterpretierbar. Datensatz q Q q q q Corr,x1,x2 Cluster,x1,x2 Config,min Outlier,x1,x2 Ortho,x1,x2 X 0.99 0.99 1.00 0.98 1.00 a X 0.00 0.99 1.00 0.94 1.00 b X 0.98 0.01 1.00 0.63 1.00 c X 0.94 0.03 0.00 0.96 1.00 d X 0.49 0.98 1.00 0.00 0.73 e X 0.39 0.99 1.00 0.97 0.01 f Tabelle 1: Die vorgestellten Kriterien für simulierte Benchmarkdatensätze. Die Indices der Datensätze beziehensichaufBild5. 4 Diskussion und Ausblick Die Untersuchung der Eingangsdaten ist Bestandteil eines jeden Data-Mining-Prozesses zur Bildung von KlassifikatorenundRegressionen.DieAutomatisierungdervisuellenUntersuchungderDatenentlastetden Anwender bei Datensätzen und Systemen mit vielen Eingangsgrößen. Die vorgestellten Bewertungskri- terien sind in der Lage, in dafür simulierten Benchmark-Datensätzen die unterschiedlichen Phänomene zu erkennen. Eine Implementierung der Bewertungskriterien findet sich in der Open-Source-MATLAB- ToolboxDaMoQ.EineBeschreibungderToolboxfindetsichin[14]. DieToolboxumfasstaußerdemMaße zurModellvalidierung[15].GeplantsindzudemErweiterungen,umsystematischVorwissenindieModell- bildungzuintegrieren. DieIntegrationvonVorwissenstellteineMöglichkeitdar,schlechteDatenqualität zukompensieren[16,17]. References [1] Rousseeuw, P. J.; Leroy, A. M.: Robust Regression and Outlier Detection, Bd. 589. John Wiley & Sons. 2005. [2] Nealen, A.: An as-short-as-possible Introduction to the Least Squares, Weighted Least Squares and Moving Least Squares Methods for Scattered Data Approximation and Interpolation. URL: http://www.nealen.com/projects130(2004),S.150. [3] Koenker,R.;Bassett,G.: RobustTestsforHeteroscedasticityBasedonRegressionQuantiles. Econo- metrica50(1982)1,S.43–61. [4] Geladi,P.;Kowalski,B.R.:PartialLeast-SquaresRegression:ATutorial. Analyticachimicaacta185 (1986),S.1–17. [5] Jolliffe,I.: PrincipalComponentAnalysis. WileyOnlineLibrary. 2002. [6] VanHuffel,S.;Vandewalle,J.: TheTotalLeastSquaresProblem: ComputationalAspectsandAnaly- sis,Bd.9. Siam. 1991. [7] Bandemer, H.: Theorie und Anwendung der optimalen Versuchsplanung, Bd. 1. Akademie-Verlag. 1977. [8] Wilkinson,L.;Anand,A.;Grossman,R.L.:Graph-TheoreticScagnostics. In: INFOVIS,Bd.5,S.21. 2005. [9] Steinbach,M.;Ertöz,L.;Kumar,V.: TheChallengesofClusteringHighDimensionalData. In: New DirectionsinStatisticalPhysics,S.273–309.Springer. 2004. [10] Hartigan,J.A.;Hartigan,P.: TheDipTestofUnimodality. TheAnnalsofStatistics(1985),S.70–84. [11] Freeman,J.B.; Dale,R.: AssessingBimodalitytoDetectthePresenceofaDualCognitiveProcess. Behaviorresearchmethods45(2013)1,S.83–97. [12] Aggarwal,C.C.;Yu,P.S.: OutlierDetectionforHighDimensionalData. In: Proc.,ACMSIGMOD InternationalConferenceonManagementofData,S.37–46.SantaBarbara,USA. 2001. [13] Rousseeuw,P.J.;VanZomeren,B.C.:UnmaskingMultivariateOutliersandLeveragePoints.Journal oftheAmericanStatisticalAssociation85(1990)411,S.633–639. [14] Doneit,W.;Mikut,R.;Gröll,L.;Pychynski,T.;Reischl,M.: DaMoQ:EineOpen-Source-MATLAB- ToolboxzurBewertungvonDaten-undModellqualitätinRegressionen. at-Automatisierungstechnik (2017). (accepted). [15] Doneit, W.; Mikut,R.; Pychynski, T.; Reischl,M.: Abstands-undMonotoniemaßefürRegressions- modellemitheterogenenLerndaten. In: Proc.,24.WorkshopComputationalIntelligence,Dortmund, S.1–16.KITScientificPublishing. 2014. [16] Doneit,W.;Mikut,R.;Gröll,L.;Reischl,M.:VorwisseninFunktionsapproximationendurchSupport- Vektor-RegressionbeischlechterDatenqualität. In: Proc.,25.WorkshopComputationalIntelligence, Dortmund,S.163–181.KITScientificPublishing. 2015. [17] Doneit,W.;Mikut,R.;Gröll,L.;Reischl,M.: FragebogenzurErfassungvonVorwisseninFunktion- sapproximationen(Version1.0). Techn.Ber.,InstitutfürAngewandteInformatik,KIT. 2015.