ebook img

Improved Classification Rates for Localized Algorithms under Margin Conditions PDF

134 Pages·2020·1.413 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Improved Classification Rates for Localized Algorithms under Margin Conditions

Ingrid Karin Blaschzyk Improved Classification Rates for Localized Algorithms under Margin Conditions Improved Classification Rates for Localized Algorithms under Margin Conditions Ingrid Karin Blaschzyk Improved Classification Rates for Localized Algorithms under Margin Conditions Ingrid Karin Blaschzyk Stuttgart, Germany Dissertation University of Stuttgart, 2019 D93 ISBN 978-3-658-29590-5 ISBN 978-3-658-29591-2 (eBook) https://doi.org/10.1007/978-3-658-29591-2 © Springer Fachmedien Wiesbaden GmbH, part of Springer Nature 2020 This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation, broadcasting, reproduction on microfilms or in any other physical way, and transmission or information storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now known or hereafter developed. The use of general descriptive names, registered names, trademarks, service marks, etc. in this publication does not imply, even in the absence of a specific statement, that such names are exempt from the relevant protective laws and regulations and therefore free for general use. The publisher, the authors and the editors are safe to assume that the advice and information in this book are believed to be true and accurate at the date of publication. Neither the publisher nor the authors or the editors give a warranty, expressed or implied, with respect to the material contained herein or for any errors or omissions that may have been made. The publisher remains neutral with regard to jurisdictional claims in published maps and institutional affiliations. This Springer Spektrum imprint is published by the registered company Springer Fachmedien Wiesbaden GmbH part of Springer Nature. The registered company address is: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany Danksagung An meinen Doktorvater Prof. Dr. Ingo Steinwart. Danke fu¨r deine Zeit und das Vertrauen, dass du in mich gesetzt hast. Danke, dass du mir so Vieles w¨ahrend meiner Promotion erm¨oglicht hast. Ich hatte durch Workshops, Summer Schools und Konferenzen die M¨oglichkeit, das Forscher-Dasein zu erleben und konnte mich durch die Teilnahme an Mentoring-Programmen nicht nur fachlich weiterentwickeln. Danke auch fu¨r die Unterstu¨tzung bei meinem Auslandsaufenthalt in Genua, Italien, durch den ich neuen Antrieb gewonnen habe. All dies ist nicht selbstverst¨andlich. An meine Gutachter Prof. Dr. Andreas Christmann und Prof. Dr. Philipp Hennig. Vielen Dank, dass Sie sich die Zeit genommen haben, um diese Arbeit zu lesen und zu bewerten. An die International Max Planck Research School for Intelligent Systems (IMPRS-IS). Danke fu¨r die Aufnahme in diese Research School und die M¨oglichkeit,michmitjungenForschernausunterschiedlichenFachrichtungen auszutauschen. An meine (ehemaligen) Kollegen des ISA & friends. Danke fu¨r diese wahnsinnig coole Zeit an der Uni und die gute Stimmung. Fu¨r zuku¨nftige Kollegen habt ihr die Latte hoch angesetzt. Danke Simon und Thomas fu¨r eure wertvollen Kommentare zu dieser Arbeit. An meine Freunde. Danke, dass ihr fu¨r mich da seid, auf euch konnte ich mich immer verlassen. Danke Iris, Julia, Maria und Sabrina fu¨r euer schnelles Korrekturlesen. Danke Jim fu¨r deinen LATEXSupport. An meine Familie. Papa, Mama, Opa, Oma, Cora und Oskar, danke fu¨r eure unglaubliche Unterstu¨tzung. Ich hatte bei euch immer einen Ort zum Erden. Contents 1. Introduction 1 2. Preliminaries 5 2.1. Introduction to Statistical Learning Theory . . . . . . . . . . 5 2.1.1. Losses and Risks . . . . . . . . . . . . . . . . . . . . . 5 2.1.2. Learning Methods . . . . . . . . . . . . . . . . . . . . 9 2.2. From Global to Localized SVMs . . . . . . . . . . . . . . . . 12 2.2.1. Kernels and RKHSs . . . . . . . . . . . . . . . . . . . 12 2.2.2. The Localized SVM Approach . . . . . . . . . . . . . 15 2.3. Advanced Statistical Analysis . . . . . . . . . . . . . . . . . . 18 2.3.1. Margin Conditions . . . . . . . . . . . . . . . . . . . . 18 2.3.2. General Oracle Inequalities . . . . . . . . . . . . . . . 29 3. Histogram Rule: Oracle Inequality and Learning Rates 35 3.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2. Statistical Refinement and Main Results . . . . . . . . . . . . 40 3.3. Comparison of Learning Rates . . . . . . . . . . . . . . . . . 53 4. Localized SVMs: Oracle Inequalities and Learning Rates 59 4.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.2. Local Statistical Analysis . . . . . . . . . . . . . . . . . . . . 63 4.2.1. Approximation Error Bounds . . . . . . . . . . . . . . 63 4.2.2. Entropy Bounds . . . . . . . . . . . . . . . . . . . . . 73 4.2.3. Oracle Inequalities and Learning Rates. . . . . . . . . 77 4.3. Main Results . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.3.1. Global Learning Rates . . . . . . . . . . . . . . . . . . 92 4.3.2. Adaptivity . . . . . . . . . . . . . . . . . . . . . . . . 99 4.4. Comparison of Learning Rates . . . . . . . . . . . . . . . . . 107 5. Discussion 115 A. Appendix 117 Bibliography 123 Abbreviations ERM empirical risk minimization LC lower control ME margin exponent MNE margin noise exponent NE noise exponent RKHS reproducing kernel Hilbert space SVM support vector machine TV-SVM training validation support vector machine TV-HR training validation histogram rule UC upper control List of Figures 2.1. Example of distance ∆ to decision boundary . . . . . . . . . 20 η 2.2. Examples of data drawn by P with different values of ME α. 21 2.3. Examples of η with different values of LC ζ . . . . . . . . . . 23 2.4. Examples of η with regions of “critically” large noise far away from the decision boundary. . . . . . . . . . . . . . . . . . . . 24 2.5. Geometrical assumptions on X from Lemma 2.36 . . . . . . 28 0 Summary Localized support vector machines (SVMs) solve SVMs on many spatially defined small chunks and one of their main characteristics besides the computational benefit compared to global SVMs is the freedom of choosing arbitrary kernel and regularization parameter on each cell. In the present work,wetakeadvantageofthisobservationtoderive global learningratesfor localizedSVMswithGaussiankernelsandhingelossforclassification. These rates outperform known classification rates for localized SVMs, for global SVMs, and other learning algorithms under suitable sets of assumptions. Theyareachievedunderamildgeometricconditiononthedecisionboundary and under a set of margin conditions that describe the behavior of the data- generating distribution near the decision boundary, where no assumption on the existence of a density is made. It turns out that a margin condition that relates the location of noise to the distance to the decision boundary is crucial to obtain improved rates. The margin parameters appear in the chosenparametersforlocalizedSVMsandinthelearningrates. Nevertheless, we show that a training validation procedure learns with the same rates adaptively such that no prior knowledge of these parameters is necessary. The statistical analysis relies on a simple partitioning based technique, whichanalyzestheexcessriskseparatelyonsetsthatareclosetothedecision boundary and on sets that are sufficiently far away. These sets depend on a splitting parameter s>0. To illustrate and to understand the mechanisms of that technique we first apply it to the simple histogram rule and derive evenforthissimplemethodlearningrates,whichoutperformratesforglobal SVMsundersuitableassumptions. ForlocalizedSVMswith Gaussian kernel and hinge loss, we derive local learning rates that demonstrate how kernel, regularization, andmarginparametersaffecttheratesontheconsideredsets. For an appropriately chosen splitting parameter, we finally derive global learning rates for localized SVMs. Kurzfassung Eine Modifizierung der Lernmethode der Support Vector Machines (SVMs) ist die Lernmethode der lokalisierten SVMs, bei welcher SVMs auf jeder Zelle einer Partition des Eingaberaums trainiert werden. Neben dem ver- besserten Rechenaufwand profitieren diese lokal lernenden Verfahren davon, dass unterschiedliche Kern- und Regularisierungsparameter auf jeder be- trachteten Zelle gew¨ahlt werden k¨onnen. In der vorliegenden Arbeit nutzen wir diese Eigenschaft, um globale Klassifikations-Lernraten fu¨r lokalisierte SVMs mit Gausskernen und der hinge-Verlustfunktion zu erhalten. Die er- zielten Raten sind unter geeigneten Voraussetzungen besser als die bereits bekannten Klassifikationsraten fu¨r lokalisierte SVMs, globale SVMs oder andere betrachtete Klassifikationsverfahren. Dabei setzen wir eine schwache geometrischeBedingungandieEntscheidungslinievorausundtreffen u¨bliche Annahmen u¨ber das Verhalten der datenerzeugenden Verteilung in der N¨ahe der Entscheidunglinie. Die Parameter, die letzteres beschreiben, spiegeln sich in den Parametern der lokalisieten SVMs, sowie in der Lernrate wider und wir zeigen, dass eine Trainings- und Validierungsmethode adaptiv die gleichen Raten erzielt. Die statistische Analyse beruht auf einer einfachen Technik, die den Ein- gaberaum in sich zwei u¨berlappende Mengen paritioniert. Dabei wird einmal dieMengebetrachtet,derenZellennahezurEntscheindungslinieliegen,sowie die Menge, deren Zellen einen ausreichenden Abstand zur Entscheidungli- nie besitzen. Das U¨berschussrisiko wird separat auf diesen Mengen, deren Trennung durch einen Parameter s>0 beschrieben wird, abgesch¨atzt. Um diese Analyse und ihre Einflu¨sse zu verdeutlichen, wenden wir die Technik zun¨achst auf die einfache Lernmethode der Histogramm-Regel an und erhal- ten unter geeigneten Annahmen Lernraten, die sogar besser sind als die der komplexen SVMs. Fu¨r die lokalisierten SVMs zeigen die separaten Analysen, welchen Einfluss die unterschiedlichen Kern- und Regularisierungsparameter, sowie die Parameter welche die Verteilung beschreiben, auf das lokale Lern- verhalten besitzen. Eine geeignete Wahl des Trennungsparameters s fu¨hrt schließlich zu globalen Lernraten fu¨r lokalisierte SVMs mit Gausskernen und der hinge-Verlustfunkion.

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.