Table Of ContentStochastic approximation and least-squares regression,
with applications to machine learning
Nicolas Flammarion
To cite this version:
Nicolas Flammarion. Stochastic approximation and least-squares regression, with applications to
machine learning. Machine Learning [stat.ML]. Université Paris sciences et lettres, 2017. English.
NNT: 2017PSLEE056. tel-01693865v2
HAL Id: tel-01693865
https://theses.hal.science/tel-01693865v2
Submitted on 4 Jul 2018
HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est
archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
`
THESE DE DOCTORAT
de l’Universite´ de recherche Paris Sciences Lettres
PSL Research University
Pre´pare´e a` l’E´cole normale supe´rieure
Stochastic Approximation and Least-Squares Regression,
with Applications to Machine Learning
Approximation Stochastique et Re´gression par Moindres Carre´s :
Applications en Apprentissage Automatique
´
Ecole doctorale n 386
�
E´COLE DOCTORALE DE SCIENCES MATHE´MATIQUES DE PARIS CENTRE
Spe´cialite´ MATHE´MATIQUES APPLIQUE´ES
COMPOSITION DU JURY:
M. Je´roˆme Bolte
TSE Toulouse, Rapporteur
M. Shai Shalev-Shwartz
TheHebrewUniversityofJerusalem,
Rapporteur (Absent)
M. Alexandre d’Aspremont
Soutenue par Nicolas Flammarion CNRS-ENSParis,Directeurdethe`se
le 24.07.2017
M. Francis Bach
INRIA-ENSParis,Directeurdethe`se
Dirige´e par Alexandre d’ASPREMONT
M. Arnak Dalalyan
et Francis BACH
ENSAE Paris, Membre du Jury
M. Eric Moulines
CMAPEPParis, Pre´sidentduJury
RESEARCH UNIVERSITY PARIS
ÉCOLENORMALE
SUPÉRIEURE
Was Du für ein Geschenk hältst, ist
ein Problem, das Du lösen sollst.
L. Wittgenstein,
Vermischte Bemerkungen
What you are regarding as a gift is a problem for you to solve.
Dedicated to
my parents,
my sisters
and Adèle
Abstract
Many problems in machine learning are naturally cast as the minimization of
a smooth function defined on a Euclidean space. For supervised learning, this in-
cludes least-squares regression and logistic regression. While small-scale problems
with few input features may be solved efficiently by many optimization algorithms
(e.g., Newton’s method), large-scale problems with many high-dimensional features
are typically solved with first-order techniques based on gradient descent, leading to
algorithms with many cheap iterations.
In this manuscript, we consider the particular case of the quadratic loss. In the
first part, we are interested in its minimization, considering that its gradients are
only accessible through a stochastic oracle that returns the gradient at any given
point plus a zero-mean finite variance random error. We propose different algorithms
to efficiently solve these minimization problems in many cases. In the second part,
we consider two applications of the quadratic loss in machine learning: unsupervised
learning, specifically clustering and statistical estimation, specifically estimation with
shape constraints.
In the first main contribution of the thesis, we provide a unified framework for
optimizing non-strongly convex quadratic functions, which encompasses accelerated
gradient descent, averaged gradient descent and the heavyball method. They are
studied through second-order difference equations for which stability is equivalent to
an O(1/n2) convergence rate. This new framework suggests an alternative algorithm
that exhibits the positive behavior of both averaging and acceleration.
The second main contribution aims at obtaining the optimal prediction error rates
for least-squares regression, both in terms of dependence on the noise of the problem
and of forgetting the initial conditions. Our new algorithm rests upon averaged
acceleratedgradientdescentandisanalyzedunderfinerassumptionsonthecovariance
matrix of the input data and the initial conditions of the algorithm which leads to
tighter convergence rates expressed with dimension-free quantities.
Thethirdmaincontributionofthethesisdealswiththeminimizationofcomposite
objective functions composed of the expectation of quadratic functions and a convex
function. We show that stochastic dual averaging with a constant step-size has a
convergence rate O(1/n) without strong convexity assumption, extending earlier re-
sults on least-squares regression to any regularizer and any geometry represented by
a Bregman divergence.
As a fourth contribution, we consider the problem of clustering high-dimensional
data. We present a novel sparse extension of the discriminative clustering framework
and propose a natural extension for the multi-label scenario. We also provide the
first theoretical analysis of this formulation with a simple probabilistic model and
vii
an efficient iterative algorithm with better running-time complexity than existing
methods.
The fifth main contribution of the thesis deals with the seriation problem, which
consists in permuting the rows of a given matrix in such way that all its columns
have the same shape. We propose a statistical approach to this problem where the
matrix of interest is observed with noise and study the corresponding minimax rate
of estimation of the matrices. We also suggest a computationally efficient estimator
whose performance is studied both theoretically and experimentally.
Keywords: Convexoptimization,acceleration,averaging,stochasticgradient,least-
squares regression, stochastic approximation, dual averaging, mirror descent, discrim-
inative clustering, convex relaxation, sparsity, statistical seriation, permutation learn-
ing, minimax estimation, shape constraints.
viii
Résumé
De nombreux problèmes en apprentissage automatique sont formellement équiv-
alents à la minimisation d’une fonction lisse définie sur un espace euclidien. Plus
précisément, dans le cas de l’apprentissage automatique supervisé, cela inclut la ré-
gression par moindres carrés et la régression logistique. Alors que les problèmes de
petite taille, avec peu de variables, peuvent être résolus efficacement à l’aide de nom-
breux algorithmes d’optimisation (la méthode de Newton par exemple), les problèmes
de grande échelle, avec de nombreuses données en grande dimension, sont, quant à
eux, généralement traités à l’aide de méthodes du premier ordre, dérivées de la de-
scente de gradient, conduisant à des algorithmes avec de nombreuses itérations peu
coûteuses.
Dans ce manuscrit, nous considérons le cas particulier de la perte quadratique.
Dans une première partie, nous nous intéressons à la minimisation de celle-ci dans
l’hypothèse où nous accédons à ses gradients par l’intermédiaire d’un oracle stochas-
tique. Celui-ciretournelegradientévaluéaupointdemandéplusunbruitd’espérance
nulle et de variance finie. Nous proposons différents algorithmes pour résoudre effi-
cacement ce problème dans de multiples cas. Dans une seconde partie, nous con-
sidérons deux applications différentes de la perte quadratique à l’apprentissage au-
tomatique : la première en apprentissage non-supervisé, plus spécifiquement en par-
titionnement des données, et la seconde en estimation statistique, plus précisément
en estimation sous contrainte de forme.
La première contribution de cette thèse est un cadre unifié pour l’optimisation
de fonctions quadratiques non-fortement convexes. Celui-ci comprend la descente
de gradient accélérée, la descente de gradient moyennée et la méthode de la balle
lourde. Ces méthodes sont étudiées grâce à des équations aux différences finies du
second ordre dont la stabilité est équivalente à une vitesse de convergence O(1/n2)
de la méthode étudiée. Ce nouveau cadre nous permet de proposer un algorithme
alternatif qui combine les aspects positifs du moyennage et ceux de l’accélération.
La deuxième contribution est d’obtenir le taux optimal d’erreur de prédiction
pour la régression par moindres carrés en fonction de la dépendance, à la fois au bruit
du problème et à l’oubli des conditions initiales. Notre nouvel algorithme tire son
origine de la descente de gradient accélérée et moyennée et nous l’analysons sous des
hypothèses plus fines sur la matrice de covariance des données et sur les conditions
initiales de l’algorithme. Cette nouvelle analyse aboutit à des taux de convergence
plus tendus qui ne font pas intervenir la dimension du problème.
La troisième contribution de cette thèse traite du problème de la minimisation
ix
Description:we consider two applications of the quadratic loss in machine learning: .. tion, stochastic approximation and online learning, which are the main