` THESE DE DOCTORAT de l’Universite´ de recherche Paris Sciences Lettres PSL Research University Pre´pare´e a` l’E´cole normale supe´rieure On the Links between Probabilistic Graphical Models and Submodular Optimisation Liens entre mode`les graphiques probabilistes et optimisation sous-modulaire ´ Ecole doctorale n 386 ◦ E´COLE DOCTORALE DE SCIENCES MATHE´MATIQUES DE PARIS CENTRE Spe´cialite´ INFORMATIQUE COMPOSITION DU JURY : M Andreas Krause ETH Zurich, Rapporteur M Nikos Komodakis ENPC Paris, Rapporteur M Francis Bach Inria Paris, Directeur de the`se Soutenue par Senanayak Sesh Kumar KARRI le 27.09.2016 M Josef Sivic ENS Paris, Membre du Jury M Antonin Chambolle Dirige´e par Francis BACH CMAP EP Paris, Membre du Jury M Guillaume Obozinski ENPC Paris, Membre du Jury RESEARCH UNIVERSITY PARIS ÉCOLENORMALE SUPÉRIEURE What is the purpose of life? Proof and Conjecture, ..... Paul Erdős Dedicated to my family Abstract Aprobabilisticgraphicalmodelencodesconditionalindependencesamongrandom variables, which is related to factorisable distributions. Moreover, the entropy of a probabilitydistributiononasetofdiscreterandomvariablesisalwaysboundedbythe entropyofitsfactorisablecounterpart. Thisisduetothesubmodularityofentropyon the set of discrete random variables. Submodular functions are also generalisation of matroid rank function; therefore, linear functions may be optimised on the associated polytopes exactly using a greedy algorithm. Inthismanuscript, weexploittheselinksbetweenthestructuresofgraphicalmod- els and submodular functions: we use greedy algorithms to optimise linear functions on the polytopes related to graphic and hypergraphic matroids for learning the struc- tures of graphical models, while we use inference algorithms on graphs to optimise submodular functions. The first main contribution of the thesis aims at approximating a probabilistic distribution with a factorisable tractable distribution under the maximum likelihood framework. Since the tractability of exact inference is exponential in the treewidth of the decomposable graph, our goal is to learn bounded treewidth decomposable graphs, which is known to be NP-hard. We pose this as a combinatorial optimisation problem and provide convex relaxations based on graphic and hypergraphic matroids. This leads to an approximate solution with good empirical performance. In the second main contribution, we use the fact that the entropy of a probability distribution is always bounded by the entropy of its factorisable counterpart mainly as a consequence of submodularity. This property of entropy is generalised to all submodular functions and bounds based on graphical models are proposed. We refer to them as graph-based bounds. An algorithm is developped to maximise submodular functions, which is NP-hard, by maximising the graph-based bound using variational inference algorithms on graphs. The third main contribution of the thesis deals with minimising submodular func- tions that can be written as sum of “simple” submodular functions. It is broadly subdivided into two parts. The first part deals with reviewing algorithms that min- imisesumof“simple” submodularfunctionsusingminimisationoraclesofthe“simple” functions. Here, we specifically deal with cut functions in large scale problems and the minimisation oracles of the “simple” functions are graph inference algorithms. The second part proposes algorithms to minimise sum of general submodular func- tions using the structure of the polytopes related to individual “simple” submodular functions. vii Keywords : Probabilistic graphical models, maximum likelihood trees, discrete optimisation, submodular optimisation, total variation, convex optimisation. viii Résumé Un modèle graphique probabiliste représente les relations d’indépendances condi- tionnelles parmi des variables aléatoires, qui sont liées à la factorisation de la densité. De plus, l’entropie d’une distribution sur un ensemble de variables aléatoires discrètes est toujours bornée par l’entropie de la distribution factorisée correspondante. Cette propriété est due à la sous-modularité de l’entropie. Par ailleurs, les fonctions sous- modulaires sont une généralisation des fonctions de rang des matroides ; ainsi, les fonctions linéaires sur les polytopes associés peuvent être minimisées exactement par un algorithme glouton. Dans ce manuscrit, nous exploitons ces liens entre les structures des modèles graphiques et les fonctions sous-modulaires. Nous utilisons des algorithmes gloutons pour optimiser des fonctions linéaires sur des polytopes liés aux matroides graphiques et hypergraphiques pour apprendre la structure de modèles graphiques, tandis que nous utilisons des algorithmes d’inférence sur les graphes pour optimiser des fonctions sous-modulaires. La première contribution de cette thèse consiste à approcher par maximum de vraisemblance une distribution de probabilité par une distribution factorisable et de complexité algorithmique contrôlée. Comme cette complexité est exponentielle dans la largeur arborescente du graphe, notre but est d’apprendre un graphe décomposable avec une largeur arborescente bornée, ce qui est connu pour être NP-difficile. Nous posons ce problème comme un problème d’optimisation combinatoire et nous pro- posons une relaxation convexe basée sur les matroides graphiques et hypergraphiques. Ceci donne lieu à une solution approchée avec une bonne performance pratique. Pour la seconde contribution principale, nous utilisons le fait que l’entropie d’une distribution est toujours bornée par l’entropie de sa distribution factorisée associée, comme conséquence principale de la sous-modularité, permettant une généralisation à toutes les fonctions sous-modulaires de bornes basées sur les concepts de mod- èles graphiques. Un algorithme est développé pour maximiser les fonctions sous- modulaires, un autre problème NP-difficile, en maximisant ces bornes en utilisant des algorithmes d’inférence vibrationnels sur les graphes. La troisième contribution principale de la thèse cherche à minimiser les fonctions sous-modulaires qui peuvent s’écrire comme la somme de fonctions sous-modulaires “simples”, et est divisée en deux parties : la première propose une rappel sur les algorithmes permettant de minimiser de telles fonctions en utilisant des oracles de minimisation précis pour les fonctions simples. Nous nous focalisons principalement sur les fonctions de coupes dans les graphes où ces oracles correspondent à des al- ix gorithmes d’inférence dans les modèles graphiques. La deuxième partie propose des algorithmes ces sommes de fonctions simples en utilisant la structure des polytopes associés. Mots-clés : Modèles graphiques probabilistes, arbres de maximum de vraisem- blance, optimisation discrète, optimisation sous-modulaire, variation totale, optimi- sation convexe. x
Description: