Learning regular languages over large alphabets Irini-Eleftheria Mens To cite this version: Irini-Eleftheria Mens. Learning regular languages over large alphabets. Machine Learning [cs.LG]. Université Grenoble Alpes, 2017. English. NNT: 2017GREAM052. tel-01792635 HAL Id: tel-01792635 https://theses.hal.science/tel-01792635 Submitted on 15 May 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THE`SE Pour obtenir le grade de DOCTEUR DE LA COMMUNAUTE´ UNIVERSITE´ GRENOBLE ALPES Spe´cialite´ : Mathe´matiques et Informatique Arreˆte´ ministe´rial:25mai2016 Pre´sente´epar Irini-Eleftheria Mens The`se dirige´e par Oded Maler, pre´pare´e au sein du Laboratoire VERIMAG dans l’Ecole Doctorale Mathe´matiques, Sciences et Technologies de l’Information, Informatique Learning Regular Languages over Large Alphabets Apprentissage de langages re´guliers sur des alphabets de grandes tailles The`se soutenue publiquement le 10 October 2017, devant le jury compose´ de : Monsieur Oded Maler DIRECTEUR DE RECHERCHE, CNRS DE´LE´GATION ALPES, Directeur de the`se Madame Dana Angluin PROFESSEURE,UNIVERSITE´ YALEANEWHAVEN-USA,Rapporteur Monsieur Peter Habermehl MAˆITREDECONFE´RENCES,UNIVERSITE´ PARIS7,Rapporteur Monsieur Eric Gaussier PROFESSEUR,UNIVERSITE´ GRENOBLEALPES,Pre´sident Monsieur Frits W. Vaandrager PROFESSEUR,UNIV.RADBOUDDENIMEGUE-PAYS-BAS,Examinateur Monsieur Laurent Fribourg DIRECTEUR DE RECHERCHE, CNRS DE´LE´GATION PARIS-VILLEJUIF, Examinateur Abstract Learning regular languages is a branch of machine learning, a domain which hasprovedusefulinmanyareas,includingartificialintelligence,neuralnetworks, data mining, verification, etc. In addition, interest in languages defined over large and infinite alphabets has increased in recent years. Although many theories and properties generalize well from the finite case, learning such languages is not an easy task. As the existing methods for learning regular languages depend on the sizeofthealphabet,astraightforwardgeneralizationinthiscontextisnotpossible. In this thesis, we present a generic algorithmic scheme that can be used for learninglanguagesdefinedoverlargeorinfinitealphabets,suchasboundedsubsets ofNorRorBooleanvectorsofhighdimensions. Werestrictourselvestotheclass of languages accepted by deterministic symbolic automata that use predicates to labeltransitions,formingafinitepartitionofthealphabetforeverystate. Ourlearningalgorithm,anadaptationofAngluin’sL∗,combinesstandardau- tomatonlearningbystatecharacterization,withthelearningofthestaticpredicates that define the alphabet partitions. We use the online learning scheme, where two typesofqueriesprovidethenecessaryinformationaboutthetargetlanguage. The firsttype,membershipqueries,answerwhetheragivenwordbelongsornottothe target. The second, equivalence queries, check whether a conjectured automaton acceptsthetargetlanguageandprovideacounter-exampleotherwise. We study language learning over large or infinite alphabets within a general framework but our aim is to provide solutions for particular concrete instances. For this, we focus on the two main aspects of the problem. Initially, we assume thatequivalencequeriesalwaysprovideacounter-examplewhichisminimalinthe length-lexicographic order when the conjecture automaton is incorrect. Then, we drop this “strong” equivalence oracle and replace it by a more realistic assump- tion, where equivalence is approximated by testing queries, which use sampling onthesetofwords. Suchqueriesarenotguaranteedtofindcounter-examplesand certainlynotminimalones. Inthiscase,weobtaintheweakernotionofPAC(prob- ably approximately correct) learnability and learn an approximation of the target language. Allproposedalgorithmshavebeenimplementedandtheirperformance, asafunctionofautomatonandalphabetsize,hasbeenempiricallyevaluated. i ii Re´sume´ L’apprentissage de langages re´guliers est une branche de l’apprentissage au- tomatique qui s’est re´ve´le´e utile dans de nombreux domaines tels que l’intelli- genceartificielle,lesre´seauxdeneurones,l’explorationdedonne´es,lave´rification, etc. De plus, l’inte´reˆt dans les langages de´finis sur des alphabets infinis ou de grandetailles’estaccruaufildesanne´es. Meˆmesiplusieursproprie´te´setthe´ories sege´ne´ralisenta`partirducasfini,l’apprentissagedetelslangagesestunetaˆchedif- ficile. Eneffet,danscecontexte,l’applicationna¨ıvedesalgorithmesd’apprentissage traditionneln’estpaspossible. Danscettethe`se,nouspre´sentonsunsche´maalgorithmiquege´ne´ralpourl’ap- prentissagedelangagesde´finissurdesalphabetsinfinisoudegrandetaille,comme par exemple des sous-ensembles borne´s de N or R ou des vecteurs boole´ens de grandes dimensions. Nous nous restreignons aux classes de langages qui sont ac- cepte´s par des automates de´terministes symboliques utilisant des pre´dicats pour de´finirlestransitions,construisantainsiunepartitionfiniedel’alphabetpourchaque e´tat. Notre algorithme d’apprentissage, qui est une adaptation du L∗ d’Angluin, combinel’apprentissageclassiqued’unautomateparlacaracte´risationdesese´tats, avec l’apprentissage de pre´dicats statiques de´finissant les partitions de l’alphabet. Nous utilisons l’apprentissage incre´mental avec la proprie´te´ que deux types de requeˆtes fournissent une information suffisante sur le langage cible. Les requeˆtes du premier type sont les requeˆtes d’appartenance, qui permettent de savoir si un motpropose´ appartientounonaulangagecible. Lesrequeˆtesdusecondtypesont lesrequeˆtesd’e´quivalence,quive´rifientsiunautomatepropose´ acceptelelangage cible;danslecascontraire,uncontre-exempleestrenvoye´. Nous e´tudions l’apprentissage de langages de´finis sur des alphabets infinis ou de grande tailles dans un cadre the´orique et ge´ne´ral, mais notre objectif est de proposer des solutions concre`tes pour un certain nombre de cas particuliers. En- suite, nous nous inte´ressons aux deux principaux aspects du proble`me. Dans un premier temps, nous supposerons que les requeˆtes d’e´quivalence renvoient tou- joursuncontre-exempleminimalpourunordredelongueur-lexicographiquequand l’automatepropose´ estincorrect. Puisdansunsecondtemps,nousrelaˆchonscette hypothe`se forte d’un oracle d’e´quivalence, et nous la remplac¸ons avec une hy- iii pothe`seplusre´alisteou` l’e´quivalenceestapproche´eparuntestsurlesrequeˆtesqui utilisentune´chantillonnagesurl’ensembledesmots. Danscederniercas,cetype de requeˆtes ne garantit pas l’obtention de contre-exemples, et par conse´quent de contre-exemplesminimaux. Nousobtenonsalorsunenotionplusfaibled’apprent- issage PAC (Probably Approximately Correct), permettant l’apprentissage d’une approximationdulangagecible. Toutlesalgorithmesonte´te´ imple´mente´s,etleurs performances, entermedeconstructiond’automateetdetailled’alphabet, onte´te´ e´value´esempiriquement. iv Contents Abstract i Re´sume´ iii Notation ix 1 Introduction 1 1.1 Synopsis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Preliminaries 7 2.1 RegularLanguagesandAutomata . . . . . . . . . . . . . . . . . 7 2.2 SetsandPartitions. . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3 LearningPartitions . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.1 LearningBinaryDecisionTrees . . . . . . . . . . . . . . 15 3 LanguageIdentification 21 3.1 ConnectionwithMachineLearning . . . . . . . . . . . . . . . . 21 3.2 LearningLanguages. . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3 TheL∗ LearningAlgorithm. . . . . . . . . . . . . . . . . . . . . 24 3.3.1 Observationtable . . . . . . . . . . . . . . . . . . . . . . 25 3.3.2 TheLearningAlgorithm . . . . . . . . . . . . . . . . . . 26 4 SymbolicAutomata 33 4.1 StateoftheArt . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.3 OperationsonSymbolicAutomata . . . . . . . . . . . . . . . . . 36 v 4.4 AlphabetsandPartitions . . . . . . . . . . . . . . . . . . . . . . 39 4.4.1 IntervalAutomata . . . . . . . . . . . . . . . . . . . . . 39 4.4.2 AutomataoverPartially-orderedAlphabets . . . . . . . . 41 4.4.3 BooleanVectors . . . . . . . . . . . . . . . . . . . . . . 41 5 LearningSymbolicAutomata 43 5.1 Definitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2 ComparisontoRelatedWork . . . . . . . . . . . . . . . . . . . . 47 5.3 TheSymbolicLearningAlgorithm . . . . . . . . . . . . . . . . . 49 6 LearningwithaHelpfulTeacher 57 6.1 LearningLanguagesoverOrderedAlphabets . . . . . . . . . . . 57 6.2 LearningoverPartially-orderedAlphabets . . . . . . . . . . . . . 63 7 LearningwithoutaHelpfulTeacher 69 7.1 ApproximatingtheEquivalenceQuery . . . . . . . . . . . . . . . 70 7.2 LearningLanguagesoverN,R . . . . . . . . . . . . . . . . . . . 71 7.3 LearningLanguagesoverBn . . . . . . . . . . . . . . . . . . . . 76 8 TheoreticalAnalysis 83 8.1 UpdatingtheHypothesis: Counter-Examples . . . . . . . . . . . 83 8.2 HypothesisError . . . . . . . . . . . . . . . . . . . . . . . . . . 84 8.2.1 AProbabilityDistributiononΣ∗ . . . . . . . . . . . . . . 85 8.2.2 ComputingtheRelativeVolumes. . . . . . . . . . . . . . 86 8.3 ComplexityandTermination . . . . . . . . . . . . . . . . . . . . 88 8.3.1 UsingaHelpfulTeacher(MinimalCounter-Examples) . . 88 8.3.2 EquivalenceusingRandomTests. . . . . . . . . . . . . . 89 9 EmpiricalResults 93 9.1 GeneralCommentsontheImplementation . . . . . . . . . . . . . 93 9.2 OntheBehavioroftheSymbolicLearningAlgorithm . . . . . . . 95 9.3 ComparisonwithOtherAlgorithms . . . . . . . . . . . . . . . . 97 9.4 LearningPasswords . . . . . . . . . . . . . . . . . . . . . . . . . 102 9.5 LearningovertheBooleans . . . . . . . . . . . . . . . . . . . . . 104 9.6 ComparingBooleanVectorstoNumericalAlphabets . . . . . . . 107 9.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 10 ConclusionsandFutureWork 113 Bibliography 122 vi List of Algorithms 1 GrowTree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2 MainLearningAlgorithm . . . . . . . . . . . . . . . . . . . . . . 27 3 TableClosing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4 MakeTableConsistent . . . . . . . . . . . . . . . . . . . . . . . 28 5 Counter-ExampleTreatment: L∗ . . . . . . . . . . . . . . . . . . 28 6 Counter-ExampleTreatment: AddingSuffixes . . . . . . . . . . . 30 7 Counter-ExampleTreatment: Breakpoint. . . . . . . . . . . . . . 30 8 SymbolicLearningAlgorithm . . . . . . . . . . . . . . . . . . . 50 9 TableInitialization . . . . . . . . . . . . . . . . . . . . . . . . . 50 10 SymbolInitialization . . . . . . . . . . . . . . . . . . . . . . . . 51 11 TableClosing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 12 MakeEvidenceCompatible . . . . . . . . . . . . . . . . . . . . . 52 13 Counter-ExampleTreatment . . . . . . . . . . . . . . . . . . . . 55 14 Counter-ExampleTreatment(withHelpfulTeacher)-R . . . . . . 59 15 Counter-ExampleTreatment(withHelpfulTeacher)-Rn . . . . . 64 16 TestingOracle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 17 MakeEvidenceCompatible(withoutHelpfulTeacher)-R . . . . 73 18 MakeEvidenceCompatible(withoutHelpfulTeacher)-Bn . . . . 77 vii
Description: