ةيبعشلا ةيطارقيملدا ةيرئازلجا ةيروهلجما يملعلا ثحبلا و لياعلا يملعتلا ةرازو فايضوب دمحم ايجولونكتلا و مولعلل نارهو ةعماج Présenté par : MEDJAHED Seyyid Ahmed Intitulé Analyse des méthodes d’apprentissage à base de noyaux : Application au diagnostic et à la classification des cellules cancéreuses Faculté : Mathématiques et Informatique Département : Informatique Spécialité : Informatique Option : Devant le Jury Composé de : Membres de Jury Grade Qualité Domiciliation Mr. BENYETTOU Mohammed Professeur Président U.S.T.O-MB Mr. BENYETTOU Abdelkader Professeur Encadrant U.S.T.O-MB Mme. FIZAZI Hadria Professeur U.S.T.O-MB Mr. CHIKH Mohammed Amine Professeur UNIV. Tlemcen Examinateurs Mr. RAHMOUN Abdellatif Professeur ES INFO. SBA Mr. NOURINE Rachid MCA INTTIC Mme. AIT SAADI Tamazouzt MCB Invité(e) UNIV. Mostaganem Année Universitaire : 2016-2017 Liste des publications : Seyyid Ahmed Medjahed, Tamazouzt Ait Saadi and Abdelkader Benyettou. Breast Cancer Diagnosis by using k-Nearest Neighbor with Different Distances and Classification Rules. International Journal of Computer Applications (IJCA). Vol. 62, No. 1, pp. 1-5, 2013. Seyyid Ahmed Medjahed, Mohammed Ouali, Tamazouzt Ait Saadi and Abdelkader Benyettou. An Optimization-Based Framework for Feature Selection and Parameters Determination of SVMs. International Journal of Information Technology and Computer Science (IJITCS). Vol. 7, No. 5, pp. 1-9, 2015. (INSPEC) Seyyid Ahmed Medjahed, Tamazouzt Ait Saadi and Abdelkader Benyettou. Urinary System Diseases Diagnosis Using Machine Learning Techniques. International Journal of Intelligent Systems and Applications (IJISA). Vol. 7, No. 5, pp. 1-7, 2015. (INSPEC) Seyyid Ahmed Medjahed, Tamazouzt Ait Saadi, Abdelkader Benyettou and Mohammed Ouali. Microcanonical Annealing and Threshold Accepting for Parameter Determination and Feature Selection of Support Vector Machines. Journal of Computing and Information Technology. Vol. 24, No. 4, pp. 369-381, December 2016. (Scopus SJR = 0.18) Seyyid Ahmed Medjahed, Tamazouzt Ait Saadi, Abdelkader Benyettou and Mohammed Ouali. Kernel-Based Learning and Feature Selection Analysis for Cancer Diagnosis. Applied Soft Computing, Vol. 51, No. February, pp. 39-48, 2017. (Thomson IF = 2.85, Scopus SJR = 1.76) Dédicaces ______ Je dédie ce modeste travail : A mes chers parents A mon petit frère, mes sœurs et mes beaux frères A mon encadreur Mr. Benyettou Abdelkader A Mme. Ait Saadi Tamazouzt, Mr. Ait Saadi Bachir et leurs enfants A Mr. Ouali Mohammed A tous mes amis Remerciements ______ Je remercie notre dieu tout puissant pour la force et le courage qu'il nous a donné pour mener à terme ce projet. Je tiens à exprimer mes sincères remerciements au Professeur Benyettou Abdelkader mon directeur de thèse pour son suivi, ses recommandations, sa patience et sa disponibilité tout au long de cette thèse. Je voudrais exprimer mes plus profonds remerciements à Mme. Ait Saadi Tamazouzt pour son aide, son encadrement, sa patience et son soutien tout au long de ces années. Un grand remerciement à mes parents, pour leurs encouragements et leur soutien moral. Je tiens à remercier Mr. Ouali Mohammed, pour son aide et son soutien. Mes remerciements s'adressent au président et aux membres du jury pour avoir accepté de juger ce travail. Table des matières ______ Table des matières Résumé ................................................................................................................................... 9 Abstract ............................................................................................................................... 11 Liste des figures .................................................................................................................. 12 Liste des tableaux ................................................................................................................ 14 Liste des algorithmes .......................................................................................................... 15 Notations .............................................................................................................................. 16 Abréviations ........................................................................................................................ 18 Introduction générale ......................................................................................................... 22 Chapitre I : Apprentissage Automatique ............................................................................. 26 1. Introduction .................................................................................................................... 26 1.1. Apprentissage supervisé ............................................................................................. 26 1.2. Apprentissage non supervisé ...................................................................................... 28 1.3. Apprentissage semi supervisé .................................................................................... 29 2. La classification ............................................................................................................... 29 2.1. Définition d’une partition d’un ensemble fini............................................................ 30 2.2. Définition d’un exemple et d’une classe .................................................................... 30 2.3. Définition d’un classifieur ......................................................................................... 30 3. La classification supervisée ............................................................................................ 31 3.1. Classifications paramétriques .................................................................................... 31 3.2. Classification non-paramétriques ............................................................................... 31 3.3. Formalisme mathématique de la classification supervisée ........................................ 31 3.4. Généralisation ............................................................................................................ 33 3.5. Risque réel ................................................................................................................. 33 3.6. Risque empirique ....................................................................................................... 34 4. Quelques algorithmes de classification supervisée ...................................................... 34 4.1. Arbres de décision ...................................................................................................... 34 4.2. Réseaux de Neurone .................................................................................................. 36 4.3. k plus proches voisins ................................................................................................ 38 4.4. Machine à vecteur de support .................................................................................... 41 5. Les méthodes à base de noyaux ..................................................................................... 42 5.1. SVM pour la classification binaire ............................................................................ 42 Table des matières ______ 5.2. SVM pour la classification Multi-Classes ................................................................. 61 6. Conclusion ....................................................................................................................... 64 Chapitre II : Sélection de Variables ..................................................................................... 67 1. Introduction .................................................................................................................... 67 2. La sélection de variables ................................................................................................ 67 3. Processus général de sélection de variables .................................................................. 68 3.1. Génération des sous-ensembles ................................................................................. 68 3.2. Evaluation des sous-ensembles .................................................................................. 69 3.3. Critère d’arrêt ............................................................................................................. 69 4. Les stratégies de recherche ............................................................................................ 69 4.1. Les stratégies exhaustives .......................................................................................... 69 4.2. Les stratégies complètes............................................................................................. 69 4.3. Les stratégies heuristiques ......................................................................................... 70 4.4. Les stratégies aléatoires ............................................................................................. 71 5. Approches de la sélection de variables ......................................................................... 71 5.1. Approches filtres ........................................................................................................ 71 5.2. Approches enveloppes ............................................................................................... 72 5.3. Approches intégrées ................................................................................................... 73 6. Fonctions d’évaluations .................................................................................................. 74 6.1. Mesure d’information ................................................................................................ 74 6.2. Mesure de distance ..................................................................................................... 77 6.3. Mesure d’indépendance ............................................................................................. 78 6.4. Mesure de consistance ............................................................................................... 79 6.5. Mesure de précision ................................................................................................... 80 7. Les mesures de Stabilité ................................................................................................. 80 7.1. La cohérence pondérée............................................................................................... 80 7.2. La cohérence pondérée relative.................................................................................. 80 7.3. La stabilité Ss ............................................................................................................. 81 7.4. Index Tanimoto Moyen .............................................................................................. 81 7.5. Index de Tanimoto moyen partiellement ajustée ....................................................... 81 7.6. La stabilité SH ............................................................................................................. 81 7.7. La stabilité de Kuncheva ............................................................................................ 82 Table des matières ______ 7.8. La stabilité d’information .......................................................................................... 82 8. Quelques algorithmes de sélection de variables ........................................................... 82 8.1. SFS, SBS et BDS ....................................................................................................... 82 8.2. Relief .......................................................................................................................... 85 8.3. Mutual Information Maximization (MIM) ................................................................ 86 8.4. Mutual Information Feature Selection (MIFS) .......................................................... 86 8.5. Joint Mutual Information (JMI) ................................................................................. 87 8.6. Conditional Mutual Information Maximization (CMIM) .......................................... 87 8.7. Minimum Redundancy Maximum Relevance (MRMR) ........................................... 88 8.8. Conditional Informax Feature Extraction (CIFE) ...................................................... 88 8.9. Interaction Capping (IC) ............................................................................................ 88 8.10. Double Input Symmetrical Relevance (DISR) ........................................................ 89 8.11. Corrlation Feature Selection (CFS) ......................................................................... 89 8.12. Las Vegas Wrapper (LVW) ..................................................................................... 90 8.13. Las Vegas Filter (LVF) ............................................................................................ 90 9. Sélection de variables par les SVM ............................................................................... 91 9.1. Bornes de l’erreur de généralisation .......................................................................... 91 9.2. Les critères de sélection de variables par les SVM binaires ...................................... 93 9.3. Les critères de sélection de variables par les SVM Multi-Classes ............................ 95 9.4. SVM-RFE .................................................................................................................. 95 10. Conclusion ..................................................................................................................... 96 Chapitre III : Sélection de Variables par les SVM - Diagnostic du Cancer ..................... 99 1. Introduction .................................................................................................................... 99 2. Les puces à ADN ........................................................................................................... 100 3. Les Jeux de données utilisés ......................................................................................... 102 3.1. Jeu de données UCI Machine Learning Repository ................................................ 102 3.2. Jeu de données de puce à ADN ................................................................................ 103 4. L’approche proposée SA-SVM .................................................................................... 105 4.1. Le schéma général de l’approche SA-SVM ............................................................. 106 4.2. Résultats expérimentaux .......................................................................................... 112 5. L’approche proposée BGWO-SVM ............................................................................ 117 5.1. Gray Wolf Optimizer ............................................................................................... 118 Table des matières ______ 5.2. BGWO : Binary Gray Wolf Optimizer for Feature selection .................................. 122 5.3. Résultats expérimentaux .......................................................................................... 125 6. L’approche proposée SVM-RFE-ED .......................................................................... 128 6.1. L’algorithme SVM-RFE-ED ................................................................................... 128 6.2. Résultats expérimentaux .......................................................................................... 129 7. L’approche proposée « Hybrid BDF-SVM » ............................................................. 134 7.1. L’approche BDF-SVM ............................................................................................ 134 7.2. Résultats expérimentaux .......................................................................................... 140 8. Conclusion ..................................................................................................................... 142 Conclusion générale ............................................................................................................. 145 Références ............................................................................................................................. 147 Résumé ______ Résumé La croissance en exponentielle des données et la diversification de l’information dans plusieurs domaines qui ont vu le jour avec ces nouvelles avancées technologiques dans différents domaines de la fouille de données, recherche d’information, traitement d’image système de prédiction et diagnostic médical, etc. ont généré un énorme problème dans le traitement et l’analyse des données collectées. Ce problème est dû au grand nombre de caractéristiques qui décrivent les instances des bases de données traitées. De ce fait, les problèmes de classification et régression deviennent difficiles à résoudre et par moment presque impossible. Il s’avère qu’une phase de prétraitement des données est nécessaire pour réduire la taille des données. Cette phase consiste en la sélection de variables qui permet de déterminer les variables pertinentes et repérer les variables redondantes et peu informatives et par la suite les éliminer tout en conservant la qualité des données. Les données dont le nombre de caractéristiques est très élevé sont les puces à ADN. Ces dernières ont connu un développement très rapide durant ces dernières années, cela est dû à la grande fréquence de leur utilisation pour le diagnostic du cancer. Une puce à ADN ou une bio- puce offre une observation de plusieurs milliers de gènes simultanément pour une seule classe ce qui permet de dissocier une cellule saine d’une cellule cancéreuse. Ces données sont caractérisées par un grand nombre de caractéristiques (milliers de gènes) et un nombre très réduit d’échantillons en raison du fort coût du traitement de l’information. Afin d’assurer un diagnostic de qualité, plusieurs variables constituant le bruit et les variables peu informatives doivent être éliminées. Les méthodes à noyaux tels que les machines à vecteur de supports permettent la sélection de variables. Ces méthodes utilisent des critères qui sont basés sur l’importance d’une variable et sa participation dans la maximisation de la marge géométrique ou son influence sur la borne d’erreur de généralisation. D’un côté, les SVMs peuvent être utilisées comme une approche pour sélectionner les variables qui optimisent les paramètres de la fonction noyaux et le taux de classification et dans ce cas cette approche sera de type enveloppe. D’un autre côté, elles peuvent intégrer un module de sélection de variables dans la phase d’apprentissage et dans ce cas cette approche sera de type intégré. Notre objectif dans cette thèse est de proposer de nouvelles approches basées sur les machines à vecteurs de support pour améliorer la qualité de la classification et le diagnostic du cancer. Ces approches seront utilisées pour la sélection de gènes des puces à ADN et la détermination des paramètres de la SVM, ainsi que les paramètres de la fonction noyau. Notre contribution consiste à proposer une approche pour l’estimation des paramètres de la SVM (les paramètres de régularisation SVM et de la fonction noyau) et la sélection des gènes de puce à ADN pour le diagnostic du cancer. Les expérimentations ont montré que les approches de sélection de variables basées sur les SVMs permettent d’améliorer significativement la qualité de l’apprentissage et du diagnostic du cancer. Ces approches ont la capacité de sélectionner un nombre réduit de gènes (variables) 9
Description: