ebook img

Hypergraphes multimédias dirigés navigables: construction et exploitation PDF

141 Pages·2017·6.94 MB·French
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Hypergraphes multimédias dirigés navigables: construction et exploitation

Hypergraphes multimédias dirigés navigables, construction et exploitation Rémi Bois To cite this version: Rémi Bois. Hypergraphes multimédias dirigés navigables, construction et exploitation. Multimédia [cs.MM]. Université Rennes 1, 2017. Français. ￿NNT: 2017REN1S107￿. ￿tel-01734657v4￿ HAL Id: tel-01734657 https://theses.hal.science/tel-01734657v4 Submitted on 11 Apr 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. ANNÉE2017 THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l’Université Bretagne Loire pour le grade de DOCTEUR DE L’UNIVERSITÉ DE RENNES 1 Mention : Informatique École doctorale Mathstic présentée par Rémi Bois préparée à l’unité de recherche 6074 IRISA Institut de recherche en informatique et systèmes aléatoires Université de Rennes 1 ThèsesoutenueàRennes le21décembre2017 devantlejurycomposéde: Bénédicte LE GRAND Professeur, Univ. Paris 1 Panthéon Sorbonne, Hypergraphes multimédias CRI/Présidente Patrice BELLOT Professeur, Aix-Marseille Univ., LSIS/Rappor- dirigés navigables : teur Xavier TANNIER construction et exploitation Professeur,Univ.PierreetMarieCurie,LIMICS /Rapporteur Jean CARRIVE Chercheursenior,INA/Examinateur Emmanuel MORIN Professeur,Univ.Nantes,LS2N/Examinateur Guillaume GRAVIER Directeur de recherche, CNRS, IRISA & INRIA Rennes/Directeurdethèse Pascale SÉBILLOT Professeur, INSA Rennes, IRISA & INRIA Rennes/Directricedethèse Éric JAMET Professeur, Univ. Rennes 2, CRPCC/Membre invité Remerciements Cesquelqueslignessontpourmoil’occasiondecoucherparécritdesremerciements rarement formulés, et pourtant amplement mérités. D’abord pour Pascale, Guillaume et Emmanuel,quim’ontguidétoutaulongdecestroisannées.Mercipourvotreconfiance, votre exigence et votre bienveillance qui m’ont permis de sans cesse progresser dans les meilleures conditions possibles. Ensuite pour les membres de mon jury de thèse pour avoir accepté d’évaluer mon travail. Les questions et discussions qui ont accompagnées masoutenancefurentrichesetpassionnantesetjevousenremerciechaudement. Cette thèse a été réalisée au sein du projet LIMAH. J’ai une pensée pour chacune des personnes y ayant participé, nos échanges ont été passionnants et suivre l’avancée de vos travaux a été un plaisir. L’équipe LinkMedia qui m’a accueilli à Rennes pendant ces trois ans a été la source de nombreux conseils et d’une ambiance de travail agréable quotidienne.Merciàtouslespermanents,àAuréliedontl’aideaétéinestimable,etàtous lesdoctorants,post-docetingénieursquej’aieulachancedecôtoyerauseindel’équipe. Jeremerciespécialementceuxdel’équipeavecquij’aipartagédestravauxderecherche, à savoir Anca, Vedran, Mikail, Mateus, Ahmet, Ronan et Arnaud. Merci également aux collèguesavecquij’aieulachanced’enseigner,etparticulièrementDelphineetThomas. Votre dévouement pour vos jeunes étudiants est source d’inspiration. Enfin, je clos ces remerciements dédiés à l’équipe par ceux avec qui j’ai partagé d’innombrables cafés : le maître décorateur Cédric qui, j’en suis sûr, parviendra à finir de recouvrir les murs de notre bureau avant la fin de sa thèse, et Clément, qui a eu l’infortune de m’avoir en partenairedejeu,menantdenombreusesfoisàsamortvirtuelle. J’aieul’occasionpendantcestroisannéesderencontrerdenombreuxdoctorantspar lebiaisdel’associationNicomaque.J’enremercietouslesmembres,etspécialementVic- torien,Roselyne,Mathilde,Dominique,LidaetYannavecquij’aieul’occasiondemener desprojetspassionnants.Lisa,unmerciparticulieràtoi,pourlesmêmesraisonsetpour m’avoirprésentécelleavecquijecouledesjoursheureux. J’ai décidé dans m’engager dans cette thèse après des études captivantes menées à Nantes.J’aieul’opportunitéd’yrencontrerceuxquim’onttransmisleurpassionpourla recherche. Merci à l’ensemble de l’équipe TALN pour les précieux enseignements qu’ils ontsuprodiguer.JepensetoutparticulièrementàFlorian,dontlesconseilsinestimables m’ont donné envie de consacrer trois années supplémentaires de ma vie à faire de la recherche.Jepenseégalementauxautresétudiantsdumaster,àsavoirGrégoire,Agathe, Soufian, Joseph, Hugo, Noémi et Loïc avec qui j’ai partagé des moments mémorables. Nathalie,situn’aspartagénossallesdeclassesquequelquesmois,tuesmalgrétoutun membre irremplaçable de notre petite équipe. Ces deux années en votre compagnie ont étéàlafoisstimulantesetrempliesdebonheur. Un autre facteur de réussite de cette thèse réside en la présence continuelle d’amis précieux.UngrandmerciàBenjamin,Romain,GuillaumeetCorentinpourlesbonsmo- mentspassésensembledepuisplusde10ans.Votreamitiém’estprécieuse.Merciégale- mentàtousceuxquej’airencontrédepuisledébutdemesétudes,etavecquijeconserve deslienstrèsforts.Marie-Charlotte,Chris,Quentin,Eric,Carl,Clément,Romain,Kevin, Nicolas,Gwen,Phil,Baptiste,c’esttoujoursunimmenseplaisirdevousretrouver. Il est temps de conclure ces remerciements avec l’expression de mon amour pour mes parents qui n’ont eu de cesse de m’encourager et de me soutenir. Maman, papa, merci. Merci également à ma jumelle Laura, dont j’admire la patience, la ténacité, et la gentillesse. Enfin, merci à toi, Caroline, pour être présente chaque jour à mes côtés. Je t’aime. i Table des matières Introductiongénérale 1 Part I — Enjeuxetmoyenspourl’explorationd’actualités 5 1 Explorerl’actualité:unenjeupourlesprofessionnelsetlegrandpublic 7 1.1 Populationsconcernées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.1.1 Grandpublic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.1.2 Professionnelsdel’information . . . . . . . . . . . . . . . . . . . . . 10 1.2 Outilsdisponiblesetattentesdesprofessionnelsdel’information . . . . . 11 1.2.1 Outilsdisponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.2 Protocoled’étudedesbesoinsdesprofessionnelsdel’information . 14 1.2.3 Acceptabilitédesfonctionnalitéspourlesprofessionnelsdel’infor- mation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2 Outils scientifiques pour la consultation et la structuration de collections d’ac- tualités 21 2.1 Groupementd’articlessimilaires . . . . . . . . . . . . . . . . . . . . . . . . 21 2.1.1 Catégorisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.2 Regroupementstatique . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.3 Regroupementdynamique . . . . . . . . . . . . . . . . . . . . . . . 24 2.2 Structurationdecollections . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.1 Structurationchronologique . . . . . . . . . . . . . . . . . . . . . . 25 2.2.2 Filsd’actualités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.3 Graphesd’actualités . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.4 Hyperliagemultimédia . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3 Systèmescomplets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.1 Informedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.2 FischlàrNews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.3.3 FishWrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3 LeprojetLIMAH 33 3.1 Enjeuxetobjectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1.1 Constructiond’hypergraphesnavigables . . . . . . . . . . . . . . . 33 3.1.2 Segmentationetstructurationdevidéoséducatives . . . . . . . . . 34 3.1.3 Analysed’opinionetcontenusutilisateurs . . . . . . . . . . . . . . 34 3.1.4 Droitdesdonnéesetdesenrichissements . . . . . . . . . . . . . . . 35 ii Tabledesmatières 3.2 Corpus:constructionetcaractéristiques . . . . . . . . . . . . . . . . . . . . 35 3.2.1 Objectifsetcomposition . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2.2 Documentsweb. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2.3 Documentsaudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2.4 Documentsvidéos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.2.5 Réseauxsociauxetcommentairesutilisateurs . . . . . . . . . . . . . 42 Part II — Constructiond’hypergraphesnavigablespourl’explorationd’ac- tualités 45 4 Hypergraphesexplorables 47 4.1 L’hypergraphe,unestructurationdedonnéespenséepourlanavigation . 48 4.1.1 Définitiondel’hypergraphe . . . . . . . . . . . . . . . . . . . . . . . 48 4.1.2 Différencesaveclesmoteursderechercheetlarecommandation . 49 4.2 Navigabilitéetexplorabilité:lescaractéristiquessouhaitablesd’unhyper- graphe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.2.1 Explorabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.2.2 Différencesaveclanotiondenavigabilité . . . . . . . . . . . . . . . 52 5 Constructiondegraphesexplorables 55 5.1 Cadreexpérimental:desclustersàl’hypergraphe . . . . . . . . . . . . . . 56 5.1.1 Protocoled’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.1.2 Caractéristiquesducorpus . . . . . . . . . . . . . . . . . . . . . . . 57 5.2 K-NNetE-NN,unparamétragecomplexeetuneexplorabilitélimitée . . 59 5.2.1 K-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.2.2 E-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.2.3 CombinaisonsdeK-NNetE-NN . . . . . . . . . . . . . . . . . . . . 62 5.3 ANN,uneméthodenonparamétriquepourlaconstructiondegraphesex- plorables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.3.1 Uneexploitationdescaractéristiquesdel’espacedereprésentation 63 5.3.2 Méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.3.3 ComparaisondeK-NN,E-NNet A-NN . . . . . . . . . . . . . . . . 66 5.3.4 ValidationsurlecorpusLIMAH . . . . . . . . . . . . . . . . . . . . 67 5.3.5 Optimisationsetmisesàjourdumodèle . . . . . . . . . . . . . . . 68 5.3.6 Expérimentationssurlareprésentationneuronalededocuments . 69 6 Unediversitédeliensnécessaire 71 6.1 Lesavantagesdeladiversité. . . . . . . . . . . . . . . . . . . . . . . . . . . 72 6.1.1 Desintérêtsdiversàconcilier . . . . . . . . . . . . . . . . . . . . . . 72 6.1.2 Lasérendipité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 6.2 Fusionner les modalités pour une diversité plus large : LDA bimodal et réseaudeneuronesbimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 6.2.1 Monomodalité,multimodalitéetcrossmodalitépourl’hyperliage . 73 6.2.2 LDAcrossmodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.2.3 Réseauxdeneuronesbidirectionnels . . . . . . . . . . . . . . . . . . 76 6.3 Évaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 6.3.1 Scoresdepertinence . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 6.3.2 Évaluationhumainedeladiversité. . . . . . . . . . . . . . . . . . . 79 6.3.3 Mesuresautomatiquespourladiversité . . . . . . . . . . . . . . . . 82 Tabledesmatières iii Part III — Enrichissement par typage d’hyperliens pour une navigation éclairée 85 7 Typologiedeliens:descriptionetconstruction 87 7.1 Typologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 7.1.1 Étatdel’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 7.1.2 Descriptiondelatypologie . . . . . . . . . . . . . . . . . . . . . . . 88 7.1.3 Exemplesextraitsducorpus . . . . . . . . . . . . . . . . . . . . . . 90 7.1.4 Ambiguïtédutypage. . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.2 Typageautomatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.2.1 Approchespossibles . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.2.2 Typageàbased’heuristiques . . . . . . . . . . . . . . . . . . . . . . 93 8 Validationextrinsèqueensituationprofessionnelle 97 8.1 Interfacesutilisateuretconfigurationsévaluées . . . . . . . . . . . . . . . . 97 8.1.1 Descriptiontechniqueetfonctionnelle . . . . . . . . . . . . . . . . . 98 8.1.2 Configurationsévaluées . . . . . . . . . . . . . . . . . . . . . . . . . 100 8.2 Populationsétudiéesetprotocoleexpérimental . . . . . . . . . . . . . . . . 101 8.2.1 Populationsétudiées . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 8.2.2 Protocoleexpérimental. . . . . . . . . . . . . . . . . . . . . . . . . . 102 8.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 8.3.1 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 8.3.2 Ressentidesutilisateurs . . . . . . . . . . . . . . . . . . . . . . . . . 106 Conclusiongénérale 111 iv Tabledesmatières 1 Introduction générale L’accès à une information diversifiée et de qualité est un enjeu essentiel pour l’en- semblede la société.Depuis plusieursannées, les sources d’informationsse multiplient, entraînant de fait une multiplication des points de vue, qu’ils soient rapportés par des médias établis au travers de journaux, par d’apprentis journalistes via des blogs, ou par des citoyens utilisant les réseaux sociaux comme seul mode de diffusion. Les moyens de consommation de cette actualité se sont également diversifiés, et de récentes études rapportent que la part de la population s’informant via les réseaux sociaux est en nette augmentation (Gottfried et Shearer, 2016). Cette multiplicité a néanmoins certains effets néfastes,telsquelalargediffusiondefaussesinformations(fakenews),ladifficultéressen- tie par le grand public à s’orienter dans la masse d’informations disponibles, ou encore leseffortsnécessairesauxprofessionnelsdesmédias(journalistes,attachésdepresse,...) pour trouver des éléments d’information précis. Dans cette thèse nous nous intéressons aux deux dernières problématiques, qui ne trouvent pas à l’heure actuelle de réponse satisfaisante. Peud’outilsexistentaujourd’huipourpermettreaugrandpublicd’explorerefficace- ment les nombreux documents d’actualités publiés chaque jour. Face à des volumes de publication gigantesques, multisources et multimédias, trois approches principales co- existent. La première consiste à utiliser un média de référence, qui se charge lui-même de hiérarchiser et de sélectionner les informations qu’il juge pertinentes. Ce média peut correspondre à une entité de presse écrite (Le Monde, Le Figaro, Libération, ...), télé- visuelle(journauxtélévisés,émissionsd’actualités,...)ouradiophonique(bulletinsd’in- formation,chroniquesd’information,...).Onpeutalorsparlerd’approcheverticale,dans laquellel’informationestgénérée,miseàdisposition,ettriéeparcesentitésavantd’être consommée par le grand public. La deuxième approche consiste en une approche hori- zontale,danslaquellec’estlegrandpublicquihiérarchise,sélectionne,voiregénèrel’in- formation.C’estlemodèledessitescommunautairescommeAgoraVoxouReddit,etdes réseaux sociaux comme Facebook ou Twitter. La troisième et dernière approche consiste à offrir un large spectre des publications des différents médias et à laisser l’utilisateur sélectionnersessujetsd’intérêtainsiquesessourcespréférées.C’estlemodèledesagré- gateurs, qui rassemblent les articles de presse discutant d’un même événement au sein degroupesdistinctsetlaisseàl’utilisateurlalibertédechoisirquellesourceconsulterau sein de chaque groupe. Ce dernier modèle, rendu possible par l’utilisation d’interfaces web efficaces, permet notamment de répondre à l’envie exprimée par les citoyens euro- péens d’avoir accès à plusieurs points de vue (Newman et al., 2016). Dans cette thèse, nousproposonsd’étendrelanotiond’agrégateursenconstruisantunestructurationplus riche que le regroupement d’informations au sein de groupes distincts. Nous y déve-

Description:
machine learning, de type K-NN (Soucy et Mineau, 2001) (dans lequel on assigne à un lien le type du lien .. grâce à AngularJS et est soutenue par des services REST via Spring et mis en page grâce à. Bootstrap. Ichiro Ide, Tomoyoshi Kinoshita, Tomokazu Takahashi, Hiroshi Mo, Norio Katayama,.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.