Étude de l’omniprésence des propriétés petit- 5 monde et sans-échelle 1 0 2 n a J VincentLabatut 7 UniversitéGalatasaray,Çırag˘ancad.n˚36,Ortaköy34357,I˙stanbul,Turquie ] LIA,Universitéd’Avignon,AgroparcBP1228,84911AvignonCedex9,France O [email protected] H . h RÉSUMÉ. Les propriétés petit-monde et sans-échelle ont été identifiées dans les réseaux com- t a plexesréelsàlafindesannées90.Leurétudeapermisdefaireprogresserlacompréhension m decertainssystèmes,etellesontfaitl’objetdetrèsnombreuxtravaux.Peut-êtrepourcetterai- [ son,onrencontretrèsfréquemmentdanslalittératurel’idéequ’ils’agiraitdepropriétésquasi- universelles,valablespourpresquetouslesréseauxcomplexes.Or,ànotreconnaissance,au- 1 cuneétudeàgrandeéchellen’aétémenéepourvéritablementrépondreàcettequestion.Dans v 3 cetravail,noustironsparti,d’unepart,delagrandequantitédedonnéesquiestmaintenant 9 disponibleenlignepourconstituerunelargecollectionderéseauxcomplexes,etd’autrepart 4 d’outilsd’analysedéfinisrécemment,pouréprouverobjectivementcettehypothèsed’omnipré- 6 sence.Ilressortquesiunelargemajoritédesréseauxtraitésestbienpetit-monde,cen’esten 0 revanchepaslecaspourlapropriétésans-échelle,puisqueledegréd’uneproportionsignifica- . 2 tivedecesréseauxn’estpasdistribuéselonuneloidepuissance. 0 5 ABSTRACT.Thesmall-worldandscale-freepropertieswereidentifiedinreal-worldcomplexnet- 1 worksattheendofthe90s. Theiranalysisledtoabetterunderstandingofthedynamicsand : functioningofcertainsystems,andtheywerestudiedinmanysubsequentworks.Thismightbe v i thereasonwhyonefrequentlyfinds, inthecomplexnetworksliterature, assertionsregarding X theirubiquity,theirvalidityforalmostallcomplexnetworks.Yet,thementionedseminalworks r wereconductedonaverylimitednumberofnetworks, and, tothebestofourknowledge, no a large-scalestudyhasbeenconductedtoanswerthisquestion.Inthiswork,wetakeadvantage, ontheonehand,ofthemanydatasetsnowavailableonline,toconstitutealargecollectionof networks,andontheotherhand,ofrecentanalysistools,tocheckthevalidityofthishypothesis ofubiquity. Itturnsoutalargemajorityofthestudiednetworksareindeedsmall-world,how- everthisisnotthecaseforthescale-freeproperty,sincethedegreedistributionofasignificant proportionofournetworksdoesnotfollowapower-law. MOTS-CLÉS:Réseauxcomplexes,propriétéstopologiques,petit-monde,sans-échelle. KEYWORDS:Complexnetworks,topologicalproperties,small-world,scale-free. 2 MARAMI2014. 1. Introduction Destravauxfondateursréalisésautourdesannées2000onpermisd’identifierdans lesréseauxcomplexesdespropriétéstopologiquespermettantdemieuxcomprendrele fonctionnementdessystèmesmodélisés.Lesdeuxplusimportantessontcertainement lapropriétépetit-monde,étudiéeparWatts&Strogatz[WAT98],etlapropriétésans- échelle, traitée par Barabási & Albert [BAR99], qui seront toutes les deux décrites plusloin. Àlasuitedecestravaux,l’idées’estprogressivementrépanduedanslalittérature quecespropriétésétaientprésentesdanslaplupartdesréseauxreprésentantdessys- tèmesréels[BOC06].Pourtant,cettehypothèsed’omniprésencepeutsemblerfragile, pour deux raisons. Tout d’abord, les études qui se sont attachées à vérifier la préva- lence de ces propriétés sont basées sur un très faible nombre de réseaux. Ainsi, les travauxfondateurscitésprécédemmentconsidèrenttouslesdeuxseulement3réseaux [WAT98, BAR99]. Les publications plus récentes utilisent des collections à peine plus grandes, constituées de 5 [LAT01], 7 [AMA00], 9 [BOC06], 11 [WAN03], 15 [NEW02], 27 [NEW03], 30 [ALB02], 33 [HUM08] réseaux. Ceci est princi- palement dû au fait qu’à cette époque, ce type de données était extrêmement rare, etleuraccèsdifficile.Lasecondecritiqueportesurlesméthodesd’analyseutilisées, enparticulierpourdéterminerlaprésencedelapropriétésans-échelle,quireposesur l’observation que le degré du réseau est distribué selon une loi de puissance. L’opé- rationconsistantàidentifiercettedistributionestcouranteensciencesexpérimentales [NEW05, NEW11]. Des travaux méthodologiques récents ont montré qu’elle était généralementréaliséedefaçoninappropriée,enraisondel’utilisationd’outilsstatis- tiquesinadaptéset/ouappliquésdefaçonincorrecte[NEW05,CLA09]. Ilestaujourd’huipossibledecontournercesdeuxlimitations.Eneffet,avecledé- veloppementdenotrechampderecherche,descentaines,voiredesmilliersderéseaux différents sont maintenant accessibles via le Web, à travers les sites des chercheurs, laboratoires et journaux. Le problème principal qui se pose est de rassembler, nor- maliser et classifier ces données hétérogènes et éparpillées, de manière à constituer une base de données exploitable de façon automatique. Du point de vue méthodolo- gique,làaussi,lesoutilspermettantd’identifierladistributiondudegrédansunréseau complexeexistent,etlaprocédureàsuivreaétéclairementétablie[CLA09]. Danscetarticle,nousnousproposonsd’éprouverl’hypothèsed’omniprésencedes propriétés petit-monde et sans-échelle dans les réseaux complexes représentant des systèmes réels. Nous constituons d’abord une large collection de réseaux, puis nous l’étudionsaumoyendeméthodesd’analyseadéquates.Danslasectionsuivante,nous rappelonsbrièvementcequesontcesdeuxpropriétésquinousintéressent.Puis,dans lasection3,nousdécrivonscommentnousavonsconstituénotrecollectionderéseaux, avant d’aborder en section 4 les méthodes d’analyse que nous avons utilisées pour l’étudier. Les résultats obtenus sont présentés dans la section 5. Ce travail peut-être considéré comme la première étape d’un projet à plus long terme, pour lequel nous donnonsquelquespistesàexplorerenguisedeconclusion. Propriétéspetit-mondeetsans-échelle 3 2. Propriétéstopologiques Denombreusespropriétéstopologiquessontaujourd’huiétudiéespourcaractéri- serdessystèmesréels,tellesquelacorrélationdudegré,lastructuredecommunautés ou différents types de centralité décrivant aussi bien les nœuds que les liens. Nous nousconcentrons,danscetteétude,surlesdeuxpropriétéshistoriquescitéesdansl’in- troduction:lapropriétépetit-mondeetlapropriétésans-échelle,quenousdécrivons brièvementdanscettesection. 2.1. Petit-monde Lapropriétépetit-mondeaétédéfinieparWatts&Strogatzensebasantsurdeux mesures topologiques [WAT98]. D’une part, la distance géodésique moyenne, une caractéristiqueglobaleduréseauquireprésenteleniveaudeséparationtypiqueentre deux nœuds. D’autre part, le coefficient de transitivité (ou coefficient de clustering), quiestlocaletcorrespondauniveaud’interconnexiondanslevoisinaged’unnœud. Watts & Strogatz ont calculé ces mesures pour différents réseaux réels, et les ont comparées à celles attendues pour les deux principaux modèles du moment : d’un côté les structures de treillis, qui constituent une forme de graphes réguliers, et qui sont qualifiés ici de complètement ordonnés; et de l’autre les réseaux aléatoires de type Erdo˝s-Rényi [ERD60], qui sont décrits ici comme complètement désordonnés. Les premiers possèdent une transitivité et une distance moyenne élevées, alors que pour les seconds, ces deux mesures sont petites. L’analyse a montré que les réseaux réelssesituentquelquepartentrecesdeuxextrêmes.Leurdistancemoyenneestpetite, dumêmeordredegrandeurquecelleobtenuepourdesréseauxaléatoires,etbienen- deçàdecelledestreillis.Leurtransitivitéestélevée,dumêmeordredegrandeurque celle d’un treillis, et bien au-delà de celle des graphes aléatoires. C’est la présence simultanéedecesdeuxcaractéristiquesqueWatts&Strogatzontqualifiéedepropriété petit-monde. Lapropriétépetit-mondeauneffetsurlesprocessusprenantplacedanslesystème modélisé.Watts&Strogatzontillustréempiriquementqu’ellefacilitelesmécanismes de propagation dans le réseau. Par la suite, Latora & Marchiori ont montré de façon théoriquequelesréseauxpetit-mondesonteffectivementtrèsefficacesdansletrans- portd’information,àlafoisauxniveauxlocaletglobal[LAT01].Ceciadesconsé- quencesdirectesurlefonctionnementdusystème,quidépendentdesanature.Ainsi, lavitessedepropagationd’uneépidémiedansunepopulationaugmente;lacapacité calculatoired’unréseaud’automatescellulairess’accroît;unensembled’oscillateurs sesynchroniseplusrapidement,ouoscilledefaçonpluscohérente;l’apparitiond’une propriétéémergentetellequelacollaborationdansunepopulationdejoueursdevient plus probable; etc. [WAT98, LAG00, LI03]. L’étude de cette propriété constitue doncunpointimportantdel’analysed’unsystèmeréel. 4 MARAMI2014. 2.2. Sans-échelle Dansleurétudebienconnue[BAR99],Barabási&Albertontobservéqueledegré k mesurésurplusieursréseauxréelsestdistribuéselonuneloidepuissanceP(k) ∼ k−α.Autrementdit,lenombredenœudsdedegrékestproportionnelàunepuissance dek.Ilsontqualifiélesréseauxconcernésdesans-échelle,enraisondelapropriété qu’a cette fonction de conserver la même forme quand son paramètre est multiplié paruneconstante.Cependant,ilfautnoterquel’invarianced’échelleconsidéréedans cette étude ne concerne que le degré, et pas forcément les autres mesures que l’on peutcalculerpourdécrireunréseau(contrairementàcequel’expressionréseausans- échellepourraitlaissercroire). Comme pour la propriété petit-monde, les modèles classiques du moment n’ex- pliquentpascettedistribution:danslesgraphesréguliers,ledegréestpardéfinition le même pour tous les nœuds (loi dégénérée), alors que pour les graphes aléatoires, il est distribué selon une loi de Poisson [ERD60]. Dans les deux cas, il existe donc une valeur caractéristique pour le degré, ce qui n’est pas le cas avec la loi de puis- sance. Or, la propriété sans-échelle a été observée sur des réseaux modélisant des systèmes réels très différents : grille électrique, Web, réseau d’interactions sociales, Internet,etc.[BAR99,NEW03].Pourl’expliquer,Barabási&Albertutilisentdeux mécanismesabsentsdesdeuxmodèlesclassiques:lacroissancedusystèmeetl’atta- chement préférentiel. Le premier implique que le réseau soit construit itérativement, paradditiondenouveauxnœuds.Lesecondstipulequecesnouveauxnœudsontten- danceàseconnecteràdesnœudsdéjàexistantsdedegréélevé.Ilfautcependantnoter qued’autresmodèlestrèsdifférentsontétéproposéspourproduiredesréseauxsans- échelle [BOC06], ce qui laisse supposer qu’il existe plusieurs mécanismes distincts amenantàl’apparitiondecettepropriétédansdessystèmesréels. Lapropriétésans-échelleauneffetdirectsurlastructureduréseau:unegrande majorité de nœuds est très faiblement connectée, alors qu’un nombre réduit possède un degré très élevé, et sont considérés comme des pivots (hubs). Par comparaison, danslesmodèlesdontladistributiondudegréestplushomogène,laprobabilitéd’ap- paritiondecesvaleursextrêmesestparticulièrementfaible.Grâceàl’existencedeces pivots,lesréseauxsans-échelleopposentunemeilleurerésistanceauxattaquesaléa- toires,consistantàtenterdepartagerleréseauensupprimantdesnœudsauhasard.En revanche,ilssontplusvulnérablesauxattaquesconcertées,quiseconcentrentsurces pivots[ALB02].Entermesdepropagation,lesréseauxsans-échellesmodélisantdes systèmesréelsontunseuilépidémiologiquetrèsbas[BOC06],cequisignifiequ’une épidémiepeutysurvivretrèslongtemps.Commepourlapropriétépetit-monde,l’effet delapropriétésans-échellesurlefonctionnementduréseaujustifielagrandeimpor- tancequiluiestdonnéedanslalittérature. 3. Donnéesetprétraitement Comme nous l’avons mentionné dans l’introduction, le Web permet aujourd’hui d’accéderàunetrèsgrandequantitéderéseauxcomplexesreprésentantdessystèmes Propriétéspetit-mondeetsans-échelle 5 réels. Cependant, différents problèmes compliquent fortement la constitution d’une collectionderéseauxdegrandetaille,quiestunprérequisàl’étudeàgrandeéchelle quenousvoulonsréaliserici. Tout d’abord, la très grande majorité des ces données librement accessibles est extrêmementdispersée,cequirendleurexploitationdifficile.Onlestrouveprincipa- lementsurlespagespersonnellesdeschercheursquilesontcollectéesouanalysées, ou bien sur les sites de certains éditeurs offrant la possibilité d’héberger des fichiers annexes que les auteurs peuvent associer à leurs articles. Certains groupes ont en- trepris de constituer leurs propres collections de réseaux, ce qui permet de limiter ce problème. On peut ainsi trouver des jeux de test sur les sites de logiciels dédiés à l’analyse de réseaux, tels que Pajek1 ou Gephi2. Plus récemment, des groupes de rechercheontcollectéetorganisédesdonnéespourlesmettreàdispositiondelacom- munautés, donnant naissance à des dépôts librement accessibles, tels que Stanford LargeNetworkDatasetCollection3 ouKoblenzNetworkCollection4.Cependant,ces collectionsrestentdetaillerelativementlimitée,del’ordredelacentainederéseaux. Outre la difficulté pratique de la tâche consistant à rechercher des réseaux épar- pilléssurl’ensembleduWeb,desproblèmesd’ordrelégalempêchentaussilaconsti- tution de grandes collections. En effet, les données ne sont pas toutes protégées par les mêmes licences d’utilisation, et l’incompatibilité de certaines d’entre elles rend impossible l’utilisation d’une licence couvrant l’ensemble de la collection. De plus, certains auteurs ou institutions refusent que leurs données soient hébergées ailleurs quesurleurpropresite. Enfin,ledernierproblèmeesttechnique:iln’existepasdeformatstandardpourla représentationdesréseaux.Ouplutôt,ilenexisteungrandnombre,chacunavecces spécificités.Leformatleplussimple,souventappeléedgelist,consisteàreprésenter la liste des liens du réseau, sous la forme de paires de nœuds. Cependant, ce format nepermetpasdereprésenteruneinformationriche,commeparexempledesattributs nodaux,ouladimensiontemporelle.Pourrésoudrecetypedelimitation,chaqueoutil proposedoncsonpropreformat,commeparexempleGexfpourGephi,voireplusieurs formats différents, comme c’est le cas pour Pajek. En raison de cette hétérogénéité, la constitution d’une collection requiert, en plus du travail de collecte, d’effectuer unenormalisationduformatdestockagedesdonnées,afindepouvoirleurappliquer ensuiteuntraitementautomatisé. En raison des trois difficultés invoquées précédemment, nous avons décidé dans unpremiertempsdeconstituerunecollectionlimitée,quiseraensuiteenrichieitéra- tivement,etdontl’organisationseraéventuellementmodifiéeenfonctiondesretours issus de son utilisation. Lors de cette première passe, nous avons recueilli un total de611réseaux,entirantprincipalementpartidescollectionsmentionnéesci-dessus, 1. http://pajek.imfm.si/ 2. https://gephi.org/ 3. http://snap.stanford.edu/data/ 4. http://konect.uni-koblenz.de/ 6 MARAMI2014. et en complétant avec des données éparses. En ce qui concerne le stockage de ces données, nous avons opté pour deux formats. Pour des réseaux que nous qualifions debasiques,danslesensoùilssontseulementdécritsparleurstructuremême,avec éventuellementdesliensorientés,nousavonsutiliséleformat.netdePajek,quiest compact mais suffisant. Pour des réseaux plus riches, possédant par exemple des at- tributsnodaux,deslienspondérés,oubiendestypesdenœudsoudeliensdistincts, nous avons utilisé Graphml, qui est un dialecte XML beaucoup plus verbeux que le format de Pajek, mais dont le pouvoir expressif est en contrepartie bien plus grand. Cesdeuxformatsoffrentl’avantaged’êtrecompatiblesavecungrandnombred’outils différents. L’ensembledesfichiersobtenusconstituelaversioncomplètedenotrecollection. Cependant,pourletravaild’analysequinousintéresseici,nousn’avonsbesoinquede réseauxbasiques. Nousavons doncproduitune versionpartielle denotrecollection, contenant une version de chaque réseau débarrassée de toute information superflue. Pourlaplupartdesréseauxconcernés,ils’agissaitsimplementdesupprimerlesorien- tationsoulespoidsdesliens.Parmilesréseauxnettoyés,unecentainesontbipartis: nousavonsalorscalculélesdeuxprojectionspossiblesetgardélamoinsdense(pour minimiserlefaitquecesprojectionsaboutissentàdesréseauxplusdenses).Ilexiste égalementunecinquantainederéseauxmultiplexes:nousavonsconservéseulement untypedeliens,enprivilégiantceluiquipermettaitd’obtenirleréseaulemoinsdense, toutenétantconnecté.Ilfautsoulignerquecestransformationssontcritiquables,car on peut argumenter qu’elles sont susceptibles d’affecter les propriétés topologiques qui nous intéressent. Nous avons néanmoins décidé d’inclure ces réseaux dans nos données, car c’est l’approche admise dans la littérature, et ce dès les travaux fonda- teursprécédemmentmentionnés[WAT98,BAR99].Nousprojetonsd’étudierplusen détaill’effetdecestransformationsquandlenombrederéseauxbipartis/multiplexes dansnotrecollectionserasuffisant.Ladernièremodificationaconsistéàsupprimerles nœudsisolés(nœudsdedegrénul),lesliensmultiples(plusieursliensentrelamême paire de nœuds) et les boucles (lien connectant un nœud à lui-même). Enfin, nous avonségalementfiltrélesréseauxlesplusgrands,qu’ilnousétaitimpossibledetrai- ter pour des raisons computationnelles. Au final, notre collection nettoyée comporte 598réseauxbasiques,tousauformatPajek. Pourlesraisonsinvoquéesprécédemment,ilnousestimpossibledeplacerdirecte- mentcesdonnéesenligne.Cependant,lalistedesréseauxconcernés,avecunebrève descriptionetunlienverslesdonnéesoriginales,estdisponiblesurnotresite5. 4. Évaluationdespropriétés Depuis les deux travaux fondateurs de la fin des années 90 mentionnés précé- demment[WAT98,BAR99],lesméthodesproposéespourcaractériserlespropriétés petit-mondeetsans-échelleontsignificativementévolué,pourallerversplusd’objec- 5. http://bit.gsu.edu.tr/compnet Propriétéspetit-mondeetsans-échelle 7 tivité et de fiabilité. Nous décrivons dans cette section les méthodes que nous avons adoptéespourcetravail,etquisont,ànotreconnaissance,lesplusadéquates. 4.1. Mesurepetit-monde Commeexpliquéensection2.1,unréseauestditpetit-mondesisadistancemoyenne etsatransitivitésontrespectivementdumêmeordredegrandeurquecellesmesurées pour un réseau aléatoire et un treillis de dimension comparable. Pour mesurer cette propriété,nousavonsdécidédenousbasersurlaméthodeproposéeparTelesfordet al. [TEL11], qui consiste à comparer la distance moyenne L et la transitivité T du réseauconsidéréG,aveclesvaleursL etT correspondantrespectivementàladis- A T tancemoyenneetàlatransitivitémesuréespourunréseaualéatoireG etuntreillis A G considérés comme comparables à G. La mesure ω quantifiant la propriété petit T mondeestalors[TEL11]: L T ω(G)= A − [1] L T T Pourunréseauserapprochantd’unestructuredetreillis,onaL>L etT (cid:39)T , A T donc on obtient une valeur négative. Au contraire, pour un réseau dont la distance moyenneetlatransitivitéressemblentàcellesd’ungraphealéatoire,onaL (cid:39) L et A T < T , donc la valeur de ω est positive. Enfin, si le réseau est petit-monde, alors T on a simultanément L (cid:39) L et T (cid:39) T , et ω est proche de zéro. Il faut remarquer A T que le fait de combiner les deux rapports pour obtenir une mesure unique n’est pas forcément pertinent, car d’autres combinaisons de L et T peuvent aboutir à des va- leurssimilaires,entraînantuneinterprétationerronée.Parexemple,prenonsunréseau régulier correspondant à une simple grille carrée en 2D. Cette structure possède une distance moyenne très élevée, et une transitivité nulle, ce qui entraîne que les deux rapportssontquasi-nuls,etdoncω (cid:39) 0.Or,ceréseaun’estpasdutoutpetit-monde, bienaucontraire.Pourcetteraison,ilnousparaîtjudicieuxdeconsidérer,enplusde lamesureω,lesdeuxtermesquilacomposent. Il faut ajouter que les deux réseaux de référence G et G sont en fait des ap- A T proximationsobtenuesparrecâblagedeG,viadeuxméthodeslégèrementdifférentes [TEL11]. Dans les deux cas, il s’agit de répéter un grand nombre de fois un traite- ment consistant à sélectionner aléatoirement deux liens et de permuter leurs nœuds dedestination.Laqualitédel’approximationdépenddunombred’itérations.Notons V l’ensembledesnœudsdeGetE celuidesesliens.Considéronsdeuxliens(a,b) et(c,d) ∈ E (oùa,b,cetd ∈ V):ceux-cideviennent(a,d)et(c,b)aprèspermu- tation. Un filtrage adéquat des liens tirés au sort permet d’éviter de faire apparaître desliensmultiples,oudeséparerleréseauenplusieurscomposantsdistincts.Dansle casdutreillis,lapermutationn’estautoriséequesiellepermetderapprocherlelien deladiagonaledanslamatriced’adjacencereprésentantleréseau.Autrementdit,en supposant que les nœuds sont numérotés de 1 à n = |V|, on cherche à respecter la contrainte|a−d|+|c−b|≤|a−b|+|c−d|. 8 MARAMI2014. 4.2. Distributiondudegré L’identification de la loi théorique gouvernant la distribution de données empi- riquesestunetâcheplusdélicatequ’iln’yparaît.Plusieurstravauxrécentsonsouli- gnélefaitquelesméthodeslesplusrépanduesdanslalittératurenesontpastoujours appropriées,etontaboutiàdesconclusionserronées[CLA09].Ceciestparticulière- mentvraidelaloidepuissance,quipeutêtreconfondueavecd’autresdistributionsà queuelourdeparcertainsoutilstraditionnellementutilisés.Deplus,certainesdonnées peuventsuivrecetypededistributiondefaçonpartielle,i.e.seulementsurunepartie del’intervalleconsidéré.Danslecontextedesréseauxcomplexes,lescaractéristiques associéesàlapropriétésans-échellesontissuesdelaprobabilitérelativementélevée de voir apparaître des pivots dans le réseau. Il est donc important de s’assurer que le degré suit bien une loi de puissance, et non pas une distribution dont la queue est lourdemaisdécroitplusrapidement(distributionsexponentielle,exponentielleétirée, log-normale, loi de puissance tronquée par une coupure exponentielle), voire qui ne possèdepasdutoutdequeuelourde(loidePoisson).Cetteremarquevautégalement sionveutvaliderl’hypothèsequelesystèmeétudiéaétégénéréselonunmodèletel queceluideBarabási&Albert,quiaboutitàlapropriétésans-échelle. Pourévitercetypedeconfusion,nousutilisonslaprocédureproposéeparClauset etal,quicomprendtroisétapes.Lapremièreconsisteàestimerlesmeilleuresvaleurs pourlesparamètresαetx delaloi,enutilisantlaméthodedumaximumdevrai- min semblance.Lepremierparamètreestl’exposantdelaloi,quiadéjàétémentionnéen section 2.2. Le second est sa borne inférieure, qui correspond à la valeur à partir de laquelle on considère que les données analysées suivent une loi de puissance. Dans la deuxième étape, on effectue un test d’ajustement, pour vérifier s’il est plausible quelesdonnéesconsidéréessuiventlaloidepuissancemuniedesparamètresestimés. Pour cela, on génère d’abord de nombreux jeux de données en utilisant α et x , min puis on estime leurs propres paramètres. La statistique de Kolmogorov-Smirnov est ensuite utilisée pour mesurer les distances entre les distributions empiriques de ces jeuxdedonnéesetlesloisthéoriquescorrespondantes(chacuneétantcaractériséepar les paramètres estimés). La valeur-p du test d’ajustement correspond à la proportion dejeuxpourlesquelsonobtientunevaleurdecettestatistiquesupérieureàcellecalcu- léepourlesdonnéesoriginales.Latroisièmeétapeviseàcomparerlaloidepuissance àdesdistributionsalternatives.Cettedernièreétapeestsouventignoréedanslestra- vaux cherchant à identifier la propriété sans-échelle, qui ne cherchent pas à vérifier sid’autresdistributionsontaussiplausiblesquelaloidepuissance.Pourtant,même silavaleur-pobtenueàladeuxièmeétapeestsuffisammentpetitepourquelaloide puissance constitue une hypothèse plausible, il est possible que les données soient aussibien,voiremieux,ajustéespard’autresdistribution.Oneffectuelacomparaison grâceautestdurapportdevraisemblance,quiconsisteàcomparerlesvraisemblances desdonnéesétudiées,relativementauxdeuxdistributionsthéoriquesconsidérées.Le signe du logarithme de leur rapport indique laquelle des deux distributions doit être privilégiée(unevaleurprochedezérocorrespondantàuneabsencedepréférence).De plus,unevaleur-pestcalculéepourmesurerlasignificationdecerapport.Lerésultat Propriétéspetit-mondeetsans-échelle 9 finalpeutdoncsoitprivilégierlaloidepuissanceestimée,soitidentifieruneouplu- sieursdistributionsalternativescommeplusvraisemblables,soitnepasdépartagerla loidepuissanceetcertainesalternatives. 5. Résultats Commeexpliquéensection4.1,nousavonsd’abordcalculélesdistancesmoyennes LettransitivitésT desréseauxréelsconstituantnotrecollection,ainsiquelesvaleurs L etT deleursversionsrecâblées.Aveclabibliothèqueigraph6 ,onobtientpour A T les mesures des complexités en O(n(cid:104)k(cid:105)2) pour la transitivité et O(mn) pour la dis- tance moyenne, où n = |V|, m = |E| et (cid:104)k(cid:105) dénote le degré moyen du réseau. Le recâblage d’une paire de lien est effectué en O(m+n), cependant pour obtenir de bonnes approximations, il doit être répété de très nombreuses fois, ce qui, en pra- tique,aboutitàdestempsdecalculpouvantêtrerelativementlongs.Pourcesraisons computationnelles, il ne nous a été possible de calculer ω que pour 285 réseaux de notre collection. L’histogramme présenté dans la Figure 1 résume les résultats obte- nus.Telesfordetal.[TEL11]considèrentquelesréseauxpourlequelsωsesituedans [−0,5;0,5] possèdent la propriété petit-monde. Pour nos données, 65% des réseaux traitéssontcontenusdanscetintervalle,etuntestdenormalitémontrequelamesureω suitapproximativementuneloinormalecentréesur0.Celasignifienotammentqu’ily aàpeuprèsautantderéseauxpenchantverslesgraphesaléatoiresqueverslestreillis. LenuagedepointsprésentédanslaFigure1détaillelesvaleursdesdeuxtermes formant ω (cf. eq. 1). Les courbes de niveaux délimitent les valeurs ω = −0,5; 0 et0,5.Lescouleursetformesreprésententlesrésultatsconcernantlapropriétésans- échelle,quenousdiscutonsci-après.Onpeutobserversurcegraphiquequ’aucunré- seaunecorrespondaucasparticuliermettantendéfautl’interprétationdeω(lesdeux termesnuls),quenousavionsidentifiéensection4.1.Ungroupetrèsdenseapparait verslacoordonnée(0,8;0),quicorrespondàunecollectionderéseauxmétaboliques présentant une transitivité nulle en raison de leur structure quasi-arborescente. Pour 72% des réseaux, on a 0,9 ≤ L /L ≤ 1,1, ce qui signifie que les réseaux tendent A àavoirunedistancemoyennetrèsprochedecelledeleurversionrandomisée.Defa- çon générale, les réseaux ont tendance à présenter une distance moyenne plus petite (80% d’entre eux). La dispersion est plus importante pour la transitivité, puisqu’on a 0,5 ≤ T/T ≤ 1,5 pour 67% des réseaux. Ceci indique donc une tendance plus T importante à s’éloigner de la transitivité obtenue sur leurs versions randomisées. On peutaussiremarquerqu’àladifférencedeladistance,lesécartsobservéssontrépartis defaçonrelativementsimilairedesdeuxcôtésdelavaleur1. Lestestsconcernantladistributiondudegrésontmoinscomplexes,calculatoire- mentparlant,etontpuêtremenéssur510réseaux.Nousavonsutilisélanomenclature deClausetetal.[CLA09],quidistinguelessituationssuivantes:Improbable(ladis- tributionnesuitprobablementpasuneloidepuissance),Modéré(laloidepuissance ajustebienlesdonnées,maisc’estaussilecasd’autresdistributions),Probable(laloi 6. http://igraph.org/ 10 MARAMI2014. 2.5 l 0.10 l 2.0 l l l l l Fréquence 0.020.040.060.08 T/TT 0.51.01.5 −0 0.5 Imlprobalblellllllll llllllllllllllllllllllllll ll −0ll0.l5l.ll5 llll llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll llllll0lllllll.llllll5lllllllllllllll llllllllllllllllllllllllllllllllllllllllllllllllllllllllllll lModéré 0.5 l l 0.5 Probable 0.00 0.0 Coupure lllllllllllllllllllllllllllll ll l 0.7 0.8 0.9 1.0 1.1 −1.0 −0.5 0.0 0.5 1.0 ω LA/L Figure 1 – Résultats pour la propriété petit-monde : fréquences de la mesure ω (gauche)etvaleursdesesdeuxcomposantesL /LetT/T (droite). A T depuissanceestlaseuleàbienajusterlesdonnées)etCoupure(loidepuissancetron- quée par une coupure exponentielle est la meilleure alternative). La loi depuissance estlaseulealternativeprobablepour55%desréseauxtestés(niveauProbable),alors que pour 1% elle est une alternative parmi d’autres (niveau Modéré). Pour 28% des réseauxtestés,ledegrésuitprobablementuneloidepuissancetronquée(niveauCou- pure),etlesréseauxquinesuiventprobablementpasuneloidepuissancereprésentent 16%(niveauImprobable).Autotal,onadonc44%deréseauxdontledegrépeutêtre caractériséparuneéchelletype,etquinepossèdentdoncpaslapropriétésans-échelle. Ce résultat est en contradiction avec l’hypothèse d’omniprésence de cette propriété parmilesréseauxcomplexes. Le nuage de points inclus dans la Figure 1 indique les résultats relatifs à la dis- tribution du degré à l’aide d’un code de couleur. On peut remarquer que les réseaux de niveau Improbable semblent groupés dans la zone du graphique comprise entre ω = −0,5et0.5,maiscecipourraitêtredûaufaiblenombrederéseauxconcernés. Pour les niveaux Probable et Coupure (rappelons que la propriété sans-échelle n’est pas valide pour le second), la distribution est sensiblement similaire, avec la même concentration autour du point (1;1). Cela semble indiquer que, sur ces données, les propriétéspetit-mondeetsans-échellesnesontpasliées. L’analyse de la relation entre la nature du système modélisé et la présence (ou l’absence) des deux propriétés qui nous intéressent constitue un autre point intéres- sant. Dans les articles portant sur l’analyse d’un nombre suffisamment important de réseaux, il est fréquent de voir les auteurs tenter de faire des regroupements, afin de généraliserleursrésultats.Cesgroupessontgénéralementbaséssurlessystèmesmo- délisés. Par exemple, les réseaux ayant trait au fonctionnement des être vivants sont regroupéssouslenomderéseauxbiologiques,lesservicesderéseautageenlignesous le nom de réseaux sociaux, etc. [ALB02, NEW03]. Nous avons fait de même avec nosdonnées,etlaFigure2donneunereprésentationgraphiquedesprincipalesclasses