ebook img

Aristotle University of Thessaloniki Department of Informatics Master Program on Information Systems PDF

68 Pages·2015·1.6 MB·English
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Aristotle University of Thessaloniki Department of Informatics Master Program on Information Systems

Aristotle University of Thessaloniki Department of Informatics Master Program on Information Systems Thesis Title Finding Representatives in Probabilistic Graphs Konstantina Lazaridou Supervisor: Prof. Apostolos Papadopoulos February 2015 Table of Contents 1 Introduction to Graphs............................................................................................................................9 1.1 Applications.......................................................................................................................................11 1.2 Data Mining Problems and Algorithms on Graphs...........................................................................13 2 Uncertain Data......................................................................................................................................17 2.1 Uncertain Graphs..............................................................................................................................18 2.2 Data mining Problems on Uncertain Graphs....................................................................................21 2.3 Related Work on Algorithms for Probabilistic Graphs.....................................................................22 3 Finding Representatives in Probabilistic Graphs..................................................................................23 3.1 Problem Definition.............................................................................................................................24 3.2 Algorithms..........................................................................................................................................26 3.2.1 Benchmark Solutions.....................................................................................................................26 3.2.2. Average Degree Rewiring (ADR).................................................................................................29 3.2.3 Approximate b-matching (ABM)...................................................................................................35 4 Experiments..........................................................................................................................................42 4.1 Dataset Characteristics......................................................................................................................42 4.2 Most Probable and Greedy Probability.............................................................................................43 4.3 Comparative analysis: Average Degree Rewiring and Approximate b-matching.............................46 4.4 Average Degree Rewiring: Observations..........................................................................................50 4.5 Approximate b-matching: Time performance...................................................................................53 4.6 Algorithms' Miscarriages..................................................................................................................55 5 Conclusions and Future Work...............................................................................................................62 6 References.............................................................................................................................................63 Abstract In many real-world concepts, especially in World Wide Web, there is a wide range of applications that represent their data as graphs. When referring to graphs, in Computer Science, we formally define a graph as a set of different entities that interact with each other and these interactions can be represented as links between them {Aggarwal & Wang, 2010}. For instance, there is the case of social networks, where users are connected by links when they are friends. In biological studies, the structure within a cell can be represented as a group of proteins, where two of them are connected by a link, when there is a potential interaction between them. Henceforth, a graph contains a set of vertices, i.e. network users, and maintains connections among them, which are called edges or links. Under several circumstances, all kinds of data are sometimes associated with uncertainty during their collection phase or need to be associated with a level of uncertainty after their aggregation, for various of reasons. For instance, when data are an outcome of scientific experiments could be uncertain or inaccurate. In the case of sensor data, noisy measurements can cause them to be imprecise. In addition, a privacy-preserving mechanism for social graphs may introduce a probability of existence into each edge in the network, in order to preserve users information about their current friendships. In protein-protein interaction networks, machine learning techniques attach a probability of existence to each edge in the graph, which indicates how likely it is for an interaction to actually occur. Furthermore, when the information examined is associated with uncertainty or it is not explicitly and clearly defined, we call this kind of data uncertain or probabilistic {Aggarwal, 2009}. In the case of graphs, an uncertain graph G is a special kind of network, which present an inherent level of uncertainty, concerning the connections among its vertices. Each edge in G maintains a probability of existence, namely a real number along with its endpoints. The probabilistic graph stands for a generative model of multiple certain ones, which may or may not contain a given edge e of the original graph. However, the higher the probability of e is, the more probable it is for it to participate in a deterministic instance G of G. In addition, following the literature, the most well used probabilistic graphical model is the possible world model {Abiteboul, Kanellakis, & Grahne, 1987}, which assumes independence among the edge probabilities. As the amount of possible worlds derived from G is high, its analysis becomes complicated in terms of time performance and achieved accuracy results. In the pursuance of a more efficient graph analysis, {Parchas, Gullo, Papadias, & Bonchi, 2014} following the possible worlds semantics, have introduced a novel idea, on the basis of extracting a representative certain world from an uncertain graph G. This representative graph G will maintain a part of the edges in G and all its vertices. The motivation behind this idea is that the traditional data mining algorithms applied to certain graphs will now be applicable to the uncertain ones, by using the representative instance instead. Hence, the complexity of the analysis will be diminished and there will be no need to multiple sample extractions from G. The main goal of the two methods is to construct such a G that the expected vertex degrees in G will be also preserved in the representative instance. There are two essential vertex attributes in an uncertain graph, as described in Parchas et al. work. Firstly, the expected vertex degree of a node v is equal to the sum of all its incident edge probabilities. In addition, the discrepancy of a vertex u equals to the difference of its expected degree to the final degree that u will present in the representative world. Moreover, considering all individual discrepancies for all vertices in G, we define the overall graph discrepancy, Δ(G), as the sum of all the absolute node discrepancies. Hence, the Representative Problem is defined as the pursuance of such a possible world that will maintain all vertex degrees as close to their expected ones as possible. Alternatively, we can conclude that if the vertex discrepancies are as low as possible, the final degrees will not deviate from their expected values. The latter could lead to a different definition of the problem, based on the discrepancy concept. That is, the representative world should present the minimum possible overall graph discrepancy. Parchas et al. introduce two novel algorithms that address the Representative Problem efficiently, called 3 ADR and ABM. ADR stands for Average-Degree-Rewiring and its main privilege is that it guarantees the preservation of the expected average degree that G presents in the representative world G, namely Degavg(G) = 2*P/|V|. In the previous formula, P equals to the sum of all the edge probabilities in G. Initially, ADR creates a seed representative instance of a predefined size equal to P, such that the expected average degree in G will be also preserved in G. Then, for a given number of steps, it iteratively replaces the edges in G with others that do not currently belong to it, in order to improve the overall graph discrepancy. In addition, ADR does not provide any guarantees for the range that the total discrepancy of the representative will be in. On the other hand, we are able to parametrize its execution by deciding how many iterations ADR will perform during the edge swapping phase and thus enable the algorithm to further improve its results. Moreover, the second novel method proposed in {Parchas, Gullo, Papadias, & Bonchi, 2014} is called ABM or Approximate-b-matching and it is a two phase algorithm based on the b-matching method. The first phase of ABM produces a set of edges that will be part of G with the main property that they form a b-matching in G, with capacity constraints the rounded expected degrees in G. More specifically, this edge set called Em, provides the guarantee that none of its endpoints have a current degree greater than its rounded expected value. Furthermore, during the second phase of ABM, a filtering mechanism gathers all possible edges that could improve Δ(G) and identifies them by performing a discrepancy-based vertex partitioning in G. Finally, this last edge collection called E' is the input of an approximate bipartite matching routine, whose output, that is E , BP will be the second edge set of G. The bipartite routine continuously inserts the edges of E' into G, and after each insertion, it updates the discrepancies of the remaining in E' edges. The latter aims at identifying whether they can still benefit the representative or not. As far as our experiments as concerned, we have performed an extended experimental evaluation that examines the performance of the two state-of-the-art algorithms and also of the two baseline ones. Our results concern both the time performance and the accomplished graph discrepancy of all four algorithms. We used a variety of real-world datasets and two highly large-scale networks among them. It is shown that both the novel techniques are capable of reducing the total graph discrepancy at a sufficient level, yet there are cases where they compete each other both in terms of the execution time and the achieved discrepancy improvement. In the two vast networks, consisted of millions of edges and vertices, it is proven that ABM can be extremely slow. To the contrary, ADR when applying a high number of steps, is capable of overcoming ABM. This win can be observed both in the execution time and the achieved discrepancy reduction. Therefore, ADR and ABM are two innovative algorithms for addressing the Representative Problem. To the context of this thesis, we have implemented and executed them on a number of real-world networks. This analysis led us to a better understanding of their structure and helped us reveal their advantages and disadvantages. Moreover, we are continuing our work and aiming at improving their performance, such as more suitable representative worlds will be created. There is a wide room for improvement, concerning not only the decrease of the overall graph discrepancy, but also the preservation of other graph features that the original probabilistic graph presents. For instance, the expected degree distribution and the number of triangles that each vertex have in the uncertain graph are two essential graph attributes that we wish to preserve. 4 Περίληψη Η πλειοψηφία των σημερινών διαδικτυακών και μη εφαρμογών διαχειρίζεται σημαντικά μεγάλους όγκους πληροφορίας, η οποία αλλάζει δυναμικά ως προς το μέγεθος και τη μορφή της. Προκειμένου τα δεδομένα να αναπαρασταθούν με λειτουργικό τρόπο προς τον ερευνητή αλλά και τον χρήστη, πολλές εφαρμογές χρησιμοποιούν για τον σκοπό αυτόν την δομή του γράφου. Όταν αναφερόμαστε σε έναν γράφο (graph) ή σε ένα γράφημα, περιγράφουμε μια δομή δεδομένων που απαρτίζεται από ένα σύνολο οντοτήτων με πιθανές σχέσεις μεταξύ τους. Επομένως, ένας γράφος απαρτίζεται από μια ομάδα κόμβων (vertices, nodes), για παράδειγμα χρηστών ενός κοινωνικού δικτύου, και επιπλέον περιέχει τις συνδέσεις μεταξύ αυτών των χρηστών, που ονομάζονται ακμές (edges) {Aggarwal & Wang, 2010}. Στην περίπτωση των μέσων κοινωνικής δικτύωσης, οι κόμβοι του δικτύου είναι οι εγγεγραμμένοι χρήστες, οι οποίοι διατηρούν διαδικτυακές φιλίες μεταξύ τους που αναπαρίστανται ως ακμές. Επιπρόσθετα, στον τομέα της βιοτεχνολογίας, η δομή ενός κυττάρου μπορεί να αναπαρασταθεί ως μια ομάδα πρωτεινών, όπου δυο κόμβοι-πρωτείνες του δικτύου συνδέονται με μια ακμή, όταν υπάρχει πιθανότητα για μια ενδεχόμενη αλληλεπίδραση μεταξύ τους. Καθώς αναφερόμαστε σε δεδομένα που πηγάζουν από πραγματικές εφαρμογές, είναι πιθανό η τελική πληροφορία να είναι άμεσα συνδεδεμένη με ένα είδος αβεβαιότητας. Πιο συγκεκριμένα, ένα παράδειγμα αβεβαιότητας μπορεί να παρατηρηθεί στα κοινωνικά δίκτυα, όταν ο εκάστοτε διαχειριστής δημοσιοποιεί τα δεδομένα του δικτύου για ερευνητικούς σκοπούς (social network analysis) και χρησιμοποιεί την αβεβαιότητα για να διασφαλίσει πως τα δεδομένα θα παραμείνουν ασφαλή και δεν θα διαρρεύσουν οι προσωπικές πληροφορίες των χρηστών. Για το σκοπό αυτό, οι μηχανισμοί προστασίας ιδιωτικότητας (privacy-preserving mechanisms) αναθέτουν σε κάθε ακμή του δικτύου μια πιθανότητα ύπαρξης (probability of existence), σύμφωνα με μια κατανομή πιθανοτήτων που εφαρμόζεται στο σύνολο του δικτύου. Με αυτήν την τεχνική, οι σχέσεις μεταξύ των κόμβων παραμένουν προστατευμένες, χωρίς να παραβιάζεται η ιδιωτικότητα των χρηστών και ταυτόχρονα η έρευνα μπορεί να δεχθεί νέα σύνολα δεδομένων προς ανάλυση. Επιπλέον, η αβεβαιότητα στα δεδομένα μπορεί να προέρχεται είτε από την φύση τους είτε από αστοχίες στη διαδικασία συλλογής τους. Ένα αντιπροσωπευτικό παράδειγμα είναι τα δεδομένα που παράγονται από αισθητήρες (sensor data). Τα σήματα που εκπέμπονται από τους αισθητήρες συχνά περιέχουν ένα επίπεδο θορύβου. Ακόμη, τα βιολογικά δίκτυα που αναπαριστούν τις αλληλεπιδράσεις πρωτεινών μέσα σε ένα κύτταρο (protein-protein interaction networks) είναι επίσης ένα παράδειγμα αβέβαιου γραφήματος, όπου κάθε ακμή είναι συνιφασμένη με μια πιθανότητα εμφάνισης. Η τιμής της πιθανότητας αντιπροσωπεύει το βαθμό στον οποίο είναι δυνατό οι δυο συνδεδεμένες πρωτείνες να αλληλεπιδράσουν στο μέλλον. Επομένως, όταν τα δεδομένα μιας εφαρμογής υπόκεινται σε έναν βαθμό αβεβαιότητας και δεν είναι ξεκάθαρα ορισμένα, αναφερόμαστε σε αυτά ως αβέβαια ή πιθανοτικά δεδομένα (uncertain, probabilistic data) {Aggarwal, 2009}. Στην περίπτωση των γράφων, ένας αβέβαιος ή πιθανοτικος γράφος G (uncertain, probabilistic graph), αποτελεί ένα ιδιόμορφο είδος δικτύου, που εμπεριέχει την έννοια της αβεβαιότητας εφαρμοσμένη στις συνδέσεις μεταξύ των κόμβων του. Κάθε ακμή στον γράφο G χαρακτηρίζεται εκτός από τα 2 άκρα της (endpoints, vertices) και από μια πιθανότητα ύπαρξης (probability of existence), δηλαδή έναν πραγματικό αριθμό στο διάστημα [0,1]. Κατ'επέκταση, ένας πιθανοτικός γράφος είναι ένα μοντέλο δημιουργίας πολλαπλών ντετερμινιστικών γράφων, όπου ο κάθε ένας μπορεί να περιέχει ή να μην περιέχει μια δεδομένη ακμή e. Όσον υψηλότερη είναι η πιθανότητα της ακμής e, τόσο πιθανότερο είναι να εμφανιστεί στην πλειοψηφία των πιθανών κόσμων (possible worlds) του G. Επιπρόσθετα, ακολουθώντας την βιβλιογραφία, το πιο ευρέως γνωστό μοντέλο αναπαράστασης πιθανοτικών γραφημάτων ονομάζεται possible worlds model {Abiteboul, Kanellakis, & Grahne, 1987}. Η ιδιότητα αυτού του μοντέλου είναι πως θεωρεί τις πιθανότητες μεταξύ των ακμών του γράφου ανεξάρτητες μεταξύ τους. Καθώς το πλήθος των πιθανών γραφημάτων που μπορούν να προκύψουν από το G είναι ιδιαίτερα 5 υψηλό, η ανάλυση αυτού του είδους δικτύων καθίσταται πολύπλοκη, όσον αφορά τον χρόνο ολοκλήρωσης της (time performance) και φυσικά την ποιότητα των αποτελεσματων της. Στοχεύοντας στην βελτίωση της ανάλυσης των probabilistic graphs, οι συγγραφείς της εργασίας “The Pursuit of a Good Possible World: Extracting Representative Instances of Uncertain Graphs”, {Parchas, Gullo, Papadias, & Bonchi, 2014}, βασιζόμενοι στην αρχές των possible worlds semantics, αναπτύσσουν δυο νέους αλγορίθμους για την εξαγωγή αντιπροσώπων (representative worlds) από πιθανοτικά γραφήματα. Πιο συγκεκριμένα, ένας αντιπρόσωπος ή ένα representative certain instance G από ένα αβέβαιο γράφημα G, περιέχει όλες τους κόμβους του αρχικού γραφήματος και ένα υποσύνολο των ακμών του. Επιπλέον, το γράφημα G διατηρεί ορισμένες από τις ιδιότητες του πιθανοτικού γραφήματος G. Το κίνητρο δημιουργίας ενός αντιπροσώπου είναι πως πλέον καθίσταται εφικτή η εφαρμογή των παραδοσιακών αλγορίθμων εξόρυξης δεδομένων που απευθύνονται σε ντερμινιστικους γράφους, χρησιμοποιώντας μόνο τον γράφο-αντιπρόσωπο αντί για τον πιθανοτικό. Επομένως, η πολυπλοκότητα της ανάλυσης πιθανοτικών γραφημάτων μειώνεται σημαντικά και η εξαγωγή πολλαπλών παραδειγμάτων (samples, instances) από τον γράφο G δεν είναι πλέον απαραίτητη προκειμένου να συντελεστεί μια πλήρης μελέτη του. Ο κύριος στόχος των δυο νέων μεθόδων είναι η κατασκευή ενός αντιπροσώπου που θα κληρονομεί τους αναμενόμενους βαθμούς των κόμβων (expected vertex degrees) από τον αρχικό γράφο. Σε ένα πιθανοτικό γράφημα υπάρχουν δυο σημαντικές ιδιότητες που χαρακτηρίζουν τους κόμβους του. Αρχικά, ο αναμενόμενος βαθμός ενός κόμβου u (expected vertex degree) ισοδυναμεί με το άθροισμα των πιθανοτήτων όλων των ακμών που διατηρεί ο κόμβος u στο G. Επιπρόσθετα, η απόκλιση του βαθμού ενός κόμβου v από την αναμενόμενη τιμή του (vertex discrepancy) ισοδυναμεί με την διαφορά του expected vertex degree και του final vertex degree που o v θα έχει στον αντιπρόσωπο. Το μέτρο του discrepancy μπορεί να εφαρμοστεί και στον συνολικό γράφο, λαμβάνοντας υπόψη τα discrepancies όλων των υπάρχοντων κόμβων. Συνεπώς, το overall graph discrepancy, Δ(G), ορίζεται ως το άθροισμα των απολύτων τιμών όλων των vertex discrepancies στο G. Το πρόβλημα της εύρεσης αντιπροσώπου (Representative Problem) ορίζεται ως η ανάζητηση ενός πιθανού κόσμου G του G, ο οποίος θα διατηρεί τους βαθμούς των κόμβων όσο το δυνατότερο πλησιέστερους στην αναμενόμενη τιμή τους. Εναλλακτικά, συμπεραίνουμε πως όσο χαμηλότερα παραμείνουν τα vertex discrepancies στο G, τόσο χαμηλότερη θα είναι η διακύμανση των βαθμών των κόμβων από την τιμή που αρχικά είχαν στον πιθανοτικό γράφο. Επομένως, το πρόβλημα μπορεί να διατυπωθεί εναλλακτικά χρησιμοποιώντας την έννοια του discrepancy, ως η ανάζητηση ενός πιθανού κόσμου G του G, ο οποίος θα διατηρεί τα vertex discrepancies όσο το δυνατόν πιο χαμηλά. Εφόσον το συνολικό discrepancy του G είναι άμεσα συνιφασμένο με τα discrepancies του κάθε κόμβου, μπορούμε να επαναδιατυπώσουμε τον ορισμό του προβλήματος, δηλώνοντας πως ο αντιπρόσωπος θα πρέπει να παρουσιάζει την χαμηλότερη δυνατή τιμή του overall graph discrepancy. Προς την κατεύθυνση της εύρεσης ενός αντιπροσώπου με τις παραπάνω ιδιότητες, οι συγγραφείς {Parchas, Gullo, Papadias, & Bonchi, 2014} εισάγουν δυο καινοτόμους αλγορίθμους, οι οποίοι ονομάζονται ADR και ΑΒΜ αντίστοιχα. Η μέθοδος Average-Degree-Rewiring (ADR) εγγυάται την διατήρηση του αναμενόμενου μέσου βαθμού (expected average degree) του G στο G, ο οποίος ορίζεται ως Degavg(G) = 2*P/|V|. Η μεταβλητή P αντιστοιχεί στο άθροισμα των πιθανοτήτων όλων των ακμών στο G. Ως πρώτο βήμα, ο ADR δημιουργεί ένα αρχικό γράφημα G προκαθορισμένου μεγέθους -αναφορικά με το πλήθος ακμών του-, 0 στοχεύοντας στο να κληρονομηθεί ο αναμενόμενος μέσος βαθμός του G στο G. Πλέον του παραπάνω, για ένα ορισμένο από τον χρήστη αριθμό επαναλήψεων, ο αλγόριθμος αντικαθιστά τις ακμές του αντιπροσώπου με ακμές που δεν βρίσκονται εκείνη τη δεδομένη στιγμή στο G, με σκοπό να βελτιώσει περαιτέρω το overall graph discrepancy. Αξίζει να σημειωθεί πως το βασικό μειονέκτημα του αλγορίθμου είναι η απουσία εγγυήσεων σχετικά με την τιμή ή την διακύμανση της τιμής του Δ(G). Αντίθετα, δίνεται η δυνατότητα παραμετροποίησης της μεθόδου από τον χρήστη αποφασίζοντας τον αριθμό επαναλήψεων που θα πραγματοποιηθούν και κατ΄επέκταση δίνοντας της περιθώριο βελτίωσης των αποτελεσμάτων. 6 Ο δεύτερος καινοτόμος αλγόριθμος που έχει προταθεί στην εργασία των {Parchas, Gullo, Papadias, & Bonchi, 2014} ονομάζεται Approximate-b-matching (ABM) και απαρτίζεται από δυο φάσεις. Η πρώτη φάση του ΑΒΜ παράγει ένα σύνολο ακμών, Em, το οποίο θα αποτελέσει το πρώτο μέρος των ακμών του αντιπροσώπου. Η ιδιότητα του Em είναι πως σχηματίζει ένα b-matching στο G, χρησιμοποιώντας ως περιορισμούς (capacity constraints) τους -στρογγυλοποιημένους- αναμενόμενους βαθμούς των κόμβων στο G. Πιο συγκεκριμένα, το παραπάνω σετ ακμών παρέχει την εγγύηση πως κανένας από τους κόμβους που περιέχει δεν διατηρεί περισσότερους γείτονες από όσους ορίζει ο αναμενόμενος βαθμός του. Η διαφοροποίηση του ΑΒΜ από το b- matching έγγυται στο ότι ο αλγόριθμος δεν λαμβάνει υπόψη του τους πραγματικούς αναμενόμενους βαθμούς, αλλά την στρογγυλοποιημένη τιμής τους (rounded expected vertex degrees). Πέραν των παραπάνω, το δεύτερο στάδιο του ΑΒΜ ξεκινά συγκεντρώνοντας τις ακμές που πιθανόν να βελτιώσουν την τιμή του Δ(G) και έπειτα φιλτράροντας μόνο εκείνες που είναι όντως ικανές να μειώσουν το συνολικό graph discrepancy περαιτέρω. Για την αναγνώριση των υποψήφιων ακμών, ο ΑΒΜ πραγματοποιεί ένα διαχωρισμό των κόμβων στο G (partitioning) σύμφωνα με τις τιμές των vertex discrepancies. Τέλος, η προαναφερθείσα ομάδα ακμών ονομάζεται E' και θα αποτελέσει την είσοδο σε μια κατά προσέγγιση bipartite matching μέθοδο (approximate bipartite matching method), της οποίας η έξοδος, E , θα είναι το 2ο BP και τελευταίο σύνολο ακμών του αντιπροσώπου. Η bipartite μέθοδος εισάγει επαναληπτικά ακμές από το σύνολο E' στο G, και έπειτα από κάθε επανάληψη, ανανεώνει τις τιμές των discrepancies των υπολοίποντων ακμών στο E'. Συνεπώς, το τελευταίο αυτό βήμα αποσκοπεί στο να διαχωριστούν μέσα στο Ε' οι ακμές που μπορούν ακόμη να βελτιώσουν το Δ(G) του αντιπρόσωπο από εκείνες που θα πρέπει να αποκλειστούν. Όσον αφορά τα πειράματα που πραγματοποιήσαμε στα πλαίσια της αξιολόγησης των παραπάνω αλγορίθμων, υλοποιήσαμε μια εκτενή μελέτη των τεσσάρων υπάρχοντων μεθόδων -2 state-of-the-art αλγόριθμοι και 2 baseline μέθοδοι -, εξετάζοντας την χρονική πολυπλοκότητα τους και την βελτίωση του overall discrepancy που επιτυγχάνουν. Χρησιμοποιήσαμε ένα σύνολο πραγματικών γραφημάτων (real-world datasets), μεταξύ των οποίων υπάρχουν δυο εξαιρετικά μεγάλα σύνολα δεδομένων, όσον αφορά το πλήθος των ακμών και των κόμβων τους (large-scale networks), αλλά και το επίπεδο του αρχικού τους graph discrepancy. Μέσα από τα αποτελέσματα της πειραματικής μελέτης είναι εμφανές πως οι δυο νέοι αλγόριθμοι για το πρόβλημα εύρεσης αντιπροσώπου μειώνουν το συνολικό αρχικό discrepancy ικανοποιητικά. Ωστόσο, παρατηρήθηκαν περιπτώσεις όπου η απόδοση τους δεν είναι σταθερά ικανοποιητική, με αποτέλεσμα σε ορισμένα datasets να υπερτερεί ο ένας από τους δυο αλγορίθμους, είτε στο τελικό discrepancy του αντιπροσώπου, είτε στον χρόνο εκτέλεσης που απαιτήθηκε για να παραχθεί το αποτέλεσμα. Συγκεκριμένα κατά την μελέτη των large-scale networks, που απαρτίζονται από εκατομμύρια κόμβους και ακμές, αποδείχθηκε πως ο ΑΒΜ μπορεί να γίνει εξαιρετικά αργός. Αντιθέτως, ο ADR όταν χρησιμοποιεί έναν υψηλό αριθμό βημάτων -επαναλήψεων-, είναι ικανός να ξεπεράσει τον ABM στο επίπεδο του χρόνου εκτέλεσης, αλλά και της τελικής τιμής του graph discrepancy. Συνεπώς, οι αλγόριθμοι ADR και ΑΒΜ είναι δυο καινοτόμες μέθοδοι που επιλύουν αποτελεσματικά το πρόβλημα της εύρεσης αντιπροσώπων, δημιουργώντας έναν representative world με συγκεκριμένες εγγυήσεις για ορισμένες από τις ιδιότητες του. Στα πλαίσια της διπλωματικής εργασίας, υλοποίησαμε τους δυο προαναφερθέντες αλγορίθμους και πραγματοποιήσαμε ένα εκτενές σύνολο πειραμάτων σε πραγματικά δεδομένα. Η ανάλυση των αποτελεσμάτων μας οδήγησε στην καλύτερη κατανόηση της δομής των αλγορίθμων και έφερε στην επιφάνεια τα προτερήματα και τα μειονεκτήματα που η κάθε μέθοδος παρουσιάζει. Πέραν των ανωτέρω, ο αρχικός πιθανοτικός γράφος περιέχει μια σειρά από ιδιότητες, οι οποίες θα ήταν χρήσιμο να κληρονομηθούν στον αντιπρόσωπο. Για παράδειγμα, η κατανομή των βαθμών των κόμβων (expected vertex degree distribution) και το πλήθος των τριγώνων (number of triangles) που ο κάθε κόμβος διατηρεί είναι δυο εξαιρετικά σημαντικά χαρακτηριστικά που θα οδηγούσαν σε έναν πιο πλήρη και συνεπή αντιπροσωπευτικό γράφο. Επιπλέον, παρατηρώντας την πληθώρα δικτύων που υπάρχουν στις σημερινές εφαρμογές (κοινωνικά, βιολογικά, μεγάλης-μικρής κλίμακας, πυκνά-αραιά κτλ.) θα ήταν χρήσιμο να γνωρίζουμε ποιός από τους δυο αλγορίθμους αποδίδει καλύτερα σε συγκεκριμένες οικογένειες γραφημάτων. 7 Κατ'επέκταση, η κατάλληλη επιλογή μιας εκ των δυο μεθόδων για την επίλυση του Representative Problem θα οδηγούσε σε σημαντικά πιο ικανοποιητικά αποτελέσματα. Προς αυτήν την κατεύθυνση, της βελτίωσης των υπάρχοντων μεθόδων και της ανεύρεσης νέων τεχνικών, συνεχίζουμε την μελέτη των ADR και ABM με στόχο την βελτίωση της απόδοσης τους, ώστε να παράγουν καταλληλότερους και πληρέστερους ντετερμινιστικούς αντιπροσώπους. 8 1 Introduction to Graphs In Mathematics and more specifically in Graph Theory, a graph is a representation of a set of objects, where some pairs of objects are connected by links. The objects in a graph are called vertices or nodes or points and their connections are called edges or links (West, 2000). In Computer Science, graph is called an abstract data type that is used for modeling a graph in terms of Mathematics. An existing link between 2 vertices signifies a kind of relation between them, i.e. in a social graph as Facebook, two users are connected when they are friends or in a road network of a city, two intersections are linked when there is a highway from one to the other one. Figure 1 illustrates an example of a Facebook user being connected with two of his overall friends and also displays additional information about this user's activities. Depending on their structural properties, there are various flavors of graphs, such as directed or undirected, weighted or unweighted, cyclic or acyclic, complete, connected etc. The direction of an edge e from a node x to another node y may indicate that there is a one-way street between two cities -for road networks-, or that a Twitter user retweeted a post from another user -for social networking sites-. The existence of a weight attached to an edge may correspond to the importance of that link or its probability to appear, i.e. the possibility of a new friendship between two Facebook users having a large number of mutual friends seems to be very high. There are also labeled graphs, namely vertex or edge labeled, where each object is assigned to some data in addition to the data that originally characterized it. Figure 2 shows examples of two types of graphs. Figure 2 (a) presents a directed graph that captures the connections between the websites in a university campus. Each vertex -domain- u has a directed edge to another vertex v, only if the web content of u contains an explicit link to v. For instance, the main website of the University has a link to each Department and the Library website has a link to the University homepage. Figure 2 (b) shows a simpler version of a graph, namely an undirected one, where different users of a social network are linked when they are friends. There is no direction observed in the edges, since if a user a is friend with another user b, it is subsequent that b is a friend of a as well. The colored users, whose names are visible, except for the friendships that maintain with each other, are also connected to other users -the yellow ones-, which may have other online friends too. In general, any type of data that describes relationships or interactions among entities, can be considered as a graph. Implementing a dataset as a graph, gives us the opportunity to discover several attributes of its entities and apply a variety of data mining algorithms. For instance, a graph node is characterized by its degree, namely the number of its incident edges. By computing the overall number of its connections or by listing them -finding its neighborhood- we are able to understand its role in the information flow and measure its involvement in the network. Figure 1: Facebook structure showing users' relationships and interests, published in Business Insider. 9 Moreover, it is sometimes critical to find the most distant vertices -we are referring to this as retrieving the graph diameter-, which are probably the most unlikely to connect. The distance -shortest path- between two vertices is defined by the minimum number of edges that we need cross in order to pass from one node to the other. As the analysis of complex networks has become a hot research topic in the field of data science, a large amount of tools has arisen for this purpose (Chakrabarti & Faloutsos, 2006). Among others, it is usually helpful to partition a graph into segments that present common behavior, i.e. the nodes inside a segment share more connections than they share with the rest of the graph (Karypis & Kumar, 1999). Clustering in data mining is also a useful technique for discovering interesting data distributions and patterns in the underlying data (Kumar, 1999), (Shims, 2001). Counting triangles -sets consisted of three vertices fully connected to each other- in important real world applications can be used for spam detection, uncovering of the hidden thematic structure of the Web and link recommendation (Becchetti, Boldi, Castillo, & Gionis, 2010), (Hu, Tao, & Chung, 2013). In addition, community detection algorithms (Fortunato, 2010), (Papadopoulos, Kompatsiaris, Vakali, & Spyridonos, 2012) are fundamental tools that allow us to uncover organizational principles in networks. For instance, in protein interaction networks, communities are functional modules of interacting proteins, in citation networks, communities correspond to scientific disciplines – see for a brief comparative analysis of community detection algorithms (Fortunato & Lancichinetti, 2009). (a) (b) Figure 2: (a) A directed graph that captures the topology of the websites in a University campus, (b) an undirected graph that demonstrates the friendships among four given social network users and their potential additional neighbors, created in Draw.io. 10

Description:
1.2 Data Mining Problems and Algorithms on . clearly defined, we call this kind of data uncertain or probabilistic {Aggarwal .. There are also applications of graphs in online shopping platforms, i.e. complex queries, by using a wide range of data mining algorithms (Charu C Aggarwal & Wang, 2010).
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.