Table Of Content

Web Crawling, Analysis and Archiving Vangelis Banos Aristotle University of Thessaloniki Faculty of Sciences School of Informatics Doctoral dissertation under the supervision of Professor Yannis Manolopoulos October 2015 Ανάκτηση, Ανάλυση και Αρχειοθέτηση του Παγκόσμιου Ιστού Ευάγγελος Μπάνος Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής Διδακτορική Διατριβή υπό την επίβλεψη του Καθηγητή Ιωάννη Μανωλόπουλου Οκτώβριος 2015 i WebCrawling,AnalysisandArchiving PhDDissertation ©CopyrightbyVangelisBanos,2015. Allrightsreserved. The Doctoral Dissertation was submitted to the the School of Informatics, Faculty of Sci- ences,AristotleUniversityofThessaloniki. DefenceDate: 30/10/2015. ExaminationCommittee Yannis Manolopoulos, Professor, Department of Informatics, Aristotle University of Thes- saloniki,Greece. Supervisor ApostolosPapadopoulos,AssistantProfessor,DepartmentofInformatics,AristotleUniver- sityofThessaloniki,Greece. AdvisoryCommitteeMember DimitriosKatsaros,AssistantProfessor,DepartmentofElectrical&ComputerEngineering, UniversityofThessaly,Volos,Greece. AdvisoryCommitteeMember Athena Vakali, Professor, Department of Informatics, Aristotle University of Thessaloniki, Greece. Anastasios Gounaris, Assistant Professor, Department of Informatics, Aristotle University ofThessaloniki,Greece. Georgios Evangelidis, Professor, Department of Applied Informatics, University of Mace- donia,Greece. Sarantos Kapidakis, Professor, Department of Archives, Library Science and Museology, IonianUniversity,Greece. Abstract TheWebisincreasinglyimportantforallaspectsofoursociety,cultureandeconomy. Web archiving is the process of gathering digital materials from the Web, ingesting it, ensuring thatthesematerialsarepreservedinanarchive,andmakingthecollectedmaterialsavailable for future use and research. Web archiving is a difficult problem due to organizational and technicalreasons. WefocusonthetechnicalaspectsofWebarchiving. In this dissertation, we focus on improving the data acquisition aspect of the Web archiving process. We establish the notion of Website Archivability (WA) and we introduce the CredibleLiveEvaluationofArchiveReadinessPlus(CLEAR+)methodtomeasureWAfor any website. We propose new algorithms to optimise Web crawling using near-duplicate detectionandwebgraphcycledetection,resolvingalsotheproblemofwebspidertraps. Following, we suggest that different types of websites demand different Web archiving ap- proaches. Wefocusonsocialmediaandmorespecificallyonweblogs. Weintroduceweblog archiving as a special type of Web archiving and present our findings and developments in this area: a technical survey of the blogosphere, a scalable approach to harvest modern we- blogsandanintegratedapproachtopreserveweblogsusingadigitalrepositorysystem. Keywords: Web Archiving, Web Crawling, Web Analytics, Webgraphs, Weblogs, Digital Repositories. Περίληψη Αρχειοθέτησητουπαγκόσμιουιστούονομάζεταιηδιαδικασίασυλλογήςκαιαποθήκευσης ιστοσελίδων με σκοπό τη διαφύλαξή τους σε ένα ψηφιακό αρχείο, προσβάσιμο για το κοινό και τους ερευνητές. Η αρχειοθέτηση του παγκόσμιου ιστού είναι ένα ζήτημα ύψιστηςπροτεραιότητας,καθώςαφενόςαποτελείκύριομέσοτηςσύγχρονηςεπικοινωνίας και αφετέρου η μέση διάρκεια ζωής των ιστοσελίδων είναι λιγότερη από 100 ημέρες. Έτσι, καθημερινά εξαφανίζονται από τον παγκόσμιο ιστό εκατομμύρια ιστοσελίδες που παύουν να λειτουργούν για διάφορους λόγους, με αποτέλεσμα να χάνονται πολύτιμες πληροφορίες. Το πρόβλημα της αρχειοθέτησης του παγκόσμιου ιστού συνίσταται από διάφορες επιμέρους διαδικασίες όπως η αυτόματη πλοήγηση στον παγκόσμιο ιστό, η εξαγωγή περιεχομένου, η ανάλυση και η αποθήκευσή του σε κατάλληλη μορφή ώστε να είναιδυνατήηανάκτησηκαιηεπαναχρησιμοποίησήτουγιαοποιουσδήποτεσκοπούς. Το πρόβληματηςαυτοματοποιημένηςπλοήγησηστονπαγκόσμιοιστόμεσκοπότηνανάκτηση και την επεξεργασία πληροφορίας αποτελεί μια ιδιαίτερα διαδεδομένη διαδικασία που έχειεφαρμογέςσεπολλάεπιστημονικάκαιεπιχειρηματικάπεδία. Έναάλλοσημαντικόζήτημαείναιότιδιαφορετικάείδηιστοσελίδωνέχουνδιαφορετικά χαρακτηριστικά και ιδιότητες που απαιτούν ιδιαίτερο χειρισμό για την αποδοτικότερη ανάκτηση, επεξεργασία και αρχειοθέτηση δεδομένων. Εστιάζουμε την έρευνά μας στα κοινωνικά δίκτυα και συγκεκριμένα στα ιστολόγια (blogs) που αποτελούν ένα ιδιαίτερο νέομέσοεπικοινωνίαςκαιενημέρωσηςπουχρησιμοποιείταιευρέως. Ηδιδακτορικήδιατριβήέχειστόχοτηνβελτιστοποίησητηςαρχειοθέτησηςιστοσελίδων μέσωτηςανάπτυξηςνέωναλγορίθμωναυτόματηςπλοήγησηςστονπαγκόσμιοιστό,ανά- κτησης πληροφορίας από ιστοσελίδες και ασφαλούς αποθήκευσής τους με αποδοτικό τρόποώστεναευνοείταιημελλοντικήπρόσβασηκαιεπαναχρησιμοποίησήτουςγιαοποιο- δήποτε σκοπό. Επιπλέον, η διδακτορική διατριβή επικεντρώνεται στην έρευνα και την ανάπτυξηεξειδικευμένωνμεθόδωνανάκτησης,επεξεργασίας,αρχειοθέτησηςκαιεπανα- χρησιμοποίησης δεδομένων ιστολογίων. Η συνεισφορά της διατριβής στους παραπάνω τομείςσυνοψίζεταισταεξής: • Ο δείκτης Website Archivability που εκφράζει την ευκολία και ακρίβεια με την οποία αποθηκεύονται οι ιστοσελίδες από συστήματα αρχειοθέτησης ιστοσελίδων. Η μέθοδος Credible Live Evaluation for Archive Readiness Plus (CLEAR+) που υπολογίζειτοWebsiteArchivabilityκαιτοσύστημαArchiveReadyπουταυλοποιεί ως διαδικτυακή εφαρμογή στη διεύθυνση: http://archiveready.com. Επιπλέον, μια μελέτητηςαποθηκευσιμότηταςδιαφορετικώνσυστημάτωνδιαχείρισηςπεριεχομέ- νουστοδιαδίκτυο. vi • Αλγόριθμοιβελτιστοποίησηςτηςαυτόματηςπλοήγησηςστοδιαδίκτυομετονεντο- πισμό όμοιων ή παρόμοιων ιστοσελίδων και τη χρήση μοντελοποίησης γράφων και μίαμέθοδοςεντοπισμούτωνπαγίδωνπουαντιμετωπίζουντασυστήματααυτόματης πλοήγησηςστοδιαδίκτυο(webspidertraps). ΗπλατφόρμαWebGraph-itπουυλοποιεί τους αλγορίθμους ως διαδικτυακή εφαρμογή στη διεύθυνση: http://webgraph-it. com. • Μιαεκτεταμένημελέτητωντεχνικώνχαρακτηριστικώντωνιστολογίωνμεέμφαση στατεχνικάχαρακτηριστικάπουαφορούντηναρχειοθετησιμότητάτους. • ΤοολοκληρωμένοσύστημαδιαφύλαξηςιστολογίωνBlogForeverπουλύνειπροβλή- ματαανάκτησης,διαχείρισης,αρχειοθέτησηςκαιεπαναχρησιμοποίησηςτωνδεδο- μένωντους. • Μια ιδιαίτερα αποδοτική μέθοδος για την ανάκτηση δεδομένων από ιστολόγια με τηχρήσηαλγορίθμωνμηχανικήςμάθησηςκαιένασύστημααυτόματηςπλοήγησης ιστολογίωνπουτηνυλοποιεί. Σταπλαίσιατηςέρευναςμαςδημιουργήθηκανειδικάπακέταλογισμικούκαιυλοποιήθη- καν διαδικτυακές εφαρμογές που βρίσκονται σε παραγωγική λειτουργία στο διαδίκτυο. Η απόδοση όλων των αλγορίθμων και η εγκυρότητα των αποτελεσμάτων επικυρώθηκε με πειραματικές μετρήσεις. Τα αποτελέσματα της διατριβής δημοσιεύθηκαν σε έγκριτα διεθνήεπιστημονικάπεριοδικά,συνέδριακαιεκδόσεις. Αναλυτικότερα,οιδημοσιεύσεις μας αναφέρονται στο Κεφάλαιο 1.3. Παρακάτω παρουσιάζουμε τα βασικά σημεία της διατριβήςόπωςείναιοργανωμένασεκάθεκεφάλαιο. Κεφάλαιο 1: Introduction ΣτοΚεφάλαιο1παρουσιάζουμεκαταρχήνορισμένεςγενικέςπληροφορίεςγιατηναυτό- ματη πλοήγηση στον παγκόσμιο ιστό, την εξαγωγή δεδομένων και την αρχειοθέτηση ιστοσελίδων, έννοιες που αποτελούν το βασικό πλαίσιο της έρευνάς μας. Στη συνέχεια ορίζουμετουςστόχουςτηςδιατριβήςκαιπαρουσιάζουμετιςσυνεισφορέςμαςανάκεφά- λαιο, δίνοντας παράλληλα την οργάνωση της διατριβής. Επιπλέον, παρουσιάζουμε τις δημοσιεύσειςπουέγινανσεδιεθνήεπιστημονικάπεριοδικά,συνέδριακαιεκδόσεις. Κεφάλαιο 2: Background and Literature Review ΣτοΚεφάλαιο2παρουσιάζουμετοερευνητικόέργοπουγίνεταιστοπεδίοτηςαρχειοθέ- τησηςτουπαγκόσμιουιστού,τηςαυτόματηςπλοήγησηςστοδιαδίκτυοκαιτηναρχειοθέ- τησης των μέσων κοινωνικής δικτύωσης. Βλέπουμε τη σημασία της αρχειοθέτησης του παγκόσμιουιστούκαιτιςεργασίεςπουγίνονταιγιατηνεξασφάλισηενόςεπιπέδουποιό- τητας και αξιοπιστίας στο Κεφάλαιο 2.1.1. Εξετάζουμε τις εξελίξεις στον τομέα της εύρεσης όμοιου περιεχομένου στα ψηφιακά αρχεία του παγκόσμιου ιστού καθώς και τις τεχνικές εξάλειψής του ώστε να έχουμε μια σειρά από οφέλη σε κάθε στάδιο της λειτουργίαςτωνψηφιακώναρχείων(Κεφάλαιο2.1.2). Μελετούμετιςπροσπάθειεςβελτι- στοποίησηςτωνσυστημάτωναυτόματηςπλοήγησηςστοδιαδίκτυοστοΚεφάλαιο2.1.3.

Description:

archiving is the process of gathering digital materials from the Web, ingesting it, ensuring that these materials are An Innovative Method to Evaluate Website Archivability. WCMS. Instances No propr. files Success. PrestaShop. 466. 460. 99%. Mediawiki. 408. 398. 98%. Blogger. 324. 310. 96%. Plone.

Web Crawling, Analysis and Archiving PDF

188 Pages·2015·3.57 MB·English

Checking for file health...

Save to my drive

Quick download

Download

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Web Crawling, Analysis and Archiving

Description:

See more

The list of books you might like

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.