ebook img

Wydobywanie wiedzy z danych złożonych mgr Tomasz Xięski PDF

181 Pages·2014·13.37 MB·Polish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Wydobywanie wiedzy z danych złożonych mgr Tomasz Xięski

Uniwersytet Śląski w Katowicach Wydział Informatyki i Nauki o Materiałach Informatyka Rozprawa doktorska Wydobywanie wiedzy z danych złożonych mgr Tomasz Xięski Promotor: prof. dr hab. inż. Alicja Wakulicz-Deja Promotor pomocniczy: dr Agnieszka Nowak-Brzezińska Katowice, 2014 Niniejsza praca jest częścią projektu "Eksploracja regułowych baz wiedzy" sfinansowanego ze środków Narodowego Centrum Nauki (NCN: 2011/03/D/ST6/03027). Autor pracy był również stypendystą projektu „DoktoRIS - Program stypendialny na rzecz inno- wacyjnego Śląska” współfinansowanego przez Unię Europejską w ramach Europejskiego Funduszu Społecznego. Kochanym Rodzicom, Siostrze, Szwagrowi i Lucynie. Wyrażam zgodę na udostępnienie mojej pracy doktorskiej dla celów naukowo-badawczych. Data: Podpis autora: Słowa kluczowe: analiza skupień, wydobywanie wiedzy, dane złożone, DBSCAN, OPTICS, AHC, algorytmy gęstościowe, wizualizacja skupień. Oświadczenie autora pracy Świadomy odpowiedzialności prawnej oświadczam, że niniejsza praca doktorska została napisana przeze mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny z obo- wiązującymi przepisami. Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur związanych z uzyskaniem tytułu zawodowego w wyższej uczelni. Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załączoną wersją elektro- niczną. Data Podpis autora pracy Spis treści Spis treści I 1 Wprowadzenie 1 1.1 Układ pracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 Problematyka analizy zbiorów rzeczywistych 5 2.1 Rola wiedzy dziedzinowej w procesie odkrywania wiedzy . . . . . . . . . . . . . 6 2.2 Struktura zestawów danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3 Iteracyjny proces odkrywania wiedzy . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4 Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3 Analiza dostępnych rozwiązań programowych 21 3.1 Oprogramowanie komercyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Oprogramowanie niekomercyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.3 Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4 Metody opisu danych 41 4.1 Statystyka opisowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.2 Metody graficzne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3 Reprezentacja opisowo–eksploracyjna skupień . . . . . . . . . . . . . . . . . . . 53 4.4 Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5 Grupowanie danych oparte na pojęciu gęstości 57 5.1 Gęstościowa definicja skupienia . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.2 Analiza algorytmu DBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.3 OPTICS jako gęstościowa metoda analizy struktury danych . . . . . . . . . . . 69 5.4 Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6 Graficzne metody reprezentacji skupień 79 6.1 Motywacja do wykorzystania technik wizualizacji danych . . . . . . . . . . . . 80 6.2 Proces graficznej analizy eksploracyjnej . . . . . . . . . . . . . . . . . . . . . . 81 I II SPIS TREŚCI 6.3 Reprezentacja skupień . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.4 Generowanie map prostokątów . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 6.5 Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 7 Projekt i implementacja systemu DensGroup 103 7.1 Instalacja i wymagania sprzętowe aplikacji DensGroup . . . . . . . . . . . . . . 104 7.2 Interfejs i funkcjonalność systemu DensGroup . . . . . . . . . . . . . . . . . . . 105 7.3 Struktura plików wejściowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 7.4 Wizualizacja skupień dla zbioru cell_loss przy użyciu narzędzia DensGroup . . 114 7.5 Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 8 Eksperymenty obliczeniowe 119 8.1 Wydobywanie wiedzy ze zbioru cell_loss . . . . . . . . . . . . . . . . . . . . . . 120 8.2 Wydobywanie wiedzy ze zbioru ap_loss . . . . . . . . . . . . . . . . . . . . . . 134 8.3 Podsumowanie uzyskanych wyników . . . . . . . . . . . . . . . . . . . . . . . . 147 9 Podsumowanie 149 9.1 Szczegółowe wyniki rozprawy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Bibliografia 153 A Słownik pojęć 159 B Wykaz przeprowadzonych badań dodatkowych 163 Spis rysunków 164 Spis tabel 167 Errata 168 Skorowidz 172 Podziękowania Pragnę serdecznie podziękować mojemu promotorowi Profesor Alicji Wakulicz-Deji za wszechstronną pomoc, cenne uwagi i opiekę podczas powstawania niniejszej pracy. Podob- nie chciałbym podziękować promotorowi pomocniczemu Doktor Agnieszce Nowak-Brzezińskiej za wielogodzinne konsultacje, okazaną pomoc i troskę na każdym etapie prowadzonych badań. Bez Ich udziału i zaangażowania w pracę naukowo-badawczą autora, niniejsza praca z całą pewnością by nie powstała. Dziękuję moim najbliższym, za wyrozumiałość, cierpliwość i nieocenione wsparcie, które pomogły mi podczas trudów pisania pracy. Wszystkimosobom,którzywpieralimniewczasiepisanianiniejszejrozprawy,awszczegól- nościKolegomiKoleżankomzZakładuSystemówInformatycznychUŚ.BardzoWamdziękuję. III Rozdział 1 Wprowadzenie Nieustanny rozwój techniki oraz rosnące możliwości sprzętu komputerowego umożliwiają przechowywanie bardzo dużych ilości danych we wszelkiego rodzaju bazach i repozytoriach. Dane te najczęściej zbierane są w sposób automatyczny, wykorzystując szereg czujników lub systemów monitorujących. Nawet niewielkie transakcje w sklepie dokonywane kartą kredyto- wą czy rozmowy telefoniczne są rejestrowane przez komputery. Zwykle wiele parametrów jest zapisywanych jednocześnie, co skutkuje wysoką wymiarowością zbioru danych. Dane te są gro- madzone, ponieważ zakłada się, że mogą być źródłem nieznanych, potencjalnie użytecznych wzorców, korelacji i trendów. Odkryte wzorce, wyrażone w postaci modelu analitycznego, mo- gą posiadać skomplikowaną strukturę, przez co są trudne do dalszej analizy. Jednakże to nie tylko nadmierna ilość danych wpływa na trudności badawcze. Istotniejszym czynnikiem jest ich złożona struktura zarówno pod względem dużej liczby atrybutów opisujących każdy obiekt danych, jak również użytych typów danych. Informacje zakodowane w bazie często opisane są atrybutami różnych typów, wliczając w to wartości binarne, dyskretne, ciągłe, kategoryczne, tekstowe czy reprezentujące daty. Tego typu dane można nazwać złożonymi i będą one podsta- wą analizy w niniejszej rozprawie. Wnikliwa analiza tematyki związanej z niniejszą rozprawą, a także wyniki uzyskane w ramach przeprowadzonych badań pozwoliły uformować tezę pracy, zgodnie z którą: Opracowanie struktury dla złożonych baz wiedzy oraz procesu wyszuki- wania umożliwi efektywne wydobywanie wiedzy z rzeczywistych zbiorów danych złożonych. Celemrozprawyjestzatemopracowaniemetodywydobywaniawiedzyzezłożonychzbiorów danychrzeczywistychodużejliczebności,uwzględniającejichspecyfikęidziedzinowycharakter oraz efektywne środki wizualizacji wydobytej wiedzy. Mianem wiedzy, na potrzeby niniejszej pracy, określa się wyrażoną w postaci wzorców, trendów czy korelacji "informację odnośnie otaczającego świata, która umożliwia ekspertowi podejmowanie decyzji" [6]. Badania zostaną oparte na dwóch rzeczywistych zbiorach: pierwszy z nich zawiera dane dotyczące funkcjono- wania urządzeń nadawczo-odbiorczych operatora telefonii komórkowej (rozmieszczonych na te- 1 2 ROZDZIAŁ 1. WPROWADZENIE renie aglomeracji śląskiej), drugi agreguje statystyki gromadzone w oprogramowaniu AirSync, związane z zarządzaniem sieciami bezprzewodowymi. Mimo, że oba zestawy danych wydają się byćzesobąmocnopowiązanepodwzględemtematykitelekomunikacyjnej,tojednakposiadają zupełnie odmienną strukturę i charakterystykę. Spośród wielu technik eksploracji danych zdecydowano się wybrać analizę skupień [7] i to właśniewszystkieaspektyrealizacjitejtechnikiwodniesieniudodanychzłożonychsąpodstawą niniejszej rozprawy. Wydobywanie wiedzy z rzeczywistych baz wiedzy jest procesem wieloeta- powym i stawia szereg wymogów wobec algorytmów grupowania jak: możliwość odkrywania skupień o różnej strukturze, odporność na występowanie wartości izolowanych, posiadanie re- latywnie niskiej złożoności obliczeniowej i zajętości pamięci, jasno określone kryteria stopu algorytmu oraz wysoka jakość tworzonych skupień. Niestety klasyczne metody analizy skupień (jak niehierarchiczny algorytm k-średnich) nie spełniają podanych wymagań. Dodatkowo takie rzeczywiste bazy danych najczęściej charakteryzują się występowaniem wartości pustych (bra- kujących),niezdyskretyzowanych,czyzduplikowanych,coznaczącoutrudniaichprzetwarzanie oraz analizę. Zatem w procesie badawczym wykorzystywane są bardziej złożone algorytmy, ale te dla osiągnięcia optymalnego rezultatu wymagają zdefiniowania różnej liczby parametrów. Dlatego też istotnym problemem, omawianym w dalszej części pracy, jest określenie metod: optymalnego doboru parametrów dla procesu grupowania oraz opisu utworzonej struktury zło- żonych grup. Niniejsza praca odnosi się również do problemu, w jaki sposób wizualizacja danych mo- że funkcjonować jako efektywne i autonomiczne narzędzie analizy, jak również służyć jako technika łącząca wiedzę dziedzinową i zdolności kognitywne człowieka w procesie odkrywa- nia wiedzy. Omawia proces graficznej analizy eksploracyjnej (ang. visual data mining) [3] oraz dokonujeporównanianajpopularniejszychtechnikprezentacjiskupień,spotykanychwliteratu- rzeprzedmiotu,zautorskąkoncepcjąopartąnaalgorytmiegenerowaniatzw.mapprostokątów (ang. treemaps) [11]. Kolejnym istotnym aspektem omawianym w rozprawie jest przegląd i po- równanie możliwości obecnie dostępnych systemów analizy danych, wraz z wykazaniem ich wad i zalet, szczególnie w kontekście efektywności zaimplementowanych technik grupowania. Stanowi to jednocześnie motywację do stworzenia autorskiego systemu wydobywania wiedzy DensGroup. 1.1 Układ pracy Rozdziałdrugiwprowadzaniezbędnepojęciazwiązanezdziedzinątelekomunikacjiorazak- centujeznaczeniewiedzydziedzinowejwprocesieanalizyiprzetwarzaniarzeczywistychzbiorów złożonych danych. Omawia strukturę i wyjaśnia różnice między badanymi zestawami danych jak również prezentuje koncepcję wydobywania wiedzy (proponowaną przez autora pracy), dostosowaną do ich złożonej postaci. Trzecirozdziałpoświęconyjestnatomiastporównaniudostępnychrozwiązańprogramowych stosowanychdowydobywaniawiedzyzdanych.Prezentujewadyizaletyomówionychsystemów jak również powody dla których został stworzony autorski system analizy DensGroup. Kolejny rozdział poświęcony jest metodom opisu danych, z uwzględnieniem prostych sta- 1.1. UKŁAD PRACY 3 tystyk (zarówno centralnej tendencji jak i rozproszenia) oraz technik graficznych. Przedstawia również przyczyny wyboru konkretnej reprezentacji opisowo–eksploracyjnej skupień, mającej zastosowanie w narzędziu DensGroup. Celem rozdziału piątego jest omówienie porównawcze gęstościowych algorytmów analizy skupień oraz potwierdzenie ich użyteczności w kontekście grupowania rzeczywistych zbiorów danych złożonych. Wyszczególniono cechy odróżniające tę grupę technik względem podejść klasycznych (zarówno hierarchicznych jak i podziałowych), a ponadto przedstawiono najważ- niejsze aspekty związane z budową i implementacją tychże algorytmów. W rozdziale szóstym znajduje się omówienie procesu graficznej analizy eksploracyjnej oraz porównanie najpopularniejszych graficznych technik reprezentacji skupień, spotykanych w li- teraturze przedmiotu, z autorską koncepcją opartą o algorytm generowania tzw. map pro- stokątów. Analiza możliwości omówionych technik oparta była na rzeczywistych przykładach, prezentujących zajętość plików i katalogów na dysku twardym. Treścią rozdziału siódmego jest dokumentacja autorskiego systemu wydobywania wiedzy DensGroup. Przestawiono zarówno proces instalacji i obsługi wspomnianego oprogramowania, jak również pokazano rzeczywisty scenariusz zastosowania tegoż systemu (odróżniający go od innych tego typu) na jednym, z omawianych w rozdziale drugim zestawów danych. Ekspe- rymenty przeprowadzone na potrzeby niniejszej rozprawy przedstawione zostały w kolejnym rozdziale (ósmym). Pracę kończy podsumowanie, w którym starano się potwierdzić i skonfrontować tezę po- stawioną na początku pracy, z rezultatami uzyskanymi w trakcie prowadzonych badań. Jako dodatek dołączono również słownik najważniejszych pojęć wykorzystywanych w niniejszej roz- prawie.

Description:
Omawia proces graficznej analizy eksploracyjnej (ang. visual data mining) [3] oraz R z nakładką Rattle. Rattle (ang. R Analytical Tool To Learn Easily) jest graficzną nakładką (z dodatkowymi funkcjami) na znany w środowisku .. bimodalnymi (ang. bimodal) oraz trójmodalnymi (ang. trimodal).
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.