ZASTOSOWANIE ANALIZ DATA MINING W PRZEWIDYWANIU GRO(cid:12)BY UPADŁO(cid:9)CI LUB KONIECZNO(cid:9)CI PROWADZENIA POST(cid:6)POWANIA UKŁADOWEGO PRZEDSI(cid:6)BIORSTWA – BUDOWA MODELI PREDYKCYJNYCH, OCENA ICH JAKO(cid:9)CI I WYBÓR MODELU MIROSŁAWA LASEK MAREK P(cid:7)CZKOWSKI DARIUSZ WIERZBA Uniwersytet Warszawski Streszczenie W artykule przedstawiono przydatno(cid:4)(cid:5) modeli Data Mining do przewidywania gro(cid:8)by upadło(cid:4)ci lub post(cid:3)powania układowego przedsi(cid:3)biorstwa. Opisano zastoso- wanie modeli predykcyjnych: regresji logistycznej, drzew decyzyjnych oraz sieci neuronowych. Rozwa(cid:2)ania zilustrowano posługuj(cid:6)c si(cid:3) danymi około sze(cid:4)ciu tysi(cid:3)cy przedsi(cid:3)biorstw, w(cid:4)ród których cz(cid:3)(cid:4)(cid:5) była zagro(cid:2)ona upadło(cid:4)ci(cid:6) lub post(cid:3)powaniem układowym. Słowa kluczowe: prognozowanie upadło(cid:9)ci lub post(cid:5)powania układowego przedsi(cid:5)biorstwa, modele predykcyjne Data Mining, regresja logistyczna, drzewa decyzyjne, sieci neuronowe 1.Wst(cid:8)p Celem artykułu jest przedstawienie wyników bada(cid:3) przydatno(cid:9)ci analiz Data Mining w wyło- nieniu cech sygnalizuj(cid:4)cych gro(cid:11)b(cid:5) upadło(cid:9)ci przedsi(cid:5)biorstwa lub skłaniaj(cid:4)cych do podj(cid:5)cia post(cid:5)powania układowego dla „uratowania” firmy oraz mo(cid:2)liwo(cid:9)ci pozyskania wiedzy, jak na podstawie znajomo(cid:9)ci warto(cid:9)ci tych cech mo(cid:2)na przewidzie(cid:12) zagro(cid:2)enie upadło(cid:9)ci(cid:4) lub koniecz- no(cid:9)ci(cid:4) prowadzenia post(cid:5)powania układowego. Pod poj(cid:5)ciem cech rozumie si(cid:5) tu charakterystyki kondycji finansowej i maj(cid:4)tkowej firmy, pochodz(cid:4)ce ze sprawozda(cid:3) finansowych (bilans, rachunek zysków i strat, rachunek przepływów pieni(cid:5)(cid:2)nych), takie jak maj(cid:4)tek trwały, maj(cid:4)tek obrotowy, stan (cid:9)rodków pieni(cid:5)(cid:2)nych, przychody ze sprzeda(cid:2)y, zobowi(cid:4)zania oraz wska(cid:11)niki charakteryzuj(cid:4)ce kondycj(cid:5) ekonomiczn(cid:4), do których nale(cid:2)(cid:4) wska(cid:11)niki płynno(cid:9)ci, zyskowno(cid:9)ci, aktywno(cid:9)ci i zadłu(cid:2)enia. Analizy Data Mining s(cid:4) to analizy realizowane za pomoc(cid:4) zaawansowanych metod statystycz- nych oraz metod sztucznej inteligencji, które pozwalaj(cid:4) wykrywa(cid:12) zale(cid:2)no(cid:9)ci mi(cid:5)dzy obiektami lub cechami opisuj(cid:4)cymi obiekty na podstawie nagromadzonych du(cid:2)ych zbiorów danych. Metody te pozwalaj(cid:4) na podstawie danych tworzy(cid:12) wiedz(cid:5) – budowa(cid:12) zale(cid:2)no(cid:9)ci, wskazywa(cid:12) wzorce, okre(cid:9)la(cid:12) trendy [4], [8], [10], [11]. 2.Dane wykorzystywane w prowadzeniu analiz Wykorzystywany przez nas zbiór danych obejmował dane 5828 przedsi(cid:5)biorstw. Spo(cid:9)ród tych przedsi(cid:5)biorstw a(cid:2) 4954 to przedsi(cid:5)biorstwa bardzo dobre, tzw. „gazele biznesu” polskiej gospo- 82 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… darki. S(cid:4) to dynamicznie rozwijaj(cid:4)ce si(cid:5) firmy o czystej reputacji i nie maj(cid:4)ce problemów finan- sowych. Pozostałe 874 przedsi(cid:5)biorstwa to firmy, wobec których s(cid:4)d ogłosił upadło(cid:9)(cid:12) oraz firmy, wobec których s(cid:4)d ogłosił post(cid:5)powanie układowe. Przedsi(cid:5)biorstw, wobec których s(cid:4)d ogłosił upadło(cid:9)(cid:12) – zgodnie z prawem upadło(cid:9)ciowym obowi(cid:4)zuj(cid:4)cym przed sierpniem 2003 r. lub upadło(cid:9)(cid:12) zakładaj(cid:4)c(cid:4) likwidacj(cid:5) firmy zgodnie z prawem upadło(cid:9)ciowym i post(cid:5)powaniem naprawczym, obowi(cid:4)zuj(cid:4)cym po sierpniu 2003 r., było w analizowanym zbiorze 402. Natomiast przedsi(cid:5)biorstw, wobec których s(cid:4)d ogłosił post(cid:5)powanie układowe było 472. Przyj(cid:5)to rozumie(cid:12) post(cid:5)powanie układowe zgodnie z prawem upadło(cid:9)ciowym obowi(cid:4)zuj(cid:4)cym przed 08.2003 lub reorganizacji firmy zgodnie z prawem upadło(cid:9)ciowym i post(cid:5)powaniem naprawczym obowi(cid:4)zuj(cid:4)- cym po 08.2003. Post(cid:5)powanie naprawcze jest form(cid:4) ochrony przed wierzycielami zgodnie z prawem upadło(cid:9)ciowym i post(cid:5)powaniem naprawczym, obowi(cid:4)zuj(cid:4)cym po 08.2003. Przedsi(cid:5)bior- stwa upadłe i z post(cid:5)powaniem układowym stanowiły 15,7% badanych przedsi(cid:5)biorstw, a 84,3% stanowiły „gazele”1. Pomijaj(cid:4)c „gazele” przedsi(cid:5)biorstw upadłych było 46%, a przedsi(cid:5)biorstw z post(cid:5)powaniem układowym 54%. Liczba analizowanych cech kondycji firm oraz wska(cid:11)ników - dalej nazywamy je tak(cid:2)e charakterystykami kondycji lub zmiennymi analizy - wynosiła ł(cid:4)cznie 144. Zostały uwzgl(cid:5)dnione wielko(cid:9)ci ze sprawozda(cid:3) finansowych, takie jak maj(cid:4)tek trwały, maj(cid:4)tek obrotowy, (cid:9)rodki pieni(cid:5)(cid:2)ne, suma aktywów, kapitał (fundusz) własny, zobowi(cid:4)zania długoterminowe, zobowi(cid:4)zania krótkoterminowe i fundusze specjalne, zobowi(cid:4)zania krótkotermi- nowe, przychody ze sprzeda(cid:2)y, amortyzacja, (cid:9)rodki pieni(cid:5)(cid:2)ne z działalno(cid:9)ci operacyjnej, (cid:9)rodki pieni(cid:5)(cid:2)ne z działalno(cid:9)ci inwestycyjnej, (cid:9)rodki pieni(cid:5)(cid:2)ne z działalno(cid:9)ci finansowej, zmiana stanu (cid:9)rodków netto, (cid:9)rodki na pocz(cid:4)tek roku obrotowego, (cid:9)rodki na koniec roku obrotowego oraz wska(cid:11)niki, takie jak zysk lub strata (zysk/strata) ze sprzeda(cid:2)y, zysk/strata na działalno(cid:9)ci operacyj- nej, zysk/strata brutto na działalno(cid:9)ci operacyjnej, zysk/strata brutto, zysk/strata netto. Uwzgl(cid:5)d- niono wska(cid:11)niki nale(cid:2)(cid:4)ce do 17 ró(cid:2)nych grup: płynno(cid:9)ci, rotacji aktywów (maj(cid:4)tku) trwałych, rotacji aktywów (maj(cid:4)tku) w dniach, rotacji kapitału, rotacji kapitałem w dniach, struktury kapitałowej, struktury maj(cid:4)tkowej, struktury maj(cid:4)tkowo-kapitałowej, efektywno(cid:9)ci pracy i warto(cid:9)ci dodanej, rentowno(cid:9)ci, rozwoju, struktury przychodów, struktury kosztów, rynku kapitałowego, d(cid:11)wigni finansowej i operacyjnej, wiarygodno(cid:9)ci kredytowej, tendencji. 3. Prowadzone analizy Przeprowadzono analizy danych, przyjmuj(cid:4)c ró(cid:2)ne sposoby podziału przedsi(cid:5)biorstw na gru- py i uwzgl(cid:5)dniania firm z grup o ró(cid:2)nej kondycji ekonomicznej. W pierwszej z przeprowadzonych analiz przedsi(cid:5)biorstwa upadłe i z post(cid:5)powaniem układowym traktowano ł(cid:4)cznie i porównywano z przedsi(cid:5)biorstwami „gazelami”. W analizie wzi(cid:5)ły wi(cid:5)c udział wszystkie badane przedsi(cid:5)bior- stwa. W budowanych modelach Data Mining zmienn(cid:4) obja(cid:9)nian(cid:4) była zmienna binarna, przyjmu- j(cid:4)ca warto(cid:9)(cid:12) 1, je(cid:2)eli przedsi(cid:5)biorstwo upadło lub ma post(cid:5)powanie układowe i 0, gdy jest „gazel(cid:4)”. W drugim przypadku starali(cid:9)my si(cid:5) zbada(cid:12), czy istniej(cid:4) istotne ró(cid:2)nice mi(cid:5)dzy przedsi(cid:5)- biorstwami upadłymi a przedsi(cid:5)biorstwami z post(cid:5)powaniem układowym („gazele” nie były uwzgl(cid:5)dniane). Analizowany zbiór przedsi(cid:5)biorstw liczył 874 przedsi(cid:5)biorstwa. Jako zmienn(cid:4) obja(cid:9)nian(cid:4) przyj(cid:5)to przedsi(cid:5)biorstwa upadłe, a zatem warto(cid:9)(cid:12) 1 zmiennej wskazywała przedsi(cid:5)- biorstwo upadłe, warto(cid:9)(cid:12) 0 – przedsi(cid:5)biorstwo z post(cid:5)powaniem układowym. Trzeci przypadek 1Zgodnie z zało(cid:2)eniami analiz Data Mining, w celu przyspieszenia oblicze(cid:7), rozkłady cech s(cid:6) ustalane na podstawie zbioru metadanych, stanowi(cid:6)cego losowy zbiór 2000 obserwacji całego zbioru danych. POLSKIE STOWARZYSZENIE ZARZ(cid:1)DZANIA WIEDZ(cid:1) 83 Seria: Studia i Materiały, nr 22, 2009 dotyczył przedsi(cid:5)biorstw upadłych i „gazel”. Przedsi(cid:5)biorstwa z post(cid:5)powaniem układowym nie były brane pod uwag(cid:5). Zbiór analizowanych przedsi(cid:5)biorstw obejmował 5356 firm (402 upadłych i 4954 „gazel”). Jako zmienn(cid:4) obja(cid:9)nian(cid:4) przyj(cid:5)to zmienn(cid:4) binarn(cid:4), okre(cid:9)laj(cid:4)c(cid:4) - firm(cid:5) upadł(cid:4) (warto(cid:9)(cid:12) 1) i „gazel(cid:5)” (warto(cid:9)(cid:12) 0). W czwartym przypadku nie wzi(cid:5)to pod uwag(cid:5) przedsi(cid:5)biorstw upadłych. Analizowane były przedsi(cid:5)biorstwa z post(cid:5)powaniem układowym i „gazele”, ł(cid:4)cznie 5426 przedsi(cid:5)biorstw. Interesowała nas analiza przedsi(cid:5)biorstw z post(cid:5)powaniem układowym i „gazel”, bez uwzgl(cid:5)dnienia sytuacji upadło(cid:9)ci. Jako zmienn(cid:4) obja(cid:9)nian(cid:4) przyj(cid:5)to zmienn(cid:4) binarn(cid:4) okre(cid:9)laj(cid:4)c(cid:4) firm(cid:5) z post(cid:5)powaniem układowym (warto(cid:9)(cid:12) 1 zmiennej) i przeciwny przypadek – nie ma post(cid:5)powania układowego, co oznacza „gazel(cid:5)”. 4. Zastosowane analizy i modele Data Mining W badaniu wykorzystali(cid:9)my program Enterprise Miner firmy SAS [5], [7]. Zgodnie z metodo- logi(cid:4) modelowania Data Mining wymaga on zbudowania diagramu, wyznaczaj(cid:4)cego przebieg przetwarzania. Diagram taki zamieszczono na rysunku 1. Elementami diagramu s(cid:4) w(cid:5)zły przetwa- rzania danych, poł(cid:4)czone strzałkami wskazuj(cid:4)cymi kierunek przetwarzania. W celu identyfikacji w(cid:5)złów maj(cid:4) one przypisane nazwy. Rys. 1. Diagram przebiegu przetwarzania danych (cid:13)ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner. 5. Wprowadzanie danych do analizy i podział zbioru danych na zbiór treningowy, walida- cyjny i testowy W(cid:5)zeł MINER.FIRMY jest w(cid:5)złem wprowadzania danych wej(cid:9)ciowych (rys. 1). Jego nazwa jest jednocze(cid:9)nie nazw(cid:4) wej(cid:9)ciowego zbioru danych (nazwa ta składa si(cid:5) z nazwy biblioteki, w której umieszczony jest zbiór danych oraz nazwy tablicy z danymi). W(cid:5)zeł Data Partition jest w(cid:5)złem podziału zbioru danych na zbiory: treningowy, walidacyjny i testowy (rys. 1). Budowa modeli eksploracji danych Data Mining wymaga realizacji trzech etapów: trenowania, walidacji i testowania, i dla wykonania ka(cid:2)dego z tych etapów musimy utworzy(cid:12) oddzielne zbiory: trenin- gowy (Training Set), walidacyjny (Validation Set), testowy (Testing Set). Powstaj(cid:4) one przez podział (na ogół losowy) wej(cid:9)ciowego zbioru danych na trzy cz(cid:5)(cid:9)ci. Zbiór treningowy jest zbiorem 84 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… danych, na podstawie których wykrywamy mo(cid:2)liwe zale(cid:2)no(cid:9)ci mi(cid:5)dzy zmiennymi. Zbiór trenin- gowy jest u(cid:2)ywany do wst(cid:5)pnego oszacowania parametrów modelu. Zbiór walidacyjny jest u(cid:2)ywany do dostrojenia parametrów modelu, które zostały oszacowane w oparciu o zbiór trenin- gowy. U(cid:2)ycie tego zbioru poprawia własno(cid:9)ci predykcyjne modelu, tzn. model pozwala lepiej przewidywa(cid:12) warto(cid:9)ci zmiennych obja(cid:9)nianych dla nowych obserwacji, niewyst(cid:5)puj(cid:4)cych w dotychczas badanych zbiorach. Zbiór testowy jest zbiorem, który słu(cid:2)y do zbadania, na ile wykryte zale(cid:2)no(cid:9)ci s(cid:4) prawdziwe dla innych zbiorów danych. Domy(cid:9)ln(cid:4) metod(cid:4) podziału (cid:11)ródłowego zbioru danych na zbiór treningowy, walidacyjny i testowy jest losowanie proste (opcja Simple Random w programie Enterprise Miner). Domy(cid:9)lna metoda Simple Random dokonuje podziału zbioru danych na podzbiory: treningowy, walidacyjny i testowy w sposób losowy, oparty na losowaniu prostym, gdzie prawdopodobie(cid:3)stwo wej(cid:9)cia do ka(cid:2)dego z podzbiorów jest dla ka(cid:2)dej obserwacji takie samo. Przy takim post(cid:5)powaniu struktura ka(cid:2)dego z tworzonych podzbiorów powinna by(cid:12) podobna do struktury całego zbioru i mo(cid:2)emy przyj(cid:4)(cid:12), (cid:2)e ka(cid:2)dy z podzbiorów dobrze reprezentuje cały zbiór. Taki sposób podziału na zbiory treningowy, walidacyjny i testowy przyj(cid:5)li(cid:9)my w analizach przedstawianych w tym artykule. Przedstawiony powy(cid:2)ej sposób tworze- nia zbiorów: treningowego, walidacyjnego i testowego nie jest odpowiedni w sytuacji, gdy pewne warto(cid:9)ci zmiennych pojawiaj(cid:4) si(cid:5) w całym zbiorze bardzo rzadko (stanowi(cid:4)c przykładowo 1%, 0,2% wszystkich obiektów). Wówczas próba licz(cid:4)ca du(cid:2)o obserwacji (np. 1000) mo(cid:2)e zawiera(cid:12) tylko kilka przypadków przyjmuj(cid:4)cych okre(cid:9)lone warto(cid:9)ci danej zmiennej i nie jest mo(cid:2)liwe wierne odzwierciedlenie struktury całego zbioru danych. Przykładem takiego zbioru mo(cid:2)e by(cid:12) zbiór przedsi(cid:5)biorstw zawieraj(cid:4)cych mał(cid:4) liczb(cid:5) bankrutów. W takiej sytuacji zamiast metody Simple Random proponuje si(cid:5) inny sposób losowania, np. polegaj(cid:4)cy na losowaniu osobno z ka(cid:2)dego typu obiektów, nazywanych warstwami. Taki sposób losowania nazywa si(cid:5) losowaniem warstwowym (Stratified) i mo(cid:2)e on zapewni(cid:12) odpowiedni(cid:4) liczebno(cid:9)(cid:12) obserwacji posiadaj(cid:4)cych rzadk(cid:4) warto(cid:9)(cid:12) cechy w zbiorze treningowym, walidacyjnym i testowym w opisywanej sytuacji nierównomiernego rozkładu warto(cid:9)ci danych. Mo(cid:2)emy okre(cid:9)li(cid:12) udział procentowy, jaki b(cid:5)d(cid:4) stanowi(cid:12) dane treningowe, walidacyjne i testowe w zbiorze danych. Przyj(cid:5)li(cid:9)my w naszej analizie cz(cid:5)sto stosowane ustalenie domy(cid:9)lne (40% - zbiór treningowy, 30% - zbiór walidacyjny, 30% - zbiór testowy). 6. Wst(cid:8)pna selekcja zmiennych dla przeprowadzania bada(cid:4) Nast(cid:5)pny z umieszczonych w(cid:5)złów na diagramie (rys. 1), to w(cid:5)zeł Variable Selection. Ten w(cid:5)zeł umo(cid:2)liwia wybór zestawu zmiennych, które najsilniej wpływaj(cid:4) na warto(cid:9)ci zmiennej obja(cid:9)nianej. Jako kryterium wyboru zmiennych, narz(cid:5)dzie Variable Selection umo(cid:2)liwia wykorzy- stanie współczynników determinacji R2.2 W przypadku stosowania R2 ocena zmiennych dokony- wana jest na podstawie kryterium dobroci dopasowania (goodness-of-fit). Wykorzystywana jest technika krokowa wyboru zmiennych. Jest to procedura iteracyjna, która powoduje, (cid:2)e w kolejnych krokach poprawiana jest warto(cid:9)(cid:12) współczynnika determinacji R2. Zako(cid:3)czenie działania wyboru nast(cid:5)puje, gdy poprawa R2 jest mniejsza ni(cid:2) 0,005. Domy(cid:9)lnie, odrzucane s(cid:4) zmienne, których wkład w polepszenie wyniku jest mniejszy ni(cid:2) 0,005. Proces wyboru zmiennych przy przyj(cid:5)ciu 2 Alternatyw(cid:6) jest wybór zmiennych w oparciu o kryterium Chi-square, wykorzystuj(cid:6)ce miar(cid:3)χ2. POLSKIE STOWARZYSZENIE ZARZ(cid:1)DZANIA WIEDZ(cid:1) 85 Seria: Studia i Materiały, nr 22, 2009 kryterium R2 składa si(cid:5) w przypadku binarnej zmiennej obja(cid:9)nianej (binary target)3 z trzech kroków: (1) obliczane s(cid:4) kwadraty współczynników korelacji ka(cid:2)dej zmiennej ze zmienn(cid:4) obja- (cid:9)nian(cid:4) i nast(cid:5)pnie odrzucane s(cid:4) zmienne, które maj(cid:4) kwadrat współczynnika korelacji poni(cid:2)ej ustalonego poziomu (domy(cid:9)lnie 0,005), (2) pozostałe zmienne s(cid:4) brane pod uwag(cid:5) w procedurze regresji krokowej w przód (forward stepwise R2 regression). Zmienne, które powoduj(cid:4) polepszenie wyniku w stopniu mniejszym ni(cid:2) przyj(cid:5)te kryterium progowe s(cid:4) odrzucane, (3) dla binarnych zmiennych obja(cid:9)nianych przeprowadzana jest analiza regresji logistycznej z u(cid:2)yciem warto(cid:9)ci teoretycznych zmiennej obja(cid:9)nianej jako zmiennej niezale(cid:2)nej. Program podaje przyczyn(cid:5) odrzucenia zmiennej. W naszym przypadku zostało wybranych 30 zmiennych.4 7. Ocena jako(cid:1)ci modeli i wybór rodzaju przeprowadzanej analizy za pomoc(cid:7) modelu Zastosowali(cid:9)my trzy modele analizy danych [2], [3]: (1) regresji logistycznej (w(cid:5)zły RegStep, RegForw, RegBack), (2) drzew decyzyjnych (w(cid:5)zeł Tree), (3) sieci neuronowych (w(cid:5)zeł Neural Network). Porównanie jako(cid:9)ci tych modeli jest dokonywane w w(cid:5)(cid:11)le Assessment. Nim szczegóło- wo rozpatrzymy zastosowane modele, przyjrzyjmy si(cid:5) wykresom uzyskanym w w(cid:5)(cid:11)le Assessment. Wykresy te pozwalaj(cid:4) porówna(cid:12) tworzone modele pod wzgl(cid:5)dem ich jako(cid:9)ci i wybra(cid:12) najlepszy model, który mo(cid:2)e by(cid:12) zastosowany do wyja(cid:9)nienia zachowania si(cid:5) zmiennej zale(cid:2)nej i do prognozowania. W(cid:5)zeł Assessment umo(cid:2)liwia otrzymanie wykresu wzrostu (lift chart) pozwalaj(cid:4)- cego oceni(cid:12) wizualnie jako(cid:9)(cid:12) dopasowania modelu do danych i oceni(cid:12), który model jest pod tym wzgl(cid:5)dem najlepszy. Wykresy wzrostu pozwalaj(cid:4) oceni(cid:12) efektywno(cid:9)(cid:12) modelu pod wzgl(cid:5)dem trafno(cid:9)ci własno(cid:9)ci predykcyjno(cid:9)ci (przewidywania odpowiedzi). Na podstawie oszacowanego modelu, dla ka(cid:2)dej obserwacji w zbiorze walidacyjnym jest obliczane przewidywane prawdopodo- bie(cid:3)stwo sukcesu. Nast(cid:5)pnie obserwacje s(cid:4) ustawiane malej(cid:4)co według tych prawdopodobie(cid:3)stw i zbiór jest dzielony na 10 równych cz(cid:5)(cid:9)ci. Ka(cid:2)da cz(cid:5)(cid:9)(cid:12) tworzy grup(cid:5) decylow(cid:4) w zbiorze walida- cyjnym.5 Na wykresie zaznaczane s(cid:4) decyle na osi poziomej (oznaczane jako percentyle: 10, 20,...). Na osi pionowej s(cid:4) zaznaczane odpowiednie charakterystyki zale(cid:2)ne od liczby sukcesów w poszczególnych grupach decylowych. Enterprise Miner umo(cid:2)liwia wybór jednej z nast(cid:5)puj(cid:4)cych 3 Je(cid:2)eli zmienna obja(cid:4)niana nie jest binarna, s(cid:6) wykonywane tylko dwa pierwsze kroki. 4 Wybrane zmienne, to (kolejno(cid:4)(cid:5) alfabetyczna): Amortyzacja (AMORTYZACJA), Krótkoterminowe aktywa finansowe ((cid:4)rodki pieni(cid:3)(cid:2)ne) do aktywów ogółem (KAFSPDAO), Kapitał (fundusz) własny (KAPWL), Koszty finansowe do przychodów ogółem (KFDPO), Kapitał obrotowy netto do aktywów (maj(cid:6)tku) obrotowych (KONDAO), Korekty o pozycje (KORPOZ), Kapitał stały do aktywów ogółem (KSDAO), Kapitał własny do aktywów (maj(cid:6)tku) trwałych (KWDAT), Nadwy(cid:2)ka finansowa do aktywów ogółem (NFDAO), Nadwy(cid:2)ka finansowa do zobowi(cid:6)za(cid:7) krótkoterminowych (NFDZK), Nakłady inwestycyjne do aktywów ogółem (NIDAO), Obci(cid:6)(cid:2)enia finansowe (OF), Ryzyko likwidacji (RL), Wynik netto do aktywów ogółem (ROA) skorygowany (ROAS), Rotacja zobowi(cid:6)za(cid:7) krótkoterminowych (RZK), Udział aktywów (maj(cid:6)tku) obrotowych netto w aktywach (UAMONWA), Udział krótkoterminowych aktywów finansowych ((cid:4)rodków pieni(cid:3)(cid:2)nych) w aktywach (maj(cid:6)tku) obrotowych (UKAFAO), Udział kosztów działalno(cid:4)ci operacyjnej w kosztach uzyskania przychodu (UKDOWKUP), Udział kosztów finansowych w kosztach uzyskania przychodów (UKFWKUP), Udział przychodów finansowych w przychodach ogółem (UPFWPO), Udział zobowi(cid:6)za(cid:7) z tytułu podatków, ceł, ubezpiecze(cid:7) w zobowi(cid:6)za- niach krótkoterminowych (UZPCUZK), Udział zapasów w aktywach (maj(cid:6)tku) obrotowych (UZWAMO), Wynik na działalno(cid:4)ci operacyjnej do aktywów ogółem (WNDODAO), Wska(cid:8)nik unieruchomienia (WU), Zobowi(cid:6)zania z tytułu funduszy specjalnych do sprzeda(cid:2)y w dniach (ZFSDSD), Zobowi(cid:6)zania krótkoterminowe (ZOBKR), Zobowi(cid:6)zania krótkoterminowe i fundusze specjalne (ZOBKRIFS), Zysk/strata brutto (ZYNSB), Zysk/strata brutto na działalno(cid:4)ci operacyjnej (ZYNSBNDO), Zysk/strata ze sprzeda(cid:2)y (ZYNSZS). 5 W programie Enterprise Miner obserwacje s(cid:6) ustawiane malej(cid:6)co, a grupy decylowe s(cid:6) tworzone w odwrotnej kolejno(cid:4)ci, ni(cid:2) zazwyczaj w badaniach statystycznych. Pierwsza grupa decylowa zawiera najwi(cid:3)ksze warto(cid:4)ci. 86 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… charakterystyk (Vertical Axis Value): % Response, % Captured Response, Lift Value. Ka(cid:2)dy z wykresów mo(cid:2)e przedstawia(cid:12) warto(cid:9)ci skumulowane (Cumulative) lub nieskumulowane (Non- Cumulative). Sposób tworzenia warto(cid:9)ci na osi pionowej wyja(cid:9)niamy na przykładzie – tabela 1.6 Przypu(cid:9)(cid:12)my, (cid:2)e zbiór walidacyjny ma 1000 obserwacji, zatem ka(cid:2)da grupa decylowa ma 100 obserwacji. Załó(cid:2)my dalej, (cid:2)e w zbiorze walidacyjnym było 200 sukcesów (tzn. wyst(cid:4)piło badane zdarzenie) i rozkładały si(cid:5) one w nast(cid:5)puj(cid:4)cy sposób w grupach decylowych: 50, 40, 30, 20, 15, 20, 5, 5, 12, 3. W dobrze dopasowanym modelu udział pozytywnych odpowiedzi powinien by(cid:12) najwi(cid:5)kszy w ostatnich grupach decylowych, a mały w pocz(cid:4)tkowych grupach decylowych. Aby ułatwi(cid:12) interpretacj(cid:5) wykresu, jest on zaopatrzony w lini(cid:5) (baseline curve), która przedstawia wynik dla stałej liczby sukcesów wynikaj(cid:4)cej z prawdopodobie(cid:3)stwa sukcesu w zbiorze walidacyj- nym. Je(cid:2)eli krzywa jest zbli(cid:2)ona do prostej Baseline, to oznacza, (cid:2)e model jest słabo dopasowany do danych. Na rysunku 2 (a) i 2 (b) przedstawili(cid:9)my wykresy, wybieraj(cid:4)c opcj(cid:5) % Captured Response i Cumulative. Rysunek 2 (a) ilustruje przypadek analizy dwóch grup przedsi(cid:5)biorstw: grupy „gazel” oraz grupy przedsi(cid:5)biorstw z orzeczon(cid:4) upadło(cid:9)ci(cid:4) i prowadzeniem post(cid:5)powania układowego. Rysunek 2 (b) przedstawia wyniki, gdy nie uwzgl(cid:5)dniali(cid:9)my „gazel” i porównywali- (cid:9)my przedsi(cid:5)biorstwa z orzeczon(cid:4) upadło(cid:9)ci(cid:4) z przedsi(cid:5)biorstwami prowadz(cid:4)cymi post(cid:5)powanie układowe. W pierwszym przypadku modele charakteryzuj(cid:4) si(cid:5) dobr(cid:4) jako(cid:9)ci(cid:4), tzn. pozwalaj(cid:4) one odró(cid:2)ni(cid:12) przedsi(cid:5)biorstwa dobre („gazele”) i złe (upadłe lub z post(cid:5)powaniem układowym). W drugim przypadku wida(cid:12), (cid:2)e na podstawie wybranych zmiennych obja(cid:9)niaj(cid:4)cych nie mo(cid:2)na zadowalaj(cid:4)co prognozowa(cid:12), do której grupy (z orzeczon(cid:4) upadło(cid:9)ci(cid:4), czy te(cid:2) prowadzeniem post(cid:5)powania układowego) nale(cid:2)y przedsi(cid:5)biorstwo. Grupy te maj(cid:4) podobne własno(cid:9)ci. Dlatego w dalszych analizach zajmowali(cid:9)my si(cid:5) tylko przypadkiem porównywania własno(cid:9)ci „gazel” i traktowanych ł(cid:4)cznie przedsi(cid:5)biorstw upadłych lub zagro(cid:2)onych post(cid:5)powaniem układowym. Rysunek 2 (a) ukazał te(cid:2), (cid:2)e najlepsze pod wzgl(cid:5)dem własno(cid:9)ci predykcyjnych okazały si(cid:5) modele 6 W obliczeniach przyj(cid:3)to oznaczenia: N - liczba obserwacji w zbiorze walidacyjnym (1000), K - liczba sukcesów w zbiorze walidacyjnym (200), n - liczba obserwacji w grupie decylowej (N/10=100), k - (cid:4)rednia liczba sukcesów w grupie decylowej (K/10=20), m(j) - liczba pozytywnych odpowiedzi w j-tej grupie decylowej. Dla wykresów nieskumulowanych: % Response jest liczone jako udział (wyra(cid:2)ony w procentach) odpowiedzi pozytywnych w danej grupie decylowej. Jest to ułamek, w którym licznik wynosi m(j), mianownik wynosi n (patrz kolumna % Response). Np. 1 decyl - 50/100=50% , 2 decyl - 40/100 =40%. % Captured Response – jest to udział pozytywnych odpowiedzi znajduj(cid:6)cych si(cid:3) w danej grupie decylowej do wszystkich pozytywnych odpowiedzi. Licznik ułamka wynosi m(j), a mianownik wynosi K (patrz kolumna % Captured Response). Np. 1 decyl - 50/200=25% , 2 decyl - 40/200 =20%. Lift Value - jest to stosunek pozytywnych odpowiedzi w danej grupie decylowej do (cid:4)redniej liczby pozytywnych odpowiedzi przypadaj(cid:6)cej na grup(cid:3) decylow(cid:6). Licznik ułamka wynosi m(j), a mianownik wynosi k (patrz kolumna Lift Value). Np. 1 decyl - 50/20=2,50 , 2 decyl - 40/20 =2,00. Zatem dla warto(cid:4)ci nieskumulowanych licznik ułamka wynosi zawsze m(j), a mianownik ułamka jest stały, ale ró(cid:2)ny dla ró(cid:2)nych rodzajów wykresów. Dla wykresów skumulowanych licznik ułamków zawiera skumulowan(cid:6) liczb(cid:3) pozytywnych odpowiedzi: M(1)=m(1), M(j)=M(j-1)+m(j) dla j=2,...,10. % Response jest liczone jako udział (wyra(cid:2)ony w procentach) odpowiedzi pozytywnych w danej grupie decylowej i w grupach decylowych wcze(cid:4)niejszych. Licznik ułamka wynosi M(j), a mianownik wynosi j(cid:9)n (patrz kolumna % Response). Np. 1 decyl - 50/100=50% , 2 decyl - (50+40)/(2*100) =90/200=45%. % Captured Response – stosunek pozytywnych odpowiedzi znajduj(cid:6)cych si(cid:3) w danej grupie decylowej i w grupach decylowych poprzednich do wszystkich pozytywnych odpowiedzi. Licznik ułamka wynosi M(j), a mianownik jest stały i wynosi K (patrz kolumna % Captured Response). Np. 1 decyl - 50/200=25% , 2 decyl - (50+40)/200 =45%. Lift Value - jest to stosunek pozytywnych odpowiedzi w danej grupie decylowej i w grupach decylowych poprzednich do przewidywanej liczby pozytywnych odpowiedzi w tych grupach decylowych (gdyby pozytywne odpowiedzi rozkładały si(cid:3) po równo w grupach decylowych). Licznik ułamka wynosi M(j), a mianownik wynosi j(cid:9)n (patrz kolumna Lift Value). Np. 1 decyl - 50/20=2,50, 2 decyl - (50+40)/(2*20) =90/40=2,25. W naszym przykładzie otrzymali(cid:4)my lini(cid:3) bazow(cid:6) (baseline curve), gdy wszystkie m(j)=k=20. POLSKIE STOWARZYSZENIE ZARZ(cid:1)DZANIA WIEDZ(cid:1) 87 Seria: Studia i Materiały, nr 22, 2009 regresji logistycznej i sieci neuronowych, a najgorzej dopasowanym do danych okazał si(cid:5) model drzew decyzyjnych Tree. Tabela 1. Obliczenia wykonywane dla zbudowania wykresu wzrostu (lift chart) Nieskumulowane Skumulowane Grupa Odpowiedzi %Cap- Odpowiedzi % %Cap- decy- % Lift Lift pozytywne tured pozytywne Re- tured lowa Response Value Value w decylu Response w decylu sponse Response 1 50 50,0% 25,0% 2,50 50 50,0% 25,0% 2,50 2 40 40,0% 20,0% 2,00 90 45,0% 45,0% 2,25 3 30 30,0% 15,0% 1,50 120 40,0% 60,0% 2,00 4 20 20,0% 10,0% 1,00 140 35,0% 70,0% 1,75 5 15 15,0% 7,5% 0,75 155 31,0% 77,5% 1,55 6 20 20,0% 10,0% 1,00 175 29,2% 87,5% 1,46 7 5 5,0% 2,5% 0,25 180 25,7% 90,0% 1,29 8 5 5,0% 2,5% 0,25 185 23,1% 92,5% 1,16 9 12 12,0% 6,0% 0,60 197 21,9% 98,5% 1,09 10 3 3,0% 1,5% 0,15 200 20,0% 100,0% 1,00 (cid:13)ródło: Opracowanie własne. (a) (b) Rys. 2. Wykresy oceny opracowywanych modeli (cid:13)ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner. 8. Modele regresji Regresja logistyczna umo(cid:2)liwia oszacowanie prawdopodobie(cid:3)stw, z jakimi dany obiekt nale(cid:2)y do grup okre(cid:9)lonych przez kategorie jako(cid:9)ciowej zmiennej obja(cid:9)nianej. Generowana jest funkcja 88 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… nieliniowa, której warto(cid:9)ci s(cid:4) interpretowane jako prawdopodobie(cid:3)stwa lub warunkowe warto(cid:9)ci oczekiwane zmiennej zale(cid:2)nej. Do oszacowania parametrów funkcji logistycznej wykorzystywana jest Metoda Najwi(cid:5)kszej Wiarygodno(cid:9)ci. Jest to technika iteracyjna. Je(cid:2)eli stosujemy dobór zmiennych obja(cid:9)niaj(cid:4)cych do modelu, to podczas realizacji procedury badane s(cid:4) własno(cid:9)ci statystyczne modelu i sprawdza si(cid:5), czy dodanie lub usuni(cid:5)cie zmiennej istotnie polepszyło model. Je(cid:2)eli nie ma istotnej zmiany, to procedura zostaje zako(cid:3)czona. W programie Enterprise Miner dost(cid:5)pne s(cid:4) nast(cid:5)puj(cid:4)ce metody doboru zmiennych obja(cid:9)niaj(cid:4)cych do modelu: (1) krokowa (stepwise) – zmienne obja(cid:9)niaj(cid:4)ce s(cid:4) kolejno wprowadzane do modelu, zaczynaj(cid:4)c od modelu bazowego (bez zmiennych obja(cid:9)niaj(cid:4)cych); dodawane s(cid:4) zmienne, które s(cid:4) znacz(cid:4)co powi(cid:4)zane ze zmienn(cid:4) obja(cid:9)nian(cid:4). Wprowadzona do modelu zmienna mo(cid:2)e zosta(cid:12) usuni(cid:5)ta, je(cid:2)eli polepszy to warto(cid:9)(cid:12) przyj(cid:5)tej miary jako(cid:9)ci modelu. W tej metodzie zmienne wprowadzane we wcze(cid:9)niejszym etapie mog(cid:4) zosta(cid:12) usuni(cid:5)te pó(cid:11)niej, je(cid:2)eli oka(cid:2)e si(cid:5), (cid:2)e b(cid:5)d(cid:4)c w(cid:9)ród zmiennych w modelu nie przyczyniaj(cid:4) si(cid:5) do jego polepszenia. (2) w przód (forward) – zmienne obja(cid:9)niaj(cid:4)ce s(cid:4) kolejno wprowadzane do modelu. Najpierw rozpatruje si(cid:5) model bez zmiennych obja(cid:9)niaj(cid:4)cych. Potem dodaje si(cid:5) zmienn(cid:4) najsilniej skorelowan(cid:4) ze zmienn(cid:4) obja(cid:9)nian(cid:4). Potem dodaje si(cid:5) kolejn(cid:4) zmienn(cid:4), która polepsza model a(cid:2) osi(cid:4)gnie si(cid:5) najlepsz(cid:4) jako(cid:9)(cid:12) modelu. Zmienne wprowadzone do modelu nie s(cid:4) usuwane; (3) w tył (backward) – najpierw jest rozwa(cid:2)any model ze wszystkimi zmiennymi obja(cid:9)niaj(cid:4)cymi, a nast(cid:5)pnie kolejno s(cid:4) usuwane zmienne, które nie wywieraj(cid:4) znacz(cid:4)cego wpływu na zmienn(cid:4) obja(cid:9)nian(cid:4). Post(cid:5)powanie kontynuuje si(cid:5) do momentu, gdy usuni(cid:5)cie kolejnej zbadanej zmiennej nie daje znacz(cid:4)cej poprawy. Zmienne usuni(cid:5)te nie s(cid:4) ju(cid:2) wprowadzane do modelu. Wyniki estymacji modelu mo(cid:2)na przedstawi(cid:12) w postaci graficznej. Rys. 3. Wyniki z modelu regresji krokowej (cid:13)ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner. Oznaczenia: ksdao – kapitał stały do aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, of – obci(cid:4)(cid:2)enia finansowe, nidao – nakłady inwestycyjne do aktywów ogółem, kwdat – kapitał własny do aktywów (maj(cid:4)tku) trwałych, nfdao – nadwy(cid:2)ka finansowa do aktywów ogółem, uzpcuzk – udział zobowi(cid:4)za(cid:3) z tytułu podatków, ceł, ubezpiecze(cid:3) w zobowi(cid:4)zaniach, ukfwkup – udział kosztów finansowych w kosztach uzyskania przychodów, wu POLSKIE STOWARZYSZENIE ZARZ(cid:1)DZANIA WIEDZ(cid:1) 89 Seria: Studia i Materiały, nr 22, 2009 – wska(cid:11)nik unieruchomienia, wndodao – wynik na działalno(cid:9)ci operacyjnej do aktywów ogółem, uu – zmienna obja(cid:9)niana: przedsi(cid:5)biorstwo z orzeczeniem upadło(cid:9)ci lub z post(cid:5)powaniem układowym Przyjrzyjmy si(cid:5) wynikom uzyskanym w przypadku poszczególnych modeli regresji. Rozpatrzmy przykładowo wykresy dla regresji krokowej (rys 3). Pierwszy wykres (w lewej cz(cid:5)(cid:9)ci) przedstawia zmienne obja(cid:9)niaj(cid:4)ce wyst(cid:5)puj(cid:4)ce w oszacowanym modelu, uporz(cid:4)dkowane malej(cid:4)co według warto(cid:9)ci bezwzgl(cid:5)dnych współczynników t-Studenta (Effect T-scores). Warto(cid:9)ci ujemne s(cid:4) zaznaczone słupkami – jasnym kolorem, warto(cid:9)ci dodatnie – ciemnym. Legenda umieszczona w dolnej cz(cid:5)(cid:9)ci wykresów pozwala na prawidłow(cid:4) interpretacj(cid:5) warto(cid:9)ci wska(cid:11)nika Effect T- scores dla ka(cid:2)dego ze słupków na wykresach. Współczynnik t-Studenta jest ilorazem oszacowania parametru stoj(cid:4)cego przy zmiennej modelu i jego bł(cid:5)du szacunku. Warto(cid:9)(cid:12) bezwzgl(cid:5)dna tego wska(cid:11)nika informuje o istotno(cid:9)ci zmiennej w oszacowanym modelu. Zmienne na wykresach s(cid:4) uporz(cid:4)dkowane malej(cid:4)co według warto(cid:9)ci bezwzgl(cid:5)dnej wska(cid:11)nika. Na rysunku 3 – w prawej cz(cid:5)(cid:9)ci, przedstawiono wyniki w postaci wykresu, przedstawiaj(cid:4)cego zale(cid:2)no(cid:9)(cid:12) mi(cid:5)dzy warto(cid:9)ciami przewidywanymi (into) a obserwowanymi (from) warto(cid:9)ciami zmiennej obja(cid:9)nianej. Wykres jest graficzn(cid:4) ilustracj(cid:4) tablicy klasyfikacji krzy(cid:2)owej. Słupki na głównej przek(cid:4)tnej dotycz(cid:4) przedsi(cid:5)biorstw, dla których model poprawnie przewiduje warto(cid:9)(cid:12) zmiennej obja(cid:9)nianej. Je(cid:2)eli model jest dobry, to powinna istnie(cid:12) zgodno(cid:9)(cid:12) warto(cid:9)ci przewidywanych (oczekiwanych) z warto(cid:9)ciami obserwowanymi: słupki na wykresie na przeci(cid:5)ciu tych samych warto(cid:9)ci into i from powinny by(cid:12) najwy(cid:2)sze. Tak jest w naszym przypadku, co wskazuje, (cid:2)e model dobrze nadaje si(cid:5) do identyfikacji przedsi(cid:5)biorstw z orzeczon(cid:4) upadło(cid:9)ci(cid:4) lub post(cid:5)powaniem układowym. Zmienne o najwi(cid:5)kszej istotno(cid:9)ci w przypadku modelu regresji w przód oraz w tył zamieszczono w przypisie.7 W przypadku tych modeli, podobnie jak regresji krokowej, tak(cid:2)e istnieje zgodno(cid:9)(cid:12) warto(cid:9)ci przewidywanych z warto(cid:9)ciami obserwowanymi, co mogli(cid:9)my stwierdzi(cid:12) analizuj(cid:4)c wykres ilustracji tablicy klasyfikacji krzy(cid:2)owej. 9. Drzewa decyzyjne Drzewa decyzyjne stanowi(cid:4) graficzn(cid:4) reprezentacj(cid:5) algorytmu rekurencyjnego podziału, który polega na hierarchicznym podziale wielowymiarowej przestrzeni cech (w której znajduje si(cid:5) zbiór obiektów) na rozł(cid:4)czne podzbiory a(cid:2) do osi(cid:4)gni(cid:5)cia ich jednorodno(cid:9)ci ze wzgl(cid:5)du na wyró(cid:2)nion(cid:4) cech(cid:5) – zmienn(cid:4) obja(cid:9)nian(cid:4). W praktyce proces podziału jest cz(cid:5)sto zatrzymywany wcze(cid:9)niej, aby unikn(cid:4)(cid:12) tworzenia podzbiorów o bardzo małej liczbie elementów. Warunkiem zatrzymania procesu podziału, mo(cid:2)e by(cid:12) maksymalna warto(cid:9)(cid:12) okre(cid:9)laj(cid:4)ca liczb(cid:5) poziomów drzewa (oznacza to 7 Zmienne obja(cid:4)niaj(cid:6)ce o najwi(cid:3)kszej istotno(cid:4)ci w przypadku modelu regresji w przód: nidao – nakłady inwestycyjne do aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, ksdao – kapitał stały do aktywów ogółem, of – obci(cid:6)(cid:2)enia finansowe, uzpcuzk – udział zobowi(cid:6)za(cid:7) z tytułu podatków, ceł, ubezpiecze(cid:7) w zobowi(cid:6)zaniach, nfdao – nadwy(cid:2)ka finansowa do aktywów ogółem, kwdat – kapitał własny do aktywów (maj(cid:6)tku) trwałych, ukfwkup – udział kosztów finansowych w kosztach uzyskania przychodów, wu – wska(cid:8)nik unieruchomienia, wndodao – wynik na działalno(cid:4)ci operacyjnej do aktywów ogółem, uzwamo – udział zapasów w aktywach (maj(cid:6)tku) obrotowych. Zmienne obja(cid:4)niaj(cid:6)ce o najwi(cid:3)kszej istotno(cid:4)ci w przypadku modelu regresji w tył: nfdao – nadwy(cid:2)ka finansowa do aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, of – obci(cid:6)(cid:2)enia finansowe, ksdao – kapitał stały do aktywów ogółem, nidao – nakłady inwestycyjne do aktywów ogółem, uzpcuzk – udział zobowi(cid:6)za(cid:7) z tytułu podatków, ceł, ubezpiecze(cid:7) w zobowi(cid:6)zaniach, kwdat – kapitał własny do aktywów (maj(cid:6)tku) trwałych, kfdpo – koszty finansowe do przychodów ogółem, zynszs – zys/strata ze sprzeda(cid:2)y, amortyzacja, korpoz – korekty o pozycje. 90 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… osi(cid:4)gni(cid:5)cie maksymalnej „gł(cid:5)boko(cid:9)ci drzewa”) lub osi(cid:4)gni(cid:5)cie minimalnej liczebno(cid:9)ci w w(cid:5)złach podlegaj(cid:4)cych podziałowi. Drzewa s(cid:4) grafami spójnymi, nie zawieraj(cid:4)cymi cykli. Drzewa decy- zyjne umo(cid:2)liwiaj(cid:4) przedstawianie procesu podziału zbioru obiektów na jednorodne klasy, charak- teryzowane okre(cid:9)lonymi warto(cid:9)ciami atrybutów. Wewn(cid:5)trzne wierzchołki okre(cid:9)laj(cid:4) sposób dokonywania podziału w oparciu o warto(cid:9)ci cech obiektów. Wierzchołki ko(cid:3)cowe, z których nie wychodz(cid:4) (cid:2)adne kraw(cid:5)dzie, nazywane s(cid:4) li(cid:9)(cid:12)mi drzewa. Kraw(cid:5)dzie drzewa wskazuj(cid:4) warto(cid:9)ci cech, na podstawie których dokonywany jest podział. Na podstawie drzewa klasyfikacyjnego mo(cid:2)emy odczyta(cid:12) reguły przynale(cid:2)no(cid:9)ci obiektów do poszczególnych klas. Istniej(cid:4) ró(cid:2)ne algoryt- my generowania drzew klasyfikacyjnych: Chaid, Exhaustive Chaid, C&RT, Quest. Algorytmy ró(cid:2)ni(cid:4) si(cid:5) sposobem wyboru cech, w oparciu o które nast(cid:5)puje podział zbioru obiektów, kryterium zako(cid:3)czenia podziału powstaj(cid:4)cego podzbioru obiektów, sposobem przydzielania obiektów znajduj(cid:4)cych si(cid:5) w li(cid:9)ciu drzewa do okre(cid:9)lonej klasy, postaci(cid:4) funkcji oceniaj(cid:4)cej jako(cid:9)(cid:12) podziału, sposobem klasyfikacji obiektów o brakuj(cid:4)cych warto(cid:9)ciach cech, charakterem rozpatrywanych zmiennych (cech obiektów): nominalne, porz(cid:4)dkowe, ci(cid:4)głe. Tworzone s(cid:4) drzewa klasyfikacyjne lub regresyjne. Algorytmy klasyfikacyjne pozwalaj(cid:4) na podstawie zbioru ucz(cid:4)cego znale(cid:11)(cid:12) charakterystyki podzbiorów obiektów, tak aby w oparciu o uzyskane wyniki podziału mo(cid:2)na było dokona(cid:12) klasyfikacji obiektów, których przynale(cid:2)no(cid:9)(cid:12) do klas nie jest znana. W algorytmach regresyjnych celem jest znalezienie zwi(cid:4)zku opisuj(cid:4)cego wpływ jednej lub wybranej liczby cech na wskazan(cid:4) cech(cid:5) ilo(cid:9)ciow(cid:4). Zalety drzew decyzyjnych w stosunku do metod takich jak analiza dyskryminacyjna, czy analiza regresji s(cid:4) nast(cid:5)puj(cid:4)ce: (i) unika si(cid:5) konieczno(cid:9)ci weryfikowania zało(cid:2)e(cid:3) dotycz(cid:4)cych rozkładów zmiennych obja(cid:9)niaj(cid:4)cych, (ii) w modelu mog(cid:4) wyst(cid:5)powa(cid:12) jednocze(cid:9)nie zmienne jako(cid:9)ciowe i ilo(cid:9)ciowe, (iii) metody s(cid:4) mało wra(cid:2)liwe na wyst(cid:5)powanie warto(cid:9)ci odstaj(cid:4)cych (outliers) dla zmiennych obja(cid:9)niaj(cid:4)cych, (iv) wykazuj(cid:4) tolerancj(cid:5) na poja- wianie si(cid:5) brakuj(cid:4)cych warto(cid:9)ci obserwowanych zmiennych, (v) dobór zmiennych obja(cid:9)niaj(cid:4)cych jest dokonywany automatycznie podczas działania algorytmu. Problemy czasem stwarza du(cid:2)a zło(cid:2)ono(cid:9)(cid:12) drzewa, a tak(cid:2)e mo(cid:2)liwo(cid:9)(cid:12) ró(cid:2)nej interpretacji uzyskanych wyników. Nie ma tak(cid:2)e (cid:2)adnych wskazówek dotycz(cid:4)cych wyboru optymalnego modelu. Ustalenia takie jak chocia(cid:2)by wybór metody generowania drzewa, liczby poziomów drzewa, reguł zatrzymania procedury generuj(cid:4)cej drzewo s(cid:4) podejmowane dosy(cid:12) arbitralnie. Przydatne jest przeprowadzanie wielu ró(cid:2)nych eksperymentów przy zastosowaniu ró(cid:2)nych modeli i zało(cid:2)e(cid:3). W przypadku jako(cid:9)ciowej zmiennej obja(cid:9)nianej ka(cid:2)dy w(cid:5)zeł drzewa programu Enterprise Miner zawiera domy(cid:9)lnie informa- cje: w pierwszej kolumnie warto(cid:9)ci zmiennej obja(cid:9)nianej (1 lub 0) i nagłówek dla ostatniego wiersza (Total), w drugiej kolumnie dla danych ze zbioru danych treningowych - w dwóch pierwszych wierszach udział procentowy liczby obserwacji (firm) dla ka(cid:2)dej warto(cid:9)ci zmiennej, w dwóch nast(cid:5)pnych wierszach: liczby obserwacji (firm) dla ka(cid:2)dej warto(cid:9)ci zmiennej, w ostatnim wierszu ł(cid:4)czn(cid:4) liczb(cid:5) obserwacji (firm), w trzeciej kolumnie te same dane co w drugiej, ale dla danych ze zbioru danych walidacyjnych. Drzewo uzyskane w wyniku badania zbioru danych grupy „gazel” oraz grupy przedsi(cid:5)biorstw z orzeczeniem upadło(cid:9)ci lub post(cid:5)powaniem układowym przedstawiono na rysunku 4. Wyniki przedstawiono w postaci tradycyjnej drzewa decyzyjnego, cho(cid:12) Enterprise Miner pozwala prze- prowadzi(cid:12) znacznie bogatsz(cid:4) analiz(cid:5) wyników i ró(cid:2)ne postacie wykresów ilustruj(cid:4)cych drzewa decyzyjne, np. w postaci pier(cid:9)cienia. Rysunek drzewa wskazuje, (cid:2)e o podziale na firmy upadłe i z post(cid:5)powaniem układowym oraz „gazele” najsilniejszy wpływ ma zmienna zysk/strata brutto na działalno(cid:9)ci operacyjnej. Pozostałe zmienne decyduj(cid:4)ce o podziale, to wynik netto do aktywów
Description: